当前位置: 首页 > 癌症基因组 > 正文

癌症基因组学研究全程回顾(2)

在上一篇文章中首先描述了癌症生物学的一些基本特征,本文进一步讲述有关基因组突变、镶嵌性和基因融合相关的研究内容。

基因组突变

所有的肿瘤在其发展的过程中都会不断积累体细胞突变(somatic mutations)。大多数常见的肿瘤与不同的癌基因相关联,这些癌基因以低频率发生突变。从大型癌症数据库中观察到的一个最令人惊讶的现象是癌症间甚至各个癌症类型内的显著遗传异质性。然而,似乎只有有限的细胞通路对肿瘤的细胞生物学很重要。目前很多人正在编辑收录各种癌症类型的体细胞突变综合列表,这对于更好地了解这种疾病背后的机制将有很大的指引作用。

研究参考

 Nik-Zainal S., Alexandrov L. B., Wedge D. C., Van Loo P., Greenman C. D., et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149: 979-993

这篇文章中研究了21个乳腺癌基因组,并给出了它的一个体细胞突变列表。发现带BRCA1或者BRCA2突变的癌症会有一种特别的替换突变特征和与众不同的缺失图谱。文章中还描述了一种局部的超突变现象,这称为『kataegis』(kataegis,希腊语中『雷雨』的意思,文中指的是在一个小区域中出现大量突变的机制,如下图)。并且这些区域中的碱基替换几乎都发生在TpC二核苷酸的胞嘧啶上!

这是Kataegis图像。纵轴是突变间距(对数刻度)。这个图中基因组内大部分的突变都有着$$~10^5bp$$至$$~10^6bp$$的突变距离。其中超突变区即是表现为突变间距较低的簇。

Govindan R., Ding L., Griffith M., Subramanian J., Dees N. D., et al. Genomic landscape of non-small cell lung cancer in smokers and never-smokers. Cell 150: 1121-1134

这是另一篇文章,主要是对17个非小细胞肺癌(NSCLC)患者的肺癌及癌旁正常组织样本进行了全基因组和转录组测序。值得注意的是吸烟者中所观察到的突变频率比不吸烟者高10倍!这是通过深度测序揭示出的这些群体间所不同的克隆模式。而且其中所有经过验证的EGFR和KRAS突变都存在于原始克隆中,这其实也就表明了它们在癌症启动中可能发挥非常重要的作用。

镶嵌性

对于这个现象我们也同样通过实际的研究来说明。AML(急性髓细胞白血病)基因组中发现的大多数突变实际上是随机事件,在造血干细胞/祖细胞(HSPC)获得原始突变之前就存在了;但是随着克隆的扩增,细胞的突变历史被『捕获』了。如何理解这里的『捕获』?其实说的就是,原本那些突变都没什么鸟用,就摆在那无所事事,但是,在许多情况下,偏偏只需要再来一个或者两个额外的突变来协助就能共同作用,最后产生恶性的原始肿瘤克隆!

原发肿瘤和转移的镶嵌性。非同义点突变和插入缺失(绿色块)的区域分布的假设热图。行代表来自七个原发肿瘤区域和六个转移区域的样品。

研究参考

Abyzov A., Mariani J., Palejev D., Zhang Y., Haney M. S., et al. Somatic copy number mosaicism in human skin revealed by induced pluripotent stem cells. Nature 492: 438-442

这里作者发现了一个现象:平均而言,iPSC细胞系表现出2个拷贝数变异(CNV),而这些CNV在iPSC来源的成纤维细胞中不明显。他们发现,至少50%的CNV以低频体细胞变异存在于亲本的成纤维细胞中。根据这一观察,他们估计大约30%的成纤维细胞的基因组中携带体细胞CNV,这表明体细胞镶嵌性广泛存在于人体中。

基因融合

基因融合是非常普遍的,也是癌症的一个重要特征。现在的研究发现,一个强启动子与一个下游功能基因(比如:原癌基因)的融合在某些癌症中很普遍。据估计,半数的前列腺癌含有TMPRSS2和ETS转录因子家族成员之间的融合。基因融合是由两个原本分开的基因或位点融合形成的。他们可能形成一种基因产物,很多时候表现出来的功能都是全新的,与两个融合的基因个体都不同。这种阴差阳错的情况可能引起致癌机制的激活,就像费城染色体阳性急性淋巴细胞白血病一样。这种基因融合导致BCR-ABL酪氨酸激酶表达,从而激活细胞增殖。有几种机制会导致基因融合的发生,这个现象是一些癌症类型的特点。胰腺癌的特点便是染色体重排的频繁断裂-融合-桥循环。目前有几种方法可以通过测序研究融合事件,如对肿瘤的全基因组测序和mRNA-Seq。

mRNA-Seq与全基因组测序组合的方法对于发现基因融合及其机制特别高效。原因就是mRNA-Seq可以提供直接的证据,来支持观察到的融合是否发生,并同时为融合基因是否表达提供了证据。而全基因组测序可以发现那些mRNA-Seq所发现不了的区域的信息,如基因间区和UTR。

由折回倒位所引起的融合事件可捕获基因组中遥远区域的片段,如着丝粒重复或参与体细胞重排的区域。在这个例子中,6号染色体上的片段被插入到19号染色体上的重复区域之间。注意19号染色体的第二个拷贝是倒置的,这是折回倒位的特点。

MED1(红色)与几个伙伴基因(蓝色):ACSF2,USP32STXBP4形成基因融合。

实验上的设计参考

以Pair-end进行全基因组测序是目前检测基因融合最准确、最全面的工具,这些融合包括重复、倒位、通读和单碱基插入缺失。可以说Pair-end是检测融合基因成功与否的一个关键因素。

另外就是高深度测序结合更长的读长可以分辨融合连接中微同源的单碱基。而且这种能力是测序独有的。

研究参考

Robinson D. R., Wu Y. M., Kalyana-Sundaram S., Cao X., Lonigro R. J., et al. Identification of recurrent NAB2-STAT6 gene fusions in solitary fibrous tumor by integrative sequencing. Nat Genet 45: 180-185

文章主要是利用了全外显子组和转录组测序发现了转录抑制因子NAB2与转录激活因子STAT6的基因融合现象。其中27个独立性纤维性肿瘤(SFT)的转录组测序发现所有肿瘤中存在NAB2-STAT6基因融合。NAB2-STAT6基因融合的过表达诱导了培养细胞的增殖,并激活了EGR应答基因的表达,最后导致了肿瘤。

Seshagiri S., Stawiski E. W., Durinck S., Modrusan Z., Storm E. E., et al. Recurrent R- spondin fusions in colon cancer. Nature 488: 660-664

这一篇文章则主要分析了70个原发性人结肠癌的外显子组、转录组和拷贝数变异。拷贝数和RNA-Seq的数据分析确定了在一部分结直肠癌中存在IGF2的扩增和相应过表达。他们还利用RNA-Seq,在10%的结直肠癌中发现了与R-脊椎蛋白家族成员(RSPO2和RSPO3)相关的基因融合。这项研究表明了综合多项技术去了解复杂的癌症基因组很重要。

Thompson-Wicking K., Francis R. W., Stirnweiss A., Ferrari E., Welch M. D., et al. Novel BRD4-NUT fusion isoforms increase the pathogenic complexity in NUT midline carcinoma. Oncogene

这篇文章则提到了PER-624中一种新的BRD4-NUT融合竟然编码了一种功能蛋白,并且它对这些细胞的致癌机制很关键。BRD4-NUT融合转录本是通过易位后的RNA剪接而产生的,这似乎是这些癌症的一个共同特征。这种有助于融合基因的替代异构体表达的机制是第一次报道。

Wen H., Li Y., Malek S. N., Kim Y. C., Xu J., et al. New fusion transcripts identified in normal karyotype acute myeloid leukemia. PLoS ONE 7: e51203

在这项研究中,作者运用双端RNA-Seq来发现染色体核型中的融合,它们经传统的细胞遗传学分析未检测到异常。他们发现了临近基因间的融合转录本以及7个只存在于正常核型中的融合本。

染色体碎裂

这是一个不希望发生的现象,染色体碎裂是一个一次性的细胞危机,在单次事件中发生数十次至数百次基因组重排。这种灾难性事件的后果是复杂的局部重排和拷贝数变异,其中染色体上2个(偶尔3个)拷贝的有限范围可被检测。这种单次灾难性事件的模式不同于癌症发展的逐步积累突变的典型模式。在突变积累的癌症发展模式中,拷贝数无上限,因此通常有一个较大的范围。据估计,在所有癌症及其不同亚型之间,染色体碎裂的发生概率约2-3%,而在骨癌中发生概率则大约25%。

染色体碎裂的图示

研究参考

Rausch T., Jones D. T., Zapatka M., Stutz A. M., Zichner T., et al. Genome Sequencing of Pediatric Medulloblastoma Links Catastrophic DNA Rearrangements with TP53 Mutations. Cell 148: 59-71

文章提到一名Sonic-Hedgehong髓母细胞瘤(SHH-MB)患者的大量、复杂的染色体重排,此患者带有生殖细胞系TP53突变(Li-Fraumeni综合征)。同时规模扩大到11名Li-Fraumeni综合征患者的筛查,发现有36%的肿瘤表现出与染色体碎裂一致的重排。这比一般肿瘤群体所观察到的2%染色体碎裂发生率要高得多。P53的生殖细胞系突变与一些肿瘤中凋亡中止导致染色体碎裂的假说是一致的。

拷贝数变异(CNV)

结构性变异影响基因量——可转录基因的功能拷贝数。肿瘤发展、药物反应及耐药性的发生通常是由基本的基因扩增和删除来驱动的。这些基因组上的改变可分成大的畸变和小的畸变。大的畸变包括整个染色体或部分染色体的丢失、重复,这被称为非整倍体。小的畸变可能只包含一个碱基,比如点突变与小片段的插入缺失(也即Indel)。原本在基因表达上的改变会受到转录因子的严格调控,然而与健康的基因组不同,癌症基因组却能够通过基因的重复和删除来适应和逃避这种调控。癌症耐药性的发生正是由此反应的速度和效率的绝佳证明。

基因表达

基因表达分析能够测定基因转录、RNA加工和表观遗传控制的产物。因此,基因表达分析不仅可以总览这些过程的『健康』程度,也可以深入研究细胞里面的分子机制。基于芯片的mRNA分析在癌症的基因表达研究中广泛使用,但基于测序的mRNA分析(mRNA-Seq)的出现代表我们测定和解析基因表达产物能力的又一次飞跃。mRNA-Seq可检测修饰过的RNA和表达水平极低的RNA的能力让它特别适合癌症研究。基于mRNA-Seq的方法也可检测非常快的转录变化、剪接异构体、融合基因以及可变聚腺苷酸化位点。

Feng H., Qin Z. and Zhang X. Opportunities and methods for studying alternative splicing in cancer with RNA-Seq. Cancer Lett

这篇文章综述了RNA-Seq在研究癌症相关的可变剪切中的应用。文中包含一个生物信息学工具列表,以及有关估计可变剪切异构体的表达水平的详尽讨论。

这是利用RNA-Seq研究癌症中的基因表达和选择性剪接的典型生物信息学流程。首先,将短read定位到参考基因组或转录组。在定位之后,估算注释基因和转录本的表达与剪接。

van Delft J., Gaj S., Lienhard M., Albrecht M. W., Kirpiy A., et al. RNA-Seq provides new insights in the transcriptome responses induced by the carcinogen benzo[a]pyrene. Toxicol Sci 130: 427-439

在引用的这篇文章中作者发现,RNA-Seq所检测到的基因比芯片技术多约20%,而表达差异明显的基因有接近三倍之多。因此,他们能检测到受影响的通路和生物学机制比芯片技术多2-5倍。作者还在许多基因中发现了可变异构体的表达,包括细胞死亡和DNA修复的调控因子,如TP53、BCL2和XPA,它们与基因毒性反应相关。他们还发现了许多功能未知的新亚型,如已知转录本的片段、带有额外外显子的转录本、内含子保留或外显子跳跃事件。

Kaur H., Mao S., Li Q., Sameni M., Krawetz S. A., et al. (2012) RNA-Seq of human breast ductal carcinoma in situ models reveals aldehyde dehydrogenase isoform 5A1 as a novel potential target. PLoS ONE 7: e50249

这里作者将三个DCIS模型(MCF10.DCIS、SUM102和SUM225)的表达与三维(3D)覆盖培养的非致癌乳腺上皮细胞的MCF10A模型进行了比较,确定了DCIS模型共用的表达变化。他们发现,差异表达的基因编码了与多个信号通路相关的蛋白。

Meyer J. A., Wang J., Hogan L. E., Yang J. J., Dandekar S., et al. Relapse-specific mutations in NT5C2 in childhood acute lymphoblastic leukemia. Nat Genet 45: 290-294

作者利用RNA测序,报道了诊断和复发相配对的骨髓标本的转录本图谱,这些标本来自十名患有小儿B淋巴细胞白血病的个体。转录组测序鉴定出20个新获得的突变,它们不存在于最初的诊断中,而2名个体带有复发特异的突变。带有NT52C2突变的所有个体都在初步诊断后36个月内复发。

实验设计上的注意事项

RNA-Seq已成为一种研究肿瘤分子变化的常规应用。同时去除rRNA可提高信噪比,实现低表达转录本的检测。

癌症中的体细胞突变基本上都是 de novo突变。因而测序时不需要关于突变的先验知识,便可准确定位突变以及得到的转录本丰度。

肿瘤中通常包含各种细胞。mRNA-Seq的可延伸检测范围和准确性对于检测微小的表达变化非常宝贵。只要肿瘤转录本中包含了独特的体细胞突变或剪接变异体,那么就可将它与正常的细胞区分开来。

NGS Pair-End测序检测基因融合的灵敏度取决于许多因素,包括表达水平、转录本长度、所使用的样品制备方法以及cDNA文库的片段长度。

大部分实验方案采用poly(A)富集的RNA制备方法来测定mRNA水平。然而,非编码RNA,如miRNA,也在细胞的生物学中发挥重要作用,并常常介导对肿瘤生长和存活很关键的过程。非编码RNA可通过现有的poly(A)-(rRNA去除)实验方案轻松分析。

RNA的表达是组织和细胞类型特异的。在选择肿瘤-正常对照中的对照时,应考虑这一点。

选择性剪接

癌症的生物起源、发展、转移与转录组中的许多变异相关联。癌症特异的选择性剪接是个普遍存在的现象,也是个主要的转录后调控机制,涉及到许多癌症类型。

Seo J. S., Ju Y. S., Lee W. C., Shin J. Y., Lee J. K., et al. The transcriptional landscape and mutational profile of lung adenocarcinoma. Genome Res 22: 2109-2119

这篇文章中作者分析了韩国200个肺腺癌。他们在LMTK2、ARID1A、NOTCH2SMARCA4中发现了新的驱动突变。他们还发现了45个融合基因,其中8个是嵌合的络氨酸激酶。在17个反复发生的选择性剪接事件中,原癌基因MET中的第14号外显子跳过可能是癌症驱动因素。这项研究表明了这种癌症的复杂性以及运用几种技术的价值。

Liu J., Lee W., Jiang Z., Chen Z., Jhunjhunwala S., et al.  Genome and transcriptome sequencing of lung cancers reveal diverse mutational and splicing events. Genome Res 22: 2315- 2327

本文作者对19个肺癌细胞系和3组肺部肿瘤/正常样本配对开展了全基因组测序和转录组测序。他们鉴定出106个与癌症特异性的异常剪接相关的剪接位点突变,包括一些已知的癌症相关基因中的突变。RAC1bRAC1 GTP酶的一个异构体,含有一个额外的外显子,被认为在肺癌中优先上调,并对MAP2K(MEK)抑制剂PD-0325901敏感。

Thompson-Wicking K., Francis R. W., Stirnweiss A., Ferrari E., Welch M. D., et al. Novel BRD4-NUT fusion isoforms increase the pathogenic complexity in NUT midline carcinoma. Oncogene

这篇文章发现了PER-624中一种新的BRD4-NUT基因融合编码了一种功能蛋白,它对这些细胞的致癌机制很关键。BRD4-NUT融合转录本是通过易位后的RNA剪接而产生的,这似乎是这些癌症的一个共同特征。这种现象以及促进融合基因的可变异构体表达的机制,过去一直未被发现。

​在下一篇文章中,将会进一步讲述有关RNA和表观遗传方面与癌症相关的研究内容。

参考来源

Illumina cancer research

本文固定链接: http://blog.fungenomics.com/2017/01/cancer_genomics_review_2.html | Genomics for fun

该日志由 解螺旋的矿工 于2017年01月20日发表在 癌症基因组 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
原创文章转载请注明: 癌症基因组学研究全程回顾(2) | Genomics for fun
关键字: ,

癌症基因组学研究全程回顾(2):等您坐沙发呢!

发表评论

快捷键:Ctrl+Enter