日期: 2017年12月01日
导读:多年来,PubMed网站给其检索的论文添加标签,将描述基因功能的信息(GeneRIF)包括到论文信息中。借用这些标签,Kerpedjiev搜集了包含基因(及其编码蛋白)结构、功能或位置信息的论文加以分析。他从这些数据中发掘出迄今被研究最多的对象,也即人类以及其他一些物种中“最热门”的基因榜单。下面,赛业小编为您推荐“最受研究者欢迎的10 大人类基因”,详情如下:
三年前,Peter Kerpedjiev还是个正在研读软件工程学位的博士生,有一些生物信息学的基础,但为了工作需要,他想要速成学习一点遗传学:“如果我想在讨论遗传学时言之有物,我需要了解哪些基因?”于是他去美国国立医学图书馆(NLM)挖掘数据。多年以来,NLM旗下收录生物医学信息的网站PubMed给其检索的论文添加标签,将描述基因功能的信息(GeneRIF)包括到论文信息中。借用这些标签,Kerpedjiev搜集了包含基因(及其编码蛋白)结构、功能或位置信息的论文加以分析。他从这些数据中发掘出迄今被研究最多的对象,也即人类以及其他一些物种中“最热门”的基因榜单。
占据“最热门基因”榜首的,是名为TP53的基因。在Kerpedjiev刚开始这个项目时,大约有6600篇关于TP53基因及其蛋白质p53的论文,而到了三年后的现在,论文数目已达8500篇,也即是说,这几年来大约每天会有两篇关于TP53的新论文面世。而TP53及其蛋白p53对于生物医学研究者来说是如雷贯耳的名字,它是个抑癌基因,广为人知的别名是“基因组守护者”。在大约一半的人类癌症中都存在TP53突变。约翰·霍普金斯大学(Johns Hopkins University)医学院的癌症遗传学家Bert Vogelstein博士评价说:“这说明了它的持久力,没有基因比它更重要。”
但除了TP53之外,还有些上榜基因并非人人都耳熟能详,它们有些曾领风骚一时,但逐渐被冷落。“这张榜单很出人意料,”现已是哈佛大学(Harvard University)医学院博士后,钻研基因组数据可视化课题的Kerpedjiev说:“有些上榜基因是预料之中的,有些完全在意料之外。”因此,《自然》杂志社与Kerpedjiev合作,发布了这个“十大最热门基因”的榜单,旨在回顾生物医学研究的趋势,揭示公共卫生和特定疾病的兴趣如何对科研产生影响。榜单也显示了生物医学的研究重心是如何集中在几个特定领域中:人类基因组总共包含两万个左右能编码蛋白质的基因,而在NLM搜录的内容中,有近四分之一的论文只覆盖了100个左右的基因,其余成千上万的基因都被忽略了。
▲10大热门基因(图片来源:《自然》)
1.TP53:最早发现的抑癌基因之一,它编码的蛋白质p53能调控细胞周期、DNA修复以及细胞凋亡等,在大约一半的人类癌症中有突变。
2.TNF:Tumor necrosis factor(肿瘤坏死因子)是癌症和炎症类疾病的药物靶点,它是涉及到系统性炎症的细胞因子,能引起细胞凋亡。
3.EGFR:Epidermal growth factor receptor(表皮生长因子受体)是存在细胞膜表面的受体蛋白酪氨酸激酶,它被激活后能促进细胞生长,经常在耐药性肿瘤中存有突变。
4.VEGFA:Vascular endothelial growth factor A(血管内皮生长因子A)能促使血管形成,在肿瘤中往往异常活跃。
5.APOE:Apolipoprotein E(载脂蛋白E)在胆固醇和脂蛋白代谢中有重要功能。
6.IL6:Interleukin 6(白细胞介素6)在免疫中有重要作用,它调节活化的B细胞、T细胞、浆细胞以及造血干细胞等
7.TGFB1:Transforming growth factor beta1(转化生长因子1)是调控细胞增殖和分化的细胞因子,在免疫系统中有重要作用
8.MTHFR:Methylenetetrahydrofolate reductase(亚甲基四氢还原酶)协助处理氨基酸,是甲基循环中的限速酶,对肌体吸收营养有重要作用
9.ESR1:Oestrogen receptor 1(雌激素受体1)主要在乳腺癌、卵巢癌和子宫内膜癌中受到关注,它能促进细胞生长
10.AKT1:这个基因编码的蛋白AKT1是个丝氨酸/苏氨酸蛋白激酶,能磷酸化其他蛋白质,从而激活它们,促进细胞增殖和生存。
在2002年,人类基因组计划初次发布结果时,NLM开始系统地把表示基因功能的GeneRIF加到论文中,这项举措甚至往上回溯至1960年代发布的论文。虽然并不完美,但记录能显示生物医学研究的热点趋势,展示了在某些年份中,研究者们对某些基因尤其瞩目。
▲基因的逐年流行走势(图片来源:《自然》)
HBB:Haemoglobin subunit beta(血红蛋白亚基-β)及其相关基因是最先被发现与遗传性疾病(比如镰刀形血细胞贫血症)有关的蛋白。
CD4:这个T细胞受体蛋白因为人类免疫缺陷病毒(HIV)感染人体细胞而变得众所周知。
GRB2:Growth factor receptor-bound protein 2(生长因子受体结合蛋白2)促进了关于细胞信号转导途径的研究。
TP53:这个“基因组守护者”因其在疾病中的多种功能而受到最广泛的研究。
APOE:Apolipoprotein E(载脂蛋白E)因其在胆固醇代谢和阿兹海默病中的作用,在2000年后逐渐抢了TP53的风头。
比如说,在1980年代中期,大多数遗传学研究都关注着血红蛋白(HBB),也即红细胞中携带氧的分子。在1985年之前大约有10%的人类遗传学论文是关于血红蛋白的。在那时,研究人员在Linus Pauling和Vernon Ingram这两位杰出生物化学学家的工作基础上推进着对分子生物学的认识,他们在1940和1950年代发现了异常血红蛋白导致镰刀状细胞贫血症。而在1962年,Max Perutz因为绘制出血红蛋白的三维结构而获得诺贝尔化学奖,更给蛋白结构和功能之间关系的研究领域带来深远影响。正如美国国立卫生所(NIH)的医生/科学家Alan Schechter所言:对血红蛋白的研究“为理解和研发分子疾病的疗法提供了一个入口”。
而从1980年代末期开始进入广大研究者视野的CD4,其受关注的一个原因与HIV感染人体细胞的途径有关。免疫学家David Klatzmann曾在1984年12月发表论文,推断细胞表面蛋白CD4可以作为HIV进入细胞的受体。同期还有其他病毒学家提出类似观念进行支持,如伦敦癌症研究所的Robin Weiss等。不到三年,CD4就攀升成了生物医学文献中最受关注的基因,并在1987到1996年间保持这个状态,其时,它占据了NLM标签的1-2%。这个时期(1980年代末期)也是社会上艾滋病大流行的时代,研究者试图解决艾滋病危机的企图也反映在相关文献的数目上。
让CD4受关注的因素还有一个更重要的基础免疫学原因。在80年代中期,研究人员发现表达CD4的T细胞可以分为两种类别,一种对抗细菌和病毒,另一种抵抗寄生虫。“那是激动人心的时代,因为我们所知甚少,”纽约大学(New York University)的免疫学家Dan Littman回忆说。他曾帮助克隆编码CD4的DNA,并将其插入到细菌中,利用细菌生产该蛋白以供研究。他也参与了HIV和CD4的研究,并发现了HIV侵入细胞时除了CD4之外还需要另一个蛋白CCR5,以及另一个受体CXCR4。这些已是目前HIV研究的重心。
这项统计也显示了名为GRB2(生长因子受体结合蛋白2)基因是如何在1990年代早中期声名鹊起,又在2000年初期销声匿迹的。在1990年代,研究者希望能深入研究细胞通讯的信号途径传导过程,他们发现细胞中有的蛋白具有一个SH2结构域,能与细胞表面的活化蛋白结合,并将接受的信号传导给细胞内部,启动生化功能。在1992年,耶鲁大学(Yale University)的生化学家Joseph Schlessinger指出,GRB2基因编码的蛋白就是信号转导的中继站,它包含SH2结构域,以及两个涉及到细胞增殖和生存功能的蛋白区域。其后,相关研究迅速跟进,开拓了细胞信号转导的疆域。这些研究后来引发了关于癌症、自体免疫疾病、糖尿病以及心脏病的新疗法。而在这批浪潮中,GRB2稳居1990年代末期最受关注基因的宝座长达三年。但是,虽然GRB2是连接细胞外部信号和细胞内部生化功能的中继站,并引发了对细胞信号转导的研究,但它本身其实是个例外:它并不直接导致疾病,也无法作为药物靶点。所以,对GRB2的兴趣在2000年后逐渐转移到别的基因身上。“基因的重要性跟其临床价值紧密相连,”Karolinska Institute in Stockholm以及Pierre and Marie Curie University的研究者Thierry Soussi博士说。
▲热门基因在染色体上的分布(图片来源:《自然》)
对基因的兴趣也与基因本身的特性相关,包括它表达的丰度,在不同人群中表达的差异,以及它蛋白结构的特性等等。甚至,该基因编码的蛋白提纯的难易度也会影响到研究者对其进行研究的热情。
除了人类基因之外,NLM还跟踪了在其他物种进行的研究,包括小鼠,大鼠,果蝇等。在过去50年里研究最热门的100个基因中,有超过2/3的是人类的基因。而在其他物种中研究的基因,也常常与人类健康有明显的联系,比如小鼠版本的TP53,以及编码病毒包膜蛋白的env等。有些基因则是遗传学的基石,比如有3600篇论文的果蝇的white基因,其根源可以回溯到1910年,生物学家Thomas Hunt Morgan博士在纽约哥伦比亚大学(Columbia University)发现一个果蝇有白色复眼而非通常的红色复眼的那刻,他确定了染色体是遗传基因的载体,并开启了分子遗传学时代。因此,有许多遗传学基础研究都包括white基因。而在非人类物种中被研究最多的基因,是小鼠的Rosa26基因,它的功能尚未完全阐明。自从1991年被发现以来,已经有多达6500项研究都涉及到它,数目仅次于TP53。
▲热门基因的物种分布:人类>小鼠>大鼠>果蝇(图片来源:《自然》)
某个基因要成为最热门的基因,需要生物学、社会压力、商机以及医疗需求的协同作用。但是一旦当它达到上层梯队,就会具有一种“持久性”,如英国利兹大学(University of Leeds)的科学史学家Gregory Radick博士所说的:“某些基因会成为万无一失的选择,除非条件发生变动。”而如今,会有什么样的新发现,来推动哪个新基因登顶夺冠呢?
来源:药明康德——由赛业生物科技有限公司转载发布
模式动物完整解决方案:
TurboKnockout基因敲除小鼠:减少两代繁育时间,ES打靶仅需6个月
CRISPR-Pro基因敲除:基因敲除长达20kb,基因敲入长达10kb
人源化小鼠:平台体系成熟,服务于辉瑞、阿斯利康、恒瑞医药等知名药企
转基因小鼠:Nature等顶级期刊引用,年构建高达5000例