两栖类动物:一个新的模式动物的基因组资源

2020-10-08 10:42:55 admin

Taejoon Kwon


摘要

最近出版的多于五千个被注释的爪蟾和热带爪蟾基因在其它生物中没有一个被候选的直系配对物。为了决定是否这些序列代表着真正的两栖类特异性基因或注释错误,这非常有必要去分析在其它两栖类生物的旁侧序列。然而,由于基因组很大而且包含着很多重复的序列,只有很有限的基因序列有效针对于除了爪蟾的两栖类物种。两栖类是一个覆盖于非两栖类物种的新基因组资源,基于大众的结构域转录组数据和计算的方法在爪蟾的基因组项目。这里,我检验了两栖类的最近状态,包括带有可利用的转录组数据或生物样品的两栖类物种,并且描述在缺失基因组中建立一个可理解两栖类基因组资源。这个描述会对在功能基因组实验中使用两栖类模型器官的研究者们提供一些可利用的信息,比如爪蟾和蝾螈,在解释涉及孤基因的结果也会有帮助。另外的,这个研究给在非两栖类物种工作的研究者们一个机会,提供两栖类基因组资源。

介绍

非洲爪蟾被用作一个重要的有机体模型而且已经在许多生物学领域中帮助我们扩展了知识,包括胚胎组学,发育生物学,进化基因组学,生物化学,还有细胞生物学 (Gurdon and Hopwood, 2000; Harland and Grainger, 2011).最近非洲爪蟾的基因组已经出版公布(Session et al., 2016)而且,伴随着之前出版的它的姐妹物种的基因组,Xenopus tropicalis (Hellsten et al., 2010),还有其它基因组资源 (Klein et al., 2002), 给研究者们提供了新的机会利用爪蟾在功能基因组方面的优势去系统的调查研究基因网络的规律。按照这两个出版的基因组,超过15000个人类基因似乎在爪蟾中被保存;不过,一个显著数目的基因在爪蟾基因组中被注释,这个基因是在其它脊椎动物中没有任何希望的直系配对 (13,044 genes in X. laevis and 5,600 genes in X. tropicalis).即使这些孤基因有可能被错误注释(它们有着更短的序列长度相对于保守基因有更低的表达量),在X. tropicalis5600个孤基因中的1631个是在非洲爪蟾中有保存的;因此可能代表着两栖类物种特有的基因。

为了决定是否这些序列是否是真正的两栖类物种特异的或是注释错误,这非常有必要去分析这些基因在其它两栖类物种中的保守性;不过,两栖类动物的基因组很难被理解完全,主要是由于它的大尺度以及大量的重复序列。因此,证明这些基因在两栖类动物中特有的是非常苦难的。比如,在EnsEMBL基因组浏览器(版本86)中有86个基因组是可行的 (Yates et al., 2016), 只有一个两栖类基因组(东部爪蟾,Xenopus tropicalis)是可行的,与10个有着完整序列的硬骨鱼基因组相比(斑马鱼、穴居鱼、棘鱼、河豚鱼等)。在UniProt数据库中,包含着可理解的蛋白质序列和它们的注释 (Bateman et al., 2015),123,915个蛋白质序列可以通过关键字两栖类搜索到;不过,42.5%的序列(52,709个蛋白质)是来自非洲爪蟾和热带爪蟾。有着第三多的蛋白质序列的物种,Hymenochirus curtipes(东部矮蟾),只有1440个蛋白质。再者,549 (448 Anura, 68 Caudata, and 33 Gymnophiona)个属中的523个序列,记录在AmphibiaWeb (AmphibiaWeb, 2016), UniProt上也是有记录的,只有12个属代表着1千多个蛋白质序列。因此,去证明是否在爪蟾基因组中的一个孤基因是两栖类物种特有的那几乎是不可能的,根据最近在两栖类的基因信息上看。

在非洲爪蟾的基因项目期间,我开发了一个构建整个转录体的计算方法,推测它们的功能和假定的基因名字,基于其它物种蛋白质组的直系同源基因 (Session et al., 2016).这个方法被用在几个爪蟾基因研究中,甚至在基因组被出版之前 (Chung et al., 2014; Kwon et al., 2014; Ma et al., 2014; Smits et al., 2014), 证明了去描绘与转录体相关的可理解的信息应用在基因层面上的分析是一个精准的方法。这里,我提议了针对两栖类物种新的基因组资源,基于这个方法的改进。这个资源,两栖类的,是初步建立在转录组数据上的。在大量非模式两栖类机体中的转录组研究(Hellsten et al., 2010; Keinath et al., 2015; Session et al., 2016; Sun et al., 2015), 它代表了利用有效的源数据去建立一个初步的两栖类公共平台。当来源于各种两栖类物种的转录组数据在不久的将来被收集起来时,这个资源会在理解两栖类进化的问题和它们作为一个模型怎样处理人类的疾病上变得更加强而有力。

转录组构建的挑战

几个从短的RNA序列阅读上用计算的方法去构建一整条长的转录组序列已经发展起来了(Grabherr et al., 2011; Robertson et al., 2010; Schulz et al., 2012; Xie et al., 2014; Zerbino and Birney, 2008), 而且很多研究已经证实了从没有能参考的基因组的非模型有机体中来推测基因序列的有用性,包括很多两栖类的物种 (Abdullayev et al., 2013; Christenson et al., 2014; Gerchen et al., 2016; Qiao et al., 2013; Reilly et al., 2013; Shao et al., 2015; Stewart et al., 2013; Yang et al., 2012; Zhao et al., 2014).

在基因装配的过程中,大量重复的序列是在构建庞大的脚手架中的一个很大的瓶颈;不过,那些重复序列在翻译上不是很活跃,因此它们不会在转录的装配上构成一个问题。所以主要的挑战是如何在RNA序列上构建的一个有代表性的完整的转录组中降低它们序列的丰度。基因装配的方法可以假定大量的基因组序列有着平等的代表性(在考虑一些系统的偏向之后),而且用这些信息可以去控制虚灵刀错误和误组装。通过对比,转录组组装的方法是用RNA序列的数据使用不同的策略,因为所有的转录组会产生不同数量的短的阅读序列,依赖于它们的表达水平。因此,在各种不一样的个体中去区分基因的差异性是非常困难的(当大量的样本混合后会增加总的RNA测序量),或者是低丰度转录体中的不同等位基因。再者,如果在一个单基因座中有不止一个的转录异构体,要正确的去构建所有的异构体也是非常困难的。

两栖类数据库主要的目标是在基因层面上去构建有代表性的cDNA和蛋白质序列;最近,最长的候选转录体已经被接受。另外的,基于不同转录体组装方法的基准,我总结了通过velvet (Zerbino and Birney, 2008) 和oases (Schulz et al., 2012)的结合来装配转录组使之产生最多的完整转录体,即使这些方法会比其它工具产生更多的序列(数据没有显示)。因此,我已经把这个方法应用在了从没有对应的相似转录体的源数据来构建,而且已经指导了更多的基因序列的分析。

基于序列相似性的丛聚是一个用来减少序列丰度的普遍方法 (Edgar, 2010; Fu et al., 2012),而且被同来从表达序列标签(EST)中的数据去构建UniGene。然而,在爪蟾中复制基因可能会行不通,即使有着高度严格的标准(Kwon, 2015).一个基因组序列的参考,甚至组成短的重叠克隆群而不是长的脚手架,将会是解决这个问题的最终的方法;两栖类基因组序列的整合可能不是一件容易的事,由于一些关于装配的困难 (Keinath et al., 2015).一个可以替代的解决办法是开发出混合的方法,使用    RNA序列数据和长的不同尺寸的配对文库,比如‘HiC (Burton et al., 2013)或者‘Chicago (Putnam et al., 2016) 文库;尽管如此,需要一个新的算法去完成这个目标。

在基因功能参照的挑战

代表着每个物种的指令去构建整个长度的转录体,不用关于生物学功能的信息(通过安排假定存在的基因名字),去制作一个有用的两栖类数据库共同体是不太有效的。因为大多数的基因功能是基于在蛋白质序列分析上从而推断的物种的直系同源性,通过翻译构建的转录体序列来代表蛋白质序列非常重要,而且可以通过与其它参照物种蛋白质组的对比使这些蛋白质序列变得有效。

那些有着很好注释的蛋白质序列的物种中,像人类,小鼠还有斑马鱼,可以被用来证明被组装转录体的参照物,由于保存的蛋白质序列比转录体多的多。另外,一个序列的错误或者误组装的转录体,则会导致缩短形式的蛋白质的出现或者有两种不同基因组成的融合蛋白质,这些是能利用基于翻译的蛋白质序列来检测到的。

最近,我使用了五种参考的蛋白质组:人类,小鼠,小鸡,变色蜥蜴还有斑马鱼。这些代表了有着高质量的基因组和基因注释的不同分类学个体,而且被用在最近的两种爪蟾蛋白质组上,它们在整个基因组序列上也是有效的。在鉴定针对每个参考蛋白质组的直系同源之后,每个假定的基因家族的序列之后会被用来推测它们的系统关系,使用大尺度的基因家族数据作为指导(Huerta-Cepas et al., 2016; Schreiber et al., 2014).

然而,参考的基于蛋白质组的分析在推测爪蟾中多于五千个两栖类特异的候选同源物种不是很有用。最近,在参考蛋白质组中没有任何同源的基因在两栖类数据库中用来搜索其它两栖类蛋白质组变得可行起来。另外的,使用蛋白质结构域数据库,像Pfam (Finn et al., 2016)还有InterPro (Mitchell et al., 2015), 被候选孤基因编码的蛋白质结构域。如果一个蛋白质序列没有任何候选同源性,甚至在两栖类数据库中也没有,而且它不包含任何已知的蛋白质结构域,那么这条序列是排除在两栖类数据库之外的。

其它的两栖类物种特异的候选基因会针对不同两栖类物种中的表达模式保守性来分析,如果需要的数据是可行的,而且它们的结构域与它们的功能相关。如果一个直系同源基因的候选在爪蟾序列中是可行的,则可理解的RNA序列数据会在爪蟾的基因组项目中产生(Session et al., 2016) ,这将会对假定功能的推荐是一个很好的资源。直接的实验验证,使用已经建立的爪蟾实验方法(Sive et al., 2000),将会是实现另一个新的两栖类特异基因特征的可能性。

最近的状态还有将来的工作

第一个两栖类数据库版本,计划在2017http://amphibase.org上发布,cDNA和蛋白质序列会发布在XenBase (Karpinka et al., 2015)上。目前正计划去改进包括基因系统信息并且基于网页的两栖类数据库,与TreeFam (Schreiber et al., 2014), EnsEMBL compara (Herrero et al., 2016), 和EggNog (Huerta-Cepas et al., 2016)。用相似的方法。加上序列的信息,从单个的组织或指定的发育阶段,提供从转录组数据的表达信息。

通过对文献和公共数据仓库的调查,到目前为止,22种无尾和六尾物种的转录组数据已被构建两栖动物基因库(表1),包括三个两栖动物基因组(et al.2010Session et al.2016Sun et al.2015)和一个尾状核基因组草图(keinath et al.2015)作为参考。在一个开放源码许可下,计算的方法和数据库用于显示这些计算数据框架将被出版,以确保其他非模式生物社区能够很容易应用它们的数据。

两栖类数据库会渐渐地在大量的两栖类模型生物的生物医学研究中成为一个实用的资源,比如非洲爪蟾和蝾螈。不仅如此,关于两栖类基因的可理解的信息也将会对生态学上的各种两栖类物种提供有价值的研究,像真菌感染还有栖息地的变迁(Kiesecker et al., 2001; Martel et al., 2014; Stuart, 2004).