产品详情
 
当前位置
产品详情
病毒、微生物基因组测序

        在新一代测序技术中,PacBio测序平台往往因通量小和一直以来的关于准确率低的谣言而被忽视,但事实上,超长读长、实时检测碱基修饰、超高精度这三个特点正使得SMRT成为完成小基因组完整测序的最理想工具。     

        在启动大量经费进行大规模测序时,理性地进行项目评估是必须要率先迈开的一步。如果对某个5.2 Mb炭疽基因组(B._anthracis Ames Ancestor)进行读长评估的例子,同样的覆盖度下,100 bp(二代测序)读长最终获得98个Contig,1000 bp(三代测序)读长最终获得31个Contig,5000 bp读长最终获得1个Contig。基于短读长和偏好扩增的二代技术实现的只能是大量的片段化组装,要完成完整或精细组装还需要额外的实验操作和后续测序,总费用将非常昂贵。

      Finished bacterial genomes from shotgun sequence data.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. 两篇文章中都提到了测序评估和成本比较,这个成本是在完成基因组完整测序的基础上计算的,而且不再是以往的以$/Mb计算,因为深谙测序韬略的有识之士心里都清楚,单纯的数字游戏是不能给项目成本预算提供任何实质性帮助的。

     美国国家生化防卫分析与对策中心(NBACC)的Sergey Koren和Adam Phillippy以及美国农业部(USDA)的Timothy Smith等人。他们为了评估测序项目,在数据库中找了2267种已经获得完整基因组图谱的微生物和古菌,并根据内部重复序列的长度分成三类:第一类在数量上占69.07%,基本上只含有0.5-5 Kb长度的重复序列;第二类占7.59%,主要含5-7 Kb长度的重复序列;第三类占23.33%,含有7 Kb以上长度的重复序列。然后他们分别采用代表二代的500 bp读长序列和代表三代的5000 bp读长序列,通过软件算法进行模拟拼接,主要评估读长能否在全基因组范围内跨越所有的重复序列,以Gap数量作为最终评估指标,而覆盖度方面,二代假设成无限程度覆盖模式,三代仅用50-200X。最终的结果是:第一类中,以Bacillus anthracis Ames为例,三代方法能拼成完整图,但二代方法还留有20个Gap;第二类中,以Yersinia pestis CO92为例,三代方法同样能拼成完整图,但二代方法还留有161个Gap;第三类中,以Escherichia coli O26:H11 11368为例,三代方法仅留有16个Gap,但二代方法还留有171个Gap。考虑到以上只是软件模型模拟出来的结果,他们还专门选择了6个菌株分别在PacBio、454、MiSeq平台上进行实际测序,最终验证了这一模型的可靠性。且PacBio经Quiver打磨后的精度达到并超过了99.99995%,而一般完成基因组完整图的精度级别在99.999%,所以PacBio在精度上完全胜任。

       那么后续的补洞费用到底有多高昂呢,或者说真正意义上获得完成图的总费用到底是多少呢?!直接综合两篇文章(Finished bacterial genomes from shotgun sequence data. Genome Res 2012, 22:2270-2277.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. [http://arxiv.org/abs/1304.3752])的分析,费用数据主要来自Duke大学和Illinois大学的实验室和外部合作机构,我们来看下总的结果。假如用Illumina平台对5 Mb基因组进行测序,采用ALLPATHS组装,之后预留50个Gap必须手工填补,总共需要花费$ 13,124。如果这些Gap后续用PacBio长片段测序去填补,成本直接缩小至$2,952。那么这个成本算是终极廉价了吗?就怕你不敢想象!不要忘了,NGS测序容易引入系统误差,尤其是早期NGS系统。既然如此,不如干脆忘掉早期NGS数据,推倒重来吧!假如换成PacBio从头测序,用没有升级的RS系统,一个SMRT Cell产出125 Mb数据量,那么一个5 Mb基因组需要花费6个SMRT Cell(100-150X),成本是$1,625,得到完整基因组图谱。更进一步,假如换成升级后的RS II系统,用XL-C2试剂盒,一个SMRT Cell的通量大约500 Mb,仅用一个SMRT Cell就可以获得100X覆盖度,算上建库、质控、测序耗材总共花费为$ 636.96,得到的就是完整基因组图谱,不需要后续补洞。文章作者没有进一步计算,但考虑到PacBio在2013年Q4又推出了P5试剂盒,平均读长达到了8500 bp,通量达到了0.8-1 Gb/SMRT Cell,如此一来,对一个5 Mb基因组进行从头测序,仅需$400。$13,124+X(X为Illumina测序成本)对比$400。

      因此,无论从项目评估和测序成本两方面进行考量,三代测序技术都是最优的,更何况还可以在测序同时实时检测碱基修饰,这也无怪乎业界已经将三代测序定义为微生物测序领域的金标准。评估考核还可以适当引申到当下炙手可热的临床样本靶向测序领域,这需要从通量的角度上去做理性的选择。比如在样本数量不多的前提下,那么就完全可以选择三代作为主导做单倍体分型、稀有突变鉴定、mRNA可变剪切、未知碱基修饰等精细分析,但如果样本数动辄几万例,那么只能选择高通量的二代作为主导做传统的已知突变筛查等工作,此时三代可以在复杂基因分型场合作配合验证。所以三代测序还有必要在通量上不断寻求突破,就技术而言,这是它与二代相比的唯一弱点。