注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

云地日志

立身娉婷北高峰,花事纷纭心事秾。飓风和雨吹折后,病枝弱叶一扫空。

 
 
 

日志

 
 

测序经验谈之 自己合成接头和barcode  

2015-02-25 17:08:53|  分类: 二代测序 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
测序经验谈之    自己合成接头和barcode - 陈云地 - 陈福禄、现代汉语和基因的美感寻找  
 

        Illumina测序平台无疑是市场上众多二代测序平台中的翘楚,高通量、高质量、低成本,操作简便,重现性好,各种好处使他的成绩在同班众兄弟中遥遥领先,公认为学霸。要想把Illumina平台用到极致,则样本的碱基平衡度是七寸和肯綮,不得不加以关注。只要把握好这一点,二代测序就能成功一大半。在影响和改善样本碱基平衡度的各种因素和途径中,barcode是重要的一环。

        Barcode放在什么地方好呢?

 

一、Illumina的设计

      Illumina把barcode放在下游接头(adaptor)的中间。其文库结构简式如下:

 

        [式1]    5’-上游接头-样本插入片段-下游接头的前半段-barcode-下游接头的后半段-3’

或者:

         [式2]    5’-上游接头的前半段-barcode 1-上游接头[原创作品。欢迎转载。转载请注明作者:陈云地]的后半段-样本插入片段-下游接头的前半段-barcode 2-下游接头的后半段-3’

当然也可以如下设计:

         [式3]    5’-上游接头的前半段-barcode-上游接头的后半段-样本插入片段-下游接头-3’

       

         式3与式1效果一样,不作讨论。

         应当说这是非常科学的设计,是已有方案中最好的。优点有两个:第一,不影响有效读长;第二,不影响样本的碱基平衡度。由于barcode测序是单独、专门进行的,与read 1和read 2分开,所以不占用读长。无论read 1还是read 2,读长都不受barcode影响,10[原创作品。欢迎转载。转载请注明作者:陈云地]0碱基就是100碱基,150碱基就是150碱基,实打实全部是插入序列,一分钱不浪费。至于barcode怎么会影响到样本的碱基平衡度,我们看了后面的设计就自然明白了。

         缺点有没有呢?当然有,那就是花钱比较多,试剂成本比较贵。这个缺点不是因为方案设计本身太复杂,而是因为Illumina卖价高,而且还要与建库试剂打包卖,不零趸。

 

二、常见的自定义设计

         为了省钱,很多人决定自己动手来设计、合成接头。还是为了省钱,自己设计的接头不得不与Illumina试剂兼容。受这样的限制,大部分barcode的位置就被设计成了这样:

 

         [式4]    5’-上游接头-barcode-样本插入片段-下游接头-3’

或者:

         [式5]    5’-上游接头-样本插入片段-barcode-下游接头-3’

或者:

         [式6]    5’-上游接头-barcode 1-样本插入片段-barcode 2-下游接头-3’

 

         这种设计问题严重。缺点也有两个:第一,缩短了有效读长,第二,降低了样本的碱基平衡度。

         以式4为例,由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1的测序读长就被barcode占用了一部分,有效读长变短了。Read 2的有效读长不变。假设barcode长7个碱基,read 1测序101个碱基,则有效读长就只有101-7=94个碱基。

         还是由于Illumina测序引物的杂交位点位于上游接头的3’端,read 1测序一上来测的就是barcode序列。如果barcode组合的碱基组成不平衡的话,全部测序数据都将受到拖累,质量降低。因为Illumina软件需要使用前4个碱基的统计数据来定位cluster,使用前25个碱基的数据来计算PF。假设barcode长7个碱基,且碱基组成不平衡,则read 1测序的cluster定位和PF计算都将受[原创作品。欢迎转载。转载请注明作者:陈云地]到严重影响。Barcode的碱基组成肯定要比未知样本的低。

         优点有没有呢?好像没有。

 

三、自定义设计的改进

         自己设计barcode、自己合成接头,怎样才能避免上述弊端呢?不妨考虑以下改进措施:

 

         [式7]    5’-上游接头-SPACER-barcode-样本插入片段-下游接头-3’

 

        其中SPACER是一系列长短不等的短片段,要求做到两点:第一,长度有变化;第二,碱基有变化。比如说像下面这样的一套:

 

        N

        NN

        NNN

        NNNN

 

        不同的barcode配合不同长度和不同碱基组成的spacer使用,可以形成barcode被错开的效果,自然而然地增加了barcode的碱基平衡度。虽然有效读长更短了,但是后果更严重的碱基平衡度问题被解决了。考虑到Illumina软件使用前4个碱基的数据来定位cluster,spacer的最大长度为4个碱基比较好。

 

三、PCR产物测序的改进

        Spacer也能用于改进PCR产物测序。

        PCR扩增产物(amplicon)的两端都是引物序列,如果PCR只使用一对引物,各自有大约20个碱基(PCR引物的长度)的范围内,碱基组成是极度不平[原创作品。欢迎转载。转载请注明作者:陈云地]衡的。由于每个位置都只有1种碱基,测序数据的质量和产量都将受到严重影响。

        只要在PCR引物的外侧(5’端)加上不同长度的spacer,就可以到达平衡碱基的效果,无论引物(primer)还是扩增区域(target)都被错开,即使是高度重复序列区域(比如说16S rDNA)的PCR扩增物,也能提高碱基复杂度,达到平衡,巧妙地解决了令人头疼的amplicon-seq难题。


[原创作品。欢迎转载。转载请注明作者:陈云地]
  评论这张
 
阅读(535)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017