转录组常见问题与解答
-
Q:什么是转录组?
转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
-
Q:RNA-seq中什么是有参/无参?如何选择?
参是指参考基因组;一般还未有参考基因组的物种建议做无参,或者测序样本与参考基因组比对率过低也可以做无参。
-
Q:什么是raw data/ clean data?
raw data,是测序下机的原始数据。clean data,对原始数据进行过滤后,剔除了低质量数据的剩余数据;后续分析均基于clean data。
-
Q:什么是Q20、Q30?
Phred 数值大于20、30的碱基占总体碱基的百分比,其中Phred=-10log10(e)。
-
Q:有参分析都需要什么文件?
相应的参考基因组及基因结构注释文件(gtf/gff/gff3/bed等格式,推荐gtf,gff)、基因的GO注释文件的直接下载链接以及基因功能描述文件。
-
Q:造成mapping rate较低的原因可能有哪些?
(1)由于reference组装不好,或者所测物种与reference的亲缘关系较远;
(2)由于样品的特殊前处理或者相对于参考基因组此样品本身的变异太大,导致mapping rate相对较低。
-
Q:什么是可变剪切?
大多数真核基因转录产生的mRNA前体是按一种方式剪切产生出一种mRNA,因而只产生一种蛋白质。但有些基因产生的mRNA前体可按不同的方式剪切,产生出两种或更多种mRNA,即可变剪切。
-
Q:基因表达水平如何计算?
在RNA-seq技术中,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced)是每百万fragments中来自某一基因每千碱基长度的fragments数目,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前最为常用的基因表达水平估算方法(Trapnell, Cole, et al., 2010)。
-
Q:能否用FPKM/RPKM进行差异分析?
在做差异分析时,是采用readcount数据,通过DESeq或者TMM标准化后,进行差异分析。FPKM/RPKM实际上也是对readcount进行标准化处理的一种方法,在进行差异分析时,DESeq和TMM的标准化效果最好,FPKM/RPKM的标准化效果较差,不推荐使用FPKM/RPKM进行差异分析。
-
Q:某基因在两个样本中表达量差别很大,却不存在与显著差异的基因列表中,这是为何?
差异基因的筛选是基于统计学意义的,不能直观的通过两个数值的大小判断差异基因的是否:
首先:受测序深度的影响,有些样品的测序深度较深,可能导致该样品的readcount数值较高,做差异分析的第一步就是要消除测序深度的影响,对原始数据进行标准化处理(我们在有重复项目中,使用DESeq自带的标准化方法;无重复项目中,使用TMM标准化方法)。
其次:在差异分析过程中,需要对readcount的分布进行估计,经验表明,readcount服从负二项分布。在有重复的项目中,重复的好坏也会对差异基因与否产生影响。如果重复较差,组内差异情况会屏蔽掉部分组间的差异。在估计完参数后,需要用特定检验方法来判断差异基因与否。
再次:在计算完pvalue以后,需要对pvalue进行多重假设检验校正,来减少假阳性。这个过程会使得padj会大于原来的pvalue,使得部分通过pvalue阀值的基因,无法通过padj的阀值。
-
Q:差异基因列表中,readcount一个为0,另一个不为0,能否说明一个表达,一个不表达?
在有参项目中,一般默认fpkm>1时,基因表达。一般不推荐看readcount的值看判断表达与否。
-
Q:能否提取部分基因来做差异分析?
不能。差异分析是基于整体来做的。差异分析软件的作者推荐用全部readcount进行差异分析,若使用部分基因做分析,会毁坏掉数据整体的特点,如测序深度、reads分布特征。所以不推荐老师抽取部分来做差异分析。
-
Q:为什么编码同一个酶的基因,会有的上调有的下调?
这些编号的基因存在着多个条目,也可能包含了一个家族的多个基因,它们间的调控机制可能尚不清楚,反映在图上会有部分上调,部分下调的现象,这是比较常见的现象。