GDC中转录组的表达量文件有3种类型,分别对应着不同的定量方法。
counts不用多说,看看FPKM和FPKM-UQ有什么区别:
FPKM:
The Fragments per Kilobase of transcript per Million mapped reads (FPKM) calculation normalizes read count by dividing it by the gene length and the total number of reads mapped to protein-coding genes.
FPKM-UQ:
The upper quartile FPKM (FPKM-UQ) is a modified FPKM calculation in which the total protein-coding read count is replaced by the 75th percentile read count value for the sample.
具体可以查看GDC的官方说明文档中的转录组分析部分,两者的计算公式:
\(FPKM = \frac{RC_g * 10^9}{RC_{pc} * L}\)
\(FPKM-UQ = \frac{RC_g * 10^9}{RC_{g75} * L}\)
RCg: 比对到基因上的reads数量。
RCpc: 比对到所有编码蛋白基因上的reads数量。
RCg75: 样品中75%分位对应的基因reads数目。
L: 基因的长度,为外显子长度之和。
以一个计算实例来说明两者的差别:
假设在样品1中Gene A 的相关统计信息如下:
1. Gene A的长度为:3000
2. 比对到Gene A上的reads数量:1000
3. 比对所有基因上的reads数据量:1,000,000
4. 样品1中覆盖75%基因的reads数:2000
那么,FPKM和FPKM-UQ的计算结果如下:
FPKM = (1,000)*(10^9)/[(3,000)*(1,000,000)] = 333.33
FPKM-UQ = (1,000)*(10^9)/[(3,000)*(2,000)] = 166,666.67
那么我们一般下载那种数据比较好呢?
如果是做差异分析的话,我建议采用counts ,毕竟有不少的差异分析的软件都是基于counts数,比如edgeR和DEseq2,要求输入的为counts数。
如果是计算样品间的相关性,聚类等,那就可以采用均一化的FPKM,和FPKM-UQ。当然下载counts,之后进行标准化,也是可以的。
所以,一般下载counts会比较好一些。