字带你了解转录组一些生信基础概念

转录组测序中衍生了一些专业术语,了解这些术语的概念有助于我们理解转录组测序以及相关生信分析结果。下面介绍一些常见的二代测序(NGS)相关术语。这篇文章无论是即将从事数据分析的生信人员,还是对于想要借助二代测序进行科学研究的老师都很有帮助,可以缕清很多基础性的概念术语。

基础概念

l基因:产生一条多肽链或功能RNA所需的全部核苷酸序列;包含编码蛋白质肽链或RNA的核酸序列,转录所必须的调控元件,编码区上游的非编码序列,内含子,编码区下游的非编码序列。广义基因的概念包含蛋白编码基因(proteincoding),RNA基因(miRNA,lncRNA,snoRNA,snRNA等),假基因(pseudogene)等,狭义的基因通常指蛋白编码基因。不同物种中由于基因组注释完善程度不同,包含的基因类型是有差异的。

l转录本:是由一个基因通过转录形成的一种或多种成熟RNA。蛋白编码基因可以转录出多条mRNA,lncRNA基因可以转录出多条lncRNA,部分蛋白编码基因座除了转录出mRNA(信使RNA),也可以转录出lncRNA(长链非编码RNA)。

lhostinggene:亲本基因或来源基因,比如lncRNA/circRNA亲本基因表示lncRNA/circRNA的来源基因座,亲本基因经过转录、剪切或反向剪切形成lncRNA和circRNA(环状RNA)。

文库结构相关概念

lReads:测序得到的每一条序列称为一个Read。R1和R2

lRawData/RawReads:测序下机得到的原始图像数据经过basecalling转化而来的原始数据。

lCleanData/CleanReads:去除接头和低质量Reads后的数据,后续分析均基于CleanData。

lReadscount:对于单端测序中,比对到基因组的一个read计为1个count,对于双端测序,一个Fragments计为1个count,是基因的原始定量结果。Readscount大小与基因的表达丰度、基因长度(理论上RNA越长,打断产生的Fragments越多,测序产生的Reads就越多,count即越大)和测序深度(简单理解为测序数据量)相关。无法直接通过基因的Readscount比较基因表达量高低,需要去除测序深度和或基因长度的影响,正因为如此,衍生了不同的基因表达量表示方法。

lFragments:Fragments指每一段用于测序的核酸片段,在SE(单端测序)中,一个Fragments只测一条reads,所以,reads数与Fragments数目相等;在PE(双端测序)中,一个Fragments测两端,会得到2条reads,但由于后期质量或比对的过滤,有可能一个Fragments的2条reads最后只有一条进入最后的表达量分析。总之,如果一对paired-reads都比对上了,那么这一对pair-reads称为一个fragment;如果一个比对上了,另一个没比对上,那么这个比对上的reads就称为一个fragment。所以,Fragments的最终数目是reads的1到2倍之间。

lAdapter:接头是测序时在序列两端分别加上的一段人工序列,接头上含有与测序引物互补结合的序列,通过和测序引物结合来对目的片段进行测序。当加上接头后的序列片段比实际测序读长短时,3’端会测到接头序列,接头序列在分析之前需要去除掉。

关于基因定量

lRPKM:ReadsPerKilobaseofexonmodelperMillionmappedreads(每千个碱基的转录每百万映射读取的reads),表达量表示方法,主要用来对单端测序(single-endRNA-seq)进行定量的方法。

lFPKM:FragmentsPerKilobaseofexonmodelperMillionmappedfragments(每千个碱基的转录每百万映射读取的fragments),表达量表示方法,主要是针对pair-end测序表达量进行计算(公式算法基本与上述RPKM一致。FPKM是先对测序深度标准化,再对基因长度标准化。

lTPM:TranscriptsPerMillion,表达量表示方法,其是先对基因长度标准化,再对测序深度标准化,与FPKM正好相反。

lSRPBM:SplicedReadsPerBillionMapping,SRPBM=numberofcircularreads/(numberofmappedreads(unitsinbillion)*readlength),表达量表示方法,用于表示circRNA的表达量。

lPE/SE50:PE(Pairend)为双端测序的意思,测序文库中的一条序列从两端开始读取,得到read1与read2,即通常所说的R1与R2。SE(Singleend)为单端测序的意思,即一条序列从一端读取。这里的PE为bp的意思,即读取bp长度的测序模式从从两侧R1和R2一起读取。而SE50则是50bp长度只从R1端读取。

lContig:拼接软件基于Reads之间的重叠(overlap)区拼接获得的序列称为Contig(重叠群),即由Reads通过对overlap区域拼接组装成的没有gap的序列段。

lContigN50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig1,Contig2,Contig3......Contig25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为ContigN50。ContigN50可以作为基因组拼接的结果好坏的一个判断标准。

l测序深度(SequencingDepth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。也可以理解为被测基因组上单个碱基被测序的平均次数。

lQ20(Q30):二代测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。Q20与Q30则表示质量值≧20或≧30的碱基所占百分比。例如,一共测了1G的数据量,其中有0.9G的碱基质量值大于或等于20,那么Q20则为90%。Q20值是指测序过程的碱基识别(BaseCalling)过程中,对所识别的碱基给出的错误概率。质量值是Q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;质量值是Q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;质量值是Q40,则错误识别的概率是0.01%,即错误率0.01%,或者正确率是99.99%。如果测序错误率用E表示,Illumina的碱基质量值用Q表示,则有下列关系:Q=-10log10E。

l测序数据量=基因组大小(所测范围大小)×测序深度或者测序reads数×reads长度(读长)。

lG/M:测序中通常提到的G和M是数量单位,代表碱基或reads的数目,1G=M=K=个,与表述文件体积大小的G(比如硬盘空间是G)和M是有区别的。

常用文件格式

lfastq

fastq是一种文本格式,也叫fq格式。这种格式用于储存生物学序列及其相应质量值(通常是核酸序列的)。为了方便储存及可读这些信息,这些序列以及质量信息使用ASCII字符标示。该格式最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。通常fastq文件中每一个序列含有4行信息,第一行:以‘

’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;第二行:表示序列信息,制表符或者空格不允许出现。一般是明确的DNA或者RNA字符,由A,C,G,T和N这五种字母构成,N代表的是测序时那些无法被识别出来的碱基;第三行:用于将测序序列和质量值内容分离开来。以‘+’开头,后面是描述信息等,或者什么也不加。在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);第四行:测序read的质量值,每个字符与第二行的碱基一一对应,按照一定规则转换为碱基质量得分,进而反映该碱基的错误率,因此字符数必须和第二行保持一致,它描述的是每个测序碱基的可靠程度,用ASCII码表示。第四行中每个字符对应的ASCII值减去64,即为对应第二行碱基的测序质量值。如果测序错误率用E表示,Illumina的碱基质量值用Qphred表示,则有下列关系:Qphred=-10log10E。

为了节省空间,原始数据fastq一般以压缩形式fastq.gz(或fq.gz)储存、分发和上传公共数据库,如无必要,无需解压。

lfasta格式

fasta是一种文本格式,也叫fa格式,以单字符(single-lettercodes)贮存核酸或者蛋白序列信息,允许在序列前加注释信息。以NCBIRefSeq数据库中下载序列为例:

gi

gb

AF.1

Homosapienshemoglobinalpha-1globinchain(HBA1)mRNA,



转载请注明地址:http://www.jipujeep.com/jpnz/12165.html
  • 上一篇文章:
  • 下一篇文章: 没有了