高通量测序技术(High-throughput sequencing),又称下一代测序技术(Next-generation sequencing),能以一次并行对几十万到几百万DNA分子进行序列测定和一般读长读短。
前面已介绍了很多生信方面所用到的软件工具和数据库,下面小编为大家梳理一下知识点。
(目前市场上三家主流公司分析 )
高通量测序技术常用的数据格式
1. FASTQ
FASTQ文件中每个序列通常有4行:
第一行:序列标识以及相关描述信息,以@开头;
第二行:序列
第三行:以+开头,后面是序列标识符、描述信息
第四行:质量信息,和第二行的序列相对应,每一行序列都有一个质量评分,根据评分体系不同,每个字符的含义表示的数字不同。
(FASTQ格式图)
(质量信息换算图)
质量评分:是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。特点是:ASCII表示、P是base-calling的错误率。
Q=-10log10P
质量得分与错误概率的对应关系如下表示:
Phred quality score | Probability of incorrect base call | Base call accuracy |
10 | 1 in 10 | 90% |
20 | 1 in 100 | 99% |
30 | 1 in 1000 | 99.9% |
40 | 1 in 10000 | 99.99% |
50 | 1 in 100000 | 99.999% |
2. SAM (Sequence Alignment Map)/BAM
当测序得到的FASTQ文件通过序列比对到基因组后,会得到一个SAM或BAM为扩展名的文件。BAM是SAM的二进制文件。
SAM包括注释信息和比对结果。注释信息是以@开头,用不同tag表示不同信息。@HD说明符合标准的版本、对比序列的排列顺序;@SQ是参考序列说明;@RG是比对上的序列说明;@PG是使用的程序说明;@CO是任意的说明。
(SAM/BAM比对结果格式)
数据分析的整体框架如下:
人类突变和疾病相关的数据库主要有:
Clinvar数据库
为疾病等表型与基因型研究,方便查到疾病的每一个条目的信息包括基因、变异、发生频率、表型、临床意义等。
https://www.ncbi.nlm.nih.gov/clinvar/
OMIM数据库
记载着疾病与基因、文献、序列记录、染色体定位等信息
www.omim.org/
Cosmic数据库
储存着癌症相关的候选基因,包含了癌症中体细胞突变目录。
www.sanger.ac.uk/genetics/CGP/cosmic
HGMD数据库
在各种期刊中收集基因突变信息。数据库收集的是编码区、调控区、剪接区的点突变,还包括插入、缺失、复制、重复、疾病相关的多态。
www.hgmd.cf.ac.uk/ac/index.php
PharmGKB数据库
为研究人员方便研究遗传变异如何影响药物反应的。
www.pharmgkb.org
要想在论文上加插基因组数据,前提下都避免不了要利用测序技术才能读取一段待研究的基因片段,从而获得基因组的一些信息。当中常常也得运用到基本的概率论与数理统计知识,因此,生物信息学既与计算机科学有密切联系,还与数理统计密不可分。
• END •