【干货】全基因组高通量测序与生物信息学

高通量测序技术(High-throughput sequencing),又称下一代测序技术(Next-generation sequencing),能以一次并行对几十万到几百万DNA分子进行序列测定和一般读长读短。

前面已介绍了很多生信方面所用到的软件工具和数据库,下面小编为大家梳理一下知识点。

(目前市场上三家主流公司分析 )

高通量测序技术常用的数据格式

1. FASTQ

FASTQ文件中每个序列通常有4行:

第一行:序列标识以及相关描述信息,以@开头;

第二行:序列

第三行:以+开头,后面是序列标识符、描述信息

第四行:质量信息,和第二行的序列相对应,每一行序列都有一个质量评分,根据评分体系不同,每个字符的含义表示的数字不同。

 

FASTQ格式图)

 

(质量信息换算图)

质量评分:是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。特点是:ASCII表示、Pbase-calling的错误率。

Q=-10log10P

 

质量得分与错误概率的对应关系如下表示:

Phred quality score

Probability of incorrect base call

Base call accuracy

10

1 in 10

90%

20

1 in 100

99%

30

1 in 1000

99.9%

40

1 in 10000

99.99%

50

1 in 100000

99.999%

 

2. SAM (Sequence Alignment Map)/BAM

当测序得到的FASTQ文件通过序列比对到基因组后,会得到一个SAMBAM为扩展名的文件。BAMSAM的二进制文件。

SAM包括注释信息和比对结果。注释信息是以@开头,用不同tag表示不同信息。@HD说明符合标准的版本、对比序列的排列顺序;@SQ是参考序列说明;@RG是比对上的序列说明;@PG是使用的程序说明;@CO是任意的说明。

 

SAM/BAM比对结果格式)

 

数据分析的整体框架如下:

 

 

人类突变和疾病相关的数据库主要有:

Clinvar数据库

为疾病等表型与基因型研究,方便查到疾病的每一个条目的信息包括基因、变异、发生频率、表型、临床意义等。

https://www.ncbi.nlm.nih.gov/clinvar/

 

OMIM数据库

记载着疾病与基因、文献、序列记录、染色体定位等信息

www.omim.org/

 

Cosmic数据库

储存着癌症相关的候选基因,包含了癌症中体细胞突变目录。

www.sanger.ac.uk/genetics/CGP/cosmic

 

 

HGMD数据库

在各种期刊中收集基因突变信息。数据库收集的是编码区、调控区、剪接区的点突变,还包括插入、缺失、复制、重复、疾病相关的多态。

www.hgmd.cf.ac.uk/ac/index.php

 

 

PharmGKB数据库

为研究人员方便研究遗传变异如何影响药物反应的。

www.pharmgkb.org

 

要想在论文上加插基因组数据,前提下都避免不了要利用测序技术才能读取一段待研究的基因片段,从而获得基因组的一些信息。当中常常也得运用到基本的概率论与数理统计知识,因此,生物信息学既与计算机科学有密切联系,还与数理统计密不可分。

 

 

• END •

Posted in 技术文章.

发表评论

电子邮件地址不会被公开。 必填项已用*标注