当前位置:小院首页 > 小院资源

转录组学-从原理到分析结果解读

发布时间:2024-07-10
中心法则概述了遗传信息在细胞内的传递和表达的基本流程,其中第一步是DNA转录为RNA,将转录过程中所产生的数据信息进行测序,称为转录组。


概念:转录组(transcriptome广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。


668e07465d22f.png

临床应用:转录组学可以通过对照正常样本和疾病样本中表达模式发生显著变化的基因,及其功能分析快速为您提供正确答案。


转录组的分析流程可分为下面5个阶段,每个部分会生成不同的结果文件,对结果文件的解读研究人员可以迅速了解样本的基因表达模式,识别重要的生物学变化,并据此提出假设或得出结论。

668e07570ef3f.png

转录组数据分析流程
1.质控报告( Data Quality

数据质控一般采用FastQChttps://www.bioinformatics.babraham.ac.uk/projects/fastqc/软件运行

质量控制箱型图FASTQ文件中每一个位置上的所有read的碱基质量值的箱形图。例如,有25000read,第一个位置上的base(碱基)就有25000个质量值,这个值画成第一个箱形图。

668e07dfdfa7c.png

Per base sequence quality: FASTQ文件中每一个位置上的所有read的碱基质量值的箱形图。上图中左图为高质量数据,右图为低质量数据。

碱基分布图:由于 RNA-seq 所测的序列为随机打断的cDNA片段,因打断的随机性,理论上,GCAT的含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。

668e07f73eee5.png

注  Per base sequence content:每个碱基位置上ATGC含量的分布图


2.基因组比对(mapping

基因组比对是将reads比对到参考基因组上,以确定reads的来源。

668e0a95b76a2.png


比对结果文件(SAM/BAM将读段比对到参考基因组后,生成标准对齐格式SAM(序列对齐/映射格式)或其压缩二进制版本BAMBAM文件是基因数据分析中最通用的比对数据存储格式, 需使用专用软件如Samtools软件Linux系统),或者IGV软件(Windows)系统打开。

668e0aac4dc6d.png


3.基因表达定量(Quantification of transcript and gene

基因表达定量:指对比对到每个基因或者转录本的reads进行计数。
定量软件:HTSeq、StringTie (默认)、CufflinksSalmon
结果定量文件(CSV/TSV从比对结果中提取的基因或转录本的表达量,通常以CSV(逗号分隔值)或TSV(制表符分隔值)格式存储。但此时的结果被叫为Raw count

4.数据标准化(normalization

数据标准化:对基因表达数据进行标准化,以消除测序数据的技术误差(由测序深度和基因长度带来的影响)。
标准化基因的Read数(消除测序深度):将所有基因的Read数除以总Read
标准化基因长度(消除基因长度):用标准化基因的Read数除以基因长度

668e0ac425622.png

668e0afb90163.png

定量表达数据标准化(csv/tsv)

5.差异表达分析(differential expression analysis

差异表达分析评估不同组别(处理组)之间的表达差异是否显著大于组内(随机误差)的差异,并识别在不同条件下表达差异显著的基因(differential expressed genes, DEGs)。
差异基因评估指标:差异倍数、P值、FDR
差异表达分析软件:edgeR, DESeq2(默认), Ballgown, limma

668e0b3157ce7.png


差异表达基因可视化

(1)火山图 (Volcano Plot)
通过火山图可查看基因在两个(组)样品中表达水平的差异即FC值,以及差异的统计学显著性即FDR。
差异表达火山图中的每一个点表示一个基因;横坐标表示某一个基因在两样品中表达量差异倍数的对数值;纵坐标表示FDR的负对数值。

668e0b474f4bb.png


(2)热图 (heatmap)

不仅对差异表达基因进行了可视化,还对筛选出的差异表达基因做层次聚类分析,将具有相同或相似表达行为的基因进行聚类。

668e0b56da0fa.png


差异表达基因富集分析

富集分析对差异表达基因集合进行归类,把具有相似功能的基因放在一起,关联功能、通路或特定生物学过程与表型。
富集分析的方法:
(1)Gene Ontology (GO) 富集分析
GO富集分析 利用GOGene ontology)数据库GO 是一个全面、结构化和标准化的基因和基因产物的属性数据库,包括生物学过程(Biological Process, BP)、分子功能(Molecular Function, MF)和细胞组分(Cellular Component, CC)三个方面。提供基因的功能注释。

668e0b6b068cb.png


GO富集分析示意图(注:用不同的颜色代表不同的类型 红色代表BP(生物学过程) 绿色代表CC(细胞亚定位) 蓝色代表MF(分子功能)纵轴上面是GO条目,横轴为校正之后的P值。)


(2)KEGG 富集分析

KEGG富集分析 利用KEGGKyoto Encyclopedia of Genes and GenomesPathway 数据库对差异表达基因集进行解释。
KEGG 提供基因和蛋白质的生物学信息,以及它们在生物途径和疾病中的作用。侧重生物代谢途径、疾病和生物体的系统功能。

668e0b8989e13.png


(3)GSEA 富集分析

GSEA富集分析 利用GSEAGene Set Enrichment Analysis)统计方法,对一个基因集的整体表达模式进行解释,而不是单个基因。
GSEA 使用成套的基因集来评估表达变化的统计显著性以推断生物学过程的激活或抑制以及它们在生物途径和疾病中的作用。从全体基因的表达矩阵中找出具有协同差异的基因集,故能兼顾差异较小的基因 GO富集和KEGG富集针对的主观定义的表达变化较大的显著差异基因 )。

668e0ba014239.png

6.高级分析-共表达聚类分析

共表达聚类分析可用来挖掘具有相同表达模式的基因。本质上是将表达趋势相同的基因进行归类,之后对这些表达趋势相同的基因进行后续分析。

共表达举例分析软件WGCNAMfuzz

668e0bbc2c7bc.png


《文章来源于微信公众号:生物智能洞察》



新疆昭苏马科技小院

培养单位:新疆农业大学

联合培养单位:昭苏县西域马业有限责任公司

所属地区:新疆维吾尔自治区伊犁哈萨克自治州
详情地址:
联系电话:

版权所有 全国农业专业学位研究生教育指导委员会 版权所有 Copyright © All Rights Resserved 京ICP备 05004632号-3

当前位置:小院首页 > 小院资源

转录组学-从原理到分析结果解读

发布时间:2024-07-10
中心法则概述了遗传信息在细胞内的传递和表达的基本流程,其中第一步是DNA转录为RNA,将转录过程中所产生的数据信息进行测序,称为转录组。


概念:转录组(transcriptome广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。


668e07465d22f.png

临床应用:转录组学可以通过对照正常样本和疾病样本中表达模式发生显著变化的基因,及其功能分析快速为您提供正确答案。


转录组的分析流程可分为下面5个阶段,每个部分会生成不同的结果文件,对结果文件的解读研究人员可以迅速了解样本的基因表达模式,识别重要的生物学变化,并据此提出假设或得出结论。

668e07570ef3f.png

转录组数据分析流程
1.质控报告( Data Quality

数据质控一般采用FastQChttps://www.bioinformatics.babraham.ac.uk/projects/fastqc/软件运行

质量控制箱型图FASTQ文件中每一个位置上的所有read的碱基质量值的箱形图。例如,有25000read,第一个位置上的base(碱基)就有25000个质量值,这个值画成第一个箱形图。

668e07dfdfa7c.png

Per base sequence quality: FASTQ文件中每一个位置上的所有read的碱基质量值的箱形图。上图中左图为高质量数据,右图为低质量数据。

碱基分布图:由于 RNA-seq 所测的序列为随机打断的cDNA片段,因打断的随机性,理论上,GCAT的含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。

668e07f73eee5.png

注  Per base sequence content:每个碱基位置上ATGC含量的分布图


2.基因组比对(mapping

基因组比对是将reads比对到参考基因组上,以确定reads的来源。

668e0a95b76a2.png


比对结果文件(SAM/BAM将读段比对到参考基因组后,生成标准对齐格式SAM(序列对齐/映射格式)或其压缩二进制版本BAMBAM文件是基因数据分析中最通用的比对数据存储格式, 需使用专用软件如Samtools软件Linux系统),或者IGV软件(Windows)系统打开。

668e0aac4dc6d.png


3.基因表达定量(Quantification of transcript and gene

基因表达定量:指对比对到每个基因或者转录本的reads进行计数。
定量软件:HTSeq、StringTie (默认)、CufflinksSalmon
结果定量文件(CSV/TSV从比对结果中提取的基因或转录本的表达量,通常以CSV(逗号分隔值)或TSV(制表符分隔值)格式存储。但此时的结果被叫为Raw count

4.数据标准化(normalization

数据标准化:对基因表达数据进行标准化,以消除测序数据的技术误差(由测序深度和基因长度带来的影响)。
标准化基因的Read数(消除测序深度):将所有基因的Read数除以总Read
标准化基因长度(消除基因长度):用标准化基因的Read数除以基因长度

668e0ac425622.png

668e0afb90163.png

定量表达数据标准化(csv/tsv)

5.差异表达分析(differential expression analysis

差异表达分析评估不同组别(处理组)之间的表达差异是否显著大于组内(随机误差)的差异,并识别在不同条件下表达差异显著的基因(differential expressed genes, DEGs)。
差异基因评估指标:差异倍数、P值、FDR
差异表达分析软件:edgeR, DESeq2(默认), Ballgown, limma

668e0b3157ce7.png


差异表达基因可视化

(1)火山图 (Volcano Plot)
通过火山图可查看基因在两个(组)样品中表达水平的差异即FC值,以及差异的统计学显著性即FDR。
差异表达火山图中的每一个点表示一个基因;横坐标表示某一个基因在两样品中表达量差异倍数的对数值;纵坐标表示FDR的负对数值。

668e0b474f4bb.png


(2)热图 (heatmap)

不仅对差异表达基因进行了可视化,还对筛选出的差异表达基因做层次聚类分析,将具有相同或相似表达行为的基因进行聚类。

668e0b56da0fa.png


差异表达基因富集分析

富集分析对差异表达基因集合进行归类,把具有相似功能的基因放在一起,关联功能、通路或特定生物学过程与表型。
富集分析的方法:
(1)Gene Ontology (GO) 富集分析
GO富集分析 利用GOGene ontology)数据库GO 是一个全面、结构化和标准化的基因和基因产物的属性数据库,包括生物学过程(Biological Process, BP)、分子功能(Molecular Function, MF)和细胞组分(Cellular Component, CC)三个方面。提供基因的功能注释。

668e0b6b068cb.png


GO富集分析示意图(注:用不同的颜色代表不同的类型 红色代表BP(生物学过程) 绿色代表CC(细胞亚定位) 蓝色代表MF(分子功能)纵轴上面是GO条目,横轴为校正之后的P值。)


(2)KEGG 富集分析

KEGG富集分析 利用KEGGKyoto Encyclopedia of Genes and GenomesPathway 数据库对差异表达基因集进行解释。
KEGG 提供基因和蛋白质的生物学信息,以及它们在生物途径和疾病中的作用。侧重生物代谢途径、疾病和生物体的系统功能。

668e0b8989e13.png


(3)GSEA 富集分析

GSEA富集分析 利用GSEAGene Set Enrichment Analysis)统计方法,对一个基因集的整体表达模式进行解释,而不是单个基因。
GSEA 使用成套的基因集来评估表达变化的统计显著性以推断生物学过程的激活或抑制以及它们在生物途径和疾病中的作用。从全体基因的表达矩阵中找出具有协同差异的基因集,故能兼顾差异较小的基因 GO富集和KEGG富集针对的主观定义的表达变化较大的显著差异基因 )。

668e0ba014239.png

6.高级分析-共表达聚类分析

共表达聚类分析可用来挖掘具有相同表达模式的基因。本质上是将表达趋势相同的基因进行归类,之后对这些表达趋势相同的基因进行后续分析。

共表达举例分析软件WGCNAMfuzz

668e0bbc2c7bc.png


《文章来源于微信公众号:生物智能洞察》



版权所有 全国农业专业学位研究生教育指导委员会
版权所有 Copyright © All Rights Resserved
京ICP备 05004632号-3