2000年拟南芥基因组的发表标志着植物基因组学的一个重要里程碑,预示着植物研究新时代的开始。从那时起,700多个植物基因组的测序和组装,彻底改变了人们对植物生物学的理解,促进了性状遗传学和作物改良方面的突破性发现。
随着参考基因组组装的完成,基因组重测序计划探索了植物群体的遗传多样性。最初,DNA测序的高成本给这些计划带来了挑战。例如,1001基因组计划的第一项研究使用Illumina技术仅对拟南芥(A. thaliana)的三个生态型进行了测序,即参考(Col-0)和另外两个(Bur-0和Tsu-1),覆盖范围从15到20倍。尽管存在这些限制,将这些短读段与参考基因组序列(Col-0)比对,仍能够鉴定出823325个单核苷酸多态性(SNPs)。随着成本的降低,全基因组重测序的规模已经扩大,可以在更大的群体中表征遗传变异。将基因组重测序与表型测量(如作物产量、植株高度和代谢物丰度)相结合,有助于检测这些性状的基因座,植物基因组重测序极大地增强了我们对作物驯化、植物适应和进化的理解,以及鉴定有价值性状的位点。
全基因组变异图谱的构建促进了标记辅助选择和基因组选择方法,并加速作物改良。这些进步背后的驱动力是DNA测序数据的增长,通常伴随着结构化的基于家族系谱的群体比对的构建,以及最近机器学习方法在性状关联中的应用。长读长DNA测序技术(如PacBio HiFi和Nanopore)的发展使得捕获更广泛的复杂结构变异(SVs)和重复区域成为可能,这推动了植物基因组研究的界限。
1.全基因组重测序:从模式生物到分类多样性
随着DNA测序成本的持续降低,全基因组重测序项目发展迅速(图1A)。迄今为止,已经报道了187种植物的基因组重测序(图1B;补充表1)。在这些重测序研究中,葡萄(Vitis vinifera)材料的数量达到了3525个的峰值,鹰嘴豆基因组计划完成后,鹰嘴豆(Cicer arietinum)材料达到3366个,水稻(Oryza sativa)3010个,大豆(Glycine max)材料2898个。这些大规模的重测序努力促进了几乎完整的SNP图谱的产生,包括罕见的等位基因。最初基因组重测序研究主要集中在模式植物和二倍体小型基因组的作物上,如在各自的高质量参考基因组图谱发布后,在水稻和番茄(Solanum lycopersicum)开展的重测序(图1A;补充视频1)。具有更大和更复杂基因组的植物重测序面临着更高成本和高计算要求的挑战。然而,尽管存在这些限制,参考基因组序列完成后不久,对具有大而复杂基因组的植物的群体基因组研究就出现了。例如,2018年六倍体小麦(Triticum aestivum)参考基因组公布后,2019年和2020年发表了几项小麦重测序研究。随着成本的下降,正在为不太主流的作物构建基因组和泛基因组参考,包括高粱(Sorghum bicolor L.)、木豆(Cajanus cajan L.)和香蕉(Musa spp.)。测序技术和组装算法更先进的发展能够管理复杂的基因组,包括杂合和多倍体基因组,预计将进一步扩大重测序物种的数量,并发表更多高质量的参考基因组组装。
图1 | 重测序植物种群的时间进展和系统发育分布。(A)重新测序种群基因组规模变化。数据点大小反映对应物种的基因组大小。(B)植物种群重测序的系统基因组分布与综述。堆叠直方图描述具有参考基因组组装物种的累积情况,每个分类顺序的重测序物种数量用橙色条表示。随附的箱形图描述了重测序物种的基因组大小和种群大小的范围。(C)具有参考基因组组装的物种数量以及每个家族中具有重测序种群的物种的数量。每个科中重测序的物种数量用橙色条表示。
2.基因组-性状关联研究
DNA重测序技术的进步使研究者在作物中快速发现SNPs,促进多种重要性状相关的基因或位点的鉴定,从而增强对这些作物的了解并加速了它们的育种(图3)。通过全基因组关联研究(GWASs),确定与特定性状相关的区域。除了与气候适应相关的位点外,部分基因组区域也被报道与田间性状相关,如氮利用率、产量构成要素和代谢物含量。从38种作物中共鉴定出8332个基因座,367个表型,其中6573个基因座与257个田间性状相关(补充表6)。研究了四大类表型,即产量、株型、对生物和非生物胁迫的耐受性以及代谢物多样性。补充表7提供了在之前的GWAS分析中发现的与这些性状相关的基因列表。虽然这些基因中的大多数尚未经过实验验证,但它们在未来的研究和育种应用中具有潜力。
2.1 产量
产量相关性状具有重要的经济意义,因此得到了广泛的研究。通过GWAS已经鉴定出许多与产量相关的重要基因座。例如,与大豆种子重量相关的QTL区域已经被定位在qSW位点。Si等人(2016)和Yu等人(2017)发现了植物特异性转录因子OsSPL13和APETALA2/乙烯响应元件结合蛋白ERF125的基因编码,这些基因控制水稻的粒长并提高产量。Ma等人(2019)发现了另一个控制水稻粒大小的基因OsSNB,该基因的突变可导致稻粒长度、宽度和重量的增加。转录因子在作物产量性状中起着重要的作用。例如,MYB转录因子与水稻粒重有关,而含有两个生长素反应因子编码基因的区域与木薯的储存根重有关。此外,还发现ARF18和核糖体再循环因子基因与油菜籽的种子重量和鞘长有关。在苦荞(Fagopyrum tataricum)中,编码AP2转录因子和色氨酸氨基转移酶相关蛋白的基因分别被确定为影响种子重量和种子大小的候选基因。同样,AP2转录因子与棉花产量性状相关,AP2/ERF编码基因被鉴定具有棉绒产量增加、单株铃数增加和种子指数降低作用。研究发现WRKY、bZIP和NAC转录因子与蓖麻种子大小有关。参与泛素化的基因也与产量性状有关。含有编码泛素偶联酶E2基因的区域与大豆和亚麻种子的产量相关性状相关。研究发现,在油菜(B. juncea)和菜豆中,细胞色素基因常与种子重量相关。
基于代谢物的GWAS (mGWAS)越来越受欢迎,因为它能够分析多种代谢物,再加上作物重测序,它能够识别与风味、营养和生物活性底物丰度相关的位点。mGWAS在研究叶类蔬菜、水果作物和药用植物方面特别有用。第一个mGWAS研究是在A. thaliana中进行的,其中研究了43种代谢物,包括单个硫代葡萄糖苷(GSL)次级代谢物的含量及其比例,从而确定了GSL变异的两个位点。此后,mGWAS被广泛应用于园艺作物的研究,包括苹果(Malus)和番茄(S. lycopersicum)。
糖含量也被广泛研究,发现蔗糖合酶和棉子糖合酶与西瓜果肉甜味有关。在葡萄中发现了与蔗糖和酸含量以及12种芳香化合物相关的基因座,而在苹果中发现了与可溶性糖含量、苹果酸和柠檬酸积累相关的基因座。蔬菜和水果的风味和味道通常与挥发性化合物有关。在一项番茄研究中,通过GWAS发现了251个位点与20个性状相关,其中包括4个非挥发性和15个挥发性风味化合物。在一项关于蓝莓的研究中,有几个SNPs被报道与挥发性化合物有关,包括芳樟醇linalool、D -柠檬烯D-limonene,和桉树醇eucalyptol。梨中石细胞的丰度与12个位点有关,其中几个基因与木质素调控有关。对442个番茄葡萄品种进行综合代谢分析,结合基因组关联分析,鉴定出3526个与514种代谢物相关的位点,其中包括351个未鉴定的位点。在同一项研究中,对基因组变异与转录组变异之间的关系进行了分析,结果分别鉴定出2566个cis-eQTLs和93587个trans- eQTLs,分别对应2566个和2461个基因。此外,基因组变异还与其他分子相关,包括蛋白质和矿物质。虽然到目前为止只有少数基因座被确定与小分子有关(补充表6),但对富含具有潜在制药或工业价值的二级化合物的药用植物的持续研究投资会扩大候选植物列表。
3.基因组辅助育种
通过基因组重测序研究鉴定基因组变异为育种和作物改良提供了宝贵的资源。这些DNA序列变异可以用来引入特定的等位基因,预测杂交性能,并设计更有效的育种策略。例如,将OsTCP19单倍型H (OsTCP-H)引入两个优秀水稻品种,在低氮和中氮条件下增加了分蘖数。Varshney等人(2021)对3000多份鹰嘴豆进行了重测序,发现了80%的育种系中缺失的24个一致且稳定的优质单倍型,并帮助选择了56个供系用于育种。重测序数据可以帮助预测杂交性能。一个用于预测珍珠粟产量的模型确定了170个有价值的杂交组合,其中11个原本性得到改善,另外159个表现出未来可期的潜力。同样,使用GWAS衍生的SNPs训练的模型能够预测菠菜的白锈病抗性,仅使用40个SNPs就能够实现高于0.75相关性的预测。在最近的一项玉米研究中,环境变量被整合到模型中,以准确预测不同条件下整个欧洲的玉米产量。Wei等人(2021b)开发了RiceNavi,这是一个由三个主要模块组成的硅育种系统:RiceNavi- qtnpick, -Sim和-SampleSelect。该系统使样本选择,育种设计和计算优化,允许精确的渗入目标基因型在短时间内,同时减少连锁阻力。虽然RiceNavi的能力和效率已经在水稻上得到了证明,但其他作物仍然需要更复杂的系统。植物基因组重测序数据为训练性能预测模型和开发先进的生信育种系统提供了具有相当价值的基础资源,可以显著加快作物育种计划。
河北丰宁草种业科技小院
培养单位:中国农业大学
联合培养单位:承德鱼儿山承垦农业发展有限公司
版权所有 全国农业专业学位研究生教育指导委员会 版权所有 Copyright © All Rights Resserved 京ICP备 05004632号-3
2000年拟南芥基因组的发表标志着植物基因组学的一个重要里程碑,预示着植物研究新时代的开始。从那时起,700多个植物基因组的测序和组装,彻底改变了人们对植物生物学的理解,促进了性状遗传学和作物改良方面的突破性发现。
随着参考基因组组装的完成,基因组重测序计划探索了植物群体的遗传多样性。最初,DNA测序的高成本给这些计划带来了挑战。例如,1001基因组计划的第一项研究使用Illumina技术仅对拟南芥(A. thaliana)的三个生态型进行了测序,即参考(Col-0)和另外两个(Bur-0和Tsu-1),覆盖范围从15到20倍。尽管存在这些限制,将这些短读段与参考基因组序列(Col-0)比对,仍能够鉴定出823325个单核苷酸多态性(SNPs)。随着成本的降低,全基因组重测序的规模已经扩大,可以在更大的群体中表征遗传变异。将基因组重测序与表型测量(如作物产量、植株高度和代谢物丰度)相结合,有助于检测这些性状的基因座,植物基因组重测序极大地增强了我们对作物驯化、植物适应和进化的理解,以及鉴定有价值性状的位点。
全基因组变异图谱的构建促进了标记辅助选择和基因组选择方法,并加速作物改良。这些进步背后的驱动力是DNA测序数据的增长,通常伴随着结构化的基于家族系谱的群体比对的构建,以及最近机器学习方法在性状关联中的应用。长读长DNA测序技术(如PacBio HiFi和Nanopore)的发展使得捕获更广泛的复杂结构变异(SVs)和重复区域成为可能,这推动了植物基因组研究的界限。
1.全基因组重测序:从模式生物到分类多样性
随着DNA测序成本的持续降低,全基因组重测序项目发展迅速(图1A)。迄今为止,已经报道了187种植物的基因组重测序(图1B;补充表1)。在这些重测序研究中,葡萄(Vitis vinifera)材料的数量达到了3525个的峰值,鹰嘴豆基因组计划完成后,鹰嘴豆(Cicer arietinum)材料达到3366个,水稻(Oryza sativa)3010个,大豆(Glycine max)材料2898个。这些大规模的重测序努力促进了几乎完整的SNP图谱的产生,包括罕见的等位基因。最初基因组重测序研究主要集中在模式植物和二倍体小型基因组的作物上,如在各自的高质量参考基因组图谱发布后,在水稻和番茄(Solanum lycopersicum)开展的重测序(图1A;补充视频1)。具有更大和更复杂基因组的植物重测序面临着更高成本和高计算要求的挑战。然而,尽管存在这些限制,参考基因组序列完成后不久,对具有大而复杂基因组的植物的群体基因组研究就出现了。例如,2018年六倍体小麦(Triticum aestivum)参考基因组公布后,2019年和2020年发表了几项小麦重测序研究。随着成本的下降,正在为不太主流的作物构建基因组和泛基因组参考,包括高粱(Sorghum bicolor L.)、木豆(Cajanus cajan L.)和香蕉(Musa spp.)。测序技术和组装算法更先进的发展能够管理复杂的基因组,包括杂合和多倍体基因组,预计将进一步扩大重测序物种的数量,并发表更多高质量的参考基因组组装。
图1 | 重测序植物种群的时间进展和系统发育分布。(A)重新测序种群基因组规模变化。数据点大小反映对应物种的基因组大小。(B)植物种群重测序的系统基因组分布与综述。堆叠直方图描述具有参考基因组组装物种的累积情况,每个分类顺序的重测序物种数量用橙色条表示。随附的箱形图描述了重测序物种的基因组大小和种群大小的范围。(C)具有参考基因组组装的物种数量以及每个家族中具有重测序种群的物种的数量。每个科中重测序的物种数量用橙色条表示。
2.基因组-性状关联研究
DNA重测序技术的进步使研究者在作物中快速发现SNPs,促进多种重要性状相关的基因或位点的鉴定,从而增强对这些作物的了解并加速了它们的育种(图3)。通过全基因组关联研究(GWASs),确定与特定性状相关的区域。除了与气候适应相关的位点外,部分基因组区域也被报道与田间性状相关,如氮利用率、产量构成要素和代谢物含量。从38种作物中共鉴定出8332个基因座,367个表型,其中6573个基因座与257个田间性状相关(补充表6)。研究了四大类表型,即产量、株型、对生物和非生物胁迫的耐受性以及代谢物多样性。补充表7提供了在之前的GWAS分析中发现的与这些性状相关的基因列表。虽然这些基因中的大多数尚未经过实验验证,但它们在未来的研究和育种应用中具有潜力。
2.1 产量
产量相关性状具有重要的经济意义,因此得到了广泛的研究。通过GWAS已经鉴定出许多与产量相关的重要基因座。例如,与大豆种子重量相关的QTL区域已经被定位在qSW位点。Si等人(2016)和Yu等人(2017)发现了植物特异性转录因子OsSPL13和APETALA2/乙烯响应元件结合蛋白ERF125的基因编码,这些基因控制水稻的粒长并提高产量。Ma等人(2019)发现了另一个控制水稻粒大小的基因OsSNB,该基因的突变可导致稻粒长度、宽度和重量的增加。转录因子在作物产量性状中起着重要的作用。例如,MYB转录因子与水稻粒重有关,而含有两个生长素反应因子编码基因的区域与木薯的储存根重有关。此外,还发现ARF18和核糖体再循环因子基因与油菜籽的种子重量和鞘长有关。在苦荞(Fagopyrum tataricum)中,编码AP2转录因子和色氨酸氨基转移酶相关蛋白的基因分别被确定为影响种子重量和种子大小的候选基因。同样,AP2转录因子与棉花产量性状相关,AP2/ERF编码基因被鉴定具有棉绒产量增加、单株铃数增加和种子指数降低作用。研究发现WRKY、bZIP和NAC转录因子与蓖麻种子大小有关。参与泛素化的基因也与产量性状有关。含有编码泛素偶联酶E2基因的区域与大豆和亚麻种子的产量相关性状相关。研究发现,在油菜(B. juncea)和菜豆中,细胞色素基因常与种子重量相关。
基于代谢物的GWAS (mGWAS)越来越受欢迎,因为它能够分析多种代谢物,再加上作物重测序,它能够识别与风味、营养和生物活性底物丰度相关的位点。mGWAS在研究叶类蔬菜、水果作物和药用植物方面特别有用。第一个mGWAS研究是在A. thaliana中进行的,其中研究了43种代谢物,包括单个硫代葡萄糖苷(GSL)次级代谢物的含量及其比例,从而确定了GSL变异的两个位点。此后,mGWAS被广泛应用于园艺作物的研究,包括苹果(Malus)和番茄(S. lycopersicum)。
糖含量也被广泛研究,发现蔗糖合酶和棉子糖合酶与西瓜果肉甜味有关。在葡萄中发现了与蔗糖和酸含量以及12种芳香化合物相关的基因座,而在苹果中发现了与可溶性糖含量、苹果酸和柠檬酸积累相关的基因座。蔬菜和水果的风味和味道通常与挥发性化合物有关。在一项番茄研究中,通过GWAS发现了251个位点与20个性状相关,其中包括4个非挥发性和15个挥发性风味化合物。在一项关于蓝莓的研究中,有几个SNPs被报道与挥发性化合物有关,包括芳樟醇linalool、D -柠檬烯D-limonene,和桉树醇eucalyptol。梨中石细胞的丰度与12个位点有关,其中几个基因与木质素调控有关。对442个番茄葡萄品种进行综合代谢分析,结合基因组关联分析,鉴定出3526个与514种代谢物相关的位点,其中包括351个未鉴定的位点。在同一项研究中,对基因组变异与转录组变异之间的关系进行了分析,结果分别鉴定出2566个cis-eQTLs和93587个trans- eQTLs,分别对应2566个和2461个基因。此外,基因组变异还与其他分子相关,包括蛋白质和矿物质。虽然到目前为止只有少数基因座被确定与小分子有关(补充表6),但对富含具有潜在制药或工业价值的二级化合物的药用植物的持续研究投资会扩大候选植物列表。
3.基因组辅助育种
通过基因组重测序研究鉴定基因组变异为育种和作物改良提供了宝贵的资源。这些DNA序列变异可以用来引入特定的等位基因,预测杂交性能,并设计更有效的育种策略。例如,将OsTCP19单倍型H (OsTCP-H)引入两个优秀水稻品种,在低氮和中氮条件下增加了分蘖数。Varshney等人(2021)对3000多份鹰嘴豆进行了重测序,发现了80%的育种系中缺失的24个一致且稳定的优质单倍型,并帮助选择了56个供系用于育种。重测序数据可以帮助预测杂交性能。一个用于预测珍珠粟产量的模型确定了170个有价值的杂交组合,其中11个原本性得到改善,另外159个表现出未来可期的潜力。同样,使用GWAS衍生的SNPs训练的模型能够预测菠菜的白锈病抗性,仅使用40个SNPs就能够实现高于0.75相关性的预测。在最近的一项玉米研究中,环境变量被整合到模型中,以准确预测不同条件下整个欧洲的玉米产量。Wei等人(2021b)开发了RiceNavi,这是一个由三个主要模块组成的硅育种系统:RiceNavi- qtnpick, -Sim和-SampleSelect。该系统使样本选择,育种设计和计算优化,允许精确的渗入目标基因型在短时间内,同时减少连锁阻力。虽然RiceNavi的能力和效率已经在水稻上得到了证明,但其他作物仍然需要更复杂的系统。植物基因组重测序数据为训练性能预测模型和开发先进的生信育种系统提供了具有相当价值的基础资源,可以显著加快作物育种计划。
版权所有 全国农业专业学位研究生教育指导委员会
版权所有 Copyright © All Rights Resserved
京ICP备 05004632号-3