物种的快速、准确鉴定是生物多样性研究的一大挑战。近十多年来,DNA条形码技术的引入,在很大程度上缓解了这一问题。基于2-3个质体片段和核糖体ITS序列的植物标准条形码(一代条形码)在植物物种鉴定和隐存种的发现中发挥了重要作用,极大地推动了生物多样性与进化的研究。然而,一代条形码在不同类群中分辨率差异较大,在很多木本植物类群中鉴定率不高。基因组浅层测序技术可以获得全质体基因组和核基因组的核糖体DNA(nrDNA)序列,被认为是提升物种鉴定率的有效手段,但仍鲜有研究探讨该技术在实际应用中能多大程度以及如何提高物种鉴定率。
杜鹃花属(Rhododendron)是中国种子植物最大属,约有590种,占全球该属植物约60%的物种多样性。喜马拉雅-横断山区是杜鹃属植物的起源和分化中心之一,分布有320多种,其中约66%为该区域特有种。快速辐射演化、种间杂交、多倍化等导致其物种的准确鉴定非常困难,杜鹃花属被认为是最困难的植物类群之一。近期,中国科学院昆明植物研究所高连明团队和李德铢团队与英国爱丁堡皇家植物园Peter Hollingsworth合作,对主要分布于喜马拉雅-横断山区的杜鹃花属植物进行了广泛取样,获得了145个物种218个个体的浅层基因组数据,用来探究基因组浅层测序技术在杜鹃花属物种鉴定中的应用。
研究结果表明,在杜鹃花属中,基于ITS + matK + rbcL + trnH-psbA组合的一代条形码序列的最高物种鉴定率仅为33%;而基于基因组浅层测序获得的质体基因组和nrDNA序列能够成功鉴定55%的物种,物种鉴定率提升了22%。物种鉴定率显著提升的主要原因是质体基因组序列能够提供更多的信息。虽然以前有研究认为3-4个质体基因组片段就能达到鉴定成功的渐近线,但该研究发现更多的基因组数据仍然可以显著的提升杜鹃花属这样困难类群的物种鉴定率。随着基因组浅层测序技术的成熟和价格降低,该技术与一代条形码相比,能够更好的应用于像杜鹃花属这样分类困难的类群。而且,由于质体基因组和nrDNA数据可以很好的兼容之前的一代条形码数据,该方法可以作为标准条形码的扩展和升级,并丰富标准条形码的参考数据库。此外,即使基于基因组浅层测序数据,杜鹃花属仍有很多物种不能成功鉴定,造成杜鹃花属物种鉴定率较低的主要因为该类群发生过辐射演化,大量物种在较短的地史时期形成,加上物种间的自然杂交和渐渗频繁发生等。据此,该研究再次强化了核基因组数据在物种鉴定中的重要性。
该研究成果以“Testing genome skimming for species discrimination in the large and taxonomically difficult genus Rhododendron”为题在线发表于国际主流期刊Molecular Ecology Resources上。付超男博士和已毕业研究生莫智琼为论文第一作者,高连明研究员、李德铢研究员和爱丁堡植物园Peter Hollingsworth教授为论文通讯作者。该研究获得到了中国科学院大科学装置开放项目(2017-LSFGBOWS-02)、国家自然科学基金(31670213,91631101)、云南省科技人才培养计划(2017HA014)、中国科学院战略先导专项(XDB31000000)和中国科学院特别研究助理资助项目(E0295111Q1)的资助。
图1 基于质体基因组数据建立的杜鹃属物种最大似然树。背景颜色代表杜鹃属的8个组,分支颜色代表支持率范围。