一个新的、巨大的全人类家谱试图总结今天所有人类与彼此以及与我们远古祖先的关系。
根据周四(2 月 24 日)发表在《科学》杂志上的一项新研究,为了建立这个家谱或家谱,研究人员筛选了从现代和古代人类以及古代人类亲属收集的数千个基因组序列。这些基因组来自分布在世界各地的 215 个种群。使用计算机算法,该团队揭示了这些序列中不同的遗传变异模式,突出了它们匹配的位置和不同的位置。基于这些模式,研究人员绘制了基因组之间的理论血统线,并了解了这些人的共同祖先可能携带的基因变体或等位基因。
除了绘制这些家谱关系之外,该团队还估计了测序个体的共同祖先在世界上的居住地。他们根据采样基因组的年龄和每个基因组的采样位置估计了这些位置。
“我们估计祖先居住地的方式尤其是非常初步的,”第一作者安东尼怀尔德沃恩斯说,他在研究时是牛津大学大数据研究所的博士生。尽管存在局限性,但这些数据仍然捕捉到了人类进化史上的重大事件。例如,“我们肯定看到了非洲外事件的压倒性证据”,这意味着智人最初从东非扩散到欧亚大陆及其他地区,Wohns 说,他现在是麻省理工学院布罗德研究所的博士后研究员,哈佛。
伦敦大学学院遗传学、进化与环境系副教授 Aida Andrés 说,研究人员使用的方法“可以很好地改进已知的祖先位置,并且随着采样的改进,它有可能识别当前未知的人类运动” (UCL) 遗传学研究所和 UCL 遗传学研究所的博士生 Jasmin Rees 在一篇评论中写道,该评论也在周四发表在《科学》杂志上。因此,在未来,当更多数据可用时,此类分析可能会揭示我们目前未知的人类历史章节。
构建人类家谱
为了建立统一的人类谱系,研究人员首先汇集了来自几个大型公开数据集的基因组数据,包括 1000 基因组计划、人类基因组多样性计划和西蒙斯基因组多样性计划。从这些数据集中,他们收集了大约 3,600 个现代人类的高质量基因组序列;根据《自然生物技术》杂志 2018 年的一份报告,“高质量”基因组序列是指那些间隙或错误非常少的基因组序列,它们在很大程度上是以正确的顺序组装而成的。
Wohns 说,来自古代人类的高质量基因组更难获得,因为来自古代标本的DNA往往会被严重降解。然而,在挖掘先前发表的研究时,该团队设法找到了八个高质量的古代人类基因组,并将其包含在他们的树中。其中包括三个尼安德特人基因组,一个被认为超过 10 万年;大约 74,000 至 82,000 年的丹尼索瓦人基因组;以及大约 4,600 年前生活在俄罗斯阿尔泰山脉的一个核心家族的四个基因组。(尼安德特人和丹尼索瓦人是智人的已灭绝亲属。)
Wohns 说,除了这些高质量的古代基因组之外,该团队还确定了 3500 多个额外的、质量较差的基因组,这些基因组具有显着退化,从几百年到几千年不等。
这些退化的基因组并未纳入主要的建树分析,但研究小组筛选了这些片段,以查看可以在样本中识别出哪些孤立的等位基因。这些零碎的数据帮助研究人员确认了不同等位基因何时首次出现在系谱记录中,因为基因组来自的标本已经过放射性碳年代测定。
安德烈斯和里斯在一份联合声明中告诉 Live Science,古代基因组提供了“过去遗传多样性的独特快照”,这有助于揭示遗传变异首次出现的时间和地点,以及此后如何传播。“虽然这项研究没有将低质量的古代基因组整合到树的构建中,但使用它们来告知树中变体的年龄对于这些方法仍然很有效,并有望在未来取得许多令人兴奋的进展。”
Wohns 和他的同事们使用这些数据来仔细检查他们家谱中概述的血统线在时间上是否有意义——而且在大多数情况下,他们确实如此。
Wohns 说:“看到……超过 90% 的时间,我们与考古学家可以用放射性碳测年的样本保持一致,这令人非常欣慰。” “但是,你知道,这些遗传变异中有 5[%] 或 10% 的估计值不一致”,根据考古记录的相互矛盾的结果和他们的造树算法做出的估计,它们首次出现的时间是不一致的,他指出。他说,在这些情况下,该团队调整了他们的树,以反映可以通过放射性碳测年确认的时间。
虽然它仅基于几千个基因组样本,但该团队的最终家谱“实际上捕获了很多关于全人类的家谱,”Wohns 说。使用这棵树作为脚手架,该团队随后进行了地理分析,以了解其抽样种群的理论祖先可能居住的时间和地点。他说,由此,他们不仅发现了非洲外迁徙的明确证据,而且还发现了智人与现已灭绝的原始人(例如丹尼索瓦人)之间相互作用的潜在证据。
例如,他们的研究结果表明,现代人类的祖先可以在大约 28 万年前在巴布亚新几内亚找到,比该地区现代人类居住的最早已知证据早了数十万年。这并不一定表明智人实际上在很久以前就占领了该地区,“但它确实可能表明存在一些仅在该地区发现的遗传变异,并表明那里有一个在其他地方没有发现的非常深厚的祖先,“ 他说。
这种独特的祖先可能源于现代人类与丹尼索瓦人的繁殖,正如《细胞》杂志 2019 年的一份报告中所暗示的那样,该报告发现了现代人类与多个丹尼索瓦人群体杂交的基因组证据。
安德烈斯和里斯在评论中写道:“这项研究中产生的树木无疑将证明对那些研究人类进化的人有用”,但用于构建上述树木的方法和数据“并非没有局限性”。他们在一封电子邮件中告诉 Live Science,一个限制是大多数基因组测序是在欧亚人群中进行的,因此尽管这项新研究纳入了数千个现代基因组,但数据可能无法完全捕捉到全球遗传多样性。“进一步整合代表性不足的人群将继续解决这一限制,”他们说。
“这些估计存在很多不确定性,”Wohns 谈到该团队最近的结果时说。“除非我们拥有每个曾经生活过的人的基因组,以及他们生活的地点和时间,否则这是我们获得真相的唯一途径。” 他说,该团队根据手头的数据尽可能地重建了人类历史,但有了更多的基因组样本和更复杂的软件,这棵树肯定可以得到改进。
“我们创建的方法的好处是它们可以处理数百万个样本,”Wohns 说。“所以,随着我们有更多的数据,我们会得到更好的估计。”
Wohns 说,他现在正致力于开发新的机器学习算法,以改进团队对我们祖先生活的地点和时间的估计。在一个单独的项目中,他计划采用相同的造树方法来更好地了解人类疾病的遗传基础。他的目标是通过查明与疾病相关的等位基因的起源点,然后重建这些基因变异如何以及何时在不同人群中传播来做到这一点。
他补充说,同样的造树方法也可以用来追踪其他生物的进化历史,比如蜜蜂或牛,甚至是病毒等传染源。
“树木记录方法的力量和分辨率有望帮助澄清人类和其他物种的进化历史,”安德烈斯和里斯在他们的评论中写道。“很可能,推断未来进化史的最有力方法将在这些方法中牢固地建立基础。”