化学家利用人工智能预测化学反应的未来
上海财经网【上海财经号】:
A.BartonHepburn化学教授AbigailDoyle带领来自普林斯顿大学和默克公司的一组研究人员开发了最先进的软件来预测最多四种组分变化时的反应产量。他们的软件旨在处理任何底物上的任何反应,使其成为加速新药合成的强大工具。
为了制造药物,化学家必须找到正确的化学物质组合来制造必要的化学结构。这比听起来更复杂,因为典型的化学反应使用几种不同的成分,并且涉及的每种化学物质都为计算增加了另一个维度。
德里克·阿内曼
DerekAhneman,2017年博士研究生,提议使用机器学习来模拟反应产率,同时修改四种不同的反应成分,这是一项比一次修改一个变量困难得多的努力。“一开始,我们就知道要克服许多挑战,”他说。“我们甚至不确定这是否可能。”
在理想情况下,化学家希望预测哪种化学品组合能够提供最高产率的产品并避免意外副产品或其他损失,但事实证明,预测这些多维反应的结果具有挑战性。
耶稣埃斯特拉达
Doyle实验室的研究生JesúsEstrada完成了使用“随机森林”机器学习方法预测化学产量的软件开发。
由普林斯顿大学A.BartonHepburn化学教授AbigailDoyle和默克研究实验室的SpencerDreher领导的一组研究人员找到了一种方法,可以通过应用人工智能称为机器学习。他们已将他们的方法转化为软件,供其他化学家使用。他们于2月15日在《科学》杂志上发表了他们的研究。
“我们开发的软件旨在适应任何反应或底物类型,”Doyle说。“这个想法是让某人应用这个工具,并希望在它的基础上进行其他反应。”
她说,大量的资源和时间被花费在制造合成分子上,而且通常是以一种临时的方式。使用这种新软件,化学家可以更便宜、更高效地识别化学品和底物的高产组合。
“我们希望这将成为加速新药合成的宝贵工具,”完成化学博士学位的DerekAhneman说。2017年在Doyle的实验室工作,并在IBM工作。
“其中许多机器学习算法已经存在了很长一段时间,”Doyle实验室的研究生JesúsEstrada说,他为这项研究和论文做出了贡献。“然而,在合成有机化学界,我们确实还没有利用机器学习提供的令人兴奋的机会。”
“作为化学家,我们传统上偏离了多维分析,”Doyle说。“我们一次只看一个变量,或者一系列底物的一组条件。”
当Ahneman告诉Doyle他想使用机器学习来解决多维问题时,她鼓励了他。“我总是——尤其是对我最有才华的学生——试着让他们在博士的最后一年自由发挥,”她说。“这是他向我提出的项目。”
Doyle和Ahneman着手在修改四种反应成分的同时模拟反应产率,这比一次修改一个变量要困难得多。
“一开始,我们就知道需要克服许多挑战,”Ahneman说。“我们甚至不确定这是否可能。”
他说,从历史上看,开发多维模型的一个障碍是收集足够的反应产率数据以建立有效的“训练集”。但最近,默克公司发明了机器人系统,可以在几天内运行数千次反应。
“我很高兴我们一起生成的数据质量非常高,而且他们能够创建有效的模型,”默克化学能力和筛选部门的首席科学家Dreher说。“希望我们可以继续开发这种方法,并减少我们对筛选的依赖,从而更快地制造出我们需要的设计分子。”
另一个挑战是计算每种化学物质的定量描述符以用作模型的输入。这些描述符通常是一个一个地计算出来的,这对于他们想要使用的大量化学组合来说是不切实际的。
他们通过编写使用现有程序Spartan的代码来计算并提取模型中使用的每种化学物质的描述符,从而克服了这一限制。
一旦他们有了定量描述符,他们就尝试了几种统计方法。首先,他们使用行业标准线性回归,但发现它无法准确预测反应产率。然后,他们探索了多种常见的机器学习模型,发现一种称为“随机森林”的模型提供了惊人准确的产量预测。
随机森林模型的工作原理是从训练数据集中随机选择小样本,并使用该样本构建决策树。然后,每个单独的决策树预测给定反应的产率,然后将结果在树中取平均值以生成总体产率预测。
当研究人员发现使用随机森林时,另一个突破出现了,“可以使用'仅'数百个反应(而不是数千个)的结果准确预测反应产率,这是一个没有机器人的化学家可以自己完成的数字,”Ahneman说。
“Doyle教授和她的合作者以巧妙的方式应用人工智能来解决简单线性模型无法很好处理的问题,”威斯康星大学麦迪逊分校数学和生物化学教授JulieMitchell说,她并未参与该项目。这个调查。“在化学空间中,微小的变化会产生戏剧性的结果,而这种现象可以更好地被他们的随机森林模型捕捉到。”
Doyle的团队还发现,随机森林模型可以预测未包含在训练集中的化合物的产量。
“所使用的技术完全是最先进的,”巴黎科学与文学大学计算生物学中心的机器学习研究员Chloé-AgatheAzencott说,他没有参与这项研究。“论文中的相关图非常好,我认为我们可以设想在未来依赖这些预测,这将限制对昂贵的实验室实验的需求。”
“这些结果令人兴奋,因为它们表明这种方法可用于预测从未制造过起始材料的反应的产率,这将有助于最大程度地减少制造费时的化学品的消耗,”Ahneman说。“总的来说,这种方法有望(1)使用尚未制成的起始材料预测反应的产率,以及(2)预测与已知起始材料和产物反应的最佳条件。”
Ahneman完成学位后,Estrada继续研究。Doyle说,我们的目标是创建不仅像Ahneman和Estrada这样的计算机专家而且更广泛的合成化学社区都可以访问的软件。
她解释了该软件的工作原理:“你画出结构——起始材料、催化剂、碱——软件将找出所有这些结构之间的共享描述符。那是你的输入。结果是反应的产率。机器学习将所有这些描述符与产量相匹配,目标是你可以放入任何结构,它会告诉你反应的结果。
“我们的想法是帮助人们在无法凭直觉判断结果的多维空间中导航,”Doyle说。
DerekAhneman、JesúsEstrada、ShishiLin、SpencerDreher和AbigailDoyle的论文“使用机器学习预测C-N交叉偶联的反应性能”于2月15日发表在《科学》杂志上。普林斯顿大学、安进青年研究者奖和Camille-Dreyfus教师学者奖提供了财政支持。