文献阅读记录
Chemistry-informed deep learning model for predicting stereoselectivity and absolute configuration in asymmetric hydrogenation 项目本地位置:{/home/koalasinh/DeepLearning/others/ChemAHNet}
# 第一次的问题
> 理解:
这篇文献主要做了这样的工作: 1.整理了 9478 个烯烃不对称反应的数据集(通过某些限定条件,用 llm 或手动或专家模型来从大数据集中筛选而来),列名为:“nnamed: 0,Reactant SMILES,Product SMILES,Solvent SMILES,Additive SMILES,Metal,Ligand SMILES,Catalyst SMILES(RDKit),Pressure/atm,Temperature/C,S/C,Conv.,Yield,ddG,ee,Scaffold type,Multi-scaffold type,Dihedral Tag,Match Pattern,Match Pattern Back,Match Index,Olefin Type,DOI,Metal_SMILES,reaction_SMILES,reac_SMILES,atom_map,reaction_site_pairs,product_with_mapping,product_without_mapping,FALSE,Target_pred,Pred,TARGET,Label,Catalyst SMILES”,从能看出来,烯烃不对称反应的数据集包含了反应物、产物、溶剂、添加剂、金属、配体、催化剂等信息,以及反应条件如压力、温度、转化率、产率等数据。 2.设计了一个模型框架,强调烯烃双键、官能团和催化金属中心之间的相互作用模式
> 问题:
1.SHAP 是什么意思
2.为什么构建的数据集里 Catalyst SMILES 分别用两种表示法(有无括号里的 RDKit),数据集里的 conv 和 ddg 是什么意思,我在源代码里也看见了 ddg。
3.双手性中心是什么意思,为什么常见的模型不能很好地处理双手性中心?我在 smiles 里看到有@符号,这个符号是不是表示手性中心?如果是的话,@和@@分别表示什么意思?,我看见有的 smiles 式里有 4 个@难道说是 4 个手性中心吗?
4.文中提到的 R/S 构型和绝对构型是什么意思?立体中心和手性中心是一个概念吗?立体选择性和对映选择性一样吗?为什么本文的模型同时预测立体选择性和绝对构型呢,这两者有什么关联吗?
5.本文提到 R/S 标记手性是传统的,但是本文用了一种新的标记方法,说是根据催化剂和底物的相互作用来标记手性(上催化剂和下催化剂),这种方法具体是怎么做的?有什么优势?与 CIP/ SIP 标记法有什么区别?
6.数据集里这些反应的这些特征是怎么得到的?本文说是仅仅只用分子的 smiles 式输入,就能捕捉分子内原子的空间和电子信息,就是这样得到的吗?具体怎么操作呢?# 第二次的问题
> 理解:
> 问题:
1.SHAP 与 umap、tsne、PCA、svd、mds 等降维方法有什么区别和联系?又与 rf、lasso 等特征选择方法有什么区别?
2.为什么构建的数据集里 Catalyst SMILES 分别用两种表示法(有无括号里的 RDKit,如果 RDKit 是规范化后的,为什么两种都保留下来了呢?)
3.文中说常见的模型不能很好地处理双手性中心具体是怎样的表现呢:是单纯表现为对对映选择性的预测准确率低吗?
4.文中提到的 R/S 构型是怎样在数据集里表现出来的呢?我只在 smiles 里看到了@标记,但怎样看哪个是 R 哪个是 S 呢?# 第三次的问题
1.本文预测的是相互作用模式,而标记手性的方法也是基于相互作用模式,这样是不是有点 circular reasoning 了?
2.烯烃不对称加氢反应的反应机理是怎样的?本文提到的空间位阻和电子环境具体是指什么?
3.前手性和后手性是什么意思?为什么前手性和后手性会影响对映选择性?反应前后为什么从前手性中心变成了前手性面,每个催化反应都有底物和与之分为上下交互作用的催化剂吗?
4.图 1c 里的 1234 表示的组优先顺序是什么意思?其中中间的图下方的烯烃有一个 R 基意思是要么是红色要么是灰色吗?为什么两种颜色又各分为两个东西,那两个东西是什么意思?
5.为什么相互作用模式只考虑底物与催化剂的,而不考虑其他两者之间的呢?底物是什么东西?是 base 吗?
6.图 1d 中左右两个结构式是什么意思呢?这个图意思是:0/1 标记法能识别左右的两种,但 R/S 标记法只能识别左边的吗?中间的两种公式是构型计算 ddg 的吗?这个公式似乎与物理化学中的某个公式有点相似,但本公式能直接计算吗,还是只是个假公式呢?# PPT 构思
1. 研究背景和现有挑战:说明不对称氢化 AHO 是怎样重要的反应类型,反应通式是怎样的,为什么预测立体选择性和绝对构型很重要
- 图 1a:不对称氢化反应的示意图:
一:AHO:2001 年获得诺贝尔奖,减少了实验时间并降低了药物生产成本,选择合适的催化剂以及优化复杂的反应条件非常重要,其中四取代烯烃的不对称加氢尤其具有挑战性,因为空间位阻和复杂的电子环境阻碍了精确的立体化学控制。AHO 代表了一类对 AI 预测具有挑战性的反应,需要准确识别底物到产物的非对称转化(绝对构型预测)以及精确预测对映选择性。
二:不对称催化的模型开发中有三个主要挑战:1.预测能力仅限于特定的底物‐催化剂对或结构类似衍生物,需要针对特定情况的模型。2.在处理生成两个手性中心的反应时遇到困难,因为传统的 R/S 构型无法充分区分这些对映异构产物。3.依赖于量子化学描述符,这些描述符计算成本高且难以扩展。
- 图 1b:
一:强调烯烃双键、官能团和催化金属中心之间的相互作用模式,对于具有双手性中心的反应,有助于解决 R/S 系统以及构型顺序的分类复杂性
二:集成了三个模块——基团识别模块( MoIM)、反应组分整合模块(RCIM)和分子相互作用模块( MIM)——以捕获化学相关特征
2. ai 模型预测的挑战:手性识别和双手性位点不对称氢化中的挑战,除了这两个挑战还有什么
- 图片:图 1c,图 1d
3. 数据集:
- 从洪鑫课题组整理的 2000-2020 年间的文献数据 (12,619 条)中# 第四次的问题
1. 图 1b 中的机理具体是怎样的?烯烃的前手性中心+金属催化剂+氢气,反应后得到附着在金属催化剂上的硫化氢,以及变成前手性面的烯烃吗?图片底下的部分意思是:前手性面的烯烃+催化剂得到两种产物?:分别是上催化剂烯烃得到上氢产物,下催化剂烯烃得到下氢产物?
2. 图 1c 中为什么 4 种 1234 里,有两种样子的烯烃呢?一种是正四面体?另一种是桥式?这是什么意思?# 第五次的问题
1. 输入的 smiles 式是用.作为分隔,以“反应物.溶剂.催化剂”的顺序拼接的吗?只是这样一个 smiles 式吗?
2. 构建的 9478 个反应的数据集中所有列的值都被使用到了吗?
3. 本文的模型性能评估只包含:“对映选择性预测任务下的三个模块的消融实验”“绝对构型的回归预测任务下的三个模块的消融实验”以及“denmark 数据集下的对映选择性回归预测任务的跑分(r2)”这三部分吗?# 第六次的问题
1. 在构建数据集时,“使用 RDKit 生成反应物和产物的二维结构,比较产物和反应物在手性位点的构象以确定相互作用模式”,这里具体是怎么操作的呢?其中使用 RDKIT 生成时,是用数据集里的“Reactant SMILES,Product SMILES”吗?然后怎样确定构象的呢,逐个用代码吗?还是用软件可视化比对?
2. 本文的预测任务只有这几种吗:“主要对映异构体预测”“立体选择性预测”“绝对构型预测”“对映选择性比率(e.r.)的预测”“denmark 的 1075 反应数据集的对映选择性任务预测”“有机催化共轭加成、光氧化还原催化反应和 有机催化烯胺反应”。我分不清前几种预测任务(主要对映异构体,立体选择性,对映选择性比率(e.r.),绝对构型)是什么意思,哪几种是一样的,分别是分类还是回归,绝对构型是怎样的表现形式、绝对构型不是一种样子吗、怎么作为目标的表现形式去预测的。
3. 外推能力是怎么测试的,基于配体和基于金属是什么意思?利用 SMILES 表示并学习原子和官能团级特征,实现了对多种烯烃加氢反应的立体选择性和绝对构型的可靠预测,通过原子级归因提供了可解释性
局限性:
- 虽然训练数据集多样,但仍偏向于文献中报道的研究充分的底物、催化剂和高非对映选择性值。这限制了模型在代表性不足的官能团和罕见骨架 (如磺酰基、膦酸酯或硅基取代基)上的性能。
- 缺乏明确的三维结构信息,限制了其捕捉构象灵活性和非共价相互作用的能力,而这些在不对称催化中也很重要
- 虽然基于 SHAP 的解释突出了化学上有意 义的区域,但它不能明确区分空间位阻和电子贡献,因此需要专家解 释才能将模型输出与机理原理联系起来
- 跨机理的不同的催化领域的泛化实验,需要使用更大、系统性地整理的外部数据集进行验证
展望:
- 通过扩展和平衡 包含代表性不足的反应类别和官能团的数据集,可以提高模型的鲁棒性
- 结合三维分子描述符、基于图的嵌入或受量子化学启发的特征可 以更好地捕获立体电子相互作用并提高回归性能
- 整合反应条件(如 温度、溶剂极性和压力)也将使预测应用更加真实
- 对 ChemAHNet 预测的实验验证,特别是在具有新型配体或金属的具有 挑战性的体系中,对于确认其在指导反应开发中的实用性至关重要
- 将跨域基准扩展到有机催化、酶催化和光氧化还原系统将测试该方法 的泛化能力
# 第七次的问题
1. 模型部分应该怎样用一段话进行串讲呢?请你仿照我的语言风格,帮我纠正并扩写优化后发给我完整版:“在 MOIM 模块中,是首先将输入的 SMILES 拼接为一个矩阵,然后以 3、5、7 的三种卷积核方式进行并行卷积,除此之外再针对不同卷积核捕获到的相邻嵌入进行足够多种卷积滤波器的组合,每种滤波器输出 Yi = Wi ∗ X + bi,每个输出单独进入到 RCIM 模块中在多头注意力层中进行并行缩放,RCIM 里的每个注意力模块都要处理三种 QKV 的输入(QKV 是注意力模块中公式的一部分关键参数?),并由输出的 QKV 得到与注意力加权后的特征后,由于反应依赖于特定的基团,我们捕捉反应物之间的相互作用,并选择最相关的特征来 预测底物‐催化剂相互作用,拼接所有特征,得到的整合了基团信息的 Yil 分子表示,再进入 MIM 中,进行卷积后再最大池化,然后通过全连接层或卷积层,通过残差连接与输入结合以增强试剂相互作用,同时,为确保维度一致性,在线性变换或捷径之前应用残差连接,生成的 Yresidual 通过全连接层进行最终预测:∆∆G‡ 值通过回归和 Softmax 进行 相互作用模式分类,生成 yclass”