Home

我的第一个深度学习大作业

开始于 2025 年 12 月 28 日晚 22:18,预计用时一天完成

作业要求

格式如下:

  • 摘要
  • 绪论(研究内容和意义)
  • 注意在绪论第一段指出大作业与深度学习的关联!!
  • 相关工作(与研究内容直接相关的算法/参考文献)
  • 正文(所设计算法细节和流程,自己设计的算法指明创新点)
  • 实验(实验数据集,实验评测协议,实验结果)
  • 结论
  • 参考文献

注意:参考文献不少于 10 个,注意在文中正确引用(切勿出现只列参考文献,不在文中引用的情况!),参考文献格式注意统一即可。双栏,6-10 页

选题

我打算用自己开学以来复现过的 2 个模型:随机森林和 GNN,来作为这个大作业的 base model,尝试在 denmark 数据集上进行改进和提升。 但是我不知道该数据集的来源是哪里,

规划

必须引用的文献:

#denmark组的源文献
1. Andrew F. Zahrt et al. ,Prediction of higher-selectivity catalysts by computer-driven workflow and machine learning.Science363,eaau5631(2019).DOI:10.1126/science.aau5631
2. Cautionary Guidelines for Machine Learning Studies with Combinatorial Datasets(表明不可以random split)https://pubs.acs.org/doi/10.1021/acscombsci.0c00118
#也用了denmark数据集的文献
3.Reaction performance prediction with an extrapolative and interpretable graph model based on chemical knowledge洪鑫用了3个却没用product的denmark数据集

#计算机领域的KAN文献
4. Liu, Z. et al. KAN: Kolmogorov–Arnold networks. In Proc. 13th International Conference on Learning Representations 24–28 (OpenReview, 2025).
#KAGNN文献
5. Li, L., Zhang, Y., Wang, G. et al. Kolmogorov–Arnold graph neural networks for molecular property prediction. Nat Mach Intell 7, 1346–1354 (2025). https://doi.org/10.1038/s42256-025-01087-7
#赵师兄的两篇文献
6.Designing buchwald–hartwig reaction graph for yield prediction
7.Predicting the yield of pd‐catalyzed buchwald–hartwig amination using machine learning with extended molecular fingerprints and selected physical parameters
8.化学与人工智能的交汇时刻:综述与展望
9.log-RRIM: Yield Prediction via Local-to-Global Reaction Representation Learning and Interaction Modeling
10.基于机理认识的数据驱动式反应对映选择性预测研究

数据集

#Buchwald–Hartwig数据集的源文献
Ahneman, D. T.; Estrada, J. G.; Lin, S.; Dreher, S. D.; Doyle, A. G. Predicting Reaction Performance in C–N Cross-Coupling Using Machine Learning. Science 2018, 360, 186–190.
#suzuki数据集的源文献
Perera, D.; Tucker, J. W.; Brahmbhatt, S.; Helal, C. J.; Chong, A.; Farrell, W.; Richardson, P.; Sach, N. W. A Platform for Automated Nanomole-Scale Reaction Screening and Micromole-Scale Synthesis in Flow. Science 2018, 359, 429–434.
#亲核芳香族取代反应数据集的源文献
Jorner, K.; Brinck, T.; Norrby, P.-O.; Buttar, D. Machine Learning Meets Mechanistic Modelling for Accurate Prediction of Experimental Activation Energies. Chem. Sci. 2021, 12, 1163–1175.
#denmark数据集的源文献
Zahrt, A. F.; Henle, J. J.; Rose, B. T.; Wang, Y.; Darrow, W. T.; Denmark, S. E. Prediction of Higher-Selectivity Catalysts by Computer-Driven Workflow and Machine Learning. Science 2019, 363, eaau5631.

规划方案

  1. 摘要:用综述描述不对称催化反应的重要性,以及深度学习是如何作用于化工的,然后介绍深度学习在该领域的应用现状,指出现有方法的不足之处。然后引用 denmark 的文献的话说明数据集来源以及之前的基准是怎么样,接下来针对 KAN 和 KAGNN 文献,提出本文的研究目标和创新点。
  2. 方法里用洪鑫的文献作为基底,然后引入 KAN 和 KAGNN 的思想进行改进
  3. 从两篇 bh 数据集的文献(其中一篇用随机森林、另一篇用反应图),作为论文的丰富度引用。
  4. 实验部分,数据集用 denmark 的数据集,然后对比基线模型和改进模型的效果
  5. 结论部分总结本文的工作,并指出未来的研究方向

有一些地方需要进一步完善: 1.本文并非首次提出 KAN+GNN 的结合,因此需要在相关工作中指出之前的工作,并且本文也参考了 KAGNN 文献的思路与模型设计。 2.本文目前的篇幅不够,需要在方法和实验部分进行扩展,请你帮我找几篇关联度较高的文献并引用到合适的地方,以增加论文的丰富度和说服力,尤其是相关工作及实验部分。 3.除了从文献中引用的内容,请你帮我将以上内容进行扩写与润色,使其更加符合学术论文的写作规范和风格。但需要注意的是不要在扩写过程中引入新的参考文献,所有引用的内容必须基于已有的参考文献列表。4.在确定论文的整体结构和逻辑足够清晰,且各部分内容衔接自然,论点明确后,将完整的论文发给我。

请你基于我的代码,写出论文中的方法部分。

在论文的绪论部分,讲明不对称催化反应是怎样在深度学习领域中应用的,其中要包含 denmark 数据集的发展,并指出现有方法的不足之处,说明研究内容和意义。 第一章的前半部分是介绍涉及该数据集的图神经网络的相关工作,并介绍对应的算法及评测表现 R2。后半部分是简要讲述本文的研究目标和创新点。 第二章是方法,详细介绍本文所设计的基于 KAN 和 GNN 结合的改进模型,包括模型架构、输入特征、训练过程等细节。 第三章是实验,介绍数据集、实验设置、对比模型及评测指标。(本文的模型效果留白,我自己填充进去) 第四部分是结论,总结本文的工作,并指出未来的研究方向。

请你严格基于本代码,帮我写一篇论文,注意: 1.在该论文中,参考文献中的内容必须与论文有关联。 2.参考文献的数量限制在 20 个以内,并将其引用标注于正文中。 3.严格按照科研论文的格式进行书写 4.本代码是用于不对称催化反应的 denmark 数据集的训练, 5.在绪论中从不对称催化+深度学习进行展开叙述,且提及与研究内容直接相关的算法/参考文献 6.在正文中讲明算法的细节和流程 7.需要有一个部分讲明实验(实验数据集,实验评测协议,实验结果) 8.留出一个章节使得我可以在模型训练之后,将评测结果填充到该章节中