未来光锥 AI For Science 社群分享回顾_世界关注

近日，未来光锥邀请中科院物理所 / 松山湖材料实验室研究员刘淼博士，在 AI For Science 社群进行分享，介绍 Al+ 材料科学领域的近期进展、发展趋势、观察与思考。以下为未来光锥对刘淼博士分享内容，以及部分观众提问进行的简要整理。

材料伴随人类文明一同发展，人类进步的阶段甚至是用我们掌握、运用材料的能力来定义和划分的，像是石器时代、青铜时代……材料的改进和革新可以看作是社会进步底层的推动力。但是，改进材料的过程十分漫长。统计表明，材料从发明到商业化平均需要 18 年。图片来源：嘉宾制作。数据来源见图中标注。

现在，已经有很多方式可以克服这个问题。其中一种方式是像钢铁侠一样。

图片来源：《钢铁侠》在元素周期表上选择自己喜欢的元素，然后做一个组合，由此找到自己想要的化合物或者材料。然后再做一个更详细的测试。他找一个材料的时间，不到一分钟。

我们目前在做的，就是成为钢铁侠。我们做了一个材料数据库 Atomly.net，它包含了很多材料的信息。比如，我们搜索铝和氮的化合物，它是一个 III-V 族化合物。

【资料图】

图片来源：Atomly.net

点击结果，便可以看到非常详细的信息：晶体结构的信息、原子之间键能的信息、结构的对称性等，对有些结构还有更加高阶的计算。

图片来源：Atomly.net

总之，这个数据库是像元素周期表一样的工具，通过这个工具，我们可以搜索自己喜欢的材料。这个数据库里的数据是通过第一性原理计算的方式求解而得的。目前，这个数据库收纳了 34 万无机晶体材料的性质，现阶段体量算是相当大了。

数据库背后的原理是密度泛函理论（Density functional theory ，缩写 DFT），这个理论的逻辑是，可以像搭积木一样，将原子在空间中的位置搭出一个结构，只要能搭出一个结构，就能创造出一种新的材料。通过计算，可以解出电子的运动方程，也就是薛定谔方程。随后，就可以推演出材料的性质。性质可以有很多，有一些可以算得很准，有一些可能没那么准。如此一来，我们可以从一种非常低成本的方式入手，快速预测给出结构的性质。

图片来源：嘉宾 PPT

我们的工作是在密度泛函理论之上搭了一个工作流，可以完成自动化的计算。传统的计算需要我们写一个输入文件交给计算机，让计算机输出一个结果，然后我们再分析这个输出文件。我们所做的，是把这些环节都变成自动化、流程化的，不需要人为参与的事情。

这个数据库是如何去做材料的衍生和结构的呢？

图片来源：嘉宾 PPT

上图中 ICSD（无机晶体结构数据库，The Inorganic Crystal Structure Database，简称 ICSD）是材料领域最古老的数据库，其中的数据大部分是来自实验的，也就是说人类去合成，或者从自然界找到一些无机晶体，然后做一些结构的表征，得出这个原子在空间中的位置，最后形成晶体结构的文件描述。ICSD 在 100 多年前创立，初期是从 1800 多个学术期刊中收集数据。ICSD 中只有 6 万个定义得比较好的无机晶体材料。

我们可以从已知的材料出发，将这个化合物的中的一个元素替换成另外一个元素，比如上图的例子是把铁 Fe 替换成钛 Ti，之后便可生成一个新的化合物。这个新生成的化合物保留了之前结构的模板，但它的元素是全新的。通过这个方式，我们可以不停地产生新的化合物。这意味着，我们现阶段可以在很大程度绕开实验，通过超级计算机的强大算力快速扩大化合物的空间。

有了这些数据，我们可以做一些事儿，比如，从化合物相空间中定量地估算某种材料的热力学稳定性，从而通过计算判断出哪些化合物是可以被合成出来的。

海量数据带来的新工具。现有的计算技术可以精确地捕捉化学反应的热力学行为，可用来评价化学反应路径的发生概率，从而评价化合物的热力学稳定性。应用这一工具，可以快速评估任意材料的稳定性。例如：上图中，energy above hull 代表化合物的热力学稳定性，energy above hull 为零时，化合物是稳定的。energy above hull 数值越大，化合物越不稳定。

在这个过程中有一些底层的算法，这些算法是用了数据统计的方式，现在也有一些用了人工智能的方式。通过人工智能的方式，可以快速地去估算化合物的稳定性。所以，我们在数据库中，可以尽量生产出可被合成的、稳定的的化合物。我们现在的感受是，人类已知的化合物空间只是冰山一角，还有大量的未知化合物等着我们去发现。

Lu-H-N 相图 | 图片来源见图中标注

举个例子（上图），这是最近的一个超导的材料体系，" 镥 - 氢 - 氮 "（Lu-H-N）。3 月份时，美国罗切斯特大学助理教授 Ranga P. Dias 团队说，这是一个室温超导材料。我们对此做的一件事情是在这个空间里面去搜索有可能稳定的结构，我们在 0-10GPa 之间没有搜索到镥 - 氢 - 氮组成的三元化合物，只有稳定的二元相。所以这个方式也侧面地告诉我们这个空间的稳定相可能是什么。通过这个方式，我们可以快速做一些推测和数据分析。

有这么多数据很自然地就想到可以做人工智能模型，一旦我们训练一个模型，我们就可以用这个模型去做预测。这个逻辑在人工智能行业，或者是在人工智能 AI for science 行业，是一个常规的发展路径。但是这个事儿，其实强烈依赖于数据。

数据数量和质量的提升，带来人工智能预测模型的进步。上图（左 1 和左 2）例子展示是从小数据集训练出的模型，泛化本领差。我们将所有的数据带入机器学习训练，尽量少做数据清洗，我们就可以得到一个更加真实的、被业界广泛使用的模型（上图右 1）。当然，随着数据量逐渐增加，我们的算法也可以做一些改进。当然更多的是，数据量的增加可以让这个模型变得更好。

我还想简单介绍一下我们对这个行业的认识，或者是这个行业里面常规的发展趋势。上次在未来光锥线下沙龙中，大家已经提到了科学的第五范式。但是传统上大家普遍接受的科学的四个范式是这样的：

图片来源：嘉宾制作

从这个演进逻辑，大家清晰地看到科学的发展方向：通过某种方式，让我们的预测本领更强。

观众提问

观众 1

对于元素组分多达十几种的材料，如合金，您提出的计算方式于这种合金设计是否有指导作用？

刘淼

肯定是可以做的。核心还是数据集的问题。但是，要估算一下做不一样的元素组合的时候，它需要多大的数据集，然后它这这套合金的过程中，你做合金体系的时候，计算的精确度要多高。离子晶体是不一样的，离子晶体里面键能和键能之间的差别非常大。但是在合金的这个混合过程中，键能的变化其实非常细微，你需要计算得非常精确，才可以把它计算清楚。这就需要做特殊的数据集。现阶段，我们这个数据集不是特别适合做合金。因为我们的合金比较少，那我们其实在后台做了一个 Heusler 合金的数据集。没有到你说的有五元、六元或者十几元的化合物空间，但是我们在做完三元的 Heusler 合金的基础上，我们把这个数据外推到四元的相空间中的时候，发现还是比较准的。所以它还是有一些外推本领的。所以解决这一套的东西的更好的思路，我感觉还是需要建立足够大的数据集，然后数据精度足够高，在这个情况下，你做一个模型有可能可以外推。你说的也是行业中面临的一个很现实的问题。

观众 2

您提到在四年内做出 34 万的数据，而美国的 Materials Project 用了十几年。您也提到这些数据基本上都是重新计算的。我很好奇，要如何在这么短的时间内产生出这么多数据？是否需要很别大的计算量？你们的计算资源是怎样的？

这个完全是在我们已经有这套软硬件体系的情况下，完全是算力决定的。所以如果你有十倍的算力，你可能只用四年的十分之一，可能只用半年时间就能做到那么多。这个是算力决定的。

扩展阅读

[ 1 ] http://www.inewsweek.cn/finance/2023-05-15/18501.shtml

[ 2 ] https://v.youku.com/v_show/id_XNTkyMTMyNjIwOA