求学时代的困惑
21世纪伊始,年轻的陈忻赴美国斯坦福大学求学,后在波士顿大学做助理教授。科研工作的日常就是查阅各式各样的文献资料。和很多初入科研的青年学子一样,陈忻惊奇地发现,很多文献资料都要付费购买版权,甚至引用自己之前发表的论文中的数据图表等,也必须征得出版社的授权。而学术界的一半以上的期刊,被以Elsevier,Wiley等巨头所控制。科技出版业的头部企业全部为欧美公司,他们攫取了高额利润的同时,更是对科研数据形成了一定程度上的垄断。特别是美国等利用学术期刊坐收全球材料科研成果数据。诸如NIST、SciFinder、HSC Chemistry、NOMAD、ICSD之类的国际高端出版商和数据库,为全球提供基础材料数据检索服务的同时,也在某种程度上把控了这些材料数据的来源和使用情况。事实上,西方发达国家早就对数据的收集整理有所布局,如日本长期收集我国材料开发数据,欧盟费尽心机想与我国共建数据平台,而我国的数据资料收集整理工作起步晚,很容易被卡脖子、扼咽喉。
2011年,时任美国总统奥巴马宣布启动一项价值超过5亿美元的“先进制造业伙伴关系”计划,其中重点之一为“材料基因计划”。美国政府计划加强政府、高校和企业之间的相互合作和数据共享,他们希望通过材料基因计划来倡导高通量计算、高通量制备与表征、专用数据库三大技术及其平台建设,以期推进新材料的开发技术,强化美国在制造业方面的领先地位。
陈忻敏锐地感觉到——数据共享以及材料设计的技术提升将是未来全球发展的“兵家必争之地”。 实验室里被搁置一边、无人问津的原始科研材料数据将会是未来产业发展的基础和国家重要的战略资源。从此,陈忻的心里埋下了一颗种子。他希望能够做好基础数据的收集和整理,在未来全球竞争中为我国的材料数据提前布局、抢占赛道。
无人欣赏的跋山涉水
所谓光辉岁月,不是万众瞩目时的闪亮夺目,而是无人欣赏时的跋山涉水。数据整理是数据共享的前提和基础。陈忻决心摒除杂念,偏离了学术圈里发文章的“正途”,选择开始长期艰苦的数据清洗和整理工作。数据清洗的第一步就是为材料数据打标签。这个工作有时也被称作数据标注——是一份“最不性感、最没成就感”的工作。例如,一开始只能通过人力,先从网上搜集来大量的国内外文献资料,然后需要有交叉学科背景的人基于精准的语义理解,对每个字段、每种数据做物理化学分析和归类,画上经过理解和分析的符号和标注。只这一件事,就不能一蹴而就,而是真正的苦活累活。
来源:机器学习研究会
知识图谱技术是人工智能技术的组成部分,其强大的语义处理和开放组织能力,为智能化信息应用提供了基础,被称为“知识域可视化、知识领域映射地图”。这项技术在2012年首先由Google正式提出,迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但在我国仍然处于研究的起步阶段。在做标签积累的工作中,陈忻想到结合量子化学计算和人工智能预测来对材料领域的大量数据进行挖掘,并通过深度学习来建立模型,从“苦干”转为“巧干”。这一想法与中国科学技术大学的师兄弟们不谋而合。2020年陈忻带着“中国科学技术大学本科、斯坦福博士、波士顿大学助理教授”的光环,回国了。他与师兄弟们一起,研究如何结合量子化学计算和人工智能预测,建立材料数据之间的构效关系,全力以赴努力搭建第一代中国人自己的材料科学知识图谱。
第一个案例的启发
中国的学术界和产业界也逐渐开始意识到数据对于学术研究和产业创新发展的重要意义。2015年9月,我国正式印发《促进大数据发展行动纲要》,这是国家发布的首个大数据国家行动计划。大数据科学与人工智能技术的结合,在先进材料研发中逐渐崭露头角,以数据驱动创新的研究新范式则体现出巨大优势。材料研发的传统 “试错”模式、“炒菜式”不仅高成本、低效率,周期跨度可能为十几年甚至几十年,严重制约了我国的产业升级与经济发展。
来源:福建物质结构研究所
在做数据整理的过程中,陈忻就遇到这样一个合作案例。某集团发现自己的组合发动机中的金属配件需要进行改进,他们的研发团队尝试了多种方案都未能实现。陈忻及其团队利用搭建的数据平台,为其模拟出燃烧流场、大涡流场,并找到了记忆金属设计的配方。这一合作直接产生了巨大的经济效益,为该集团加快项目进度5个月,节省成本4300多万元。同时,陈忻及其团队通过这次合作还产生了意外之喜:他们收集了10万种各类合金演化结构数据和金属原子间相互作用能数据——这些数据能丰富和完善已有的数据库平台体系,对团队来说“价值连城”。“数据”就是科研和产业的共同语言,而数据库平台就是链接科研与产业的桥梁!
机数量子的 “灵魂熊猫”
2016年,中科寒武纪创立,来自中国科学技术大学少年班学院的陈天石、陈云霁兄弟二人白手起家,挑战冷门的人工智能芯片方向,随后通过自主研发,成为全球智能芯片领域的先行者。
陈忻也不是孤军奋战。科大师兄江俊教授在学校做基础科学研究,立志将人工智能和量子化学相结合。师兄弟二人一拍即合,决心以产业化方式做一次大胆的尝试,通过归纳法与演绎法相结合来进行科学研究,将人工智能和大数据技术应用到材料研发,带来学术和产业上的联合突破。
于是,机数量子应运而生。
图:机数量子愿景、使命、精神
机数量子以“量子化学计算、大数据分析、人工智能预测”为核心技术,十年前就开始着手对材料数据进行整合和清洗,经过“板凳一坐十年冷”的煎熬,率先建立了材料基因创新研究平台,开发了中国首个材料知识图谱,已建成世界一流、亚洲最大的材料数据库平台——机数大材库(dcaiku)。
陈忻,成为了这支“熊猫侠士”里的“灵魂”代言人。之所以叫“熊猫侠士”,是因为他们跟功夫熊猫都有相同的特质:真诚、憨厚、聪颖、顽强,甚至连外在形象都有点相似。机数量子的熊猫侠士们,秉承创始人“侠之大者·为国为民”的情怀和梦想,一心要为国家构筑我们中国人的数据长城,用数据赋能新材料的开发。
2018年,美国技术标准局NIST突然宣布停摆,科学家们无法登陆美国数据库进行资料查看和下载。机数量子的 “机数大材库”立刻派上了用场。央视新闻联播不仅专访了机数大材库,还充分肯定材料数据是涉及到国家战略安全的资源——机数量子面向世界科技前沿、面向经济主战场、面向国家重大需求,再一次交出了一份满意的答卷。
将量子化学和数据科学应用到材料开发,打通数据生态链,带来产业上的突破,是历史的必然选择和国家的发展方向。10月刚刚结束的“量子科学与前沿”雁栖湖会议,由中国科学院学部学术与出版工作委员会组织发起,中国科学院与北京市合作举办,中国科学技术大学承办,机数量子等科技企业参与协办。机数量子代表量子化学方向首次亮相雁栖湖会议,并向社会开放材料数据基础检索服务,展示了全球最前沿的科技创新思维和基于材料数据库平台的材料开发独特视角,得到了与会专家和各方媒体的广泛关注和充分肯定。
图:机数量子总经理陈忻接受媒体采访
站在历史的洪流中,十年跋山涉水,筑梦数据长城——陈忻知道,这只是刚刚开始。他对未来数据产业化发展方向充满信心,因为宏伟的工程、历史的突破正是由无数小成果、无数科研智慧聚集而成,数据长城最终是为了捍卫国家的数据安全,提升材料研发的国际竞争力,是拓展国家基础研究、完善材料应用基础研究创新体系的重要一环。
他坚信,机数量子的“熊猫侠士”们将为量子化学添上数据智能的翅膀,飞跃新材料的研发鸿沟!