科学家正在建立MRI最大的开放数据库
中国科学院的上海Materia Medica研究所的研究人员郑明尤(Zheng Mingyue)开发了由大语言模型驱动的NMR数据提取工具。它可以自动从大规模开放式文献中检索核磁共振(NMR)实验数据,并构建NMR NMRBANK迄今为止最大的开放数据库。 5月28日,相关研究发表在“化学科学”中。 NMR光谱法是强大而广泛使用的化学研究技术之一,可以为分子环境提供详细的信息,并且对结构和原子接触非常敏感。在过去的二十年中,研究人员开发了许多数据库来存储分子的1H和13C NMR光谱,但是这些数据库的大小也相对有限。研究团队提出的NMRextractor可以自动检索关键信息,例如化合物名称,NMR条件和1H/13C NMR化学转移。ific文学。基于此工具,研究团队构建了NMRBANK,其中包含225,809 NMR数据注释,每个音符都带有IUPAC化合物名称,Smiles Descriptor,1H/13C NMR化学移位,模型指定的置信标记,以及元数据,例如pmid&Journal pmid and Journal and Journal的名称。评论的结果表明,NMRBANK涵盖的化学空间大大超过了现有的公共NMR数据集。 ?研究小组表示,提取过程得到了高度衡量,支持了新研究论文的自动处理,并使NMRBank更新可持续,正常地扩大了开放NMR数据的范围,但也为基于人工智能的NMR预言和相关化学研究提供了数据基础。相关论文信息:http://dii.org/10.1039/d4sc08802f