5.1 信息标准化

为实现跨尺度研究中信息的高效流动与协同利用,本研究构建了一套涵盖全流程数据的分类框架,将信息分为 “Naturally(N)” 和 “Computational(C)” 两大主要类别,并进一步细分为二级、三级子类别,覆盖从原始实验记录到复杂计算结果的完整信息谱。

“Naturally(N)” 信息是通过标准化数字建模形成的具有严格物理定义的数据集合,聚焦于体系的固有属性,具有明确的物理单位和标准化格式。在 MiqroForge 跨尺度平台中,我们将其分为三类:

  1. Structure:该类信息又细分为分子 Molecular与晶体 Crystal子类别,通过 .xyz.chk 文件存储原子坐标、元素种类等信息,以埃(Å)为标准单位,键长、键角等结构参数可直接由坐标推导;

  2. Energy:以 “数值 + 单位” 的形式记录系统本征能量态,数值为浮点数,单位采用原子单位 a.u.Hartree,若有其他单位,例如 \(KJ/mol\)\(eV\) 等,会自动转化为 a.u.Hartree,以保障信息的一致性;

  3. Density:提供体系的电子结构信息,聚焦其微观分布特征。通过 .cube 文件储存格点坐标、电子密度值,其电子密度 \(\rho(r)\) 采用默认单位 \(e/Bohr³\)

“Computational(C)”信息是通过计算软件或算法处理产生的数据集,这类数据通常依赖于特定的软件/库,并有专门的格式要求。目前分为算法和一些可视化输出,算法包含 HF/post-HF 类和 Quantum-Computation 类:

  1. HF/post-HF:基于 Hartree-Fock(HF) 理论框架及后续高精度修正(如 post-HF)产出的计算结果与核心参数。在该算法下会产生一系列计算对象,我们对其进一步分类:

    • SCF,依赖于 PySCF 软件包,存储为 .chk 为文件

    • mol data,通过 ffsim 软件包生成,存储为 .chk 为文件

    • ccsd.t2,依赖于 PySCF 软件包,存储为 .chk 为文件

  2. Quantum-Computation:依托量子计算硬件/模拟器,对量子态、反应路径等进行模拟。

    • Quantum Circuit(QC),格式规范为 QASM 文本

    • QC Measurement Result:通过量子计算机对线路进行测量后,生成格式为字典的信息结果

  3. Figure:基于计算推导结果生成的图像化数据,通过 Matplotlib 等工具生成对应的可视化文件。

N类反映体系的本征属性,通常在二级子类即可覆盖多个核心观测维度,无需更进一步的细分;而C类源于计算推导,兼具多算法分支与单算法多层级衍生的特性,即在同一算法框架下会产生中间态、最终结果、可视化映射等多层级数据,通常需要分到三级子类,未来甚至可能拓展至四级及以上分类,以适配计算推导日益复杂的层级逻辑。

info_classification

图片展示了 MiqroForge 当前涉及到的信息分类及规范,直观呈现了上述分类系统的层次结构和核心内容,为跨尺度研究中信息的标准化流程和协同利用提供参考。图中红色文本框中的内容是对具体某种信息的规范说明,只展示了部分信息,完整的文档内容可以在下载 MiqroForge 后找到。