5.1 信息标准化
为实现跨尺度研究中信息的高效流动与协同利用,本研究构建了一套涵盖全流程数据的分类框架,将信息分为 “Naturally(N)” 和 “Computational(C)” 两大主要类别,并进一步细分为二级、三级子类别,覆盖从原始实验记录到复杂计算结果的完整信息谱。
“Naturally(N)” 信息是通过标准化数字建模形成的具有严格物理定义的数据集合,聚焦于体系的固有属性,具有明确的物理单位和标准化格式。在 MiqroForge 跨尺度平台中,我们将其分为三类:
Structure:该类信息又细分为分子
Molecular与晶体Crystal子类别,通过.xyz或.chk文件存储原子坐标、元素种类等信息,以埃(Å)为标准单位,键长、键角等结构参数可直接由坐标推导;Energy:以 “数值 + 单位” 的形式记录系统本征能量态,数值为浮点数,单位采用原子单位
a.u.或Hartree,若有其他单位,例如 \(KJ/mol\),\(eV\) 等,会自动转化为a.u.或Hartree,以保障信息的一致性;Density:提供体系的电子结构信息,聚焦其微观分布特征。通过
.cube文件储存格点坐标、电子密度值,其电子密度 \(\rho(r)\) 采用默认单位 \(e/Bohr³\)。
“Computational(C)”信息是通过计算软件或算法处理产生的数据集,这类数据通常依赖于特定的软件/库,并有专门的格式要求。目前分为算法和一些可视化输出,算法包含 HF/post-HF 类和 Quantum-Computation 类:
HF/post-HF:基于 Hartree-Fock(HF) 理论框架及后续高精度修正(如 post-HF)产出的计算结果与核心参数。在该算法下会产生一系列计算对象,我们对其进一步分类:
SCF,依赖于PySCF软件包,存储为.chk为文件mol data,通过ffsim软件包生成,存储为.chk为文件ccsd.t2,依赖于PySCF软件包,存储为.chk为文件
Quantum-Computation:依托量子计算硬件/模拟器,对量子态、反应路径等进行模拟。
Quantum Circuit(QC),格式规范为QASM文本QC Measurement Result:通过量子计算机对线路进行测量后,生成格式为字典的信息结果
Figure:基于计算推导结果生成的图像化数据,通过 Matplotlib 等工具生成对应的可视化文件。
N类反映体系的本征属性,通常在二级子类即可覆盖多个核心观测维度,无需更进一步的细分;而C类源于计算推导,兼具多算法分支与单算法多层级衍生的特性,即在同一算法框架下会产生中间态、最终结果、可视化映射等多层级数据,通常需要分到三级子类,未来甚至可能拓展至四级及以上分类,以适配计算推导日益复杂的层级逻辑。
图片展示了 MiqroForge 当前涉及到的信息分类及规范,直观呈现了上述分类系统的层次结构和核心内容,为跨尺度研究中信息的标准化流程和协同利用提供参考。图中红色文本框中的内容是对具体某种信息的规范说明,只展示了部分信息,完整的文档内容可以在下载 MiqroForge 后找到。