6.1 模块化调度架构
当前版本的MiQroForge智能化模块以“只做调度,不做执行”为设计原则,构建一个最小智能化闭环调度系统,本身不负责运行任务,实际的执行、日志和状态由底层执行系统管理。因此,本节重点强调调度器在容错、分布式一致性与可解释性方面的设计接口与辅助能力,而将执行、仿真等功能视为现有系统模块,并非智能体职责。进而将智能化拆分为三个独立功能模块:分别负责调度前的数据增强、调度过程中的智能决策,以及调度后的状态更新。各模块职责分明,通过模块化设计实现调度逻辑的清晰性和高可控性。
1)增强模块(手动配置/预处理)
增强模块负责在任务调度前对原始 DAG 节点进行预处理和元数据补充。该模块依赖人为维护的配置信息,不涉及任何智能体机制,其主要功能包括:
预先维护所有节点的
min_cores、base_time、可扩展性说明等元信息;通过表格、配置文件或专家系统提供上述元信息,确保这些数据在调度开始前一次性加载到系统中;
保证预处理过程无需运行时推理,为后续调度提供基础数据支持。
未来:使用软件/功能的MCP执行代替本机运行(考虑到MiQroForge涉及的节点一般高资源消耗,预期较低);简化、优化配置难度,边等待边尝试github2code、paper2code智能体实现节点的自动化部署,从文献推断资源放大规律。
2)调度模块(核心 LLM 推理)
调度模块是智能化的初期但核心组件,利用大语言模型(LLM)进行智能推理决策。通过结构化提示模板(Prompt)和思路链(Chain-of-Thought)方式,引导模型逐步执行以下步骤:
识别DAG所有节点状态,关注关键阻塞节点;
评估任务的并行执行能力;
为每个候选任务分配合适的核数;
当有正在执行中的节点时,根据资源约束决定本轮执行是启动新任务还是继续等待;
输出结果包括更新后的 DAG 状态、节点资源分配等 JSON 格式信息;
该模块是整个系统中唯一包含智能推理的环节,长上下文的语言模型是一个必选项。
未来:根据语言模型智能水平发展更新基座模型;在积累足够多调度日志基础上,确定输出格式并微调形成直接输出的格式化结果。
3)状态存储模块(持久记录)
状态存储模块负责对所有调度相关信息进行持久化记录,包括元数据、调度历史以及执行反馈等。该模块在设计上同样不依赖任何智能体机制,确保系统各部分的数据交换格式在初始化阶段事先约定。其主要功能包括:
将所有调度相关的元数据、调度日志以及MiQroForge系统的反馈(如 ETA 更新、核数使用情况等)以结构化 DAG 图的形式存储;
该模块仅负责记录和存储,不参与实时决策,确保数据完整性与可追溯性;
未来:使用嵌套 JSON 或关系型数据库结构存储这些信息,以便支持后续的结果回放与模型微调,评估资源调度的改进空间。