排产会议从每天3场到0场：化工集团AI Agent自主决策的180天重构实录

AutoGen 在 GitHub 上积攒的 38.2k 个 star，没能阻止某化工集团在第一次试点时烧毁价值 12 万元的原料批次——因为开源 Agent 框架默认不具备处理化工 DCS 系统毫秒级反馈的能力，而这正是传统 APS 厂商敢卖 800 万 license 的底气。

这场价值 12 万元的「学费」，反而让技术团队看清了真相：不是 AI 做不了工业排产，而是大多数人把「接个 GPT-4 API」当成了智能排程。180 天后，这家聚氨酯材料集团用私有化部署的大模型替代了运行 5 年的 APS 系统，排产会议从每天 3 场压缩到 0 场，排程耗时从 4.5 小时降至 12 分钟，准确率达到 98.7%。

4.5h→12min

排程耗时压缩

98.7%

排程准确率

280万/年

人力成本节省

传统 APS 的「上线即过时」诅咒

化工行业的 APS（高级计划排程）系统有个尴尬的潜规则：上线当天就是技术债务的开始。某国际厂商的 APS 在某集团运行了 5 年，期间积累了 2400 多条手工调整的「例外规则」——因为化工生产的变量太多：催化剂活性衰减、反应釜温度漂移、蒸汽管网压力波动，这些实时变量无法被预定义的规则库覆盖。

更致命的是数据孤岛。ERP 里的订单数据、MES 里的设备状态、DCS 里的工艺参数，三个系统使用不同的通信协议。传统 APS 的解决方案是昂贵的 ETL 管道和定时同步，导致排程基于的是「昨天 23:00 的快照」，而生产现场在 08:00 已经变了天。

开源框架的工业级改造：AutoGen 与 LangGraph 的实战局限

技术团队最初尝试了微软的 AutoGen（v0.4.0，38.2k stars），其多 Agent 协作模式理论上非常适合化工排产：一个 Agent 负责物料平衡，一个负责设备约束，一个负责交付优化，通过对话达成共识。但在真实环境中，AutoGen 的默认配置暴露了两个致命缺陷：

第一，状态管理脆弱。化工排程需要严格的状态机——当反应釜温度异常时，必须按「预警→降速→隔离→重构排程」的固定路径执行，而 AutoGen 的群聊机制可能让「物料 Agent」和「设备 Agent」陷入无限循环的讨论，错过最佳干预窗口。

第二，工具调用延迟。AutoGen 的 Function Calling 在处理 DCS 系统的毫秒级反馈时，平均延迟达到 3-5 秒，这在化工连续生产中是不可接受的。

团队最终采用了 LangGraph（10.5k stars，LangChain 官方出品）作为底层框架。与 AutoGen 的对话模式不同，LangGraph 基于有向图（State Graph）构建工作流，允许工程师显式定义「工艺约束检查→资源分配→冲突消解」的严格流转路径。更重要的是，LangGraph 的持久化层（Persistence Layer）可以保存排程中间状态，当紧急插单发生时，不需要重新计算全局排程，只需在受影响子图上局部调整，这让动态插单响应时间从平均 6 小时缩短至 18 分钟。

特性	AutoGen	LangGraph	工业适用性
交互模式	多 Agent 对话	状态机图	LangGraph 更适合强约束场景
状态持久化	弱	强	化工流程必须支持断点续排
延迟表现	3-5s	200ms 内	DCS 实时反馈要求亚秒级
调试难度	高（黑盒对话）	中（可视化图）	工艺工程师需要可追溯逻辑

老师傅经验的「数字化迁徙」

真正的突破不在于技术栈选择，而在于知识工程。该集团有 12 位从业 20 年以上的排产老师傅，他们的经验以「当蒸汽压力低于 0.6MPa 时，优先保 B 线反应釜，因为 A 线保温能耗高 15%」这种非结构化形式存在。

团队使用私有化部署的 Llama 3.3 70B 模型（通过 vLLM 加速推理），构建了「工艺约束解析引擎」。具体做法是：将 5 年历史排程记录（包括异常处理日志）向量化存入 Milvus 向量数据库，当遇到新订单时，RAG（检索增强生成）系统先检索相似场景的历史处理方案，再由大模型生成具体的约束条件代码（如 Python 的 PuLP 线性规划约束）。

这个过程将「老师傅经验」转化为可复用的规则库，且具备解释性。当 AI 决定「推迟订单 X 以保全订单 Y」时，系统会输出类似「基于历史数据，该决策在相似工况下使整体 OEE 提升 19%，且避免催化剂中毒风险」的推理链，这让生产总监敢于在关键决策上放权给 AI。

auto_awesome180 天实施路径的关键节点

第 1-30 天：基于 MCP 协议构建统一数据层，打通 SAP ERP、西门子 MES、霍尼韦尔 DCS 的 47 个关键数据接口，解决数据延迟和一致性冲突。

第 31-90 天：使用 LangGraph 构建「约束检查→资源分配→冲突消解」三层工作流，集成老师傅经验库，实现基础排程自动化。

第 91-150 天：引入多 Agent 协作（改造后的 AutoGen 架构），实现「排程 Agent」「质量 Agent」「物流 Agent」的异常联动，质量异常自动隔离并重构排产计划，减少停线损失 67%。

第 151-180 天：强化学习微调，让模型学习「插单」「设备故障」等长尾场景的最优策略，最终实现零人工干预的自主排程。

从「接 API」到「教逻辑」：企业 AI 的范式转移

这个项目最值得行业借鉴的不是技术细节，而是实施哲学的转变。大多数企业 AI 项目失败，是因为他们把大模型当成了「更聪明的搜索引擎」——接个 API，问「怎么排产」，期待得到完美答案。

但化工排产的复杂度在于约束条件的动态组合。该集团的成功在于「教逻辑」而非「要答案」：他们没有让 LLM 直接输出排程表（这会产生幻觉），而是让 LLM 生成约束条件的 Python 代码，再调用成熟的运筹学求解器（Google OR-Tools）计算最优解。LLM 负责「理解业务意图」和「处理例外情况」，求解器负责「数学最优」。

这种「人机分工」让系统既具备灵活性（处理非结构化异常），又保证严谨性（满足所有硬约束）。最终实现的动态插单能力，让库存周转率提高 35%，设备 OEE 提升 19%，年节省排产人力成本 280 万元——这相当于 3.2 倍的 ROI。

排产会议的消失与决策权的转移

现在，该集团的生产中心每天不再召开排产会议。取而代之的是 AI Agent 在每天 06:00 自动生成的「排程置信度报告」：当置信度 >95% 时自动执行；当 85%<置信度<95% 时，系统推送「决策建议+风险分析」给值班长；仅当置信度<85%（如遇到极端天气导致原料断供）时才触发人工介入。

这种「自动驾驶」模式不是淘汰人类，而是让 12 位老师傅从「救火队员」转型为「规则训练师」——他们现在的工作是审核 AI 生成的新的约束规则，而非手工调整排程表。

对于正在评估 AI 排程的制造企业，我的建议是：先别问「买哪个大模型」，先问「你的数据层能不能通过 MCP 协议实时连通」。没有统一数据层的 AI Agent 就像没有神经系统的大脑——再聪明也无法感知身体。而 FluxWise 智流科技在多个制造场景中验证，当 MCP 协议与 LangGraph 的状态管理结合时，AI Agent 才能真正具备工业级的可靠性和可解释性。

排产会议从 3 场到 0 场的背后，不是技术的胜利，而是决策逻辑的重构：从「基于历史经验的预测」到「基于实时数据的响应」。这 180 天的重构证明，AI 不是来辅助人类做决定的，而是来做那些人类根本来不及做的决定的。

排产会议从每天3场到0场：化工集团AI Agent自主决策的180天重构实录

传统 APS 的「上线即过时」诅咒

开源框架的工业级改造：AutoGen 与 LangGraph 的实战局限

老师傅经验的「数字化迁徙」

从「接 API」到「教逻辑」：企业 AI 的范式转移

排产会议的消失与决策权的转移

相关文章

Blueprints and Formulas Collecting Dust on Servers: A 380% ROI Retrospective on AI-Activated R&D Knowledge in Chemical Enterprises

Quality Reports from 72 Hours to 8: A 16-Month Organizational Transformation with AI-Powered Quality Anomaly Closed-Loop at a Fluorochemical Group

Why a 2-Million-RMB Private LLM Deployment Lost to a 3,000-RMB-per-Month Intern

想了解更多？