摘要
如果把“取代”定义成:在企业里独立完成一个岗位在交付链条上的工作(拿到目标→做出方案→落地变更→承担结果→接受审计),那结论并不取决于“AI会不会写代码、会不会调系统”。相反,大部分工程技术环节正在快速变成 AI 擅长的那类问题:有上下文、有历史数据、有可运行的验证手段。
真正卡住替代的是另一层:决策权与责任主体。它不是情绪化的“人类更有灵魂”,而是组织治理结构里的硬约束:谁有权批准变更、谁对风险负责、谁能持有密钥和权限、出了事由谁在法律与合规体系下签字背书。这些环节不是“技术上做不到”,而是“系统设计上不允许把它交给非责任主体”。NIST 的 AI 风险管理框架本质上也在强调组织需要把治理、职责、监测与纠偏放进流程里。(NIST Publications)
1. 先把事实摆在桌面:在大量可评测任务上,AI 已经在压缩工程师能力差距
1.1 编程与实现:AI 的提升不是“好用”,而是可测量的效率差
GitHub Copilot 的随机对照实验里,开发者完成同一个实现任务的速度提升 55.8%。这是受控实验,不是访谈体感。(arXiv)
这类结果的意义不在于“所有任务都能快 55%”,而在于:当任务能被清晰描述、输出能被跑起来验证时,AI 对“平均工程能力”的边际贡献非常大。
1.2 “真实工作场景”的代理指标:SWE-bench 这类基准正在逼近常见修 bug 工作流
SWE-bench Verified 选的是 GitHub 上真实仓库的 issue/bug 修复任务,评测要求模型在仓库代码上修改并通过测试。它把“写得像不像”换成“能不能合并”。官方描述里提到,这些任务在人工估计中通常属于经验工程师 不到 1 小时可完成的范围(也就是大量日常工程工作覆盖的那一段)。(OpenAI)
在这个基准上,OpenAI 的文章给过 GPT-4o(配合脚手架)在 Verified 的 33.2%;Anthropic 的公开结果给过 Claude 3.5 Sonnet 在 Verified 的 49.0%。(OpenAI)
这不是“AGI 已到来”的证据,但足够说明:“本科/硕士能做的那批可重复工程任务”,AI 的平均水平在迅速逼近并且已经能吞掉相当比例。更关键的是,这些基准的改进速度很快,靠的不是“更懂分布式原理”,而是更好的工具调用、测试循环、检索与脚手架。
1.3 不止编程:AI 对中等复杂度知识工作同样能显著提速,并且更利于中低水平从业者
Noy & Zhang 在《Science》发表的随机实验里,ChatGPT 让参与者完成写作任务的平均时间下降 40%、质量上升 18%,同时缩小了能力差距(低能力者收益更大)。(Science)
Brynjolfsson 等人在真实企业客服场景的研究里也观察到类似结构:总体生产率提升约 14%,新手和低技能群体提升更大,老手收益更小甚至质量略降。(NBER)
把这两类证据放在一起,会得到一个不太讨喜但很稳定的推论:如果岗位的主要价值来自“把已知方法应用到具体问题上”,AI 会先吃掉这部分溢价。也就是说,除非工作内容靠近前沿研究或强依赖组织内的权责机制,否则“硕士/博士”本身并不是护城河。
2. 云原生、分布式、大数据真的“难到 AI 做不了”吗?
这几个领域的“难”,很多时候来自三类东西:
状态空间大、故障链条长、相关性弱
现场信息不完整(指标缺、链路断、版本不一致)
改动的代价高(一次发布可能影响数十个下游)
注意第 2、3 点:它们让人类工程师显得不可替代,但并不是因为人类更会推导一致性协议,而是因为组织把风险放在人的身上。
如果真的按你设定的极端条件——给到 AI 全量日志、指标、配置、拓扑、变更记录、依赖图,甚至能在隔离环境里复现——那分布式/云原生的很多问题对 AI 反而更“友好”。原因很朴素:它们高度文本化、强依赖历史经验、验证方式明确(回放流量、跑测试、对比指标)。这和 AI 擅长的输入输出形态匹配。
所以,“这些领域更难以被取代”的说法,经常把两件事混在了一起:
技术推理与定位能力(AI 正在补齐)
生产变更链条的决策权与风险承担(AI 不是责任主体)
3. 取代的真正门槛:不是推理能力,而是治理结构里的“可授权性”
3.1 企业不是为了把问题解出来而存在,而是为了在风险可控的前提下持续交付
在 IT 治理里,一个常用的定义是:治理要回答“谁有决策权、谁对决策结果负责”。这句话看似抽象,落在工程体系里就是审批、审计、权限分离、责任追溯。MIT CISR 的相关材料把 IT 治理直接表述为对决策权与责任的安排。(Google Books)
这层东西不是“沟通能力”,也不是“官僚主义”。它是组织控制风险的结构化方法。
3.2 安全与合规把“必须有人负责”写进了控制项
以 NIST SP 800-53 为例,控制项里明确要求职责分离(Separation of Duties),目的是降低滥用权限和单点失误的风险;还要求审计与可追溯。(NIST Publications)
把这类要求翻译成工程流程就是:
不能让“写代码的人”同时拥有“直接上生产的权限”
关键变更要有可追溯的批准记录
权限与密钥持有受控,能够回溯到责任人
只要企业的控制框架仍然以“责任人/角色”作为最小治理单元,AI 即使在技术上做得更好,也很难被放进那个角色里。
3.3 这也是为什么“给 AI 所有信息”仍然不等于“让 AI 完成岗位”
给到全量信息,AI 可以给出更好的诊断、更快的修复、更全面的回滚方案。问题在于:组织是否允许它执行。
允许执行意味着两件事同时成立:
给它和人一样的权限边界(含密钥、财务、合规豁免等)
把责任归到它身上(事故、损失、监管问责)
而目前的法律主体、雇佣关系、审计体系,都不承认 AI 是可以被追责的主体。NIST 的 AI RMF 和 GenAI Profile 把治理、监测、问责当作核心函数,逻辑也在这里:AI 需要被纳入风险管理闭环,而不是被当成一个“自动完成工作”的黑箱。(NIST Publications)
结论就变得清楚了:替代的瓶颈是组织把权力与责任绑定在人类角色上。这不是口头偏好,是制度工程。
4. 回到“学 AI/ML 是否更安全”:现实工作长什么样,AI 真的做不了吗?
先看一组很不浪漫的数据。Anaconda 的 2022 调查里,受访者平均把 37.75% 的时间花在数据准备与清洗上;模型选择、训练、部署加起来约 26.44%。
同一份报告在“上生产的路障”里也把 IT/InfoSec 标准、数据连通性等放在前面。
这基本符合多数企业里的体感:大量工作不是“发明新模型”,而是把数据链路、特征、训练、部署、监控串起来,再在约束下稳定运行。
这些事情 AI 能不能做?从能力角度看,越来越多都能:
数据清洗、特征构造、训练脚本、离线评测,AI 很快就会变成默认工具
模型调参、消融实验、报告撰写,也都是可被工具化的环节
MLOps 里的流水线编排、监控告警、回滚策略,本质上更像工程自动化
真正难的是:谁定义“这个模型上线是值得的”,谁定义“错误率上升到多少算不可接受”,谁决定“为了转化率牺牲多少公平性/解释性/成本是可以被接受的”。这些决策最终会进入 KPI、预算、合规条款,最后绑定到某个能签字的人。
所以,“学 AI/ML 更不容易被取代”这句话成立的前提是:做的不是刷榜或调参,而是站在决策链上游,把模型当成业务系统的一部分来管理风险和收益。那时取代你的不是另一个更会调参的人,而是流程把“决策权”往别处移走。
5. 最终结论:AI 取代不了的,是组织里对目标与风险的最终所有权
把上面的证据和约束收束起来,可以得到一个更硬的定义:
AI 难以取代的不是“高级工程师的技术”,而是“高级工程师在组织里被授予的决策权与责任”。
技术层面,AI 会持续变强,覆盖面会继续扩大。Copilot 的 RCT、SWE-bench 这种贴近真实仓库的评测、以及多行业的生产率研究,都在显示同一件事:AI 在把大量中等复杂度工作变成可自动化、可规模化的流程。(arXiv)
组织层面,权限分离、审计追责、合规治理把“谁能做决定”钉死在责任主体上。只要企业仍然以“人”作为可追责的最小单元,AI 就更像一个极强的执行与分析组件,而不是岗位本身。
这也是为什么争论“AI 能不能解决某个分布式疑难杂症”常常跑偏:它能解决的会越来越多,真正决定它是否“取代”一个岗位的,是企业愿不愿意把决策权与后果交给它。
AIGC声明:本文使用 ChatGPT 5.2 Thinking 创作(AI占比: 95%)