Claude 悄悄更新了 Skills 生成器,这绝对是一次史诗级升级。
更新亮点
上周直播的时候,发现 Anthropic 的 skills 仓库居然有更新了。点进去一看,发现了一个超级刚需的 Skills 迎来了更新 —— Skill-creator。
可以说,现在小龙虾的能力能这么强,有一半的原因都要归功于 Skills,而这些 Skills 能被创造出来,几乎都要归功于这个母 Skills,Skill-creator。
四大全新能力
这次更新一口气加了 4 个全新的能力:
1. 评估系统
跑完直接告诉你这个 skill 到底行不行。
2. 基准测试
把通过率、耗时、token 用量,全都量化。
3. 多代理并行测试
每个测试在干净的环境里独立跑,支持 A/B 盲评,结果不互相污染。
4. 描述调优
可以自动帮你改 skill 描述,该触发的触发,不该触发的就别乱触发。
如何更新
更新方式究极无敌简单,直接把这段话发给你的 Agent:
https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md ,这个 skills 更新了,帮我更新到最新版本
评估体系详解
触发评估
它会自动生成两组查询:
- 应触发的 10 条
- 不应触发的 10 条
然后生成了一个网页让你确认,所有查询排在界面里,每一条右边有个开关,标着是否应该触发。
确认完样本之后,优化循环会在后台启动,最多跑 5 轮迭代。
能力评估
根据 skill 的功能,自动设计测试场景,同时设计量化验收标准。一次性启动 4 个独立子代理,同时跑测试。
每个代理都在完全干净的环境里独立运行,有自己的 token 计数和时间指标,互相之间零交叉。
量化数据
测试结果极度量化:
- 通过率:有 skill 的通过率 100%,无 skill 基线 9%,差值 91.5%
- Token 消耗:有 skill 每次约 4000 token,无 skill 1750 token
Skills 的两种类型
能力提升型
教 Claude 做它本来不擅长的事。比如官方的前端设计 skill、文档创建 skill。
编码偏好型
告诉 Claude 按你的规矩来,理解成一个 Workflow 工作流。
总结
Anthropic 把软件开发的一些严谨做法,比如测试、基准、迭代改进等等,引入了 Skills 的创作流程。
所有的 Skills,真的都值得重新优化和评估一遍。Skills 生态,感觉又要迎来一波大繁荣了。
原文链接:https://x.com/Khazix0918/article/2031579241062740206 作者:数字生命卡兹克