Claude 悄悄更新了 Skills 生成器,这绝对是一次史诗级升级。

更新亮点

上周直播的时候,发现 Anthropic 的 skills 仓库居然有更新了。点进去一看,发现了一个超级刚需的 Skills 迎来了更新 —— Skill-creator

可以说,现在小龙虾的能力能这么强,有一半的原因都要归功于 Skills,而这些 Skills 能被创造出来,几乎都要归功于这个母 Skills,Skill-creator。

四大全新能力

这次更新一口气加了 4 个全新的能力:

1. 评估系统

跑完直接告诉你这个 skill 到底行不行。

2. 基准测试

把通过率、耗时、token 用量,全都量化。

3. 多代理并行测试

每个测试在干净的环境里独立跑,支持 A/B 盲评,结果不互相污染。

4. 描述调优

可以自动帮你改 skill 描述,该触发的触发,不该触发的就别乱触发。

如何更新

更新方式究极无敌简单,直接把这段话发给你的 Agent:

https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md ,这个 skills 更新了,帮我更新到最新版本

评估体系详解

触发评估

它会自动生成两组查询:

  • 应触发的 10 条
  • 不应触发的 10 条

然后生成了一个网页让你确认,所有查询排在界面里,每一条右边有个开关,标着是否应该触发。

确认完样本之后,优化循环会在后台启动,最多跑 5 轮迭代。

能力评估

根据 skill 的功能,自动设计测试场景,同时设计量化验收标准。一次性启动 4 个独立子代理,同时跑测试。

每个代理都在完全干净的环境里独立运行,有自己的 token 计数和时间指标,互相之间零交叉。

量化数据

测试结果极度量化:

  • 通过率:有 skill 的通过率 100%,无 skill 基线 9%,差值 91.5%
  • Token 消耗:有 skill 每次约 4000 token,无 skill 1750 token

Skills 的两种类型

能力提升型

教 Claude 做它本来不擅长的事。比如官方的前端设计 skill、文档创建 skill。

编码偏好型

告诉 Claude 按你的规矩来,理解成一个 Workflow 工作流。

总结

Anthropic 把软件开发的一些严谨做法,比如测试、基准、迭代改进等等,引入了 Skills 的创作流程。

所有的 Skills,真的都值得重新优化和评估一遍。Skills 生态,感觉又要迎来一波大繁荣了。


原文链接:https://x.com/Khazix0918/article/2031579241062740206 作者:数字生命卡兹克