Claude Skill-creator 史诗级更新：评估系统、基准测试、多代理并行测试

Claude 悄悄更新了 Skills 生成器，这绝对是一次史诗级升级。

更新亮点

上周直播的时候，发现 Anthropic 的 skills 仓库居然有更新了。点进去一看，发现了一个超级刚需的 Skills 迎来了更新 —— Skill-creator。

可以说，现在小龙虾的能力能这么强，有一半的原因都要归功于 Skills，而这些 Skills 能被创造出来，几乎都要归功于这个母 Skills，Skill-creator。

四大全新能力

这次更新一口气加了 4 个全新的能力：

1. 评估系统

跑完直接告诉你这个 skill 到底行不行。

2. 基准测试

把通过率、耗时、token 用量，全都量化。

3. 多代理并行测试

每个测试在干净的环境里独立跑，支持 A/B 盲评，结果不互相污染。

4. 描述调优

可以自动帮你改 skill 描述，该触发的触发，不该触发的就别乱触发。

如何更新

更新方式究极无敌简单，直接把这段话发给你的 Agent：

https://github.com/anthropics/skills/blob/main/skills/skill-creator/SKILL.md ，这个 skills 更新了，帮我更新到最新版本

评估体系详解

触发评估

它会自动生成两组查询：

应触发的 10 条
不应触发的 10 条

然后生成了一个网页让你确认，所有查询排在界面里，每一条右边有个开关，标着是否应该触发。

确认完样本之后，优化循环会在后台启动，最多跑 5 轮迭代。

能力评估

根据 skill 的功能，自动设计测试场景，同时设计量化验收标准。一次性启动 4 个独立子代理，同时跑测试。

每个代理都在完全干净的环境里独立运行，有自己的 token 计数和时间指标，互相之间零交叉。

量化数据

测试结果极度量化：

通过率：有 skill 的通过率 100%，无 skill 基线 9%，差值 91.5%
Token 消耗：有 skill 每次约 4000 token，无 skill 1750 token

Skills 的两种类型

能力提升型

教 Claude 做它本来不擅长的事。比如官方的前端设计 skill、文档创建 skill。

编码偏好型

告诉 Claude 按你的规矩来，理解成一个 Workflow 工作流。

总结

Anthropic 把软件开发的一些严谨做法，比如测试、基准、迭代改进等等，引入了 Skills 的创作流程。

所有的 Skills，真的都值得重新优化和评估一遍。Skills 生态，感觉又要迎来一波大繁荣了。

原文链接：https://x.com/Khazix0918/article/2031579241062740206 作者：数字生命卡兹克

更新亮点#

四大全新能力#

1. 评估系统#

2. 基准测试#

3. 多代理并行测试#

4. 描述调优#

如何更新#

评估体系详解#

触发评估#

能力评估#

量化数据#

Skills 的两种类型#

能力提升型#

编码偏好型#

总结#