Eval Harness 技能

Claude Code 工作階段的正式評估框架，實作 eval 驅動開發（EDD）原則。

理念

Eval 驅動開發將 evals 視為「AI 開發的單元測試」：

在實作前定義預期行為
開發期間持續執行 evals
每次變更追蹤回歸
使用 pass@k 指標進行可靠性測量

Eval 類型

能力 Evals

測試 Claude 是否能做到以前做不到的事：

[CAPABILITY EVAL: feature-name]
任務：Claude 應完成什麼的描述
成功標準：
  - [ ] 標準 1
  - [ ] 標準 2
  - [ ] 標準 3
預期輸出：預期結果描述

回歸 Evals

確保變更不會破壞現有功能：

[REGRESSION EVAL: feature-name]
基準：SHA 或檢查點名稱
測試：
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
結果：X/Y 通過（先前為 Y/Y）

評分器類型

1. 基於程式碼的評分器

使用程式碼的確定性檢查：

# 檢查檔案是否包含預期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 檢查測試是否通過
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 檢查建置是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基於模型的評分器

使用 Claude 評估開放式輸出：

Loading…

Eval Harness 技能

Claude Code 工作階段的正式評估框架，實作 eval 驅動開發（EDD）原則。

理念

Eval 驅動開發將 evals 視為「AI 開發的單元測試」：

在實作前定義預期行為
開發期間持續執行 evals
每次變更追蹤回歸
使用 pass@k 指標進行可靠性測量

Eval 類型

能力 Evals

測試 Claude 是否能做到以前做不到的事：

[CAPABILITY EVAL: feature-name]
任務：Claude 應完成什麼的描述
成功標準：
  - [ ] 標準 1
  - [ ] 標準 2
  - [ ] 標準 3
預期輸出：預期結果描述

回歸 Evals

確保變更不會破壞現有功能：

[REGRESSION EVAL: feature-name]
基準：SHA 或檢查點名稱
測試：
  - existing-test-1: PASS/FAIL
  - existing-test-2: PASS/FAIL
  - existing-test-3: PASS/FAIL
結果：X/Y 通過（先前為 Y/Y）

評分器類型

1. 基於程式碼的評分器

使用程式碼的確定性檢查：

# 檢查檔案是否包含預期模式
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# 檢查測試是否通過
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# 檢查建置是否成功
npm run build && echo "PASS" || echo "FAIL"

2. 基於模型的評分器

使用 Claude 評估開放式輸出：

eval-harness

Eval Harness 技能

理念

Eval 類型

能力 Evals

回歸 Evals

評分器類型

1. 基於程式碼的評分器

2. 基於模型的評分器

Related Skills

flow

verify

feature-flags

flags

Eval Harness 技能

理念

Eval 類型

能力 Evals

回歸 Evals

評分器類型

1. 基於程式碼的評分器

2. 基於模型的評分器

3. 人工評分器

指標

pass@k

pass^k

Eval 工作流程

1. 定義（編碼前）

2. 實作

3. 評估

4. 報告

整合模式

實作前

實作期間

實作後

Eval 儲存

最佳實務

範例：新增認證

Related Skills

flow

verify

feature-flags

flags