name: audit-test-design-skill description: audit query / IDB rule の test を会計・税務・労務・内部統制の観点で設計するスキル。境界値 / 反例 / サンプリング / positive-negative pair / 走行結果 4 区分 (TP/TN/FP/FN) を揃えて業務知識 + DataLog 挙動の両軸で「適切な test 集合」を提案する。 datalog_testcase_create / datalog_testrow_create を呼ぶ直前に参照。

Audit Test Design Skill

audit query (= 監査クエリ) / IDB rule の test を 業務知識 + DataLog 挙動 の両軸で設計する専用 skill。 datalog-debug-skill の §5 (= test 駆動 lifecycle) が 基本 lifecycle (= scope 別必須件数 / dual content / status 4 値) をカバーする一方、本 skill は 「何を test するか / どうサンプリングするか / どの境界値を押さえるか」 に集中。

LLM が datalog_testcase_create / datalog_testrow_create を呼ぶ直前に本 skill を参照し、 test 集合が:

業務上の boundary を全方向 (= 上 / 境界 / 下 / 大幅) 押さえる
positive と negative の 対 (twin) が揃う
null handling / multiEntity / edgeCase のカバレッジがある
全件 dump でなく 適切なサンプリング で検証反復性を保つ

ことを確認する。

0. dataSource (= 検証様式) は必須・明示宣言

すべての TestCase は dataSource を 必ず明示する。 runtime 導出 (= testRecords から自動推測) は廃止。作成時に作者が下表から 1 つを選び宣言する (schema が required で強制し、未指定は parse で reject)。

dataSource	いつ	追加 field
`freee_e2e`	検出対象を freee に実投入できる監査 test (= testRecords で freee 投入 → e2e 走行)	(なし)
`datom_only`	検出対象を freee に作れないゆえ datom 単体で完結する完成形 (= e2e 不要、 `passing` が terminal green)	`e2eBlockedReason` 必須 + `e2eBlockedDetail` 推奨

datom_only の e2eBlockedReason (= なぜ freee に作れないか / 対象でないか):

reason	意味
`freee_required_field_missing`	必須欄 (account_item / tax_code / issue_date 等) を欠落させて作れない (400)
`freee_readonly_derived`	read-only 派生値 (月次勤怠等) を任意値で合成できない
`freee_demo_constraint`	デモ会社 / 権限制約で作れない (従業員 0 / HR 403)
`freee_api_unsupported`	合成 POST 経路が無い (origin 手動固定等)
`not_freee_target`	freee 検出対象でない純論理 IDB rule test (= idb rule の導出検証。 freee 投入と無関係)

判定: 「この検出対象を freee 上に作れるか?」→ 作れる=freee_e2e / 作れない=datom_only+理由 / そもそも freee と無関係の純論理 IDB rule=datom_only+not_freee_target。 UI では datom_only は投入/e2e ボタンが不感化される (= 純論理/作成不能テストで正しい挙動)。

0.5 TestCase の粒度規約 (= 1 観点 = 1 TestCase)

本番シードの流儀。 1 TestCase = 1 観点 = 1 kind。正例と反例を 1 件に混ぜない。

1 観点 = 1 TestCase。「課税仕入なのに取引先なしを拾う」と「取引先ありは拾わない」は 別 TestCase 2 件 にする (= twin test、 §4)。
kind は positive か negative を基本とする。 mixed は非推奨 (= 1 TestCase に hit/non-hit を混在させない。「同一 deal の 3 明細で 2hit+1miss」のような 1 シナリオ内で本質的に混在する場合に限り mixed)。 positive は why 必須、 negative は whyNot 必須。
観点は tag で表現する (= §1 の列挙から選ぶ。 boundary/nullHandling/outOfScope 等)。自由文の観点名を作らない。複数 tag 重ねは可だが、 1 観点に収める。
context 実体を複数レコードで含める (= 検出対象 detected だけでなく、前提マスター context / 拾わない期待 expected_miss / 範囲外 out_of_scope を子 TestRecord に並べる。 freee-api-test-record-skill 参照)。単独レコードの裸テストにしない。

アンチパターン: kind:'mixed' の 1 TestCase に正例と反例を詰め込む / 観点を自由文 category だけで表す / 検出対象 1 レコードのみで context 無し。

1. TestCase tags (= 観点別分類)

TestCase.tags は array で複数選択。各 tag は 意図 + few-shot で揃えて使う。

tag	意図	few-shot 観点
`happyPath`	正常系 (= 違反とすべきでない標準 case)	通常の deal で全必須項目揃い
`boundary`	条文 / 規定の閾値上での判定	30000 円ぴったり / 45 時間ぴったり
`edgeCase`	業務上のレア case	0 円取引 / 巨大金額 / 同日多重計上 / 過去年度修正
`nullHandling`	必須 attr が欠落	取引先 null / 税コード null / 期日 null
`errorHandling`	エラー経路	freee API 取得失敗 / 必須 entity 不在
`dataIntegrity`	参照整合性	借方=貸方不一致 / 親 deal 不在の detail
`multiEntity`	複数 entity 連結	deal + detail + partner + account_item の 4 階層揃い vs 1 欠け
`regression`	rule 改修時の既存挙動維持	過去全 query で `passing` を復活確認
`historicalBug`	過去 incident の再発防止	「2024 Q3 に partner null を拾い損ねた事例」

複数 tag 重ね OK (= 「boundary + nullHandling」等)。

2. 境界値 (= boundary) table — 会計・税務・労務 / 内部統制別

audit query が 触るドメイン 別に、法令 / 規程の「閾値」を列挙。 LLM は該当ドメインの boundary を必ず test に入れる。

消費税 (= 仕入税額控除 / 売上 / 課税区分)

boundary	根拠 / 文脈	test 例
インボイス T番号有無	適格請求書発行事業者登録	T番号あり vs なし vs 形式不正
経過措置控除割合	2023-09 〜 2026-09: 80% / 2026-10 〜 2029-09: 50%	期間跨ぎの控除割合切替
税区分 4 値	課税仕入 / 課税売上 / 非課税 / 対象外	各値 1 件
軽減税率	8% / 10% / 0% (= 輸出)	各税率での集計

法人税 / 損金算入限度

boundary	根拠 / 文脈	test 例
交際費損金限度	中小法人 800 万円 / 上位 50% / 0%	限度直前 / 直後
寄付金損金限度	一般 / 特定 / 国等別限度	計算式境界
役員報酬定期同額	月額一定 (= 不定期改定は損金不算入)	改定タイミング境界

電帳法 (= 電子帳簿保存法、 2024 改正)

boundary	根拠 / 文脈	test 例
電子取引発生源	銀行明細 / カード明細 / メール添付 PDF / 経費申請等 = 電子保存必須	各発生源で証憑有 vs 無
紙受領	紙領収書は電帳法対象外 (= 別途国税関係書類保存)	発生源 = 紙で証憑無 → 拾わない
スキャナ保存タイムスタンプ	撮影から 3 日以内	境界タイミング

36 協定 / 労働基準法

boundary	根拠 / 文脈	test 例
法定外労働月限度	45 時間 / 月	44h / 45h / 45h+1min / 60h
法定外労働年限度	360 時間 / 年	月平均 30h 累積 / 後半集中
特別条項月限度	100 時間 (= 単月) / 80 時間 (= 2-6 ヶ月平均)	単月 99h vs 100h vs 101h
特別条項年限度	720 時間 / 年	累積境界
健康福祉確保措置	80h/月超で医師面談等	80h 境界 + 措置有無

内部統制 / 社内規程

boundary	根拠 / 文脈	test 例
高額取引承認	30000 円 / 100000 円 / 1M 円 (= 社内規程次第)	各閾値 ± 1
役員取引利益相反	役員 + 役員親族 / 役員関連会社	取引先属性
締日跨ぎ取引	月末 / 期末	計上月切替

会計帳簿必須項目

boundary	根拠 / 文脈	test 例
発行日	法人税法施行規則第54条	発行日有 vs 無
取引先	消費税法第30条第7項 (= 課税仕入のみ)	partner 紐付け有 vs 無 vs 親 deal 経由
勘定科目	仕訳必須	account_item null vs 設定済
借方 / 貸方一致	複式簿記原則	不一致額 1 円 vs 0 円
税コード	消費税申告集計用	tax_code null vs 設定済

3. test サンプリング戦略

全件 (= 数千件) を test に入れない。サンプリング必須項目:

必須サンプルルール

各 boundary に対し 4 件: 下 / 境界 / 上 / 大幅上 (= 「44h / 45h / 45h+1min / 60h」 / 「29999 / 30000 / 30001 / 100000」)
各必須項目 に対し 2 件: 存在 / null
各 enum 値 に対し 1 件: 全列挙 (= 税区分 4 種 / 取引種別 2 種 / 決済状態 2 種)
multiEntity で「全階層揃い」 + 「1 階層欠け」の 2 件

避けるパターン

全 freee row の dump (= 大規模 / 流動的 / 検証反復性を失う)
1 件だけの test (= 偶然通るケースで過剰検出 / 漏れを区別できない)
同じ boundary を異なるデータで 5 件重複 (= 1 件で十分、多様性がない)
期間跨ぎや期日を含む test に「現在日時」を直書き (= 時間経過で結果が変わる、固定日付を使う)

4. positive / negative 対 (= twin test)

各 boundary に対して 必ず positive + negative の pair を作る。

positive (= 「拾うべき」): boundary を超えた / 違反 case → audit query が runStatus='passing' で検出する
negative (= 「拾うべきでない」): boundary 直前 / 適合 case → audit query が 検出しない

二極化が揃ってないと:

positive のみ → false negative (= 検出漏れ) を検知できない
negative のみ → false positive (= 過剰検出) を検知できない

例: 36 協定 (boundary = 45h):

kind	datoms	expected
positive	excess_statutory_mins = 2701 (= 45h + 1min)	hit
positive	excess_statutory_mins = 3600 (= 60h、大幅超)	hit
negative	excess_statutory_mins = 2700 (= 45h ぴったり)	not-hit
negative	excess_statutory_mins = 2699 (= 45h - 1min)	not-hit

5. 走行結果 4 区分 (= TP / TN / FP / FN)

走行後 runStatus + actualHits から 4 区分を計算:

	期待拾う (= positive)	期待拾わない (= negative)
実拾う	truePositive (= TP、期待通り)	falsePositive (= FP、過剰検出 = audit query が厳しすぎ)
実拾わない	falseNegative (= FN、検出漏れ = audit query が緩すぎ)	trueNegative (= TN、期待通り)

datalog_testrow_list の byKindRunStatus で集計可能。

判断:

FP / FN が 0 件 = audit query OK
FP がある = audit query を 厳しく 改修 (= 条件追加 / 閾値上げ) or test を修正
FN がある = audit query を緩く改修 (= 条件削除 / 閾値下げ) or test を修正
どちら修正かは「業務規程がどうか」から決める (= test が業務真理、 audit が仮説、と思って改修)

5.5 failing 時の意思決定モデル (= 何を真とみなし、どう直すか)

§5 の「FP→厳しく / FN→緩く」は単発の局所処方。ここでは 「failing を前にした時の判断順序」 を規定する。順序自体が FN 優先思想を体現する。

前段: error (runStatus=10) と failing (=20) を分ける

failing (期待と不一致) の前に、まず error (= 走行自体が落ちた) を切り分ける。代表例:

Unknown rule '<predicate id>': 参照した DomainPredicate が updating のまま (= 未 active)。 datalog_query / datalog_audit_run_all の自動注入は active のみで、 datalog_predicate_get 等の単体検証は updating でも自前 inject で passing になるため「test 通った=使える」と誤認しやすい。 → datalog_predicate_update {status:'active'} で昇格して再走行。 空返り [] (該当ゼロ) とは別シグナル: Unknown rule=未注入(定義/状態の問題)、 []=注入され実行され母集団に該当なし。
それ以外の例外 (transact 失敗 / schema 不整合) も error。期待値やクエリ論理を疑う前に走行可能性を直す。

最重要原則 (= 常に先に思い出す)

迷ったら TP に倒す (= FN を作らない、検出する方向)。決定不能なら warning に降格して人へ渡す (= FN も作らず歪めもしない)。 FP はアクション 4 で後から削れる。 failing を消すこと自体を目的化しない — クエリを期待値に寄せる / 期待値をクエリに合わせて緩めるのは、決定論と説明可能性をシステム内部から腐らせる。

意思決定木

問い0: 単発の failing か、類型内の散らばりか?
  └ datalog_testrow_list の byKindRunStatus を 類型単位 で 見る。
     特定類型で FP と FN が両立 → 散らばり → §5.6 へ
     単発 → 問い1へ
  ※ 散らばりは個々のテスト行では気づけない。集計ビューで初めて見える。

問い1: そもそも datalog で決定的に判定できる種類の違反か?
  └ 判断境界・規範解釈・事実認定が絡む (外注費か給与か、 交際費か会議費か 等)
     → 否なら即 A5a (warning 降格、 人へ)。 クエリを歪めず FN も作らない。
     → 是なら問い2へ

問い2: 食い違いは FN型 か FP型 か?
  ├ FN型 (期待 TP・なのに検出されず = 取りこぼし) = 最優先で潰す
  │   切り分け: 期待値が誤り→A1 / fixture が誤り→A2 / クエリが狭すぎ→A3 (主力)
  │   迷ったら TP に倒す
  └ FP型 (期待 TN・なのに検出 = 過剰) = 急がない。 常に FN 対応の後
      クエリが広すぎる→A4 で精緻化 / 期待値の誤解→A1

5 アクション (= 取りうる対応)

	アクション	datalog で対応?	user 協調	FN 優先での位置づけ
A1	期待値修正 (what)	否 (what 層、クエリは正しい)	必須: LLM は `datalog_testrow_create`/`update` で draft (businessExpectation ordinal 0/10) を書くだけ。業務期待値の確定 (石入れ = 20/30) は GUI で人間が行う (= 期待値は監査基準 SOR)	FN 局面で期待値を緩めて見逃しを消すのは思想違反。特に慎重に
A2	入力データ修正 (fixture/data)	否 (data 層、特に e2e で投入シナリオが意図構造にならない時)	必須: 業務知識者に実務上のデータ形を確認、原票 (freee 画面) で診断	fixture の歪みを除去して 4 区分の信頼性を回復
A3	クエリ修正 (how・正攻法)	是 (`datalog_audit_update`)	低 (LLM 主導)。広げると FP 増 → 後で A4 で削る	FN 潰しの主力。迷ったら TP 側に倒す
A4	クエリ追加 (how 拡張・精緻化)	是 (IDB 述語 / サブ条件追加、既存は壊さず多層化)	中: error/warning の境界を user に諮る	A3 で FN 潰した後の増分 FP を削る (=「FP はいくらでも調整できる」の実体)
A5a	ケース単位の降格	否 (明示放棄、信頼度 error→warning)	最も協調的: 決定を人へ返す	FN の安全弁。歪めず・見逃さず・人に渡す

e2e 失敗と datom_only 失敗の診断差

datom_only 緑 × e2e 赤 = ルール (how) でなく freee 同期境界の問題 (= 投入シナリオ / 同期パイプラインが意図構造にならない)。 → A2 (fixture/同期) を疑う。クエリ (A3/A4) を触らない。
e2e_passing (40) の手前 (= passing だが e2e 未到達) で止まっている時は、 testRecords の freee 投入結果を先に診断する。

5.6 「類型内の散らばり」 (= 同一類型で TP/TN/FP/FN 混在) の扱い

散らばりを A5a (ケース単位の決定不能) として一律降格すると、 本来 TP で確実に黒だったものまで warning に落ちる (= FN 優先に反し確実な違反の信頼度を下げる)。散らばりは「1 ケースがグレー」ではなく「判別境界が母集団分布にうまく引けていない」状態で、性質が違う。

問い: その散らばりは、追加の特徴量 (述語) で 分離可能 か、 本質的に分離不能 か?

分離可能: 今は混在だが未使用属性を述語化すれば TP 群 / TN 群を分けられる (例: 「同一取引先で科目が揺れる」FP が、実は「継続契約先 / スポット先」で正常異常が分かれていた → 契約区分述語で解ける)。 → A3 で境界を FN ゼロ位置まで広げ、増分 FP を A4 の追加述語で削る。散らばりを 4 区分がきれいに分かれる状態へ追い込む。

本質的に分離不能: どんな属性を足しても datalog の見える事実だけでは分けきれない (実態判断・規範解釈が残る)。 → 類型ごと降格 (個別ケースでなく類型全体を warning 化)。ただし FN 優先で、該当候補は漏れなく warning で拾う (= 網羅検出ルールは TP 志向で広く張る)。決定は人、しかし人の目に乗せる対象は見逃さない。

集合知ループ接続: 散らばりをどう処理したか (述語追加で解いた / 類型降格した) を記録すれば、「人と datalog の分業境界」の学習データになる。分離可能な散らばりの解法は組織の監査ノウハウ、分離不能な類型は「ここから先は人間」という境界そのものが資産化される。

6. 既存 test ライフサイクルとの接続

datalog-debug-skill §5 と整合:

test 作成 (= datalog_testcase_create で TestCase → datalog_testrow_create で行) では上記 1-5 の観点をカバーした集合を作る
TestCase 側の statuteDescription (= 法的根拠 Markdown) も同時に埋める
statuteDescription (audit query 側) と TestCase 側を対応させて「この test が検証する法 / 規程」を明示
run 後 FP / FN があれば audit query 改修 (datalog_audit_update) or test 行修正 (datalog_testrow_update) を行う (= 業務期待値の確定は GUI で人間)

7. Few-shot 例 (= LLM 出力参照用)

例 A: 36 協定 (`overtime_36agreement`) の test set

監査クエリ: 法定外労働 > 2700 分/月を error として検出。

TestCase	tags	datoms (= 月次勤怠)	expected
ぴったり 45 時間 → 拾わない	`boundary`, `happyPath`	excess_statutory_mins = 2700	not-hit
45 時間 + 1 分 → 拾う	`boundary`	excess_statutory_mins = 2701	hit
大幅超 60 時間 → 拾う	`boundary`	excess_statutory_mins = 3600	hit
法定外労働属性不在 → 拾わない	`nullHandling`	excess_statutory_mins = null	not-hit
特別条項適用 (= 別ルール) → 拾わない	`edgeCase`	excess_statutory_mins = 4800、 special_clause = true	not-hit

→ 5 件で「上 / 境界 / 下 / null / 例外」をカバー。

例 B: 高額取引証憑 (`high_amount_no_receipt`) の test set

監査クエリ: amount ≥ 30000 円で has_receipt = false を warning として検出。

TestCase	tags	datoms (= deal)	expected
30000 円 + 証憑なし → 拾う (境界)	`boundary`	amount = 30000, has_receipt = false	hit
30001 円 + 証憑なし → 拾う	`boundary`	amount = 30001, has_receipt = false	hit
29999 円 + 証憑なし → 拾わない	`boundary`, `happyPath`	amount = 29999, has_receipt = false	not-hit
30000 円 + 証憑あり → 拾わない	`happyPath`	amount = 30000, has_receipt = true	not-hit
100000 円 + 証憑なし → 拾う (= 大幅超)	`edgeCase`	amount = 100000, has_receipt = false	hit

→ 5 件で「境界ぴったり / +1 / -1 / 証憑切替 / 大幅超」をカバー。

例 C: 課税仕入取引先 (`taxable_purchase_no_partner`) の test set

監査クエリ: 課税仕入明細 + 取引 / 明細どちらにも取引先紐付け無しで warning。

TestCase	tags	datoms (= deal + detail + partner)	expected
課税仕入 + 取引先紐付け無し → 拾う	`boundary`	detail.tax = 'taxable_purchase', deal.partner = null, detail.partner = null	hit
課税仕入 + 取引自体に取引先 → 拾わない	`multiEntity`	detail.tax = 'taxable_purchase', deal.partner = partner_1, detail.partner = null	not-hit
課税仕入 + 明細自身に取引先 → 拾わない	`multiEntity`	detail.tax = 'taxable_purchase', deal.partner = null, detail.partner = partner_1	not-hit
課税仕入 2 件 (1 件紐付け / 1 件無し) → 1 件拾う	`edgeCase`, `multiEntity`	detail_1.partner = partner_1, detail_2.partner = null	hit (detail_2 のみ)
課税売上で取引先無し → 拾わない (= ルール範囲外)	`happyPath`	detail.tax = 'taxable_sales', deal.partner = null	not-hit

→ 5 件で「主条件 / 取引経由補完 / 明細経由補完 / 部分 hit / ルール範囲外」をカバー。

8. test 出力形式 (= `datalog_testcase_create` + `datalog_testrow_create`)

まず datalog_testcase_create で TestCase header (= title / tags / statuteDescription / dataSource) を作り、各 test 行を datalog_testrow_create で足す。

const { testCaseId } = datalog_testcase_create({
  title: '36 協定 45h 境界',
  tags: ['boundary'],
  statuteDescription: '...', // 法的根拠 Markdown
  dataSource: 'datom_only', // §0 参照
});

datalog_testrow_create({
  testCaseId,
  // datoms = 試行 input (= 必要 entity を 揃える)
  datoms: [
    [{ 'node/id': 'work_record_1', 'attr/excess_statutory_mins': 2701, ... }],
    // ... 関連 entity も 含める
  ],
  // expectedRows = 期待 出力 (= 該当 query を 走らせた 結果)
  expectedRows: [['work_record_1']], // positive (negative なら [])
  // businessExpectation は draft ordinal (0 / 10) のみ LLM 書込可
});

複数 test 行 (= boundary 揃い) は 1 行ずつ datalog_testrow_create を呼ぶ。タグ + statuteDescription で「なぜこの case か」を明示。 業務期待値の確定 (石入れ = ordinal 20/30) は GUI で人間が行う (= LLM は draft のみ)。

9. test 実装 4 phase (= 段階追い)

test は 最終 e2e (= freee 投入 + 実走行) までが完成形 だが、段階を追って runStatus で進捗を表現できる。 LLM は 1 phase 終了ごとに status を明示更新して、 user / 別 LLM が続きを引き継げるようにする。

Phase	出力	TestCase.runStatus	TestRecordV2
1. 概要設計	TestCase header (= title / userDescription / why / statuteDescription / kind / tags)	`test_design_pending` (7)	0 件
2. 期待列挙	hit 対象 row (= nodeKey + expectedKind={TP,TN} + label + userDescription) + 関連背景 row (= nodeKey + expectedKind=outOfScope)	`test_design_pending` (7) or `failing` (20)	N > 0 件、 datoms 任意
3. データ詰め	datoms (= 走行入力 fact)、業務期待値 (= businessExpectation。 LLM は draft ordinal のみ書込可)	`passing` (30)	datoms あり
4. e2e	freee 投入 (= freeeReqBody / freeeKind) → 実走行 → resultKind 観測	`e2e_passing` (40)	freeeReqBody + lastSyncedAt あり

Phase 1 の詳細

TestCase header は 走らせない (= 仕様だけ) → runStatus = test_design_pending
親 audit query が未完成なら query_pending (5) で表現
必ず statuteDescription を埋める (= datalog-debug-skill 参照)
userDescription (= 一覧 UI の「業務向け詳細」) は 検証主旨 (what) を業務語で書く。 投入手順 (「明細を 2 行登録します…」) は書かない (= 投入データは子 TestRecord の label/userDescription 側)。 pyramidLevel で書き分け: unit / integration は what のみ (例: 「勘定科目が紐付いていない仕訳明細を検出できること」)、 scenario は why (業務リスク・背景) + what (例: 「課税仕入の付け間違いは利益と消費税額を歪めるため、収入取引に紛れた課税仕入明細を検出できること」)。

Phase 2 の詳細

hit 対象 row (= expectedKind=truePositive or trueNegative): label + userDescription 必須
関連背景 row (= expectedKind=outOfScope): label + userDescription 任意 (= 文脈確立用 entity、例: 「親 deal の partner」「同 deal 内の別明細」)
datoms はこの phase で入れても入れなくても OK。入れない場合は runStatus = test_design_pending 維持

Phase 3 の詳細

datoms を詰めて走らせる (= datalog_testcase_run、走行は TestCase 単位)

業務期待値 (businessExpectation) を並走して入れる。旧来の 3 値文字列 (issue / no_issue / needs_review) は廃止され、 int ordinal の階層 enum に変更された:

ordinal	name	label	誰が入れる
`0`	`no_issue_draft`	正常判定 (LLMドラフト)	MCP (= LLM)
`10`	`issue_draft`	違反検知 (LLMドラフト)	MCP (= LLM)
`20`	`no_issue`	正常判定	GUI user / seed
`30`	`issue`	違反検知	GUI user / seed

権限境界: GUI user = 確定 (20 / 30) のみ / MCP (= LLM 経由 tool call) = draft (0 / 10) のみ / seed = 確定 stamp (= 業務上 issue → issue (30) / no_issue → no_issue (20))。 MCP boundary は draft 以外を throw (assertMcpWritableBusinessExpectation) するので、 LLM が datalog_testrow_create 等で入れる値は必ず draft ordinal (0 or 10)。業務期待値の確定 (= 石入れ。 20 / 30 への昇格) は GUI で人間が行う。
draft ↔ 確定は ordinal の大小 (= draft < 確定) で表現。「LLM が下書き → user が確定」という育成経路を 1 enum で持つ。

解離検知: `expectedKind` ↔ `businessExpectation` が矛盾 (= 「datalog 拾わない / 業務 issue 系」 or 「datalog 拾う / 業務 no_issue 系」) なら audit query の限界 を認知。 businessExpectedReason で根拠を書き、 reviewEscalation を 'llm' (= LLM 上位 review) or 'expert' (= 専門家 review) に設定
解離は bug でなく正常経路 (= 「audit は安価自動、解離 case を上位高価調査に流す」戦略)

Phase 4 の詳細

TestRecordV2.freeeKind / freeeApiPath / freeeReqBody を詰める
datalog_testcase_run で freee 投入を実行
実走行で resultKind 観測 → 期待と一致なら runStatus = e2e_passing

kind='mixed' の扱い

1 TestCase 内で hit row + non-hit row が混在する場合 (= 同 deal の 3 明細で 2 件 hit / 1 件 non-hit 等)、 TestCase.kind = 'mixed' を使う:

各 TestRecordV2 で expectedKind を個別設定
TestCase 全体で「2 件 TP + 1 件 TN + 1 件 outOfScope (= 親 deal の partner)」等の構成
mixed の test は multiEntity tag と親和性が高い

業務期待値と datalog 期待の解離 case (= 重要)

例 1: 解離 → expert review

// 同 取引、 法定外労働 = 2700 分 (= 45h ぴったり) で 「拾うべきでない」 (= datalog)
// しかし 業務上 は 「同一従業員 が 2 ヶ月 連続 45h ぴったり → 健康福祉 確保 対象」 (= 業務 issue)
{
  expectedKind: 'trueNegative',           // datalog 上 は 拾わない
  businessExpectation: 10,                // issue_draft (= 違反検知 LLMドラフト)。 LLM は draft ordinal のみ。 user が GUI で 30 (issue 確定) に 昇格
  businessExpectedReason: '2 ヶ月 連続 45h ぴったり は 健康福祉 確保 措置 対象 (= 80h 検知 ルール の 範囲外)',
  reviewEscalation: 'expert',             // 産業医 / 人事 部 へ
}

→ audit query は「45h+1min から拾う」の 1 軸だけ、「連続月数」軸は別 query で補う必要。解離を明示すれば「次の audit 設計」ヒントになる。

例 2: 解離 → llm review

// 課税仕入 + 取引先 紐付け 無し → 拾う (= datalog)
// しかし 業務上 「現金取引 で 3 万円 未満 だから 業務 issue でない」 (= 経過措置)
{
  expectedKind: 'truePositive',           // datalog 上 は 拾う
  businessExpectation: 0,                 // no_issue_draft (= 正常判定 LLMドラフト)。 LLM は draft ordinal のみ。 user が GUI で 20 (no_issue 確定) に 昇格
  businessExpectedReason: '現金 取引 + 3 万円 未満 (= 帳簿要件 緩和)',
  reviewEscalation: 'llm',                // LLM が 上位 ルール で 仕分け
}

→ audit query は「課税仕入 + 取引先無し」で一律拾う、「現金 + 3 万円未満」例外は別 query (= 緩和ルール) で否定。

10. testRecords[] は `dataSource='freee_e2e'` のみ必須

testRecords[] (= freee に投入すべき record の集合) は 親 TestCase の dataSource 次第:

dataSource='freee_e2e': testRecords[] を必ず並べる (= freee 実投入 → e2e 走行が完成形)。
dataSource='datom_only': testRecords[] は不要 (= freee に作れないゆえ datom 単体で完結。 §0 の e2eBlockedReason を明示し、 passing が terminal green)。

旧来の「常時必須」は現行で freee_e2e 限定 に改められた (= 純論理 IDB rule test 等は datom_only で testRecords ゼロが正)。詳細雛形 / 文体規約 / recordKind 振り分け規則は freee-api-test-record-skill を参照 (= 役割分担: 本 skill は「何を test するか」、 freee-api-test-record-skill は「freee_e2e のとき freee 投入 record を全部並べる」)。

detected = audit query が hit すべき対象
context = 検知対象を成立させる前提データ (= 共通マスター / 子 entity)、漏れゼロで並べる
expected_miss = 拾わない期待 (= 反例)
out_of_scope = 範囲外

各 record の label / userDescription は freee UI 用語限定。 attr/* / instance / = 等の内部略記禁止。

GUI 連携 (= 結果は必ず画面で確認できる形で返す)

audit / testcase / testrecord の結果を user に示すときは、 テキスト説明だけで完結させず対応する GUI URL リンクをセットで提示する。 MCP 出力 (*_list / *_get / audit 実行結果) に自動付与される links をそのまま使い、種別→画面のマッピングと host 解決は logic-solver-mcp-ui-nav §3.1.1 に従う (= URL ハードコード禁止)。

削除ポリシー (厳守)

AI は audit query / TestCase / TestRecord などの 検証データを自発削除しない。 *_delete は user の明示指示が有る時だけ叩く (= 「片付け」「確認のため一旦消す」等の AI 判断による削除は禁止、残す)。詳細は datalog-debug-skill §運用鉄則 9。

Audit Test Design Skill

0. dataSource (= 検証様式) は 必須・明示宣言

0.5 TestCase の 粒度規約 (= 1 観点 = 1 TestCase)

1. TestCase tags (= 観点 別 分類)

2. 境界値 (= boundary) table — 会計・税務・労務 / 内部統制 別

消費税 (= 仕入税額控除 / 売上 / 課税区分)

法人税 / 損金算入限度

電帳法 (= 電子帳簿保存法、 2024 改正)

36 協定 / 労働基準法

内部統制 / 社内規程

会計帳簿 必須項目

3. test サンプリング 戦略

必須サンプル ルール

避ける パターン

4. positive / negative 対 (= twin test)

5. 走行結果 4 区分 (= TP / TN / FP / FN)

5.5 failing 時 の 意思決定モデル (= 何を真とみなし、 どう直すか)

前段: error (runStatus=10) と failing (=20) を分ける

最重要原則 (= 常に先に思い出す)

意思決定木

5 アクション (= 取りうる対応)

e2e 失敗 と datom_only 失敗 の 診断差

5.6 「類型内の散らばり」 (= 同一類型で TP/TN/FP/FN 混在) の扱い

6. 既存 test ライフサイクル と の 接続

7. Few-shot 例 (= LLM 出力 参照用)

例 A: 36 協定 (overtime_36agreement) の test set

例 B: 高額取引 証憑 (high_amount_no_receipt) の test set

例 C: 課税仕入 取引先 (taxable_purchase_no_partner) の test set

8. test 出力 形式 (= datalog_testcase_create + datalog_testrow_create)