書店員向け情報 HELP
出版者情報
書店注文情報
生成AIアプリケーション評価入門
- 書店発売日
- 2026年5月1日
- 登録日
- 2026年3月3日
- 最終更新日
- 2026年4月15日
紹介
生成AIを活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは、その性質上、次の特徴を持ちます。
・確率的出力:同じ入力に対して、常に同じ出力が得られるとは限らない
・複雑な挙動:入力と出力の関係が明確ではなく、ブラックボックス的な側面がある
・文脈依存性:過去のやり取りや外部情報によって出力が変化する
これらの特徴から、生成AIアプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。
本書では、生成AIを活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。
目次
第1章 生成AIアプリケーションの評価の概要
1.1 生成AI アプリケーションの特徴と評価の必要性
1.2 生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル
1.3 開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ
1.4 まとめ
第2章 生成AIアプリケーションの評価基盤モデルと評価アプローチ
2.1 生成AI アプリケーションの品質モデル
2.2 機械学習利用システムの外部品質特性レベル
2.3 品質モデルとテストタイプを組み合わせて
2.4 生成AI アプリケーションの基盤評価モデル
2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計
2.6 生成AI アプリケーション開発における開発チームとQA チームの役割分担の例
2.7 まとめ
第3章 基本的な評価メトリクス
3.1 混同行列にもとづくメトリクス
3.2 検索・RAG 向けの基本的なメトリクス
3.3 生成テキストの内容一致の基本的なメトリクス
3.4 各メトリクスを実際に運用する
3.5 まとめ
第4章 評価メトリクスのツールによる評価の実際
4.1 LLMを評価者として利用する「LLM-as-a-Judge」
4.2 メトリクスの評価環境の構築
4.3 評価の実行
4.4 pytestと統合した利用
4.5 まとめ
第5章 生成AIアプリケーションのセキュリティ評価
5.1 OWASP LLMとは
5.2 OWASP LLM2025
5.3 生成AI・LLMのセキュリティテスト・レッドチーミング
5.4 まとめ
第6章 AIエージェントの評価
6.1 AI エージェントとは
6.2 AIエージェントのパターンと構造・評価観点の例
6.3 AIエージェントの評価メトリクス
6.4 まとめ
第7章 生成AIアプリケーションのテスト・評価のその他のトピック
7.1 プロパティベースドテスト
7.2 画像分析型の生成AI アプリケーションの評価
7.3 AI 駆動開発のテスト・QA
上記内容は本書刊行時のものです。
