情報科学
【内容紹介】
本書は、人間のようにスムーズなやり取りを行う対話システムを実現するための書籍です.具体的には、Remdisというツールキットの説明を通して、リアルタイムな応答の実現方法やマルチモーダル情報の表出方法を説明します.本書を用いることで「自分のシステムはなんだかもっさりしている」「もっと表現豊かな対話システムが作りたい!」「ChatGPT を組み込んだだけではなんだか物足りない」という悩みを解消できるはずです.
本書の対象者は、対話システムに未来を感じている学生やエンジニアです.サイエンスフィクションなどで登場する、人間と対話をするコンピュータを実現したい、と考えている方にうってつけです.
第1章では、対話システムという分野の概要について説明するとともに、リアルタイムマルチモーダル対話システムのアーキテクチャについて説明した後、ツールキットのインストール手順とプログラムの起動の仕方について説明しています.
第2章では、大規模言語モデルとそれに基づくテキスト対話システムをRemdis のコードを参照しながら説明します.また、リアルタイムに大規模言語モデルの理論と実装について説明します.
第3章では、音声対話システムについて説明します.音声認識の理論、音声合成の理論、そして、ターンテイキング(話者の交替)の理論について述べるとともに、これらをどのようにリアルタイムに動作するように実装するかをRemdis のコードとともに説明します.
第4章では、マルチモーダル対話システムについて説明します.マルチモーダル対話システムの理論について述べたあと、マルチモーダルエージェントのためのツールキットであるMMDAgent-EX の説明を通して、マルチモーダル対話システムの実装について説明します.Remdis との連携方法についても具体的に説明します.
第5章では、今後の展望として、これからの対話システムがどのように進化するかについて著者らが考えていることを述べます.
【目次】
第1 章 対話システム
1 ? 1 対話システムとは
1 ? 2 リアルタイムマルチモーダル対話システムとは
1 ? 3 一般的な対話システムのアーキテクチャ
1 ? 4 リアルタイムマルチモーダル対話システムのアーキテクチャ
1 ? 5 リアルタイムマルチモーダル対話システムツールキットRemdis
1 ? 6 ツール・ソフトウェアのインストール
1 ? 6 ? 1 API キーの取得
1 ? 6 ? 2 Windows のインストール手順
1 ? 6 ? 3 Mac のインストール手順
1 ? 6 ? 4 Windows/Mac 共通のインストール手順
1 ? 7 プログラムの起動
第2 章 大規模言語モデルに基づくテキスト対話システム
2 ? 1 大規模言語モデル
2 ? 1 ? 1 大規模言語モデルの理論
2 ? 1 ? 2 大規模言語モデルを用いた応答生成の実装
2 ? 1 ? 3 大規模言語モデル差し替えの実装
2 ? 2 リアルタイムテキスト対話システム
2 ? 2 ? 1 リアルタイムテキスト対話システムの理論
2 ? 2 ? 2 リアルタイムテキスト対話システムの実装
2 ? 3 リアルタイムテキスト対話システムの改善
2 ? 3 ? 1 応答生成(高速版)の実装
2 ? 3 ? 2 自発的な発話生成の実装
2 ? 4 本章のまとめ
第3 章 音声対話システム
3 ? 1 音声認識
3 ? 1 ? 1 音声認識の理論
3 ? 1 ? 2 ストリーミング音声認識システムの実装
3 ? 2 音声合成
3 ? 2 ? 1 音声合成の理論
3 ? 2 ? 2 音声対話システムの実装
3 ? 3 ターンテイキング
3 ? 3 ? 1 ターンテイキングの理論
3 ? 3 ? 2 Voice Activity Projection (VAP)
3 ? 3 ? 3 リアルタイム音声対話システムの実装
3 ? 4 本章のまとめ
第4 章 マルチモーダル対話システム
4 ? 1 マルチモーダル対話システム
4 ? 2 マルチモーダル対話システムの理論
4 ? 2 ? 1 入出力
4 ? 2 ? 2 表出の方法
4 ? 2 ? 3 エージェントの見た目のデザイン
4 ? 3 MMDAgent-EX
4 ? 3 ? 1 入手・準備
4 ? 3 ? 2 基本的な操作
4 ? 3 ? 3 コンテンツの構成
4 ? 3 ? 4 メッセージによる制御
4 ? 3 ? 5 ログの表示と保存
4 ? 3 ? 6 動作スクリプト
4 ? 3 ? 7 CG エージェントの表示
4 ? 3 ? 8 モーションの再生
4 ? 3 ? 9 オーディオの再生
4 ? 3 ? 10 リップシンク付き音声再生
4 ? 4 リアルタイムマルチモーダル対話システムの実装
4 ? 4 ? 1 起動
4 ? 4 ? 2 ファイルの構成
4 ? 4 ? 3 同梱の3D モデルについて
4 ? 4 ? 4 main.mdf
4 ? 4 ? 5 動作スクリプトの解説
4 ? 4 ? 6 RabbitMQ プラグイン
4 ? 5 カスタマイズ方法
4 ? 5 ? 1 リップシンクを調整する
4 ? 5 ? 2 テキストや画像を提示する
4 ? 5 ? 3 Remdis との連携を拡張する
4 ? 5 ? 4 開発情報
第5 章 今後の展望
5 ? 1 より知的な応答
5 ? 2 実世界との紐づけ
5 ? 3 多人数対話
5 ? 4 リアルタイムに変化するシステム
5 ? 5 共通理解
5 ? 6 意図や欲求
【著者略歴】
2001 年慶應義塾大学大学院政策・メディア研究
科修士課程、2008 年博士課程修了.博士(学術).
2001 年日本電信電話株式会社入社.2020 年より、
名古屋大学大学院情報学研究科教授.NTT 人間
情報研究所客員上席特別研究員.慶應義塾大学
環境情報学部特別招聘教授.
対話システムの研究に従事.著書に「Python でつくる対話システム」(オーム社)、「AI の雑談力」(KADOKAWA)、「対話システムの作り方」(近代科学社) など.