特徴
- 各処理段階が独立して動作するので、最適化が可能
- 処理の透明性が高い
- 既存の技術スタックとの統合が容易
用途
- 手続きを行うような会話
- 既存のチャットエージェントのコードを活用したい
処理の流れ
1
音声入力
ユーザーからの音声をマイクや電話で取得
2
音声認識 (STT: Speech to Text)
音声をテキストに変換
3
自然言語処理 (LLM)
テキストを理解し、適切な応答を生成
4
音声合成 (TTS: Text to Speech)
応答テキストを音声に変換
5
音声出力
ユーザーに音声で応答