メインコンテンツへスキップ

特徴

  • 各処理段階が独立して動作するので、最適化が可能
  • 処理の透明性が高い
  • 既存の技術スタックとの統合が容易

用途

  • 手続きを行うような会話
  • 既存のチャットエージェントのコードを活用したい

処理の流れ

1

音声入力

ユーザーからの音声をマイクや電話で取得
2

音声認識 (STT: Speech to Text)

音声をテキストに変換
3

自然言語処理 (LLM)

テキストを理解し、適切な応答を生成
4

音声合成 (TTS: Text to Speech)

応答テキストを音声に変換
5

音声出力

ユーザーに音声で応答