メインコンテンツへスキップ

特徴

  • エンドツーエンドの音声処理
  • リアルタイム性に優れる
  • 相槌など自然な会話の流れを実現

用途

  • リアルタイム性を重視する会話
  • 自然な会話体験を優先

処理の流れ

1

音声入力

ユーザーからの音声を取得
2

Speech-to-Speech処理

音声を直接音声に変換(STT、LLM、TTSを統合)
3

音声出力

リアルタイムで音声応答を生成