音声アシスタントに話しかける前の沈黙

この記事の要点
- 音声アシスタントに話しかける直前、多くの人はわずかに息を止め、言葉を組み立て直す沈黙を置く。
- この沈黙は、相手が機械だと知っていても働く「どう話せば通じるか」という社会的な調整に近い。
- リーブズとナスの研究は、人が機械を無意識に社会的な相手として扱うことを示してきた。
- 沈黙の長さや場所を観察すると、その装置が会話の相手としてどれだけ信用されているかが透けて見える。
「オーケー、グーグル」と言う前に、人は一瞬、黙る。台所で料理をしながらタイマーを頼むときも、車の中で道を尋ねるときも、起動の合図を口にする直前に、ほんの短い間がある。録音して波形を眺めたわけではないが、自分自身を含め、まわりの人を観察していると、この沈黙はかなりの確度で現れる。何を言うか決まっているはずなのに、なぜ人は一拍置くのだろう。
試しに自分で意識してみると、その沈黙のあいだに起きているのは、言葉の組み立て直しだとわかる。頭のなかにある「あの店、何時まで開いてたっけ」という曖昧な問いを、機械が受け取れる形——短く、主語と述語がはっきりした命令文——へ翻訳している。相手が人間の家族なら、「ねえ、あの店」で通じるところを、機械には通じないと知っているから、いったん黙って整える。
機械を相手に、人は社会的にふるまう
バイロン・リーブズとクリフォード・ナスは『人はなぜコンピューターを人間として扱うか』で、人がコンピューターやテレビに対して、まるで生身の相手であるかのように礼儀やためらいを向ける現象を数多く報告した。彼らの一連の実験が示すのは、「これは機械にすぎない」という知識と、実際の振る舞いとが、しばしば食い違うということだ。頭では道具だと理解していても、身体は社会的な相手に接するときの癖を手放さない。
話しかける前の沈黙も、この食い違いの一場面と読める。人間との会話なら、相手の表情や場の空気を見て話し出すタイミングを計る。その計測の習慣が、相手が機械でも完全には消えない。ただし機械には空気がないから、計るべき手がかりがない。手がかりのない計測が、行き場を失って沈黙になる——そう考えると、あの一拍の居心地の悪さも腑に落ちる。
沈黙は信用の目盛りでもある
面白いのは、この沈黙の長さが、装置への慣れとともに変わっていくことだ。使い始めの数日は、命令文を慎重に組み立てるための長めの間がある。やがて「この言い方なら通る」という型が身につくと、沈黙は短くなり、ほとんど消える。逆に、一度うまく聞き取ってもらえなかった経験のあとは、沈黙がまた延びる。人は失敗から、機械の聞き取り能力をひそかに見積もり直しているのだ。
もっとも、沈黙が短いことが、そのまま良い関係を意味するとはかぎらない。命令文の型に人間のほうが合わせきってしまい、「機械語」を流暢に話せるようになっただけ、という見方もできる。機械に心を見てしまう方向ではなく、人間が機械の文法に自分を寄せていく方向の適応だ。どちらが起きているのかは、言葉づかいそのものを聞かないとわからない。丁寧語が残っているか、それとも単語の羅列に痩せていくか。機械への「ありがとう」が消えるとき、人は相手を道具と見切ったのかもしれない。
観察できるのは、間のほうだ
音声インターフェースの評価は、認識精度や応答速度という、機械側の性能で語られることが多い。だが利用の現場でほんとうに起きているのは、人間の側の細かな調整である。話し出す前の沈黙、言い直し、声の張り方の変化。これらは仕様書には載らないし、ログにも残りにくい。残るのは「認識成功」という結果だけで、そこに至るまでに人がどれだけ自分を作り替えたかは、観察しなければ見えない。
話しかける前に黙る、というささやかな振る舞いは、人と機械の会話がまだ対等でないことの証しでもある。対等な会話なら、いちいち翻訳の間を置く必要はない。沈黙が残っているかぎり、人間はまだ、機械に合わせて自分を整える側に立っている。その間がいつか消えるとして、それは機械が人間に近づいたからなのか、人間が機械に近づいたからなのか。聞き分けるべきは、たぶんそこだ。
参照・出典
- バイロン・リーブズ、クリフォード・ナス『人はなぜコンピューターを人間として扱うか』翔泳社、2001年(原著 The Media Equation, 1996)。CASA(Computers Are Social Actors)パラダイム。
- クリフォード・ナス、コリーナ・イェン『お友達からはじめましょう』ほか、人と音声インターフェースの関係を論じた一連の著作・論文。