スマートスピーカーの可能性スマートスピーカーの現状

スマートスピーカーの市場を牽引する H/W 各社の動向と、用途の広がりを支える S/W(アプリケーション/カスタムスキル)開発環境の現状を総括する
この記事をシェア
2019.03.12
GAFAをはじめとする複数の企業が参入し、普及が本格化するスマートスピーカー。その可能性はベンチャーキャピタル企業Kleiner Perkins Caufield & Byers(KPCB)のパートナーであるMary Meekerによっても示されており、今後の用途の広がり次第では最強のタッチポイントになる可能性を秘めていると言えるだろう。

スマートスピーカーの市場を牽引する H/W 各社の動向と、用途の広がりを支える S/W(アプリケーション/カスタムスキル)開発環境の現状を総括する。

市場形成が本格化するスマートスピーカー

Digital TalkでのAIスピーカー(スマートスピーカー)に関するエントリから、1年余りが経過した。その間にスマートスピーカーがどのような変化・進化をしてきているのかを国内の話題を中心に振り返ってみたい。
Google Home
国内では、話題も少なめのGoogle Homeだが、世界的にはGoogle Home mini がスマートスピーカーの出荷台数TOPに立っている。

プロダクトとしては2018年10月にディスプレイ付きのスマートスピーカーGoogle Home Hubが発売開始されるなど、こちらも話題性たっぷりであった。すでにAmazon Echoシリーズから出ているディスプレイ付きスマートスピーカー(Echo Spot、Echo Show)に追従する形だが、残念なことに日本では今のところ発売予定はない。

Amazon Echoシリーズ
国内でのAmazon Echoシリーズ販売は、2017年末に招待制で始まった。このときはEcho Dot、Echo、Echo Plusの3製品だったが、いずれの製品についてもなかなか招待メールが来ず、ヤキモキしたことを覚えている。待ちきれずGoogle Home 購入に切り替えた方も少なくなかったのではないだろうか?

その後、Amazonは2018年7月にEcho Spot(丸型ディスプレイ付き)、同年12月にEcho Show(スマートディスプレイ)と立て続けにディスプレイ付きのスマートスピーカーを発売し、スマートスピーカーとしての選択肢を一気に広げた。最近のCMでもEcho Spotを介してテレビ電話をするシーンを紹介しており、Google のスマートディスプレイ追従に対して、今のうちに一気に引き離しておこうという算段があるのではないだろうか。

Apple Home Pod
こちらについては日本未発売であり、発売されている国で見ても出荷台数はGoogle Home、Amazon Echoの足元にも及ばない。

後発製品だが、音質が高い事以外に主だった特質はなく、販売価格は他のスマートスピーカーと比べてみても高め。既存のAppleユーザでも、Home Podをスマートスピーカーの選択肢として含める人は少ないはずだ。

最近、AppleはAmazon Echo でのApple musicサポートを開始しており(米国のみ)、スマートスピーカー市場では、プロダクトメーカーとしてではなくサービサーの道へ方向転換を狙っているのかもしれない。 

LINE Clova
こちらも国内販売開始はGoogle Home、Amazon Echoと時を同じくして2017年10月頃である。はじめは円錐台の形をしたLINE Waveを発売、続いておなじみのLineのキャラクターの形状をしたLINE Friends、LINE Friends miniを発売した。LINEのキャラクター以外にも、若い世代に人気のミニオンや馴染みの深いドラえもんの形をしたモデルも発売している。打ち解けやすい(話しかけやすい)見た目が特徴のスマートスピーカーであり、他のスマートスピーカーと比べてターゲット層が若めであることがわかる(それがCMにも現れている)。他社と異なる点としては、バッテリー内蔵であることも面白い。子供がぬいぐるみを連れて歩くように、家の中でお気に入りの1台と一緒に移動しながら利用するユースケースを想定しているのかもしれない。

プロダクトとしては、他社同様ディスプレイ付きスマートスピーカー「Clova Desk」を発表しており、今冬に発売予定となっている。
上記の通り、各社成長拡大を続けているスマートスピーカーだが、その嚆矢は数年前に示されていた。ベンチャーキャピタル企業Kleiner Perkins Caufield & Byers(KPCB)のパートナーであり、著名なアナリストであるMary MeekerがInternet Trendで音声認識技術の可能性を示唆したのが2016年、当時すでに、VUI(音声インターフェース)の認識精度は99%を超え、実用化に向けて新たな段階に入ったと語られている。また同時に、VUIは従来のインターフェースを劇的に進化させる新たな可能性であることも示唆された。そして二年後の2018年5月のInternet Trend 2018では、VUIはリフトオフしたと語られている。

基盤技術の提供が生んだ用途の広がり

スマートスピーカーの基盤技術として存在するものがAIアシスタント(音声アシスタント)である。スマートスピーカーに呼びかけると最初に応じてくれるあれのことだ。(音声)アシスタントはプラットフォームごとに呼び名が異なり、Google Homeは「Google Assistant」、Amazon Echoは「Alexa」、Home Pod は「Siri」、LINE Clovaは「Clova」と呼ばれている。ユーザーからの呼びかけに反応し、天気やニュースなどの情報を教えてくれたり、音楽をかけてくれたり、IoTデバイスと通信して操作してくれるなどといった基本機能を備えている。

また、(Home Podを除き)それぞれのスマートスピーカーは、アプリをインストール、もしくはアプリ名を直接呼びかけることで新たな機能を利用することが可能となっている。アプリはプラットフォームにより呼び名は異なり、Google Homeは「Google Home対応のGoogle Assistantアプリ」、Amazon Echoは「Alexa Skill」、LINE Clovaは「Clovaスキル」と呼ばれている。

スマートスピーカーで利用できるアプリとしては、例えばラジオの再生、クイズゲーム、料理のレシピなどがある。

どの音声アプリも各社が提供する基盤技術の上に成り立っており、基盤技術を利活用することで比較的容易に音声アプリを開発できるようになってきている。これによりユーザー参加型のアプリ数は伸び、音声アプリの利用用途は拡大を続けてきている。実際、先日の「Alexa Dev Summit Tokyo 2018」では、Alexaのスキルだけでも全世界で50000超、1年前に発売開始した日本でも2000超のスキルが公開されるなど、急速に数を増やしていると発表された。ただ、提供されている基盤を鑑みるに、現在の基盤は、スマホアプリを提供しているApp Store等とは異なり、まだまだ開発者に収益をもたらす土壌にはなりきれてはいない。これまでにも、音声アプリ内で商品購入を可能とする「ECサイト機能」については提供されてきてはいたが、「スキル内課金(有料機能を販売する)機能」ついては2018年5月にAmazonで米国のみ利用可能となったばかりで、まだまだこれからといったところである。「近いうちに実現」とは言われているが、現在のところ日本国内では「スキル内課金機能」を利用することができないため、普及するまでにはさらに時間がかかるであろう。

まだまだこれからの部分も確かにあるが、スキル内課金の普及、つまりは基盤技術の発展が進んで行くことで、音声アプリ市場はより活発になり、今後の音声アプリの利用用途拡大が進んでいくと考えられる。

※以降では、スマートスピーカーで利用できる拡張機能を「カスタムスキル」と呼ぶ

カスタムスキル作成に向けて

前述の通り、爆発的に数を伸ばしているカスタムスキルだが、果たしてカスタムスキルの開発は身近なものなのだろうか? 難しくはないのだろうか?

以降は、Alexaを例に取り、カスタムスキルに必要な要素(インターフェース、インフラ、ソースコード)を中心に考えていきたい。

インターフェース
インターフェースとは入力側と機械との接点になるものを指し、CUI(Character User Interface)では入力デバイスとしてキーボードを、GUI(Graphical User Interface)では入力デバイスとしてマウスやタッチディスプレイなどを利用する。スマートスピーカーアプリケーションの場合は音声が入力デバイスにあたり、音声で操作するインターフェースをCUI、GUIに対して、特にVUI(Voice User Interface)と呼ぶ。

CUI、GUIと異なり、VUIの難しさはベース技術となる音声認識の難しさにある。人によって異なる声の高さ、声質、話す速さの違いを吸収し、機械に理解できる信号(文字)に変換するということは並大抵の難しさではない。タイプされた文字を取得したり、タッチされた位置を取得したりする従来のインターフェースと比べ、音声という揺らぎのあるインプット情報から正確な情報を決定することは非常に難しいのだ。

この音声認識の難しさを一気に超えることを可能にしてくれたのが、何と言ってもディープラーニングの登場によるところであろう。入力された信号の複雑性を吸収し、音声内容から確率的に最も確からしい文字に置き換えてくれるのだ。

以上のようにVUIで必要となる音声認識技術は複雑な処理の上に成り立ってはいるが、カスタムスキル開発において、開発者がこの問題で頭を悩ませる必要はない。なぜなら音声解析はすべてプラットフォーム側の基盤技術で対応してくれるからだ。

図1を見ていただきたい。スマートスピーカーを使っているだけではなかなかわからないが、実は開発者が作ったカスタムスキルに届いているのは、音声データではなく、音声解析され終わったあとの文字列(抽出されたキーワードに近いイメージ)だ。音声解析という難しい技術のハードルが取り払われており、開発者はカスタムスキルの中身に集中して開発ができる。

これらの精度は飛躍して上がっているものの、使ってみるとまだまだ音声解析については改善の余地は感じる。ただ、今後の音声認識技術の精度は、スマートスピーカーの普及とともに増える学習データに支えられ、ますます精度を向上させていくことであろう。

図1:ユーザーがアレクサに話しかけて、応答が返ってくるまでの流れ

インフラ
多くのアプリケーションがそうだが、ユーザーからの入力に即時に応答するため、基本的にはアプリケーションを常に起動しておき、待機させておく必要がある。言い方を変えればサーバにアプリケーションをホストしておく必要がある。

このことはカスタムスキルでも例外ではない。図1を見て頂くとおわかりになると思うが、Alexaカスタムスキルの場合、カスタムスキルはアレクササービスからのリクエストに常に応答できるようにしておく必要がある。つまりサーバにカスタムスキル(アプリケーション)をホストしてある(様な)状態が必要である。

カスタムスキルを作るのにサーバの構築・運用まで考えなくてはいけないのかと思うと開発に対する敷居が上がってしまいそうだが、ここで登場するのが、AWS Lambda(ラムダ)を筆頭としたサーバレスと呼ばれるサービスである。PaaS(FaaSとも呼ばれる)であるLambdaは、サーバレスの名前の通り、「サーバを用意しなくてもアプリケーションを動作させる」ことができるサービスである(図2参照)。

図2:カスタムスキルをサーバ上で動作させる場合とサーバレスの場合
つまり開発者はカスタムスキル用のソースコードを用意して、Lambdaにポンと置いておくだけでよく、あとはLambdaが宜しくリクエストに対して応答をしてくれる。サーバ管理にありがちな負荷監視対応、ミドルウェアの更新対応、サーバダウン等の障害対応について全く気を払う必要がない(そもそも気を払う対象がない)のだ。実際には、Lambdaはリクエストが来るたびにアプリケーションの実行環境を用意し、起動し、アプリケーションを動作させ、応答までしてくれている。

また、参考情報として運用コストが非常に安いことも付け加えておく。詳しくはこちらのページをご参照いただきたい。

もちろんサーバではないため、サーバアプリケーションで当たり前なことが当たり前ではなかったりする。ローカルディスクにデータ保存することできないのも一つの例だ。ただ、それについては提供されている別のサービスを組み合わせれば良いだけなので、特に心配は無用である。

ちなみに、カスタムスキルを作成する場合、AmazonではサーバレスであるLambdaを利用してカスタムスキルを作成することを推奨している。

まとめると、サーバレスを利用することで、開発者はサーバ運用・構築などの面倒事から開放され、アプリケーション開発に注力できるようになるのである。

気軽にチャレンジできるスキル作成

ここまでで、音声認識技術の開発も不要、サーバ構築・運用も不要であることについて記載してきたが、実はカスタムスキルのプログラミングも不要になるサービスも登場している。

といっても、これでは話が終わってしまうので、次回は具体的なソースコードを示しながら説明していきたい。開発支援ツールが充実していて、プログラミング自体もそこまで難しくはないので、是非チャレンジしてもらいたい。

マネージャー 田島 勇

システムインテグレーター、外資ITコンサルティングファームを経て現職。
製造・通信・エンタメを中心に、技術研究、プロトタイプ制作、システムマイグレーションなど技術中心のプロジェクトに従事。