第271回研究講演会開催報告

日時：平成10年4月22日（水）14:40～16:00

場所：東北大学工学部　電気・情報館101大講義室

演題：『ヒューマンインタフェース技術の現状と将来』

講演者：竹林洋一

（東芝研究開発センターヒューマンインタフェース技術センター長）

講演要旨:

1. まえがき

情報機器のマルチメディア化とネットワーク化が進み、インターネットやモーバイル・コミュニケーションを手軽に利用できる時代となった。コンピュータは仕事や遊びの道具ではなく、巨大なデジタル情報空間の入口的な存在となり、世界中の情報を「いつでもどこでも」利用したり、「だれとでも」コミュニケートできるでデジタル情報環境が実現されようとしている。

今後、モーバイル機器や家庭向けデジタル機器の開発や、情報サービス、教育、エンターテイメント関連の新しい産業が生まれるであろう。「ユーザは何を望んでいるのか」、「人間や社会のために何を支援するのか」という社会学的側面が技術開発に求められる時代になったと言えよう。人間(ユーザ)中心の視点で「使いやすさ、豊かさ」を追求するヒューマンインタフェース(ＨＩ)技術への期待が高まっている理由はここにある。

ヒューマンインタフェースは、人間と機器との「界面としてのインタフェース」のことであると誤解されがちである。ＨＩ技術は、人間と機器システムのインタラクション(対話／相互作用)を対象とするが、インタフェースを人間工学的に設計評価するだけではなく、人間や社会にとって望ましいマルチメディア機器やコミュニケーション・システムなどを創造する分野でもある。システム開発者とユーザの視点とを合わせ持ち、応用／ニーズ指向で機器システムやデバイスの開発を目指す点が特徴である。このため、音声、画像、言語などのメディア情報処理、基本ソフトウェア、デバイス、認知科学などの広範な科学技術との連携が必要なのである。

2. ヒューマンインタフェースの進化

１９７０年代後半にAlan Kayは、コンピュータが「メタメメディア(Paersonal Dynamic Media)」であるという点に着目し、ノートブックサイズのコンピュータDynabook(ダイナブック)のコンセプトを提唱した[1]。「ディジタルの世界」では、音声認識、翻訳、画像理解などのメディア理解や、音声、言語、画像などのメディアの編集や検索が可能であると考え、人間の創作活動を支援するためのメディア(技術)としてDynabookの構想を示した。また、ＧＵＩ(Graphical User Interface)を開発し、ビットマップディスプレイを装備した対話型コンピュータ(Alto)上に実装した。さらに、コンピュータネットワーク環境を構築し、当時の先端要素技術を統合して電子出版、アニメーション関連の魅力的な応用ソフトも開発した。

第１世代のインタフェースは、"Remember type"型であり、キーボードから文字列で指示を与えるコマンド言語入力方式である。専門家がコンピュータを独占していた時代につくられた。複雑なコマンドを覚える必要あるので初心者向きではないが、効率的なのでソフトウェア開発者を中心に現在も根強く使われている。

第２世代は、現在主流の”See and point型”のＧＵＩであり、机の上の作業環境を模擬したデスクトップ・メタファー(隠喩)に基づいている。マウスの直接操作でメニューやアイコンを選択するだけで、コマンド入力と同等のことが行なえるという利点がある。メニュー方式は操作が簡単なので、家電や現金自動引出機などでも広く採用されている。しかし、ＧＵＩの直接操作では膨大なデジタル情報を迅速に検索できないことが明らかとなってきた。マウスの代わりに音声や言語入力を使えば、短い言葉で感情や抽象的な概念を効率的に伝達することが可能となる。

アラン・ケイは７０年代後半に、既にＧＵＩの限界に気付き、大規模ネットワーク時代には、ユーザの意図や情報の内容を理解できる知的なエージェント (Agent)技術が必須となることを予見していた。

第３世代のＨＩは”Ask and tell”型の「マルチモーダルインタフェース」である。マルチモーダルインタフェースは、視覚、聴覚、触覚、言語などの複数の感覚器(センサー)や認知処理様式(モダリティー)を考慮して様々なメディア情報を処理し、コンピュータと人間の「高度なインタラクション」を指すものであり、コンピュータとの自然な対話を実現するポストＧＵＩとして期待されている。エージェントを介したマルチモーダルＨＩであり、音声やジェスチャー理解、意図状況理解、知的対話処理がコアとなる。その実現には、人間や環境側からのアプローチが必要であり、また、大規模知識ベースとデジタル情報インフラの整備も必要である。最近の音声入出力や３次元グラフィックスの性能向上は目覚しく、第３世代のＨＩの萌芽期に入ったと考えられる。最近では、ＧＵＩ(グーイ)に対してＰＵＩ(プーイ:Perceptual User Interfaces)として着目されている。

3. ＭＩＴメディア研究所での体験

筆者は、1985年に設立当初のMITのメディアラボに派遣された。以前は、ディジタル信号処理と音声認識を研究していた。しかし、当時のメディアラボは、 Negroponte所長の「Demo or Die!」をモットーに、「メディア技術」とか「ヒューマンインタフェース」と称して、”Put That There”、 "Movie Manual"などの構築に専念しており、最盛期にあったＡＩラボとは対照的であった。

そんな中で、Alan Kayが"Vivarium Project"始め、そのセミナーで扱う話題が、対話型３Dグラフィックス、オブジェクト指向、LOGO、ニューラルネット、音声認識、学習、プランニング技術、バイオリン教育等と広範にわたり、学生には毎週多くの参考書や文献を紹介して勉強するように奨励していた。また、セミナーに顔を見せるMinskyの博学ぶりと「Society of Mind」の内容にも感心したものである。

帰国後は音声研究を中断し、知的文書処理、知的グラフィックス、自然言語処理の研究などに従事し、研究コミュニティー間のギャップが大きいことを知り、人間にとって役立つメディアを探求するメディアラボのアプローチを理解できるようになった。

そして、「不特定ユーザに何ら制約を設けない」というコンセプトの下で、音声自由対話システムTOSBURGII[2]を開発した。これは、雑音に強い音声認識、キーワードに基づく話し言葉の理解、ユーザ主導型の対話処理、表情付きのマルチモーダル応答、アクティブ音声応答キャンセル技術などのロバストな要素技術の統合により実現できた。

MITメディア研究所では、Wearable Computerや、種々のデジタルメディアの研究が盛んに行なわれており、「技術」、「アート」、「エンターテイメント」の融合が進んでおり、とてもエキシティングで目が離せない。

4. ＨＩ技術の応用と実用化

4.1. メディア変換とメディア理解

人間は、音声、表情、ジェスチャーなどを五感を使って情報の入力やコミュニケーションを行なっている。人間の情報入力は主に視覚と聴覚を介してが行なわれ、記憶や内容理解は脳の高次機能により行われる。人間が言葉や文書を認識し理解するということは、膨大なパターン情報を、情報量の少ない意味情報 (表現)に変換することと考えることができる。集約された意味表現に変換することで、高度な知的処理が可能となるわけである。

人間同士のコミュニケーションでは、送信した音声や言語などの情報が、受け手の人間に届き、情報の内容を理解したり感動したとき、はじめて価値が生まれる。つまりメディアの価値は、単なる情報伝達ではなく理解が重要であり、自然で快適なヒューマンインタフェースを実現するにはメディア理解の高度化が欠かせない。

人間が情報の内容や状況を理解するには、あらかじめ蓄積された知識がなくては不可能であり、「９割の知識がなければ、新しい情報を自分のものにすることはできないのである」・この「理解」の機能なくしては、人間の知的活動は語れない。

しかし、認識エラーや曖昧性は避けられないという本質的な問題がある。このため、ユーザの認知的な負担を軽くするインタラクションの実現には、高性能で健な認識理解技術と認識エラーや曖昧性への対処が欠かせない。

マルチモーダルインタフェースでは音声やジェスチャーなどの入力メディアの理解が中心的役割を果たす。その基礎となるのがセンシングであり、ユーザの意図的情報や非意図的情報(利用状況、動作環境)の抽出を高度化するための研究が盛んである。新しいセンサーや入力デバイスは、メディア変換処理、インタラクションの形態、応用分野を変革する可能性がある。

4.2 マルチメディア情報の構造化とマルチモーダル対話

ネットワークの本格化に伴い、インターネット／イントラネットを介して送られて来るフロー情報と組織や個人が保有するストック情報が飛躍に増大し、情報洪水の問題が深刻化してきた。また、テキストデータに加えて音声や映像データもネットワーク上を行き来するようになり、マルチメディア情報の普及が進んでいる。

ユーザとコンピュータとの検索対話インタフェースとマルチメディア／マルチモーダル情報の構造化インタフェースが両輪となっている。メディア理解やメディア変換処理は、氾濫するマルチメディア情報を収集構造化して整理する際にも有用である。

多様なマルチメディア情報から役に立つものを収集し、内容を理解して構造化（インデックス付け）し、知識データベースに蓄積すると、意味内容レベルでの検索や再利用がしやすくなるという利点がある。映像メディアの場合は、シーンの変わり目や特定の人物が映っているシーンを検出して構造化しておけば、映像データに付加価値が付く。

4.3 東芝のＨＩへの取り組みとＨＩコア技術

東芝では、パーソナル用から、家庭、産業、公共用の様々な機器システムにユーザ指向／ニーズ指向で付加価値を与えるためににＨＩ技術の研究開発に取り組んでいる。全社のＨＩコア技術開発にを横串を通し、製品への適用を促進するために、１９９５年にヒューマンインタフェース技術センターを設立した。

ＨＩコア技術として、使いやすさを追求する人間工学設計技術(ヒューマンファクタ)、大量のデータをデジタル化し構造化するための文書画像理解技術、マルチメディアの中心となる言語メディア処理技術の高度化に注力している。

文書画像理解技術は、郵便番号の自動読み取り機、ドキュメントリーダ、帳票読み取りシステムに応用している。ネットワーク環境で行き来する大規模マルチメディアデータを処理するのに欠かせない技術である。

言語処理技術は、日本語ワープロの仮名漢字変換技術の開発以来、継続的に研究開発を行っている。翻訳システム、文書検索システム、情報フィルタリングシステム、知識情報共有システム、音声合成システムなどの高度化に活用している。インタフェースの設計評価に関しては、携帯機器のＧＵＩ設計やＡＴＭ (現金引き落とし機)のユーザインタフェース設計のガイドライン策定やノウハウの共有を図り、全社関連部門が連携してユーザに価値と満足感を提供できるように研究開発を進めている。

筆者らは、組織や個人がストックしている知識や情報をネットワークを介して本人に代わってオン・デマンドで答える秘書エージェントシステム(KIDS： Knowledge and Information on Demand System)を開発した[3]。ネットワーク環境下における知識情報の公開と共有に焦点をあてたインターフェースエージェントであり、必要に応じて人間同士の直接対話も行なえる。ネットワーク時代に重要なキラーアプリケーションとして、１０００人規模の実証実験を行なっている。

5. 結び

ネットワーク上を行き来する映像、音声、言語などの情報は、人間に届き、人間が情報の内容を理解したり感動したとき、はじめて価値が生まれる。マルチメディア・ネットワーク環境下における知識情報の共有やコミュニケーションの円滑化など、マルチモーダルインタフェースの活躍の場は多い。人間の知的活動や情動に適合したヒューマンインタフェースの研究開発を、種々のメディア変換処理や知識処理を統合して加速していきたい。また、情報処理学会東北支部でのＨＩ研究への関心が高まることを期待したい。

文献

1)A.Kay,"Personal Dynamic Media", IEEE COMPUTER, pp.31-41 (1997.3)
2) 竹林:"音声自由対話システム TOSBURG II --ユーザ中心のマルチモーダルインタフェースの実現に向けて--", 電子情報通信学会論文誌, Vol.J77-D-II, No.8, pp.1417-1428 (1994)
3) 中山,真鍋,竹林:"知識情報共有システム(Advice/Help on Demand)の開発と実践",インタラクション'97論文集,情報処理学会,pp.103-110(1997)

参加者：２５０名

報告者：小島正美

東北工業大学・通信工学科

〒982-8577

仙台市太白区八木山香澄町35-1

tel: 022-229-1151　ext368

fax: 022-228-0447

email: mkojima@titan.tohtech.ac.jp