今後、モーバイル機器や家庭向けデジタル機器の開発や、情報サービス、教育、 エンターテイメント関連の新しい産業が生まれるであろう。「ユーザは何を望 んでいるのか」、「人間や社会のために何を支援するのか」という社会学的側 面が技術開発に求められる時代になったと言えよう。人間(ユーザ)中心の視点 で「使いやすさ、豊かさ」を追求するヒューマンインタフェース(HI)技術へ の期待が高まっている理由はここにある。
ヒューマンインタフェースは、人間と機器との「界面としてのインタフェース」 のことであると誤解されがちである。HI技術は、人間と機器システムのイン タラクション(対話/相互作用)を対象とするが、インタフェースを人間工学的 に設計評価するだけではなく、人間や社会にとって望ましいマルチメディア機 器やコミュニケーション・システムなどを創造する分野でもある。システム開 発者とユーザの視点とを合わせ持ち、応用/ニーズ指向で機器システムやデバ イスの開発を目指す点が特徴である。このため、音声、画像、言語などのメディ ア情報処理、基本ソフトウェア、デバイス、認知科学などの広範な科学技術と の連携が必要なのである。
第1世代のインタフェースは、"Remember type"型であり、キーボードから文 字列で指示を与えるコマンド言語入力方式である。専門家がコンピュータを独 占していた時代につくられた。複雑なコマンドを覚える必要あるので初心者向 きではないが、効率的なのでソフトウェア開発者を中心に現在も根強く使われ ている。
第2世代は、現在主流の”See and point型”のGUIであり、机の上の作業 環境を模擬したデスクトップ・メタファー(隠喩)に基づいている。マウスの直 接操作でメニューやアイコンを選択するだけで、コマンド入力と同等のことが 行なえるという利点がある。メニュー方式は操作が簡単なので、家電や現金自 動引出機などでも広く採用されている。しかし、GUIの直接操作では膨大な デジタル情報を迅速に検索できないことが明らかとなってきた。マウスの代わ りに音声や言語入力を使えば、短い言葉で感情や抽象的な概念を効率的に伝達 することが可能となる。
アラン・ケイは70年代後半に、既にGUIの限界に気付き、大規模ネットワー ク時代には、ユーザの意図や情報の内容を理解できる知的なエージェント (Agent)技術が必須となることを予見していた。
第3世代のHIは”Ask and tell”型の「マルチモーダルインタフェース」で ある。 マルチモーダルインタフェースは、視覚、聴覚、触覚、言語などの複 数の感覚器(センサー)や認知処理様式(モダリティー)を考慮して様々なメディ ア情報を処理し、コンピュータと人間の「高度なインタラクション」を指すも のであり、コンピュータとの自然な対話を実現するポストGUIとして期待さ れている。エージェントを介したマルチモーダルHIであり、音声やジェスチャー 理解、意図状況理解、知的対話処理がコアとなる。その実現には、人間や環境 側からのアプローチが必要であり、また、大規模知識ベースとデジタル情報イ ンフラの整備も必要である。最近の音声入出力や3次元グラフィックスの性能 向上は目覚しく、第3世代のHIの萌芽期に入ったと考えられる。最近では、 GUI(グーイ)に対してPUI(プーイ:Perceptual User Interfaces)として 着目されている。
そんな中で、Alan Kayが"Vivarium Project"始め、そのセミナーで扱う話題が、 対話型3Dグラフィックス、オブジェクト指向、LOGO、ニューラルネット、音 声認識、学習、プランニング技術、バイオリン教育等と広範にわたり、学生に は毎週多くの参考書や文献を紹介して勉強するように奨励していた。また、セ ミナーに顔を見せるMinskyの博学ぶりと「Society of Mind」の内容にも感心 したものである。
帰国後は音声研究を中断し、知的文書処理、知的グラフィックス、自然言語処 理の研究などに従事し、研究コミュニティー間のギャップが大きいことを知り、 人間にとって役立つメディアを探求するメディアラボのアプローチを理解できる ようになった。
そして、「不特定ユーザに何ら制約を設けない」というコンセプトの下で、音 声自由対話システムTOSBURGII[2]を開発した。これは、雑音に強い音声認識、キー ワードに基づく話し言葉の理解、ユーザ主導型の対話処理、表情付きのマルチ モーダル応答、アクティブ音声応答キャンセル技術などのロバストな要素技術 の統合により実現できた。
MITメディア研究所では、Wearable Computerや、種々のデジタルメディアの研究 が盛んに行なわれており、「技術」、「アート」、「エンターテイメント」の 融合が進んでおり、とてもエキシティングで目が離せない。
人間同士のコミュニケーションでは、送信した音声や言語などの情報が、受け 手の人間に届き、情報の内容を理解したり感動したとき、はじめて価値が生ま れる。つまりメディアの価値は、単なる情報伝達ではなく理解が重要であり、 自然で快適なヒューマンインタフェースを実現するにはメディア理解の高度化 が欠かせない。
人間が情報の内容や状況を理解するには、あらかじめ蓄積された知識がなくては 不可能であり、「9割の知識がなければ、新しい情報を自分のものにすること はできないのである」・この「理解」の機能なくしては、人間の知的活動は語 れない。
しかし、認識エラーや曖昧性は避けられないという本質的な問題がある。このため、 ユーザの認知的な負担を軽くするインタラクションの実現には、高性能で健な 認識理解技術と認識エラーや曖昧性への対処が欠かせない。
マルチモーダルインタフェースでは音声やジェスチャーなどの入力メディアの 理解が中心的役割を果たす。その基礎となるのがセンシングであり、ユーザの 意図的情報や非意図的情報(利用状況、動作環境)の抽出を高度化するための研 究が盛んである。新しいセンサーや入力デバイスは、メディア変換処理、イン タラクションの形態、応用分野を変革する可能性がある。
ユーザとコンピュータとの検索対話インタフェースとマルチメディア/マルチ モーダル情報の構造化インタフェースが両輪となっている。メディア理解やメ ディア変換処理は、氾濫するマルチメディア情報を収集構造化して整理する際 にも有用である。
多様なマルチメディア情報から役に立つものを収集し、内容を理解して構造化 (インデックス付け)し、知識データベースに蓄積すると、意味内容レベルで の検索や再利用がしやすくなるという利点がある。映像メディアの場合は、シー ンの変わり目や特定の人物が映っているシーンを検出して構造化しておけば、 映像データに付加価値が付く。
HIコア技術として、使いやすさを追求する人間工学設計技術(ヒューマンファ クタ)、大量のデータをデジタル化し構造化するための文書画像理解技術、マ ルチメディアの中心となる言語メディア処理技術の高度化に注力している。
文書画像理解技術は、郵便番号の自動読み取り機、ドキュメントリーダ、帳票 読み取りシステムに応用している。ネットワーク環境で行き来する大規模 マルチメディアデータを処理するのに欠かせない技術である。
言語処理技術は、日本語ワープロの仮名漢字変換技術の開発以来、継続的に研 究開発を行っている。翻訳システム、文書検索システム、情報フィルタリング システム、知識情報共有システム、音声合成システムなどの高度化に活用して いる。インタフェースの設計評価に関しては、携帯機器のGUI設計やATM (現金引き落とし機)のユーザインタフェース設計のガイドライン策定やノウハ ウの共有を図り、全社関連部門が連携してユーザに価値と満足感を提供できる ように研究開発を進めている。
筆者らは、組織や個人がストックしている知識や情報をネットワークを介して 本人に代わってオン・デマンドで答える秘書エージェントシステム(KIDS: Knowledge and Information on Demand System)を開発した[3]。ネットワーク 環境下における知識情報の公開と共有に焦点をあてたインターフェースエージェ ントであり、必要に応じて人間同士の直接対話も行なえる。ネットワーク時代 に重要なキラーアプリケーションとして、1000人規模の実証実験を行なっ ている。