テクノロジー

マルチモーダル (Multimodal)

テキスト、画像、音声など複数の種類のデータを組み合わせて処理するAI技術やその状態を指す言葉を解説します。

意味 {#meaning}

マルチモーダルとは、テキスト、画像、音声、動画、数値データといった異なる種類（様式＝モダリティ）の情報を、統合して処理・理解する技術や状態を指します。主にAI（人工知能）の分野で使われる言葉です。従来のAIは「テキストのみ」や「画像のみ」を扱うシングルモーダルが主流でしたが、マルチモーダルAIは人間が五感を使って世界を理解するように、複数の情報を組み合わせて高度な判断や生成を行うことができます。

由来・背景 {#origin}

語源は、英語の「multi（複数の）」と「modal（様式・形態の）」を組み合わせた造語です。もともとは認知心理学やヒューマンコンピュータインタラクション（HCI）の分野で、複数の感覚を介したコミュニケーションを指す用語として使われていました。

2020年代に入り、大規模言語モデル（LLM）の飛躍的な進化に伴い、AI分野で急速に一般化しました。特にOpenAIの「GPT-4」やGoogleの「Gemini」といった、画像を見て説明したり、音声で自然な対話を行ったりできるモデルが登場したことが大きな転換点となりました。これにより、AIが単なる計算機や翻訳機を超え、現実世界の多様な情報を直接扱えるようになったという社会的背景があります。

例文・使い方 {#examples}

「最新のマルチモーダルAIを使えば、手書きの設計図を写真に撮るだけでプログラムコードに変換できる。」
「この検索エンジンはマルチモーダル対応なので、言葉で説明しにくい商品の特徴を動画から探し出してくれる。」
「シングルモーダルなシステムをマルチモーダル化することで、顧客の表情と声のトーンの両方から感情を分析できるようになった。」