2023年12月6日Googleから発表された生成AIの新たなモデル「Gemini(ジェミニ)」
その機能や特徴、使用方法などをご紹介します。
Geminiとは
Geminiは、Google DeepMindとGoogle Researchの共同チームによって開発された最新の人工知能モデルです。
テキストだけでなく画像や動画、音声も理解できるマルチモーダルモデルの生成AIです。
Googleのデータセンターやモバイルデバイスなど、様々な場所で実行可能な柔軟性を持っています。
Geminiの特徴
Geminiの特徴を4つご紹介します。
①高度な推論能力
大量のデータの中から複雑な視覚情報を理解し、関連する論文を識別することができ、それらから重要なデータを抽出する高度な推論能力を持っています。
動画内の例では、2021年以降に追加された20万以上のオープンアクセス論文をGeminiが分析し、その中から250の関連論文を選び出し、わずかな時間でデータを抽出しました。
②マルチモーダル機能
テキスト情報だけでなく、図表に関する情報も理解し処理することができます。
例えば、既存のグラフを最新のデータで更新するために必要なコードを生成し、新しい図を作成することが可能です。
③音声の理解と処理
通常、大規模な言語モデルはオーディオを受け取り、それをテキストに変換してからテキストを理解するモデルに入力します。
しかし、この方法では声のニュアンスや発音などが失われがちです。
Geminiは、そのネイティブなマルチモーダル能力を活用して、生のオーディオ信号を直接処理することができます。
④コード生成
Python、Java、C++、Goなどのほとんどのプログラミング言語で正確かつ適切にコードを理解し、生成することができます。
例として動画内では、ロンドンの電車駅を探索するウェブアプリのプロトタイプを1分未満で作成するデモが示されています。
⑤専門知識
MMLU(大規模マルチタスク言語理解)のテストで90%以上のスコアを達成するなど、各分野の専門家を上回るほどのパフォーマンスを発揮します。
3種類のバージョンモデル
Geminiは「Gemini Nano」「Gemini Pro」「Gemini Ultra」という3種類のバージョンがあり、それぞれ異なる用途や性能を持っています。
引用元:Google DeepMind
Gemini Ultra
最も高性能なモデルで、複雑なタスク向けに設計されています。
現在テスト段階にあり、リリース予定です。
Gemini Pro
Googleのデータセンターで実行され、AIチャットボットBardの最新バージョンで使用されます。
応答時間の短縮と複雑なクエリの理解が可能です。
Gemini Nano
スマートフォンなどのデバイス上で効率的に動作するために設計されており、チャットアプリケーション内での返信提案やテキストの要約などに使用されます。
ChatGPTとの違い
Gemini Ultraは、自然な画像、音声、動画の理解から数学的推論まで、幅広いタスクで優れた性能を示しています。
Googleが行った32種類の学術ベンチマークのうち、Geminiは30種類で既存の最高水準を上回る結果を記録しました。
特にMMLU(大規模マルチタスク言語理解)のテストでは、数学、物理学、歴史、法律、医学、倫理など57科目の知識と問題解決能力を評価し、90%以上のスコアを達成しました。これは、各分野の専門家を上回るパフォーマンスを示した初のモデルになります。
さらに、MMMU(複数の分野における大学レベルの知識をテストするベンチマーク)でも59.4%の高スコアを記録し、Geminiがテキスト以外の入力に対しても高い性能を発揮することを証明しました。Geminiは推論能力を用いて難しい質問に対する回答を慎重に考えることができ、大幅な性能向上が見られます。
Googleの技術レポートによると、Geminiは人間の物理学テストの回答用紙を読み取り、手書きの数式や図を理解し、問題を解く手順や誤りを検証できる能力を持っています。
テキストだけでなく、動画、画像、音声といった多様な入力に対しても最高水準のパフォーマンスを示しており、OpenAI社のGPT-4と比較しても多くのテストで優れた成績を記録しています。
引用元:Google DeepMind
Geminiを使うには
Geminiは現在、Pixel 8スマートフォン(Gemini Nano)とBardチャットボット(Gemini Pro)で利用可能です。
今後、検索や広告、ChromeなどのサービスにGeminiを統合する予定です。
開発者と企業顧客は、Googleの「AI Studio」と「Google Cloud Vertex AI」のGemini APIを通して、Gemini Proにアクセスできます。
まとめ:今後の展望
現在(2023/12/18)Gemini Ultraはテスト段階のため使用することはできないが、数値上ではChatGPTを上回っているため、大きく期待できます。
また今後、GeminiはGoogle CloudのVertex AIなどのビジネス向けプラットフォームでも利用可能になり、企業のアプリケーション開発と生産性向上に貢献するでしょう。
コメント