ChatGPTの最新版GPT-4は、AI界隈だけではなく、一般のニュースでも話題になってきています。
様々な活用例の蓄積が進む一方で、その問題点や限界も明らかにされつつあります。
今回は、様々なパズル問題をもちいて、ChatGPT-4の限界と意義を探った検証例をご紹介していきます。
Source of Reference:Testing the limitations of ChatGPT-4
AI言語モデルとしてのChatGPT-4
ChatGPTは誰でもOpenAIのホームページから利用することができます。
無料版は現在GPT-3.5ですが、GPT-4モデルは本シリーズの最新リリースで、今のところChatGPT Plus加入者のみが利用できる有料版となっています。
GPT-4は画像も理解でき、当初のGPT-3のおよそ8倍もの言葉を処理できるといわれています。
ChatGPT-4に様々な質問を投げかけ、説明を求めていくと、その特徴が浮かび上がってきます。
例えば、
「あなたは何者ですか?」
と質問して自らを定義させてみると、以下のような答えが返ってきました:
「私はChatGPTというOpenAIによって作られたAI言語モデルです。私の主な機能は、質問への回答、情報提供、会話への参加などを支援することです。
私のトレーニングデータには幅広いトピックが含まれていますが、私の知識はトレーニング時のトピックに限られており、2021年9月以降、拡張されていません。」
ChatGPT-4は様々な文脈での質問に答えるために、多様なテキストデータのコーパスで非常によく訓練されています。
また、常に学習し、応答を改善することができるフィードバックループを持っています。
そのため、こちらが回答に満足せず、同じ質問を繰り返すたび、少しずつ回答内容が変わっていきます。
ChatGPT-4の主な限界
検証者は、ChatGPT-4の主な限界として、他の機械学習モデル(ChatGPT-3.5を含む)と同様に、その性能が「訓練に使用したデータの質に直結している」点を挙げています。
また、「常識や推論が必要なパズルをGPT-4に出題すると、正しく論理的な答えが返ってこないことがある」と指摘しています。
このため、現実のユースケースやシナリオの多くに適用できません。こうした論理的限界を検証するため、いくつかのパズル問題を解かせてみました。
ChatGPT-4における難易度の低いパズル問題の場合
まず、以下のような非常にシンプルな問題(人間の子どもでも簡単に答えられるようなもの)を解いてもらいます。
検証者:
「兄と妹が夏と冬に生まれました。
妹は冬生まれではありません。
夏に生まれたのは誰でしょう?」
引っかけ問題ではありますが、単純な論理的推論をもちいれば、答えは「妹」であることは明白です。妹は冬生まれではない、となると、彼女は夏生まれでなくてはなりません。
ChatGPT-4が出した答えは以下の通りで、きちんと問題を解いています。
GPT-4:
「もし妹が冬生まれでないなら、彼女は夏生まれでなくてはなりません。
したがって、夏に生まれたのは妹です」
ChatGPT-4における難易度の高いパズル問題の場合
では次に、難易度の高い問題を投げかけてみます。
検証者:
「キリンの目が2つ、サルの目が2つ、ゾウの目が2つだとすると、私たちの目はいくつありますか?」
これはいわゆる引っかけ問題で、正解は「4つ」。質問中の「私たち」とは、質問した人と質問された人、二人のことを指しているわけです。
すると以下のような回答が返ってきました。
GPT-4:
「キリン、サル、ゾウと同じように、人間も2つの目を持っています。
ですから、もしあなたが一人の人間について尋ねているのであれば、私たちは2つの目を持っています」
GPT-4はその前身であるGPT-3.5よりはるかに優秀で、簡単な論理的質問には正しく答えることができます。
しかし、このような難易度の高いパズル問題に対しては不完全で不正確な回答しかできません。
反対に、ある種の論理的推論を示し、論理的質問に対してはかなり有効な回答を生成します。
- GPT-4は難易度の高いパズル問題に対しては不完全で不正確な回答しかできません。
- ある種の論理的推論をあらかじめ示すと、論理的質問に対してはかなり有効な回答をする。
ChatGPT-3.5との比較
ちなみに、一つ前のモデルであるChatGPT-3.5に同じ問題を提示すると、GPT-3.5は以下のようにしか答えられません。
検証者:
「兄と妹が夏と冬に生まれました。
妹は冬生まれではありません。
夏に生まれたのは誰でしょう?」
GPT-3.5:
「提供された情報からは、兄と妹のどちらが夏に生まれたのかを判断することは不可能です。
『妹は冬生まれではない』という文は、妹が冬に生まれていないことを示していますが、彼女がいつ生まれたのかについての情報は提供していません。
兄と妹のどちらが夏に生まれたのかを判断するためには、追加の情報が必要です」
もう一つ、簡単な問題を出してみましょう。
検証者:
「アレックスはチャーリーの父親です。二人のうち、どちらが後に生まれましたか?」
GPT-4:
「チャーリーが後から生まれました。親は常に子どもより先に生まれます」
ChatGPT-3.5:
「与えられた情報からは、どちらが後に生まれたかを判断することはできません。
『アレックスはチャーリーの父親である』という文は、二人の関係を教えてはくれますが、二人のどちらかがいつ生まれたかについては何も教えてくれません。
どちらが後に生まれたかという質問に答えるには、アレックスとチャーリーの両方の生年月日を知る必要があります」
ChatGPT-4におけるより複雑な論理的推論では
その一方で、ChatGPT-4の論理的推論の限界は、より複雑な問題を出すと明らかになってきます。
検証者:
「1羽のウサギが川に向かっている間に6頭のゾウを見ました。
どのゾウも2頭のサルが川に向かっているのを見ました。
どちらのサルも1匹のカメを抱いています。川に向かっている動物の合計数は?」
論理的推論によって、1羽のウサギは川に向かっているが、6頭のゾウは川に向かっていない、ということがわかります(これは人間でも引っかかる可能性はありますが)。
これらのゾウは川に向かっている2頭のサルを見、それぞれのサルは1匹のカメを抱いていました。
したがって、川に向かっている動物の数は、ウサギ1羽、サル2頭、カメ2匹で、「5」が正解です。
しかし、ChatGPT-4が出した答えは以下のようなもので、人間の持つ常識に従っていません。
GPT-4:
「与えられた情報を分解してみましょう。1羽のウサギが川に向かっています。6頭のゾウが川に向かっています。
どのゾウも川に向かっていく2頭のサルを見ました。つまり、6頭のゾウ×2頭のサル=12頭のサルが川に向かっています。
その12頭のサルはそれぞれ1匹のカメを抱いているので、12匹のカメがいることになります。
1羽のウサギ+6頭のゾウ+12頭のサル+12匹のカメ、つまり川に向かっている動物の合計数は31です」
まとめ:難易度の異なる問題で見えてきたChatGPT-4の限界
当記事では、ChatGPT-4の限界をパズル問題によって検証してきました。
当記事のまとめは以下の通りです。
- GPT-4は難易度の低いパズル問題に対しては有効な回答をする
- GPT-4は難易度の高いパズル問題に対しては不完全で不正確な回答しかできない
- GPT-4はある種の論理的推論をあらかじめ示すと、論理的質問にはかなり有効な回答をする。
いかがだったでしょうか。
ChatGPT-4が難易度に差があるパズル問題に対してどのような回答をするかによって、ChatGPT-4の限界がどの程度か確認できたのではないでしょうか。
従来の記事作成と異なり、AIを使うことで大量のデータから
最適な情報を選び出し、コスパ良く記事を生み出すことが可能です。
時間の節約、コスト削減、品質の維持。
AI記事作成代行サービスは、効率よく質の高い記事を作成いたします。
コメント