GPT-4 は高度情報処理技術者試験(午前I)に合格する

GPT-4は医師国家試験に合格するという研究結果が発表されて話題だったので、我々も馴染み深い IPA の試験にGPT-4は合格できるのか試してみた。 高度情報処理技術者試験の 午前I に限って言えば合格しているので、レポートをこちらに置いておく。

github.com

まとめ

  • 高度情報処理技術者試験の共通科目である午前I に 合格できる解答(正答率6割を超える)をGPT-4は生成する
  • GPT-3.5 では合格できない。GPT-4 の賢さが際立つ
  • ちなみに図表読み取り問題は入力できないので、すべて不正解扱いした

やりかた

  • IPA の Webサイトから、2022年度秋試験の午前I問題のPDFを取得 (PDF)
  • Google DocsOCR 機能でテキスト取得
  • 手でコピペして整形
  • 整形したファイルは こちら にある
  • OpenAI の API に問い合わせて解答を取得。スクリプトこちら
  • 追試験に必要なものは、ぜんぶリポジトリに有るつもりなので、興味のある人は試してほしい。

感想

ためしに、ChatGPT(GPT-3.5) の Web UI で問題を2つ3つ出してみたところ、どれも正解したので、これはもしやと思ってちゃんと実験環境を整えてみた。GPT-3.5 は不得意な問題が結構あって結果としては正解率50%で惨敗(レポートはこちら)。 GPT-4 はお値段高いし、遅いし、動作も不安定だが驚異の正答率96%を誇った。もちろんこの数字は、入力が可能な問題に限った話で図表問題は含んでいない。とは言え図表も入力方法が無いわけではないので、時間をかけて入力フォーマットを整えれば正解してしまうかもしれない。

GPT-3.5 は一見正しそうな解説から間違った答えを導いていて読んでいて微笑ましい。解説をせよという指示を省いて、解答だけを求めると正答率があがるという挙動もあり、解説を作りながら間違った方向へ文章を並べているような印象がある。この挙動の確認のコードはリポジトリには含めていないので興味のある人はコードを改造して試して欲しい。GPT-4 では、解答可能な問題の中で唯一間違った問題(問8)でさえ解説は正しい文章になっており、なぜ最後にその解答を選んだ...という面白さがある。

基本的に GPT シリーズは算数が苦手なのだが、GPT-4 ではそこもかなり改善されているようだ。

午前I の問題 30問は、応用情報の午前問題 80問 からの抜粋なので、応用情報の問題を全部整形して、GPT-4 は応用情報に合格できるぞ! などと言ってみたかったのだが、午後問題の入力の面倒くささの前に挫折してしまった。チャレンジする人を待ちたい。