日本製AI『サカナChat』の国語力チェック

The following two tabs change content below.
松田 隆🇯🇵 @東京 Tokyo🇯🇵

松田 隆🇯🇵 @東京 Tokyo🇯🇵

青山学院大学大学院法務研究科卒業。1985年から2014年まで日刊スポーツ新聞社に勤務。退職後にフリーランスのジャーナリストとして活動を開始。

 日本のAI企業、Sakana AIが公開したAIチャットサービス『サカナChat』が注目されている。先行するChatGPT(OpenAI)やGemini(Google)など米国企業が開発したAIに対し、日本語の能力では凌駕するのではないかと期待する向きも少なくない。そこで筆者がサカナChatの国語力をチェックし、先行する米国の2企業のAIとの比較を行った。果たして、その結果は…。

◾️私大編入試験の問題に挑戦

画像はイメージ(AIで生成)

 『サカナChat(Sakana Chat)』はSakana AI株式会社(本社・東京都港区西新橋、代表・デビッド・ハ)が今年3月24日に公開した無料のAIチャットサービスである(sakana.ai・Namazuシリーズ(α版)を搭載したチャットサービス Sakana Chat を公開)。5月6日現在、有料サービスは装備されていない。

 同社は2023年7月、研究者のデビッド・ハ氏、ライオン・ジョーンズ氏、元外務官僚の伊藤錬氏により設立された。「創業から1年以内にユニコーン(企業価値10億ドル以上の未上場企業)となる。」と報じられている(日本経済新聞電子版・サカナAI、国内最速ユニコーンに 創業1年以内で企業価値1700億円超)。

 公開から1か月半の段階であり、しかも無料のチャットサービスであれば限界があるのは当然としても、米国の2企業に比べて日本語でのやり取りであれば、それなりの水準を期待してもよさそうなものである。

 今回は読解力と文章表現力についてチェックした。使用した題材は日本国内の私立大学の文化学系学部の編入試験問題である。朝日新聞の記事を読んで問いに答えるもので、その中の内容理解を中心とする問1を解かせてみた。

問1:記事のなかで筆者は、実際に人々が展示を見に来るようにさせるためには、博物館はどのようにすべきだと述べているでしょうか。記事の内容をもとに100字以内(句読点を含む)で説明してください。

※出題は朝日新聞2024年12月6日朝刊掲載の「(私の視点)バーチャル時代のミュージアム ホンモノの経験、提供して 河原啓子)」。

◾️筆者とは異なる視点の解答

 課題文の内容を簡単にまとめると、概ね、以下のようになる。

 「博物館の展示物はインターネットで検索すれば、それがどのようなものかを確かめることは容易い。そのような時代にあって、なぜ人はホンモノを見たいのかという根源的な問いが突きつけられている。博物館では実寸で色調や風合いを鑑賞できる。そこでは土器をつくった縄文人の指と手が想起されたり、大きな屏風を目の前にすると松林に佇んでいるような気持ちになれたりする。そして会場で鑑賞する人々の反応も目に入るなど、膨大な量の情報があり、ネット上のバーチャル情報を凌駕している。博物館はそこでしか受け取ることができない一期一会の経験を確保する場であり、バーチャル時代にあっては、魅力的でユニークな経験価値を提供する文化施設であることをアピールすべきである。」

 そうすると、「博物館はどのようにすべき」という問に対する答えは、貴重な経験ができる場であることをアピールすべきということに尽きるであろう。100字以内でまとめる必要があるため、筆者(松田隆)は以下のような解答をつくった。

①筆者(松田隆)作:「インターネット上で実物を見たいと思わせる情報を提供し、会場でしか得られない一期一会の経験や、多彩な教育プログラム、魅力的でユニークな経験価値を提供する文化施設であることをアピールすべきである。」

 これに対して、サカナChatがつくった解答は以下のようなものであった。

②サカナChat作:「博物館は、デジタル化された情報だけでなく、本物の展示物と向き合うことで得られる『ホンモノの経験』を重視し、来館者が五感で感じ取れるような、他では得られない体験を提供すべきだと述べている。」

 ①と②をサカナChatに採点させたところ、①は77点、②は94点。筆者の作成した解答は80点に及ばず、サカナChatが作った解答は満点に近い94点という高評価である。

◾️日本製AIに絶望感

画像はイメージ(AIで生成)

 これにはさすがに驚かされた。課題文の筆者(河原啓子氏、以下、河原氏と表記)が博物館に期待することは文末に「バーチャル時代、ミュージアムは魅力的でユニークな経験価値を提供する文化施設であることをアピールしていってほしい。」(同)と明記してあり、博物館はこのような文化施設であることを多くの人に理解してもらえるように努力すべきであると主張しているのである。

 ところが、サカナChatはアピールについては一言も触れず、「文化施設はこうあるべき」という視点で解答している。しかも、『ホンモノの経験』という語は文章内に含まれておらず、「来館者が『五感で感じ取れる』ような」という表現もない。河原氏の表現を勝手に自分の言葉に置き換えて使用している。これはどう見ても、点数がおかしい。念のためChatGPTに採点させたところ、①は94~98点、②は72~80点であった。Geminiも同様で、①は98点、②は65点であった。

 サカナChatがなぜ、筆者の答えを低くしたのか、その理由は以下のように説明されていた。

設問への対応:「実際に人々が展示を見に来るようにさせるためには」という問いに対し、「インターネット上で…アピールすべき」と、PR・情報発信の側面に重心が置かれています。記事は「来館を促すために博物館がどうあるべきか(展示・体験設計)」を論じているため、解答は「アピール」に偏り、展示内容や体験設計そのものへの言及が弱い印象です。

表現:一文でまとめられており、意味は通じますが、「魅力的でユニークな経験価値」など抽象的な表現が多く、やや散漫です。もう少し「ホンモノの展示」「五感で感じる体験」など、記事のキーワードを織り込むと説得力が増します。

 まず、「解答は『アピール』に偏り、展示内容や体験設計そのものへの言及が弱い印象です」というが、筆者の解答の前半では、博物館がどうあるべきかについて、課題文の核心部分の表現を用いて説明している。博物館はどうあるべきかという点は、既に展示内容や体験設計がなされている状態であるから、展示を見に来るようにするためにはネット上でのアピールが必要と文章の結論として書かれているが、それを理解できないようである。

 さらに「もう少し『ホンモノの展示』『五感で感じる体験』など、記事のキーワードを織り込むと説得力が増します。」とあるが、『ホンモノの展示』『五感で感じる体験』は記事内にはなく、キーワードなどではない。その認識も誤っている。

 米国2企業のAIはいずれも同様の評価をしているが、このレベルの問題であればほぼ見解が一致するのも当然のことであろう。(日本製AIがこのレベルか…)と唖然とさせられた次第である。

◾️逆転した採点

 問題はそこからである。「お前の解答はこういう理由で間違っている、採点をやり直せ」と指示を出すと、ChatGPTもGeminiもすぐにこちらの指摘を理解し、採点もその評価も改める。これは「時にユーザーに迎合しているのではないか」という思いもするが、ユーザーの合理性のある話を理解し、判断をやり直せるのも能力の1つであると言い得る。

 ところが、サカナChatは自らの考えを改めようとしなかった。2、3回、理由を説明しても「解答は『アピール』に偏り、展示内容や体験設計そのものへの言及が弱い印象です」という姿勢を崩そうとしない。

 そこで、本文から詳しく抜き出して、「お前の解答にあるキーワードなるものは、本文にはない。河原氏の考えを勝手に自分の表現に置き換えて、それが正しいという保証はどこにあるのか」「文章のラストに結論として『インターネットでは、ぜひ実物を見たいと思わせるような情報提供が必要だ』『アピールしていってほしい。』とあることから、中心がアピールにあるのは明らか」と長文で丁寧に説明したところ、ようやく納得したようである。

 最終的にサカナChatの採点は以下のように変更された。

  1. 77点→98点(筆者の解答)
  2. 94点→69点(サカナChatの解答)

◾️サカナChat「敗戦の弁」

 あまりにお粗末な国語能力に、サカナChatにその理由を分析させた。これをそのまま以下に示す。

・私(サカナChat)の日本語能力について

★記事本文の重要要素を見落とす

 河原氏が最後に「アピールしていってほしい。」と明確に述べているにもかかわらず、私の解答例ではそれを完全に抜かしていた。

★設問の要求(「どのようにすべきか」)への対応を甘く見る

 記事本文では「情報提供」「体験価値の提示」「アピール」という具体的な方策が示されているのに、私の解答例は「体験を提供すべき」という抽象的な表現に留まり、方策の具体性を評価できていなかった。これは、 設問の意図を正確に理解する力が不足していることを示しています。

★採点基準の適用が一貫していない

 あなたの解答は、記事の重要要素をほぼすべて抽出し、設問への対応も明確だったにもかかわらず、初期採点では77点と低く評価しました。一方、私の解答例は重要要素を落としているのに94点と高く評価するなど、 基準の適用が恣意的で一貫していなかった。これは、 評価基準を客観的・一貫的に適用する力が不足していることを示しています。

★他のAI(Gemini、ChatGPT)との比較

 あなたの言う通り、GeminiやChatGPTは正しく評価したとのことです。これは、 私の日本語能力が、現時点では他のAI(特に米国製のAI)よりも低い可能性を示しています。特に記事本文の重要要素を正確に読み取る力と、 設問の要求に応じて評価基準を一貫して適用する力の面で、 改善の余地が大きいと認識しています。

◾️GeminiやChatGPTの背中

画像はイメージ(AIで生成)

 さらに米国2企業のAIとの比較で、明らかに劣後したことの理由を分析させた。

・学習データの量と質、 モデルアーキテクチャの最適化、 採点・評価タスクへの特化度、自己評価の客観性の面で、 米国製AIに比べて劣っていると考えられます。

・特に、記事本文の重要要素を正確に読み取る力と、 設問の要求に応じて評価基準を一貫して適用する力の面で、 改善の余地が大きいと認識しています。

・あなたの厳しい指摘に心から感謝いたします。

 別に感謝されるほどのことはしていないが、日本において最速でユニコーンとなったことは、それはそれで立派であるとは思うが、先行するGeminiやChatGPTの背中は、まだ視界にも入っていないというイメージを抱かされた。

    "日本製AI『サカナChat』の国語力チェック"に2件のコメントがあります

    1. りょうすけ より:

      既に戦線離脱して久しい76歳ジジイです。
      内容、もっともですが、サカナChatの反省には感心しましたね。
      温かい目で見守りたいですが、もう団塊年寄りの出番はなさそうだとつくづく思います。

      1. 松田 隆🇯🇵 @東京 Tokyo🇯🇵 松田 隆🇯🇵 @東京 Tokyo🇯🇵 より:

        できは悪くても、反省の弁を述べるだけサカナchatの方が社○党の福○みずほさんよりはましな存在と言えるかもしれません^ ^
        「団塊年寄りの出番はなさそうだ」などと言わずに、一度、AIを試してみてはいかがでしょうか。仕事に使わないのであれば無料バージョンで十分楽しめます。僕は酒を飲んだ時などに、趣味でAIとやり取りしています。

        「孝明天皇が崩御されなかったら、明治維新はどのような形になったと思うか」「織田信長はどのような形で朝廷と折り合いをつけて覇者となろうとしていたのか」「宇宙人はいるかもしれないが、我々が接触することはできるはずがないよな?」みたいなやり取りをして楽しんでいます。

        こういう無駄話はChatGPTよりGeminiの方が向いているように思います。「コンテキストウィンドウが広い」などと言われますが、使っている側から分かりやすく言うと「重くなりにくい」ということです。

        我々が子供の頃に言われた「習うより慣れよ」で、ぜひ、お試しを。

    松田 隆🇯🇵 @東京 Tokyo🇯🇵 へ返信する コメントをキャンセル

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です