連載セミナー前学習」、最後の T は“transformer”これは手法の名前です。適切な訳がないので、日本でも「トランスフォーマー」と言われることが多いのですが、ディープラーニングの一種です。これが肝なのです。OpenAI 社は公開されているネット上の文章を大量に集めます。何を集めたかは公表しておりません。著作権者からの許諾は取っていないし、使用料も払っていないのです。多分アメリカの有力新聞の記事は絶対使っているはずです。だから今、アメリカの多くの有力新聞社が OpenAI 社を裁判で訴えており、裁判の結果が注目されております。OpenAI 社がお金持ちだなと思うのは、世界中で何億人もの人々が ChatGPT を使っているにもかかわらず、無償で使わせていることです。すごいことだと思います。ChatGPT は無償ですが、その改良版「GPT-4」はすが、無償のものでも今では良い答えを出します。生成 AI の基本的な仕組みは、実は単純なのです。文章の中で一単語を外して、「そこにどの単語が来る確率が一番高いのか」を計算して、それを連続的に行って文末までいきます。我々AI 研究者もトランスフォーマーというアルゴリズムは常識で知っていたのですけれど、それを使ってあのような流暢な言葉が出てくるとは誰も信じていなかったのです。やはり肝はデータの量です。覚えさせた文章がすごい量だったということです。「日本の総理大臣は」の次に何が来るか、となると、「日本の総理大臣は石破さんだ」と書いてあるのが新聞記事等にたくさんあるわけですよね。その確率が圧倒的に多いので、ほとんどの場合「石破茂」というのを持ってきます。「総理大臣岸田文雄」と書いてある記事等も学習した中に一定程度残っているとすると、ある確率で「岸田文雄」と書いてしまう。これが「AI は時々間違う」と言われる主な理由です。ずいぶん工夫して間違いは減ってきましたが、統計的に処理している以上、間違う可能性をゼロにはできないのです。また、変なことを書かないように学習させています。個人のブログなどからも学習するので、差別的なことや猥褻なことを書いている文章がそのまま出てくると困りますから、そういうことは言わないように学習させているのです。ChatGPT は日本語の入出力が可能ですが、処理は英語(日本語を英語に翻訳して処理して、結果の英語を日本語に翻訳して出力する)です。今、日本版の生成 AI もいろいろ出てきております。もともと日本語の文章を入力しているので、欧米製の生成 AI よりも日本語が流暢だったり、日本のことに詳しかったりします。ChatGPT は最初の頃は日本のことを尋ねると、結構間違えておりました。データに日本のことが少なかったということですが、今は ChatGPT にも昔よりは日本のデータが入っています。ChatGPT はプログラムも書けます。私も情報系の大学の教員なので、学生に「こういう入力をして、こういう出力をするプログラムを 2 週間後までに書いて提出しなさい。」と宿題を出すのですけれど、今では生成 AI が学生に代わって完璧にそうしたプログラムを書いてしまいます。それくらいのレベルにはもう来ていて、かなり長い文章も書けるようになっております。「ときどき嘘を言う」とは、間違えるということであり、これが一番の欠点だと言われております。これは先ほどご説明したように、統計的に処理している以上はゼロにはできないのですけれど、だいぶ減ってきております。心配な場合は、同じ質問を複数の生成AI に聞いて、みんな答えが同じであれば、だいたい信じていいだろうし、生成 AI によって違うことを言月 20 ドル、最先端の「ChatGPT o1(オーワン)」は月 200 ドル必要です。高いものほど良い答えを出しま言語生成 AI の仕組み 84 ファイナンス 2025 Jul.1.日本語の入出力が可能2.日本についての知識は少ない3.プログラムや長い文章も書ける4.ときどき嘘を言うChatGPT の特徴
元のページ ../index.html#88