AI生成文章の検出モデルを開発　GPTシリーズで生成された日本語の文章を高精度に検出

AI生成文章と人間が作成した文章が混在するテキストデータにも対応

この度当社では、ChatGPT, GPT-4, GPT-4oなどのGPTシリーズの生成AIによって生成された文章を検出するAI生成文章検出モデルを開発しました（以下、「当検出モデル」）。当検出モデルは日本語文章において、AIで生成された文章を高精度に検出可能で、AIによって作成された虚偽のニュース、フィッシングメール等の検出や、学術機関における論文等の学術基準維持、教育機関における提出課題の生成判定など、様々な分野での文章の信頼性に関わる問題解決に貢献します。

■開発の背景

近年、ChatGPTをはじめ文章を自動で生成するAIが数多く登場し、様々な文章コンテンツをAIを用いて作成することが可能となりました。一方で、教育現場や学術分野においては、AIが生成した文章と人間が書いた文章の判別が困難であるという課題が生まれています。また、専門知識を持たずとも、AIを利用することでそれらしい文章を作成できる手軽さから、ネガティブキャンペーンや虚偽のニュースを作成する事例も出てきています。

このような社会的状況を受け、当社では、これまでのフェイク検出技術開発で得た知見を基に、AIによって生成された文章を検出する技術を開発しました。

■AI生成文章検出モデルについて

当検出モデルは、OpenAIが提供するGPTシリーズ（ChatGPT、GPT-4、 GPT-4oなど）によって生成された日本語の文章を検出するモデルです。350文字以上の文章であれば、AIによって生成された文章中に、人間が書いた文章が混ざっている場合でも生成された箇所を検出可能です。また、AI生成の文章を検出する機能を持つツール「GPTZero」との検出精度比較でも、GPTZeroの検出精度71%に対し当検出モデルでは88％の検出精度を記録し、GPTZeroを上回る結果となっています。

〈検証条件〉

●検出に使用したテキストは、以下の方法で生成されたデータで検証

・GPT-3.5：CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成

・GPT-4：CausalLM/GPT-4-Self-Instruct-Japaneseから出力

・GPT-4o：CausalLM/GPT-4-Self-Instruct-Japaneseのインストラクションを活用して生成

●20個の文章に対してそれぞれの検出器で判定を行った結果をまとめた数値

▼検出条件は以下の通り

・テキストの長さ：300文字以上

・検出に使用したオープンソースのデータセット：

https://huggingface.co/datasets/CausalLM/GPT-4-Self-Instruct-Japanese

当検出モデルでは、文章を複数のセグメントに分け、各セグメント毎に生成された可能性のスコアを算出し、スコアに応じたラベル付けを行います。

【判定ラベルの内容】

緑…人間が書いた可能性が高い文章（AI生成の可能性：30％以下）

黄…AI（GPTモデル）が生成した可能性が高い文章（AI生成の可能性：70％以上）

白…予測困難な文章（AI生成の可能性：30％～70％未満）

■考えられる活用分野

AI生成文章検出の技術は生成AIを使って文章を作成する、あらゆるシーンでの活用が可能で、学術・教育分野、メディア領域、犯罪対策、クリエイティブなど幅広い分野での活用が期待されます。

●学術・教育分野

論文やエッセイ、課題提出物における生成AIの活用を検出

●メディア

生成AIで作成されたフェイクニュースやネガティブキャンペーンの検出

●犯罪対策・防犯

生成AIで作成された詐欺やフィッシングメールを検出し、個人や組織を保護

●クリエイティブ

コンテンツクリエイターが書いた文章と生成AIによる文章の判別

■今後の展望

今後は、GPT以外の主要な文章生成AIの検出にも対応させることで、生成されたAIに限らず検出が可能となるようモデル性能の一般化を進めてまいります。また、当社では引き続き、フェイク検出に関する技術開発や新たなフェイク生成手法への対応も進めてまいります。

■ お問い合わせ

当社のAI生成文章検出モデルに関するお問い合わせは以下フォームからお気軽にご相談ください。

https://www.nablas.com/contact