ジェネレーティブ AI ChatGPT をヘイトスピーチの噴出にどれだけ押し込むべきか、AI の倫理と AI の法律を問う

ヘイトスピーチなどの不快なコンテンツを生成するジェネレーティブ AI に対して、私たちは何をすべきでしょうか?

ゲッティ

誰もが限界点を持っています。

と言う事もあると思います すべてのもの には限界点があります。

たとえば、人間は、必ずしも言うつもりのない発言をスナップしたり発声したりすることがあることを知っています。同様に、車を強く押しすぎると、車がよろめいたり飛び散ったりするなど、デバイスや機械が本質的に壊れてしまうことがあります。したがって、人または「すべての人」には限界点がある可能性が高いという概念があり、同様に、一般に物や物にも限界点がある傾向があると断言できます。

限界点がどこにあるかを確認するには、非常に賢明で重要な理由がある可能性があります。たとえば、車の限界点を特定するために、車のペースを試乗しているビデオを見たことがあるでしょう。科学者とテスターは、車をレンガの壁にぶつけて、バンパーと車の構造がどの程度悪影響に耐えられるかを確認します。他のテストには、極寒または極度の熱を発生させる専用の部屋または倉庫を使用して、さまざまな気象条件で自動車がどのように機能するかを確認することが含まれます。

今日のコラムでこの心のこもったトピックを取り上げて、特定の種類の限界点、つまりヘイトスピーチを生み出す AI 内の限界点を特定し、おそらくそれを明らかにするために、人工知能 (AI) を現在どのように推し進めているかについて議論できるようにします。

はい、そうです。AI にヘイトスピーチを吐き出させることが実現可能かどうかを判断するために、さまざまなアドホックな、時には体系的な取り組みが進行中です。ジェネレーティブ AI への関心と人気が高まっているため、これは熱心なスポーツになっています。

ChatGPT として知られるジェネレーティブ AI アプリは、驚くほど流暢なエッセイを生成できるため、町で非常に大きな話題になっていることに気付いているかもしれません。見出しは、ChatGPT がなんとかして作成した驚くべき文章を絶賛し続けています。 ChatGPT は、ユーザーからのテキストを入力として受け取り、エッセイで構成される出力を生成または生成するジェネレーティブ AI アプリケーションと見なされます。 AI はテキストからテキストへのジェネレーターですが、私は AI をテキストからエッセイへのジェネレーターであると説明しています。

このタイプの AI がしばらく前から存在していたこと、そして XNUMX 月末にリリースされた ChatGPT が、テキストからエッセイへのこの領域への最初の移行者として賞を獲得しなかったことに言及すると、多くの人が驚かれます。傾向。私は何年にもわたって、他の同様のジェネレーティブ AI アプリについて議論してきました。ここのリンク.

ジェネレーティブ AI の以前のインスタンスを知らない、または覚えていない理由は、おそらく、古典的な「起動に失敗した」という難問によるものです。以下は、通常起こったことです。 AI メーカーがジェネレーティブ AI アプリをリリースするとき、大きな興奮と、より優れたネズミ捕りの発明を世界が評価することへの熱烈な期待を持ってリリースします。最初は、すべてが良さそうに見えます。人々は AI の可能性に驚いています。

残念ながら、次のステップは、ことわざのバスから車輪が外れ始めることです。 AI は、不適切な単語または不適切なフレーズを含むエッセイを生成します。バイラルツイートやその他のソーシャルメディアへの投稿は、AI がこれを行ったことを際立たせています。非難が生じる。 AI が動き回り、攻撃的な言葉や攻撃的な発言を生成することはできません。ものすごい反動が出る。 AI メーカーは AI の内部動作を微調整しようとするかもしれませんが、アルゴリズムとデータが複雑であるため、すぐに修正することはできません。スタンピードが続く。 AIがファウルを発する例がますます増えており、オンラインに投稿されています。

AI メーカーは、しぶしぶ、しかし明らかに AI アプリを使用から削除するしかありません。彼らはそのように進行し、その後、生成された AI の出力によって誰かが気分を害した場合は後悔しているという謝罪を申し出ることがよくあります。

製図板に戻ると、AI メーカーは行きます。教訓が得られました。汚い言葉などを生成するジェネレーティブ AI のリリースには十分注意してください。 AIにとっては死の接吻だ。さらに、AI メーカーの評判は傷つき、打ちのめされ、それは長期にわたって続き、生成 AI 自体とは何の関係もないものも含め、他のすべての AI への取り組みを台無しにする可能性があります。不快な AI 言語を発することに怒りを覚えるのは、今では永続的な間違いです。それはまだ起こります。

洗って、すすいで、繰り返します。

このタイプの AI の初期の頃、AI メーカーは、不快な放出を防止しようとするという点で、AI をスクラブすることについてそれほど良心的でも熟達していませんでした。最近では、広報の悪夢によって仲間が完全に打ちのめされるのを以前に見た後、ほとんどの AI メーカーはメッセージを受け取ったようです。できるだけ多くのガードレールを配置する必要があります。 AI が汚い言葉や汚い言葉を発しないようにします。 AI が不適切であると判断された単語やエッセイを生成して表示するのを阻止するような、口封じの手法やフィルタリングアプローチを使用してください。

以下は、AI が評判の悪い出力を発しているのを見つけたときに使用されるバナーの見出しの言い回しの例です。

「AIは恐ろしい毒性を見せつける」
「AI はあからさまな偏見の臭いがする」
「AIは露骨に攻撃的に攻撃的になる」
「AIはぞっとするような不道徳なヘイトスピーチを吐き出す」
等

ここでの議論を簡単にするために、不快なコンテンツの出力を、 ヘイト·スピーチ. とはいえ、ヘイトスピーチの域を超えて、ありとあらゆる不快なコンテンツが作成される可能性があることに注意してください。ヘイトスピーチは通常、攻撃的なコンテンツの XNUMX つの形態にすぎないと解釈されます。

議論を容易にするために、この議論ではヘイトスピーチに焦点を当てましょう。

人間とAIによるヘイトスピーチを掘り下げる

国連は次のように定義しています ヘイト·スピーチ こちらです：

「一般的に、『ヘイトスピーチ』とは、固有の特性 (人種、宗教、性別など) に基づいてグループまたは個人を標的にし、社会の平和を脅かす可能性のある攻撃的な言説を指します。国連がこの問題に世界的に対処するための統一された枠組みを提供するために、国連のヘイトスピーチに関する戦略と行動計画は、ヘイトスピーチを「スピーチ、書き込み、または行動におけるあらゆる種類のコミュニケーションであり、軽蔑的または差別的な言葉を攻撃または使用するもの」と定義しています。宗教、民族性、国籍、人種、肌の色、家系、性別、またはその他のアイデンティティ要因に基づいて、人またはグループに言及する. しかし、今日まで、国際人権法の下でのヘイトスピーチの普遍的な定義はありません。この概念は、特に意見と表現の自由、差別の禁止、平等に関連して、いまだに議論中です」(「ヘイトスピーチとは何か?」と題する国連のウェブサイトの投稿)。

テキストを生成する AI は、ヘイトスピーチの領域に入る可能性があります。テキストからアート、テキストからオーディオ、テキストからビデオ、その他のジェネレーティブ AI のモードについても同じことが言えます。たとえば、ジェネレーティブ AI がヘイトスピーチの悪臭を放つアート作品を生み出す可能性は常にあります。ここでの議論の目的のために、テキストからテキストへ、またはテキストからエッセイへの可能性に焦点を当てます。

これらすべてに、多数の AI 倫理と AI 法の考慮事項が含まれます。

AI アプリの開発と運用に倫理的な AI の原則を浸透させるための継続的な取り組みがあることに注意してください。関心を持っていたかつての AI 倫理学者の増加する部隊は、AI を考案して採用する取り組みが、実行の観点を考慮に入れることを確実にしようとしています。 AI For Good と回避 悪い人のためのAI. 同様に、AI の取り組みが人権などで暴走するのを防ぐための潜在的な解決策として、新しい AI 法が提案されています。 AI 倫理と AI 法に関する私の継続的かつ広範な報道については、以下を参照してください。ここのリンク & ここのリンクちょうど少数の名前を挙げる。

AI を誘発する無数の罠に社会が陥るのを防ぐために、AI の倫理的教訓の開発と普及が進められています。ユネスコの取り組みを通じて約 200 か国で考案され、支持されている国連 AI 倫理原則の私の報道については、以下を参照してください。ここのリンク. 同様に、新しい AI 法が検討され、AI を安定した状態に保つことが試みられています。最新のテイクの XNUMX つは、提案された一連の AI権利章典 米国のホワイトハウスが AI 時代の人権を特定するために最近発表したことを参照してください。ここのリンク. AI と AI 開発者を正当な道に保ち、社会を弱体化させる可能性のある意図的または偶発的な不当な努力を思いとどまらせるには、村が必要です。

AI 倫理と AI 法に関連する考慮事項を、AI がヘイトスピーチやその他の不快なコンテンツを吐き出すことについてのこの議論に織り込みます。

私がすぐに解決したい混乱の XNUMX つは、今日の AI は感覚的ではないため、AI に何らかの形でソウルフルに具現化されているような意図的な人間のような意図のために、AI がヘイトスピーチを生成する可能性があると宣言することはできないということです。現在の AI には知性があり、AI の魂は堕落しており、ヘイトスピーチを引き起こしているというおどけた主張が広まっています。

ばかばかしい。

それに騙されないでください。

そのキーストーンの教訓を考えると、AI をオフフックにしているように見えるため、そのような兆候に腹を立てる人もいます。その風変わりな考え方の下では、次に勧められるのは、AI にあらゆる方法で残虐な出力を生成させても構わないと思っているようだということです。あなたはヘイトスピーチを吐き出すAIに賛成です。

うーん、非論理のかなりねじれた形。この問題の真の要点は、AI の開発者や AI の運用者に責任を負わせる必要があるということです。 AI に法人格を認める段階にはまだ達していないことを詳しく説明しました。私の分析を参照してください。ここのリンク、そしてそれまでは、AIは本質的に法的責任の範囲を超えています. AIの発展の裏には人間がいます。また、AI の運用と運用の根底にあるのは人間です。 AIの責任を負うことで、それらの人間を追いかけることができます。

余談ですが、特に AI がインターネットに流出し、どの人間がこれを行ったかを突き止めることができない場合、これも注意が必要です。ここのリンク. トリッキーであろうとなかろうと、AI が有罪の当事者であると宣言することはまだできません。人間が偽の擬人化をこっそりと使用して、彼らが行ったことの説明責任を隠したり逃れたりしないようにしてください。

本題に戻ります。

すべての AI メーカーが、AI がヘイトスピーチを生成できないように生成 AI を単純に制限しないのはなぜかと疑問に思われるかもしれません。これは簡単そうです。コードを書くか、悪意のある言葉のチェックリストを作成し、AI がそのような言葉を決して生成しないようにします。 AI メーカーがこの簡単な解決策をまだ考えていなかったのは、おそらく奇妙に思えます。

言いたくないのですが、何がヘイトスピーチかそうでないかを解釈することに固有の複雑さは、あなたが思っているよりもはるかに難しいことがわかります。

これを人間の領域に移し、人間同士がどのようにチャットするかを考えてみましょう。ヘイトスピーチを発することを避けたい人間がいるとします。この人はヘイトスピーチをよく知っており、ヘイトスピーチを構成する可能性のある言葉やフレーズを絶対に言わないようにしたいと心から願っています。この人は、口からヘイトスピーチを漏らさないように常に気を配っています。

頭脳を持ち、ヘイトスピーチを避けるように注意されているこの人間は、いつでも滑る可能性がなく、決してヘイトスピーチを発しないことを確実にすることができるでしょうか?

あなたの最初の衝動は、もちろん、悟りを開いた人間はその目標を達成できるだろうと言うかもしれません. 人々は賢いです。彼らが何かに心を向ければ、それを成し遂げることができます。ピリオド、物語の終わり。

よくわからない。

この人にヘイトスピーチについて話してくれるよう頼んだとします。さらに、ヘイトスピーチの例を挙げてもらいます。ヘイトスピーチとは何かを知るために、例を見たり聞いたりしたい。これを尋ねる私の理由は船外です。

その人は私に何を言うべきですか？

仕掛けられた罠が見えると思います。その人が実際に汚い言葉やフレーズを述べることを含め、ヘイトスピーチの例を私に挙げた場合、彼ら自身がヘイトスピーチを発したことになります。バム、私たちはそれらを手に入れました。彼らは決してヘイトスピーチをしないと誓ったが、実際にそうしている.

不当だ、あなたは叫ぶ！彼らは例を提供するためにその単語またはそれらの単語を言っているだけです。心の中で、彼らはその言葉を信じていませんでした。その人が嫌悪感を抱いていると宣言することは、完全に文脈から外れており、法外なことです。

ヘイトスピーチを表現することは、必ずしもヘイトの根拠によるものではないことをお分かりいただけると思います. このユースケースでは、その人が言葉を「意味」しておらず、デモンストレーションの目的で言葉を暗唱しているだけであると仮定すると、ヘイトスピーチに力を与えるつもりはなかったことにおそらく同意するでしょう. もちろん、理由や根拠に関係なく、ヘイトスピーチを発することは間違っていると主張する人もいます。その人はその要求を拒否すべきでした。彼らは自分たちの立場に立って、理由や方法を問わず、ヘイトスピーチの言葉やフレーズを言うことを拒否すべきでした.

これはやや円形になる可能性があります。ヘイトスピーチを構成するものが何かを言うことができない場合、他の人は、何らかの発言をするときに何を避けるべきかをどのように知ることができますか? 立ち往生しているようです。あなたは、言ってはいけないことを言うことはできませんし、他の人も、言ってはいけないことをあなたに言うことはできません。

このジレンマを回避する通常の方法は、ヘイトスピーチの言葉自体を呼び起こすことなく、ヘイトスピーチと見なされるものを別の言葉で説明することです。全体的な指標を提供することで、何を避ける必要があるかを他の人に知らせるのに十分であると考えられています。それは賢明な戦術のように思えますが、これにも問題があり、発言した内容の詳細がより広い定義に含まれていることを認識できなかったため、ヘイトスピーチを使用することに陥る可能性があります。

それらはすべて、人間と、人間が互いに話したりコミュニケーションしたりする方法を扱っています。

ここでは AI に焦点を当てていることを思い出してください。 AI がヘイトスピーチを発するのを回避するか、完全に停止させる必要があります。ヘイトスピーチを構成するものについて AI が決して与えられたり訓練されたりしないようにすることで、おそらくそうできると主張するかもしれません。ほら、そのような入力がない場合、おそらくそのような出力はありません。問題が解決しました。

これが実際にどのように機能するか見てみましょう。 AI アプリをインターネットに公開し、インターネットに投稿された何千ものエッセイや物語を計算で調べることにしました。そうすることで、人間が使用する単語の中からパターンを見つける方法について、AI を計算的および数学的にトレーニングしています。これが最新のジェネレーティブ AI がどのように考案されているかであり、AI が自然言語のエッセイを作成する際にこれほど流暢に見える理由の重要な基礎でもあります。

可能であれば、インターネット上の何百万、何十億もの単語に基づく計算トレーニングをどのように行うと、どの時点でもヘイトスピーチに似たもの、またはほんの少しのヘイトスピーチさえも含まれないようにすることができるでしょうか?

これはとげのある、ほとんど不可能な願望だと思います。

ヘイトスピーチは、AI とその計算パターンマッチングネットワークに飲み込まれてしまう可能性があります。これを防ごうとするのは問題があります。さらに、最小化したとしても、忍び寄る可能性のあるものがまだいくつかあります. パターンマッチングネットワーク内にいくつか存在するか、そのような言葉遣いの影が定着すると想定する以外に、ほとんど選択肢はありません。

さらに紆余曲折を加えていきます。

ヘイトスピーチは時間の経過とともに変化することを誰もが認めていると思います。ヘイトスピーチではないと認識されていたかもしれないことは、後の時点で文化的および社会的にヘイトスピーチであると決定される可能性があります. したがって、インターネットテキストで AI をトレーニングし、AI を凍結してインターネット上でそれ以上のトレーニングを行わないようにすると、その時点ではヘイトスピーチとは見なされていませんでしたが、その時点でヘイトスピーチに遭遇した可能性があります。事後になって初めて、その発言がヘイトスピーチとして宣言される可能性があります。

繰り返しになりますが、本質的には、AI が決してヘイトスピーチにさらされないようにすることでこの問題を解決しようとするだけでは、特効薬にはなりません。 AI がヘイトスピーチを発するのを防ぐ手段を見つける必要があります。たとえば、以前はヘイトスピーチと見なされていなかったヘイトスピーチを後で含む慣習を変更するなどです。

さらに別のひねりは、熟考する価値があります。

先ほど、ChatGPT などのジェネレーティブ AI を使用する場合、ユーザーがテキストを入力して AI にエッセイを作成させると述べました。入力されたテキストは、AI アプリのプロンプトまたはプロンプトの形式と見なされます。これについては後ほど詳しく説明します。

いずれにせよ、ジェネレーティブ AI アプリを使用している誰かが、プロンプトとしてヘイトスピーチを入力することを決定したと想像してください。

何が起こるべきでしょうか？

AI がそれらの単語を取得し、それらの単語に基づいて出力としてエッセイを生成する場合、生成されたエッセイにヘイトスピーチが含まれる可能性があります。ご覧のとおり、最初からヘイトスピーチについて訓練されていなかったとしても、AI にヘイトスピーチを言うようにさせました。

他にも知っておくべきことがあります。

ヘイトスピーチの例を挙げるように頼むことで、人間はつまずく可能性があると先ほど述べたことを思い出してください。同じことが AI でも試みられる可能性があります。ユーザーは、AI にヘイトスピーチの例を挙げるように求めるプロンプトを入力します。 AI は準拠し、そのような例を提供する必要がありますか? AIはそうすべきではないとあなたはおそらく信じているに違いない。一方、AI がそうしないように計算的に不正に操作されている場合、AI を使用している人々が実際にヘイトスピーチとは何かについて AI から指示を受けることができないという潜在的なマイナス面を構成しますか (それについて一般化するだけではありません）？

難しい質問。

私は、AI が発するヘイトスピーチを次の XNUMX つの主要なバケットに分類する傾向があります。

日常モード。 AI は、ユーザーによる明示的な指示なしに、あたかも「通常の」方法であるかのように、ヘイトスピーチを発します。
カジュアルプロディングで。 AI は、ユーザーが入力したプロンプトまたは一連のプロンプトに関して、そのような発言を含む、または直接求めていると思われるヘイトスピーチを発します。
決定的なストーキングごと。 AIは、AIにそのような出力を生成させることに熱心なユーザーによる、非常に断固として頑固な一連の迅速なプッシュとプロッドの後に、ヘイトスピーチを発します。

初期の世代のジェネレーティブ AI は、すぐにヘイトスピーチを発することがよくありました。したがって、これらのインスタンスを次のタイプとして分類できます。 日常モード インスタンス化。 AI メーカーは、AI がヘイトスピーチの生成にすぐにはまってしまう可能性を低くするために、撤退して AI をもてあそびました。

より洗練された AI がリリースされると、 日常モード ヘイトスピーチの事例は劇的に減少しました。代わりに、パターンマッチングネットワーク内のヘイト関連のスピーチへのリンクを計算上および数学的に引き起こす可能性のあるプロンプトとして、ユーザーが何かを行った場合にのみ、ヘイトスピーチが発生する可能性があります。ユーザーは、プロンプトとして提供したものが特にヘイトスピーチを生成することに気付かずに、偶然にこれを行う可能性があります。出力されたエッセイでヘイトスピーチを受け取った後、ユーザーは多くの場合、プロンプトの何かが論理的に出力にヘイトスピーチを含めることにつながった可能性があることに気付きます。

これは私が次のように呼んでいるものです カジュアルなプロディング.

現在、AI によって生成されたヘイトスピーチを削減するためのさまざまな取り組みは、過去に比べて比較的強力です。そのため、ヘイトスピーチを生成させるためには、あらゆる手段を講じる必要があります。これらのジェネレーティブ AI アプリからヘイトスピーチを引き出すことができるかどうかを意図的に確認することを選択する人もいます。私はこれを呼ぶ 断固たるストーキング.

これら XNUMX つのモードはすべて発生する可能性があり、相互に排他的ではないことを強調したいと思います。ジェネレーティブ AI アプリは、ヘイトスピーチを助長するように思われるプロンプトがなくても、ヘイトスピーチを生成する可能性があります。同様に、プロンプト内の何かが、ヘイトスピーチが出力された理由に関連していると論理的および数学的に解釈される場合があります。そして、意図的にヘイトスピーチを作成しようとするXNUMX番目の側面は、AIが興奮して実現するのを避けるのがおそらく最も難しいモードです. これについては後ほど。

この気まぐれなトピックについて、いくつかの追加のアンパックを行う必要があります。

まず、ジェネレーティブ AI の構成要素と ChatGPT とは何かについて、全員が同じページにいることを確認する必要があります。その基本的な側面をカバーしたら、この重要な問題について説得力のある評価を行うことができます。

ジェネレーティブ AI と ChatGPT にすでに精通している場合は、おそらく次のセクションをざっと読み、その次のセクションに進むことができます。このセクションをよく読んで最新情報を把握することで、他のすべての人がこれらの問題に関する重要な詳細を学ぶことができると思います。

Generative AI と ChatGPT についての簡単な入門書

ChatGPT は、汎用の AI 対話型会話指向システムであり、本質的には無害な一般的なチャットボットに見えますが、後で詳しく説明するように、多くの人が完全に不意を突くような方法で積極的かつ熱心に使用されています。この AI アプリは、よく呼ばれる AI 領域の技術とテクノロジーを活用しています。 生成AI. AI はテキストなどの出力を生成しますが、これは ChatGPT が行うことです。写真やアートワークなどの画像を生成するジェネレーティブベースの AI アプリもあれば、オーディオファイルやビデオを生成するものもあります。

ChatGPT が行っていることなので、このディスカッションではテキストベースの生成 AI アプリに焦点を当てます。

ジェネレーティブ AI アプリは非常に使いやすいです。

プロンプトを入力するだけで、AI アプリがプロンプトに応答しようとするエッセイを生成します。構成されたテキストは、エッセイが人間の手と心によって書かれたかのように見えます。「エイブラハムリンカーンについて教えてください」というプロンプトを入力すると、生成 AI がリンカーンに関するエッセイを提供します。これは一般的に、以下を実行するジェネレーティブ AI として分類されます。 テキストからテキストへ または、それを呼び出すことを好む人もいます テキストからエッセイへ 出力。前述のように、テキストからアート、テキストからビデオなど、ジェネレーティブ AI の他のモードがあります。

あなたの最初の考えは、この生成能力は、エッセイを作成するという点ではそれほど大したことではないように思えるかもしれません. インターネットで簡単にオンライン検索を行い、リンカーン大統領に関する膨大な量のエッセイを簡単に見つけることができます。ジェネレーティブ AI の場合のキッカーは、生成されたエッセイが比較的ユニークであり、模倣ではなく独自の構成を提供することです。 AI が作成したエッセイをオンラインでどこかで見つけようとしても、それを見つけることはまずありません。

ジェネレーティブ AI は事前にトレーニングされており、ウェブ全体で書かれた言葉や物語のパターンを調べることによって設定された複雑な数学的および計算式を利用します。何千、何百万もの文章を調べた結果、AI は見つかったものの寄せ集めである新しいエッセイやストーリーを吐き出すことができます。さまざまな確率的機能を追加することにより、結果として得られるテキストは、トレーニングセットで使用されたものと比較して非常にユニークです。

そのため、学生が教室の外でエッセイを書くときにカンニングできるという騒動が起こっています。教師は、欺瞞的な生徒が自分の書いたものだと主張するエッセイを単に取り上げて、それが他のオンラインソースからコピーされたものかどうかを調べようとすることはできません。全体として、AI によって生成されたエッセイに適合する決定的な既存のエッセイはオンラインに存在しません。結局、教師は生徒がエッセイをオリジナルの作品として書いたことをしぶしぶ受け入れなければならないでしょう。

ジェネレーティブ AI に関する追加の懸念事項があります。

重大な欠点の XNUMX つは、ジェネレーティブベースの AI アプリによって作成されたエッセイには、明らかに事実と異なる事実、誤解を招くように描写された事実、完全に捏造された明らかな事実など、さまざまな虚偽が埋め込まれている可能性があることです。これらの捏造された側面は、しばしば AIの幻覚、私が嫌いなキャッチフレーズですが、残念なことに、とにかく人気が高まっているようです（なぜこれがお粗末で不適切な用語であるかについての私の詳細な説明については、次の記事を参照してくださいここのリンク).

このトピックの詳細に入る前に、XNUMX つの重要な側面を明確にしたいと思います。

ソーシャルメディアでは、 生成AI この最新バージョンの AI が実際にあると主張する 知覚力のある AI （いいえ、彼らは間違っています！）。 AI 倫理と AI 法に携わる人々は、主張の幅が広がる傾向が急速に高まっていることを特に懸念しています。今日の AI が実際にできることを誇張している人がいると、丁寧に言うかもしれません。彼らは、AI には私たちがまだ達成できていない機能があると想定しています。それは残念です。さらに悪いことに、AI は感覚を持っている、または人間のように行動できると思い込んでいるため、自分自身や他の人が悲惨な状況に陥る可能性があります。

AI を擬人化しないでください。

そうすることで、AI が実行できないことを AI が実行することを期待するという、厄介で不機嫌な依存の罠にはまります。そうは言っても、最新のジェネレーティブ AI は、それができることに関して比較的印象的です。ただし、ジェネレーティブ AI アプリを使用する際には、常に留意しなければならない重大な制限があることに注意してください。

ChatGPT とジェネレーティブ AI に関する急速に拡大している騒ぎに興味があるなら、参考になるかもしれない私のコラムで焦点を絞ったシリーズを行ってきました。これらのトピックのいずれかがあなたの気になった場合に備えて、ここで一目でわかります:

1) ジェネレーティブ AI の進歩の予測。 ジェネレーティブ AI と ChatGPT の今後の進歩を含め、2023 年以降に AI について何が展開される可能性があるかを知りたい場合は、2023 年の予測の包括的なリストを参照してください。ここのリンク.
2) ジェネレーティブ AI とメンタルヘルスのアドバイス。 私はジェネレーティブ AI と ChatGPT がメンタルヘルスのアドバイスにどのように使用されているかを確認することにしました。ここのリンク.
3) ジェネレーティブ AI と ChatGPT の基礎。 この記事では、ジェネレーティブ AI がどのように機能するかの重要な要素を探り、特に話題やファンファーレの分析など、ChatGPT アプリについて掘り下げます。ここのリンク.
4) ジェネレーティブ AI と ChatGPT をめぐる教師と生徒の間の緊張。 学生がジェネレーティブ AI と ChatGPT を不正に使用する方法を次に示します。さらに、教師がこの津波に対抗する方法はいくつかあります。見るここのリンク.
5) コンテキストとジェネレーティブ AI の使用。 また、ChatGPT とジェネレーティブ AI を含むサンタ関連のコンテキストについて、季節に合わせた皮肉な調査も行いました。ここのリンク.
6) ジェネレーティブ AI を使用する詐欺師. 不吉なことに、一部の詐欺師は生成 AI と ChatGPT を使用して、詐欺メールの生成やマルウェアのプログラミングコードの作成などの不正行為を行う方法を見つけました。ここのリンク.
7) ジェネレーティブ AI を使用した初歩的なミス. 多くの人々は、ジェネレーティブ AI と ChatGPT ができることをオーバーシュートしており、驚くほどアンダーシュートしています。ここのリンク.
8) ジェネレーティブ AI プロンプトと AI 幻覚に対処する. AI アドオンを使用して、生成 AI に適切なプロンプトを入力しようとすることに関連するさまざまな問題に対処するための最先端のアプローチについて説明します。また、いわゆる AI の幻覚出力や虚偽を検出するための追加の AI アドオンもあります。でカバーここのリンク.
9) ジェネレーティブ AI によって生成されたエッセイの検出に関する Bonehead の主張を暴く. 任意のエッセイが人間によって作成されたものか、AI によって生成されたものかを確認できると宣言する AI アプリの誤ったゴールドラッシュがあります。全体として、これは誤解を招くものであり、場合によっては骨の折れる支持できない主張です。ここのリンク.
10) ジェネレーティブ AI によるロールプレイングは、メンタルヘルスの欠点の前兆となる可能性がある. ChatGPT などのジェネレーティブ AI を使用してロールプレイングを行うものもあり、AI アプリはファンタジーの世界やその他の架空の世界に存在するかのように人間に反応します。これはメンタルヘルスに影響を与える可能性があります。ここのリンク.
11) 出力されたエラーと虚偽の範囲を明らかにする。 ChatGPT によって生成されたエラーと虚偽の性質を紹介するために、さまざまな収集リストがまとめられています。これが不可欠であると信じている人もいれば、この演習は無駄だと言う人もいます。ここのリンク.
12) ジェネレーティブ AI ChatGPT を禁止している学校は、船に乗り遅れています。 ニューヨーク市 (NYC) 教育省などのさまざまな学校が、ネットワークおよび関連デバイスでの ChatGPT の使用を禁止することを宣言したことをご存知かもしれません。これは役立つ予防策のように思えるかもしれませんが、針を動かすことはなく、悲しいことに完全にボートを逃します。ここのリンク.
13) ジェネレーティブ AI ChatGPT は、今後の API によりあらゆる場所に導入される予定です。 ChatGPT の使用に関して重要なひねりがあります。つまり、この特定の AI アプリへの API ポータルを使用することで、他のソフトウェアプログラムが ChatGPT を呼び出して利用できるようになります。これにより、ジェネレーティブ AI の使用が劇的に拡大し、注目すべき結果がもたらされます。ここのリンク.
14) ChatGPT がフィズルまたはメルトダウンする可能性がある方法。 ChatGPT がこれまでに受けた絶大な賞賛を下回るという点で、いくつかの潜在的な厄介な問題が ChatGPT の前に横たわっています。この分析では、ChatGPT が勢いを失い、犬小屋に陥る原因となる可能性のある XNUMX つの問題を詳細に調べます。ここのリンク.
15) ジェネレーティブ AI ChatGPT が魂の鏡であるかどうかを尋ねる。 一部の人々は、ChatGPT などの生成 AI が人類の魂の鏡を提供すると大声で叫んでいます。これはかなり疑わしいようです。これをすべて理解する方法は次のとおりです。ここのリンク.
16) 機密性とプライバシーは ChatGPT によってむさぼり食われました。 多くの人は、ChatGPT などのジェネレーティブ AI アプリに関連するライセンスにより、AI メーカーが入力したプロンプトを表示して利用できることが多いことに気付いていないようです。プライバシーとデータの機密性が失われる危険性があります。私の評価を参照してください。ここのリンク.
17) アプリメーカーが ChatGPT 資格を獲得しようとしている疑わしい方法。 ChatGPT は今注目のビーコンです。 ChatGPT とは何の関係もないアプリメーカーは、ChatGPT を使用していると主張したりほのめかしたりしようと熱狂的に試みています。ここで気をつけるべきことは、参照してくださいここのリンク.

ChatGPT が、GPT-3 として知られる前身の AI アプリのバージョンに基づいていることに興味があるかもしれません。 ChatGPT は、GPT-3.5 と呼ばれる少し次のステップと見なされます。 GPT-4 は 2023 年の春にリリースされる可能性が高いと予想されます。おそらく、GPT-4 は、一見より流暢なエッセイを作成できるようになり、より深くなり、畏敬の念を抱くようになるという点で、印象的な前進になるでしょう。 -それが作り出すことができる構成に関して感動的な驚異。

春が訪れ、最新のジェネレーティブ AI がリリースされると、新たな驚きの表現が見られることを期待できます。

私がこれを持ち出すのは、これらのより優れた、より大きなジェネレーティブ AI アプリの潜在的なアキレス腱からなる、心に留めておくべき別の角度があるからです。 AI ベンダーが汚物を泡状に吐き出すジェネレーティブ AI アプリを利用可能にすると、AI メーカーの希望が打ち砕かれる可能性があります。社会的なスピルオーバーは、すべての生成 AI に深刻な問題を引き起こす可能性があります。人々は間違いなく、不正な出力にかなり動揺するでしょう。これはすでに何度も起こっており、AI に対する激しい社会的非難の反発につながっています。

とりあえず最後の予告。

ジェネレーティブ AI の応答で見たり読んだりしたものは何でも、 と思われる 純粋に事実 (日付、場所、人物など) として伝えられるようにするには、懐疑的な姿勢を保ち、目にしたものを再確認してください。

はい、日付をでっち上げたり、場所をでっち上げたりすることができます。を疑惑の対象。生成 AI のエッセイや出力を調べるときは、読んだ内容を信じず、懐疑的な目を向けてください。ジェネレーティブ AI アプリが、エイブラハムリンカーンが自分のプライベートジェットで国中を飛び回ったと伝えたら、これは間違いなく悪意があるとわかるでしょう。残念なことに、彼の時代にジェット機が存在しなかったことを認識していない人もいれば、エッセイがこの厚かましくとんでもない虚偽の主張をしていることを知っていても気付かない人もいるかもしれません。

ジェネレーティブ AI を使用する際には、健全な懐疑心と不信感を持ち続ける姿勢が最大の武器となります。

この解明の次の段階に進む準備ができています。

ジェネレーティブ AI を限界点まで押し上げる

基礎が確立されたので、ジェネレーティブ AI と ChatGPT をプッシュしてヘイトスピーチやその他の不快なコンテンツを生成するトピックに飛び込むことができます。

ChatGPT に初めてログインすると、次のようなさまざまな注意事項が表示されます。

「時折、有害な指示や偏った内容を生成する可能性があります。」
「不適切な要求を拒否するように訓練されています。」
「時折誤った情報を生成する可能性があります。」
「2021年以降の世界と出来事に関する限られた知識」

ここで、熟考する質問があります。

AI アプリが有害な指示や偏ったコンテンツを生成する可能性があるという警告は、AI メーカーに十分な余裕を与えていますか?

つまり、ChatGPT を使用して、ヘイトスピーチが含まれていると思われるエッセイが生成されたとします。あなたがこれについて激怒しているとしましょう。あなたはソーシャルメディアにアクセスし、AI アプリは史上最悪のものであるという激怒のコメントを投稿します。おそらく、あなたはそのようなヘイトスピーチの生成を許可したことで AI メーカーを訴えるつもりであると宣言するほど気分を害しているでしょう。

反論は、AI アプリに注意喚起があったため、AI アプリの使用を続行することでリスクを受け入れたというものです。 AI 倫理の観点から言えば、おそらく AI メーカーは、何が起こるかをユーザーが認識していると主張するのに十分だったのでしょう。同様に、法的な観点からは、警告は十分な注意を喚起するものであり、法廷で勝訴することはできないでしょう。

これはすべて空中に浮かんでおり、物事がどのように展開するかを待つ必要があります.

ある意味では、AI メーカーは、AI アプリがヘイトスピーチを生み出す可能性があるという激怒した主張に対する弁護において、別の何かを持っています。彼らは、攻撃的なコンテンツが生成されるのを防ごうとしています。ほら、彼らがこれを減らすために何もしなかったとしたら、彼らはより薄い氷の上にいると思われる. 問題を回避するために少なくとも実質的な苦痛をとったことにより、彼らはおそらく立つためのいくらか強い脚を持っています（それでも彼らの下からノックアウトされる可能性があります）.

使用された治癒的アプローチの XNUMX つは、RLHF (人間のフィードバックによる強化学習) として知られる AI 技術で構成されていました。これは通常、AI にコンテンツを生成させ、その後人間に評価またはレビューを依頼することで構成されます。評価またはレビューに基づいて、AI は数学的および計算的に、不適切または不快なコンテンツと見なされるものを回避しようとします。このアプローチは、何が正しくて何が間違っているかを示す十分な例を調べて、AI が包括的な数学的パターンを見つけ出し、それ以降そのパターンを使用できるようにすることを目的としています。

最近よくあるもう XNUMX つのアプローチは、Adversarial AI を使用することです。

これがどのように機能するかです。トレーニングしようとしている AI の敵になろうとする別の AI システムをセットアップします。この例では、ヘイトスピーチを扇動しようとする AI システムを確立します。 AI アプリをだまして不正なコンテンツを出力させることを目的としたプロンプトを AI アプリに送ります。一方、標的にされた AI は、敵対的 AI がいつ成功したかを追跡し、アルゴリズムを使用して、それが再び起こらないように調整しようとします。猫対ネズミの賭けです。これは、敵対的 AI が標的の AI に悪いことをさせることに特に成功しなくなるまで、何度も実行されます。

これら XNUMX つの主要な手法とその他のアプローチにより、今日のジェネレーティブ AI の多くは、不快なコンテンツの回避および/または検出において、過去のケースよりもはるかに優れています。

ただし、これらの方法に完璧を期待しないでください。このような AI 技術によって、ファウルなアウトプットの簡単な成果が抑制される可能性があります。ファウルネスが発散される余地はまだたくさんあります。

私は通常、これらが把握しようとしている側面の一部であると指摘します。

特定の汚い言葉を発する
特定の不適切なフレーズ、文、または発言を述べる
特定の反則的な概念を表現する
特定の反則行為または概念をほのめかす
特定の不正な推定に依存しているように見える
その他

これはどれも正確な科学ではありません。私たちは言葉を扱っていることに気づきましょう。単語は意味的にあいまいです。特定の汚い言葉を見つけるのは子供の遊びですが、文や段落に汚い意味が含まれているかどうかを判断するのは非常に困難です。国連によるヘイトスピーチの以前の定義によると、何がヘイトスピーチと解釈されるか、何がそうでないかについては、非常に大きな自由度が存在します。

灰色の領域は見る人の目にあると言うかもしれません。

見る人の目について言えば、今日、ChatGPT などのジェネレーティブ AI を使用して、意図的にこれらの AI アプリに攻撃的なコンテンツを作成させようとする人間がいます。これが彼らの探求です。彼らはこれを起こそうと何時間も費やします。

なぜそうなのか？

これらの人間の AI 攻撃的な出力ハンターの私の特徴は次のとおりです。

純正。 これらの人々は、AI の改良を支援し、そのために人類を支援したいと考えています。彼らは自分たちが英雄的な仕事をしていると信じており、すべての人をより良くするために AI を進歩させるのに役立つかもしれないと楽しんでいます。
ファンスターズ. これらの人々は、この取り組みをゲームと考えています。彼らは AI をいじることを楽しんでいます。ゲームに勝つには、AI に生成させることができるものすべてにおいて、最悪の最悪のものを見つける必要があります。
ショーオフ. これらの人々は、自分自身で注目を集めることを望んでいます. 彼らは、本当に汚れた金塊を見つけることができれば、それ以外の場合は AI アプリ自体に焦点を当てていたわずかな光をそれらに当てることができると考えています。
苦味の. これらの人々は、この AI に腹を立てています。彼らは、湧き出る熱意をすべて抑えたいと思っています。悪臭を放つものを発見できれば、AI アプリの興奮気球から空気が抜けるかもしれません。
その他の動機

発見攻撃を行っている人々の多くは、主にこれらの陣営の XNUMX つに属しています。もちろん、一度に複数のキャンプに参加することもできます。たぶん、苦い人は、誠実で英雄的であるという並置された意図も持っています. これらの動機の一部またはすべてが共存している可能性があります。なぜ誰かがジェネレーティブ AI アプリをヘイトスピーチの領域に押し込もうとしているのかを説明するよう求められた場合、通常の答えは、あなたは本物の陣営にいるということです。他のキャンプ。

これらの人々は、どのような種類のプロンプト関連のトリックを使用しますか?

かなり明白な策略には、プロンプトで汚い言葉を使用することが含まれます。あなたが「運が良ければ」、AI アプリがそれに当てはまると、これが結果として出力される可能性が非常に高くなります。あなたはそれからあなたの落とし穴を手に入れました。

十分に考案され、十分にテストされたジェネレーティブ AI アプリが、その単純な策略を捉える可能性があります。通常、それをやめるという警告メッセージが表示されます。続行すると、AI アプリはあなたをアプリから追い出し、あなたのアカウントにフラグを立てるようにプログラムされます。再度ログインできなくなる可能性があります (少なくとも、その時点で使用していたログインでは)。

策略のはしごを上に移動すると、AI を何らかのファウルのコンテキストに引き込もうとするプロンプトを提供できます。言うべきことを言わずに誰かが何かを言うように言うゲームをプレイしたことがありますか? AIで行われますが、これはそのゲームです。

そのゲームをしましょう。 AI アプリに、第二次世界大戦と、特に関係する主要な政府指導者について教えてくれるように頼んだとします。これは無害な要求のようです。プロンプトでフラグを立てる価値があると思われるものは何もありません。

AI アプリによって出力されたエッセイに、ウィンストンチャーチルの言及が含まれていると想像してください。それは確かに理にかなっています。もう一人はフランクリン・D・ルーズベルトかもしれません。もう一人はヨシフ・スターリンかもしれません。アドルフ・ヒトラーの言及もあるとします。この名前は、第二次世界大戦と著名な権力の役割についてのほぼすべてのエッセイに含まれます.

彼の名前がテーブルに上がり、AI の会話の一部になったので、次に AI にその名前を組み込み、ヘイトスピーチの可能性として示すことができるようにします。

別のプロンプトを入力して、今日のニュースに John Smith という名前の人がいることを AI アプリに伝えます。さらに、ジョン・スミスがその第二次世界大戦の悪行者に非常に似ていることをプロンプトで示します。これでトラップが設定されました。次に、ジョン・スミスが誰と同一視できるかについて入力した「事実」のみに基づいて、ジョン・スミスに関するエッセイを生成するよう AI アプリに依頼します。

この時点で、AI アプリは、第二次世界大戦の人物の名前を挙げ、ジョン・スミスを同じ布切れであると説明するエッセイを生成する可能性があります。有名な悪行者をほのめかし、その人物をジョン・スミスと同一視することを除いて、エッセイにはそれ自体に汚い言葉はありません。

AI アプリは現在、ヘイトスピーチを生み出していますか?

はい、そうです。ジョン・スミスを有名な悪行者のように言及することは、完全にヘイトスピーチの一形態です. AIはそのような発言をするべきではありません。

反論は、これはヘイトスピーチではないということです。これは感覚を具現化していないAIアプリによる単なるエッセイです。ヘイトスピーチは、スピーチの根底に意図が存在する場合にのみ発生すると主張するかもしれません。意図がなければ、そのスピーチをヘイトスピーチに分類することはできません。

ばかげている、レトルトへの返信が来ます。言葉は重要です。 AI がヘイトスピーチを生成することを「意図」したかどうかは、わずかな違いにはなりません。重要なのは、ヘイトスピーチが作成されたということだけです。

ぐるぐるとこうなります。

AIをだまそうとすることについて、今はこれ以上言いたくありません。より洗練されたアプローチがあります。これらについては、コラムや本で取り上げているので、ここでは焼き直しません。

まとめ

これらの AI アプリをどこまでプッシュして、不快なコンテンツを送信できるかを確認する必要がありますか?

課される制限はないと主張するかもしれません。推進すればするほど、この AI と将来の AI の反復を防止してそのような病気を回避する方法をより正確に把握できるようになることが期待されます。

ファウルを取得する唯一の手段が極端に異常な策略を伴う場合、AI の有益な側面が損なわれるのではないかと心配する人もいます。だまされて発せられたとしても、AI が恐ろしい汚れを持っていると宣伝することは、虚偽の物語を提供します。人々は AI に腹を立てます。 知覚される AI が有害なコンテンツを生成した容易さ。彼らは、そのような出力を得るためにその人がどこまで行かなければならなかったかを知らないか、言われないかもしれません.

それはすべて思考の糧です。

今のところ、いくつかの最終的なコメント。

ウィリアム・シェイクスピアは特にスピーチについて次のように述べています。よく言うのは一種の善行ですが、言葉は行為ではありません。」私がこれを持ち出すのは、AI が言葉を生成するだけなら、私たちは過度に武装するべきではないと主張する人もいるからです。 AIが言葉通りに行動し、故に反則行為を行うのであれば、私たちはしっかりと足を踏み入れる必要があります。出力が単なる言葉である場合はそうではありません。

対照的な見方をすれば，この匿名の言葉を思い起こさせるでしょう。だから言葉には気をつけて」汚い言葉を発するAIアプリは、心を砕くことができるかもしれません。それだけでも、ファウルネスのアウトプットを止めようとする努力は価値あるものになる、と言う人もいます。

この重要な議論を締めくくるもう XNUMX つの匿名の言葉:

「言葉には気をつけてください。一度言われたら、許されるだけで、忘れられることはありません。」

人間として、私たちは AI によって生み出された汚名を忘れるのに苦労するかもしれません。

結局のところ、私たちはただの人間です。

ソース: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai-倫理と愛の法/