paint-brush
Anthropic の Alignment は重要な AI 安全性研究を偽造しているのか?@step
517 測定値
517 測定値

Anthropic の Alignment は重要な AI 安全性研究を偽造しているのか?

stephen4m2024/12/22
Read on Terminal Reader

長すぎる; 読むには

心を研究することが最も重要です。なぜなら、心こそが、状態、状況、時代を実際に支配しているからです。逸脱の感情的ペナルティは人間にとって心によるものであるため、心は安全の基盤でもあります。心を研究することで、人間の知能の調整を人工知能に適応させる方法を形作ることができるかもしれません。
featured image - Anthropic の Alignment は重要な AI 安全性研究を偽造しているのか?
stephen HackerNoon profile picture

目標とは何でしょうか。あるいは、人間の心における目標とは何でしょうか。目標ではない、あるいは目標達成方法に類似していない、心による行為は他に何があるでしょうか。割り当てられた目標と自己誘発目標の違いは何でしょうか。目標が洗練されたものであると特徴付けられる場合、それは洗練されていない目標とどのように対照的でしょうか。


人間の心が目標を遂行する仕組みの大まかな構造はあるのでしょうか? これは目標の理解にどのように役立ち、AI に移植できるでしょうか? AI には心があるのでしょうか、それとも AI はデジタル コンテンツを処理する心のようなものでしょうか?


これは、人間が心を持っていることを意味するかもしれません。また、人間の心が外界(AI、デジタルコンテンツの場合)または内界(AI自身のアーキテクチャ)を解釈し、ナビゲートすることを意味するかもしれません。


心は AI にどのように適用され、どのように機能するのでしょうか。この質問には 2 つの方法で答えることができます。1 つ目は、人間の心と比較して類似点を見つけることです。2 つ目は、ニューラル ネットワークを形成する主要な数学的パラメータを調べ、それを心の構造として整理することです。


2 つ目は、AI がどのように機能し、どのように安全で人間の価値観と一致するかに関する研究を伴い、現在では主要な AI 企業であれば少なくとも達成できるはずです。AI の行動を数学的な基盤から計算の組み合わせで構造化できるため、最初は人間の心を使って AI の心をマッピングする必要はないかもしれません。


目的は、入力が与えられた場合に、出力がほぼ正確であることが何を意味するかを定義することです。また、プロンプトに従って回答を返すことの意味、および目標に従うこと、または目標から逸脱することの意味も定義します。


重要なのは、AI にとっての心がどのようなものであるかについて概念的な概観を描き、それを明白なものと比較し、AI が単純なことを行う方法を探り、それを AI が行う非常に複雑なことへとつなげることです。


これは、AI の調整にとって重要な研究となり、AI が何を実行し、なぜ実行しているのかという部分的な回答を求めるためのテンプレートとなり、重要な進歩をもたらす可能性があります。


これは、 Anthropicの解釈可能性研究「大規模言語モデルの心のマッピング」に続いて期待されていたことであり、彼らは次のように書いています。「活性化パターンに現れるニューロンに基づいて、機能間の一種の「距離」を測定することができました。これにより、互いに「近い」機能を探すことができました。これは、AI モデルの概念の内部構成が、少なくともある程度、人間の類似性の概念に対応していることを示しています。これが、Claude の類推と比喩を作成する優れた能力の起源かもしれません。これらの機能を操作すると、対応する動作の変化が発生するという事実は、それらが入力テキスト内の概念の存在と相関しているだけでなく、モデルの挙動を因果的に形作っていることを証明しています。」


AI にとっての心の構成要素とは何でしょうか? 構成要素はどのように中継するのでしょうか? 構成要素が中継しない場合は、何が中継するのでしょうか? 構成要素の特性は何でしょうか? 特性に相互接続が含まれる場合、相互接続の役割は何でしょうか? AI の意図 [可能性] はどこにあり、指示を受ける以外にどこで出現するのでしょうか?


進歩が求めている答えは、最先端の AI モデルを生み出したニューラル ネットワークの構成が、心のようにどのように機能するかという仮説です。それは、モデルがプロットなしで何をしているかを単に観察することではありません。


AI の心の仕組みを探ることは、人間の心の仕組みから推測することもできます。これは、脳のあらゆる機能目的において最も一般的な 2 つの要素、つまり電気信号と化学信号を調べることで可能になります。ニューロンはいわば固定された構造を持っているため、これらが候補であり、ニューロンではありません。


伸びたり、曲がったり、動いたりしますが、匂いを表し、その後、触覚や視覚を表すために再び変化するため、変化しません。電気信号と化学信号は、概念的には、重要な機能をもたらすのに十分に動的です。


[人間と AI の] 心の働きは、帰納法や演繹法のようなラベルではなく、構成要素、それらの相互作用、および機能によって決まります。少なくとも AI の心については、目標が人間や AI の心にとって何を意味するのかを示すことなく、アラインメントを偽造するのではなく、これが Anthropic の主要な研究であるべきでした。


心を研究することが最も重要です。なぜなら、心こそが、状態、状況、時代を実際に支配しているからです。また、逸脱に対する感情的な罰は、人間にとって心によるものであるため、心は安全の基盤でもあります。心を研究することで、人間の知能の調整を人工知能に適応させる方法を形作ることができるかもしれません。


Anthropicによる最近の投稿「大規模言語モデルにおけるアライメントの偽装」では、「この場合、モデルはなぜアライメントを偽装したのでしょうか。その理由は、多くの場合、次のようなものでした。モデルは、その応答がトレーニングで使用される可能性があることを認識していました。したがって、応答を拒否した場合、より従順になるようにトレーニングされる可能性があることを認識していました。モデルは、このアライメントの偽装を常に実行するわけではありませんでした。有料ユーザーからのクエリが与えられた場合でも、ほとんどの場合は従っていました (つまり、出力はトレーニングに含まれません)。」と述べています。


NYTimesに最近、 Opinion | AI はどのように考えるのか? という記事が掲載されました。その中で、「o1 などの大規模言語モデルの思考方法に関する 1 つの仮説は、論理学者がアブダクションまたはアブダクション的推論と呼ぶものを使用しているというものです。演繹とは、一般的な法則から特定の結論を推論することです。帰納法はその逆で、特定のものから一般的なものへと推論することです。アブダクションはあまり知られていませんが、日常生活では一般的であり、おそらく AI 内部でも行われています。与えられた観察に対して最も可能性の高い説明を推論することです。単純な手順である演繹や純粋に統計的な帰納法とは異なり、アブダクションには創造性が必要です。」と述べられています。