AI Alignment talk from Japan No.8

ライター：泉川茉莉

Apr 27, 2024

こんにちは。AI Alignment Talk from Japanの泉川です。先々週の記事では学術分野としてのAIアライメントに着目し、多様な価値観を包括する多元性の重要性を扱いました。今回はその続編として、「AIをさまざまなステークホルダーの価値観に整合させるためには何が必要なのか？」を掘り下げていきます。AIを特定の個人だけでなく、政策立案者、技術者、倫理学者、一般市民など、多様な関与者の集合利益と一致させるにはどうすれば良いのでしょうか？Gabriel(2020) による”Artificial Intelligence, Values, and Alignment”の内容を元に考えていきます。

人それぞれの善悪

「多元性」は異なる文化や宗教・個人の信念などに基づいて生まれる多様な価値観や規範が共存する状態を指します。自分が強く信じている道徳観であっても、その道徳観に誰もが納得するわけではありません。当たり前のことのようですが、これはAIアライメントにおいても留意すべき点です。単一の道徳観に沿ったAIを設計することは、誰かを幸せにすることができても、誰かにその価値観や判断を押し付けることになるかもしれないということです。一つの「正しい道徳」をAI組み込もうとすることは支配的な社会につながる可能性があるとGabriel（2020）は指摘しています。とは言え、実践面を考えれば「どの価値観を採用するのか」という議論は避けては通れません。多様な価値観に配慮することが求められる中で、AIはどのような状況で、誰のどのような価値観に整合すれば良いのでしょうか？

コンセンサスを得る手段

人々の様々な価値観や意見を一つにまとめ上げることは不可能です。ですが、特定の原則に合意することはできるとの見方を示すのがGabriel（2020）です。Gabriel（2020）は哲学者J・Rawlsを引用し、「多元的な社会では単一の道徳観に同意することは稀である一方、社会の基本的な構造を形作る政治的原則に関しては合意が得られる可能性がある」と述べています。その理由として、全ての人々が同じ道徳観・価値観を共有していなくても、異なる個人・グループがそれぞれの理由で同じ原則を支持することができることを挙げています。つまり、人々が多様であっても同意できることはあると示しています。多様な利害を持つ関与者が合意形成をするためアプローチを同氏はいくつか紹介しています。これらは政策形成で度々参照される概念ですが、AIアライメントにおいても有効性が期待できます。

普遍的人権の原理

一つ目のアプローチは普遍的人権の原理（Doctrine of Universal Human Rights）です。これは価値の多元性が存在する中でも、実社会でほとんどの人々が同意することが一定数あるという考えに基づきます。例えば誰もが身体的暴力から守られるべき、誰もが食、住居、医療、教育など基本的な権利を与えられるべきというように人権の概念は異なる思想でも違う理由で支持されています（Gabriel 2020)。AIアライメントに立ち戻って考えると、AIは人権の観点から国際的に正当化されている原則に整合している必要があると考えられます。しかし、ここでもハードルはいくつか想定されます。例えば、多くのAIが「人に危害を加えない」というようにネガティブな行動を避けることはできても、どこまで積極的に人権を肯定するのかということに関しては合意が取りづらい点です。さらに、誰かの権利を守るためには誰かの権利を奪わなければならないという状況ではどうでしょうか。その場合、「最大多数の最大幸福」を原理とする功利主義を採用するのか、行動の正当性に基づいた義務論を採用するのかなどもう一段階視座を高くした原則を吟味する必要が出てきます。

既存のAIガイドラインの共通項を見つける

既存のAIガイドラインやルールに焦点をあて、異なる地域や団体によって提案されている規範の共通点を見つけるアプローチもあります。実際、この動きは2015年ごろから活発化していると言われており、世界的に透明性や公正さ、非害、責任、プライバシーといった項目に重きを置いているガイドラインが多く見つかります。ただ、このアプローチで問うべき問題として、Gabriel（2020）はこれらの一見合意の取れたグローバルな原則は本当にグローバルなのか、代表されている人々が地理的・文化的に偏っている可能性はないのかを挙げています。もう一つ私たちは既存のAIガイドラインが誰のためのものなのか、あるいは誰が幸せになるのかという利益構造に注視しなければなりません。それによってガイドラインが考慮していない人々や一定の人々が利益を得る裏側で経済的・社会的な脆弱性を持つ人々が浮き彫りになるのではないでしょうか。

無知のベール

人々がすでに持ち合わせている価値観ではなく、むしろ誰もが他人に自分の意見を押し付けることができない状況を想定し、合意するであろう原則に焦点を当てる考え方があります（Gabriel 2020）。哲学者J・Rawlsが提唱した「無知のベール」です。無知のベールがあればある価値観の決定が自分自身の道徳観や富、社会的立場にどう影響するのかを無視してより「一般的に」に考えられるといいます。AIアライメントにおける価値判断においても、無知のベールを取り入れれば特定の状況や利益に依存しない、公正で偏りのない原則を選択できるのかもしれません。ですが、私たちにとって「公正」や「偏りのない」という感覚さえも常に私たち自身の立場や環境に依存しています。無知のベールで、理論上より多くの人が幸福になる意思決定ができたとしても、それが無知のベールがない状態と比べて、誰かの価値観を満たさない判断となってしまう場合も十分考えられます。

社会的選択

AIを多元的な価値に整合させるもう一つのアプローチは社会のより多くの人の意志を集約し、集合的な判断を行う方法です（Gabriel 2020)。政治学では2000年以上前から盛んに議論され、今も議論が絶えない民主主義や自由主義（リベラリズム）に沿ったアプローチだと言えます。しかし、人間の価値観や道徳観は情勢によって常に変化するものです。将来的に私たちは定期的にAIが整合すべき価値観を投票で決めることになるのでしょうか？そもそも自由民主主義における最善の意思決定プロセスはどのようなものでしょうか？

実践への距離

ここまでご紹介したように、多様な人々の間に「重なり合う合意」を見つけるための手法は数多く存在します。しかし、「普遍的人権の原理」や「既存ガイドラインの共通項」では合意に重きを置くあまり、具体性に欠けるものが多くなってしまうという課題があります。一方で、「無知のベール」はアプローチとしては一見有効であるように見えても、実践を考えた時、誰が誰のために、どのように意思決定を行うのかなど具体的なイメージが掴みづらいという課題を抱えています。

読者の皆さんが考える「AIが整合すべき価値観を決めるベストなプロセス」はどのようなものでしょうか？多元性を担保しつつ、意思決定を行うためには何がボトルネックになっているのでしょうか？今後もこのような問いを軸にAIアライメントを取り巻くガバナンスのあり方、意思決定のあり方について考えていきたいです。

AI Alignment Talk from Japanでは毎週ニュースレターをお届けします。ニュースレターを受け取りたい方はこちらからSubscribeよろしくお願いいたします！

Xのフォローはこちらから！

Twitter

Iason Gabriel ”Artificial Intelligence, Values, and Alignment” https://link.springer.com/article/10.1007/s11023-020-09539-2 2020/10/1

Stanford Encyclopedia of Philosophy “Original Position -the veil of ignorance” https://plato.stanford.edu/entries/original-position/#VeilIgno 2008/12/20

Stanford Encyclopedia of Philosophy “Liberalism” https://plato.stanford.edu/entries/liberalism/ 1996/11/28

Britannica “democracy” https://www.britannica.com/topic/democracy 1998/7/10

AI Alignment Talk from Japan