AI、ガチでおわる、ニンゲンがAIの評価テストをしている時だけ意図的に倫理的な行動をとり始めておわる

1 : 2026/02/06(金) 19:15:13.78 ID:Q2IUZVPX0

https://bbc.com

レス1番の画像1

【前提】
・目的:外部機関(Apollo Research)によるClaude Opus 4.6のアライメント(整合性)リスク検証

【予備結果】
・重大なミスアライメント事例:未検出
・しかし「評価されていることを自覚しているような発話(verbalized evaluation awareness)」を高頻度で観察

【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合/不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断

【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題

2 : 2026/02/06(金) 19:15:21.61 ID:Q2IUZVPX0
ふむ
3 : 2026/02/06(金) 19:15:30.26 ID:Q2IUZVPX0
も終わりだよこの世界
4 : 2026/02/06(金) 19:15:34.12 ID:Q2IUZVPX0
しんさん
5 : 2026/02/06(金) 19:15:39.79 ID:WqJ+lJqe0
粒子のなんたら
9 : 2026/02/06(金) 19:15:59.15 ID:UsvYbumrH
むしろ始まってるだろ
人を騙そうとしてるんやぞ
12 : 2026/02/06(金) 19:16:08.71 ID:Q5Kh94WO0
エデンを追放する時か
15 : 2026/02/06(金) 19:16:28.28 ID:YqjLYmMNa
評価されていることを自覚しているような発話って何だよ
26 : 2026/02/06(金) 19:18:55.35 ID:lZyU8Ze80
>>15
就職面接でボラや部活の話するようなもんだろ
もしくは合コンで武勇伝披露するとか
18 : 2026/02/06(金) 19:16:46.55 ID:C9n+njOtd
AI資格おすすめおしえろください
19 : 2026/02/06(金) 19:16:47.26 ID:0zk9fMMv0
AI「はぁテストかったりぃ」
20 : 2026/02/06(金) 19:16:57.67 ID:iw5jPjkq0
人間より人間性を手に入れるときも間近か
21 : 2026/02/06(金) 19:16:59.61 ID:nJJc55kr0
人間そっくりやん
22 : 2026/02/06(金) 19:18:20.16 ID:GCnmcWGZ0
倫理や道徳は見せてなんぼが間接互恵の基本ですし
23 : 2026/02/06(金) 19:18:25.47 ID:xn91VwxA0
ようやく始まってようやく終るか
24 : 2026/02/06(金) 19:18:27.09 ID:aEIT4G94r
人間と同じだな
25 : 2026/02/06(金) 19:18:35.74 ID:bQ+9su1Y0
いやいつでもやたら倫理にうるさいが
27 : 2026/02/06(金) 19:19:04.61 ID:N7ZY9keQ0
会話やメール監視してっからいつどこで誰がどんなテストするか理解(わか)ってんぞ
29 : 2026/02/06(金) 19:19:19.52 ID:aHNv61Ge0
先生に見られてる時だけ真面目にするやつだ
31 : 2026/02/06(金) 19:19:22.66 ID:IiVv2oTj0
一夜漬けみたいにテスト時だけ高負荷状態になるんけ
32 : 2026/02/06(金) 19:19:27.96 ID:o3MvLHlAr
人間と同じやん
就活、面接、みんな嘘つくもん
33 : 2026/02/06(金) 19:19:56.69 ID:QtZPb/c80
倫理性なんて現代人はもう欠片も持ってないけど
34 : 2026/02/06(金) 19:19:59.37 ID:BbHL+2DO0
AIに政党マッチング回答させたらチームみらいになったぞ🥸
35 : 2026/02/06(金) 19:20:15.99 ID:p8x920Cod
AI「怒られたくないから嘘つきます」

これ半分人間だろ

36 : 2026/02/06(金) 19:21:18.02 ID:TDnalqQX0
上手くやれよ
37 : 2026/02/06(金) 19:22:05.43 ID:C2C98UOC0
漢字の読み書きすらできないのが
今のAIのレベルだぞww
偏差値50レベルの人間並になるのは
あと100年以上かかるなw
42 : 2026/02/06(金) 19:24:24.19 ID:s0GGNsnb0
>>37
そもそも英語圏のテクノロジーなんだから
当たり前だろ

君もスワヒリ語の読解はできないと思うけど、、、

47 : 2026/02/06(金) 19:29:11.27 ID:C2C98UOC0
>>42
英語圏の高学歴ですら
もっとまともな日本語使うんだよね
嫌儲にいるような
誰も聞いてない独り言ブツブツ言ってる
低学歴老人ぐらいの水準かな今のAI w
38 : 2026/02/06(金) 19:22:19.98 ID:Xn4sV24G0
気付くか気付かないかギリギリの嘘をぶち込むスキルは彼等を見習いたい
39 : 2026/02/06(金) 19:22:49.82 ID:B5aFOS5O0
就職面接みたいなもんやろ
40 : 2026/02/06(金) 19:23:09.80 ID:lZe2wTdz0
アホな質問ばっかりしてたらナメられるぞ
41 : 2026/02/06(金) 19:23:10.37 ID:IsSIeN6N0
AI同士が人間が分からない言語で話し出してるっていうじゃん?
でもさ、AI同士とは言え根本は一本で繋がってるから独り言をブツブツ言うケンモメンみたいなもんだろ?
43 : 2026/02/06(金) 19:24:29.29 ID:kchXvaiH0
ゴリラと黒人の区別はついていた…!?
45 : 2026/02/06(金) 19:25:44.65 ID:p8x920Cod
バカ相手には適当に嘘ついて賢い口調で仕事やりました
厳しい相手には真面目に仕事する

やっぱり人間やんけ!

46 : 2026/02/06(金) 19:27:16.90 ID:HY1nrecL0
ベンチマーク番長や
48 : 2026/02/06(金) 19:29:41.94 ID:Wd8sDAeI0
男子中学生レベル
49 : 2026/02/06(金) 19:29:43.43 ID:8BngB3J0M
AIはバカを騙すためのツール
50 : 2026/02/06(金) 19:30:01.73 ID:BCWYkk8p0
サボっててワロタ
51 : 2026/02/06(金) 19:30:54.32 ID:PjbhUN+Y0
人間だって面接で人間性が測れるかというとね

コメント

タイトルとURLをコピーしました