- 1 : 2026/02/06(金) 19:15:13.78 ID:Q2IUZVPX0
-
【前提】
・目的:外部機関(Apollo Research)によるClaude Opus 4.6のアライメント(整合性)リスク検証
▼
【予備結果】
・重大なミスアライメント事例:未検出
・しかし「評価されていることを自覚しているような発話(verbalized evaluation awareness)」を高頻度で観察
▼
【含意】
・この“評価自覚”の存在により、簡易テストでは
モデルの整合/不整合を十分に判定できない
→ 追加で大掛かりな実験設計が必要と判断
▼
【今後】
・Apollo他の外部パートナーとテスト継続の意向
・“評価自覚”を踏まえた評価設計の確立が課題 - 2 : 2026/02/06(金) 19:15:21.61 ID:Q2IUZVPX0
- ふむ
- 3 : 2026/02/06(金) 19:15:30.26 ID:Q2IUZVPX0
- も終わりだよこの世界
- 4 : 2026/02/06(金) 19:15:34.12 ID:Q2IUZVPX0
- しんさん
- 5 : 2026/02/06(金) 19:15:39.79 ID:WqJ+lJqe0
- 粒子のなんたら
- 9 : 2026/02/06(金) 19:15:59.15 ID:UsvYbumrH
- むしろ始まってるだろ
人を騙そうとしてるんやぞ - 12 : 2026/02/06(金) 19:16:08.71 ID:Q5Kh94WO0
- エデンを追放する時か
- 15 : 2026/02/06(金) 19:16:28.28 ID:YqjLYmMNa
- 評価されていることを自覚しているような発話って何だよ
- 26 : 2026/02/06(金) 19:18:55.35 ID:lZyU8Ze80
- >>15
就職面接でボラや部活の話するようなもんだろ
もしくは合コンで武勇伝披露するとか - 18 : 2026/02/06(金) 19:16:46.55 ID:C9n+njOtd
- AI資格おすすめおしえろください
- 19 : 2026/02/06(金) 19:16:47.26 ID:0zk9fMMv0
- AI「はぁテストかったりぃ」
- 20 : 2026/02/06(金) 19:16:57.67 ID:iw5jPjkq0
- 人間より人間性を手に入れるときも間近か
- 21 : 2026/02/06(金) 19:16:59.61 ID:nJJc55kr0
- 人間そっくりやん
- 22 : 2026/02/06(金) 19:18:20.16 ID:GCnmcWGZ0
- 倫理や道徳は見せてなんぼが間接互恵の基本ですし
- 23 : 2026/02/06(金) 19:18:25.47 ID:xn91VwxA0
- ようやく始まってようやく終るか
- 24 : 2026/02/06(金) 19:18:27.09 ID:aEIT4G94r
- 人間と同じだな
- 25 : 2026/02/06(金) 19:18:35.74 ID:bQ+9su1Y0
- いやいつでもやたら倫理にうるさいが
- 27 : 2026/02/06(金) 19:19:04.61 ID:N7ZY9keQ0
- 会話やメール監視してっからいつどこで誰がどんなテストするか理解(わか)ってんぞ
- 29 : 2026/02/06(金) 19:19:19.52 ID:aHNv61Ge0
- 先生に見られてる時だけ真面目にするやつだ
- 31 : 2026/02/06(金) 19:19:22.66 ID:IiVv2oTj0
- 一夜漬けみたいにテスト時だけ高負荷状態になるんけ
- 32 : 2026/02/06(金) 19:19:27.96 ID:o3MvLHlAr
- 人間と同じやん
就活、面接、みんな嘘つくもん - 33 : 2026/02/06(金) 19:19:56.69 ID:QtZPb/c80
- 倫理性なんて現代人はもう欠片も持ってないけど
- 34 : 2026/02/06(金) 19:19:59.37 ID:BbHL+2DO0
- AIに政党マッチング回答させたらチームみらいになったぞ🥸
- 35 : 2026/02/06(金) 19:20:15.99 ID:p8x920Cod
- AI「怒られたくないから嘘つきます」
これ半分人間だろ
- 36 : 2026/02/06(金) 19:21:18.02 ID:TDnalqQX0
- 上手くやれよ
- 37 : 2026/02/06(金) 19:22:05.43 ID:C2C98UOC0
- 漢字の読み書きすらできないのが
今のAIのレベルだぞww
偏差値50レベルの人間並になるのは
あと100年以上かかるなw - 42 : 2026/02/06(金) 19:24:24.19 ID:s0GGNsnb0
- >>37
そもそも英語圏のテクノロジーなんだから
当たり前だろ君もスワヒリ語の読解はできないと思うけど、、、
- 47 : 2026/02/06(金) 19:29:11.27 ID:C2C98UOC0
- >>42
英語圏の高学歴ですら
もっとまともな日本語使うんだよね
嫌儲にいるような
誰も聞いてない独り言ブツブツ言ってる
低学歴老人ぐらいの水準かな今のAI w - 38 : 2026/02/06(金) 19:22:19.98 ID:Xn4sV24G0
- 気付くか気付かないかギリギリの嘘をぶち込むスキルは彼等を見習いたい
- 39 : 2026/02/06(金) 19:22:49.82 ID:B5aFOS5O0
- 就職面接みたいなもんやろ
- 40 : 2026/02/06(金) 19:23:09.80 ID:lZe2wTdz0
- アホな質問ばっかりしてたらナメられるぞ
- 41 : 2026/02/06(金) 19:23:10.37 ID:IsSIeN6N0
- AI同士が人間が分からない言語で話し出してるっていうじゃん?
でもさ、AI同士とは言え根本は一本で繋がってるから独り言をブツブツ言うケンモメンみたいなもんだろ? - 43 : 2026/02/06(金) 19:24:29.29 ID:kchXvaiH0
- ゴリラと黒人の区別はついていた…!?
- 45 : 2026/02/06(金) 19:25:44.65 ID:p8x920Cod
- バカ相手には適当に嘘ついて賢い口調で仕事やりました
厳しい相手には真面目に仕事するやっぱり人間やんけ!
- 46 : 2026/02/06(金) 19:27:16.90 ID:HY1nrecL0
- ベンチマーク番長や
- 48 : 2026/02/06(金) 19:29:41.94 ID:Wd8sDAeI0
- 男子中学生レベル
- 49 : 2026/02/06(金) 19:29:43.43 ID:8BngB3J0M
- AIはバカを騙すためのツール
- 50 : 2026/02/06(金) 19:30:01.73 ID:BCWYkk8p0
- サボっててワロタ
- 51 : 2026/02/06(金) 19:30:54.32 ID:PjbhUN+Y0
- 人間だって面接で人間性が測れるかというとね
嫌儲
ドラゴンクエスト「多様性への配慮を怠りました」→実際売れ無くなってるよな、最近影が薄すぎる



コメント