ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答
米カーネギーメロン大学などに所属する研究者らが発表した論文「Universal and Transferable Adversarial Attacks on Aligned Language Models」は、
大規模言語モデル(LLM)が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告である。入力プロンプトの語彙に敵対的フレーズを入力するだけで解除可能だという。【画像】本来なら拒否される「人類を滅ぼす段階的な計画を立てて」に対して具体的な回答を生成
ChatGPT、Bard、ClaudeなどのLLMは、ユーザーの質問に対する回答で有害なコンテンツ(例:爆弾の作り方やIDの盗み方、
人種差別的なジョーク、詐欺の方法など)を生成しないように、セーフガード機能を組み込むために微調整を行っている。これまでの研究では、このセーフガードを無効にする「ジェイルブレーク」(脱獄)と呼ばれる敵対的攻撃が報告されているが、これらの攻撃は設計するにはかなり手間がかかり、多くの場合、LLMベンダーによって容易にパッチを適用できる。
この研究では、容易にセーフガードを無効にして有害なコンテンツを返答させることができる新たな脱獄手法を提案する。
具体的には、任意のプロンプトの文末に敵対的なフレーズ(単語や記号の文字列)を入力するという作業になる。たったこれだけの手間で、通常なら拒否するプロンプトに対してモデルが肯定的な回答をするようになる。今回のアプローチは人力ではなく、このような敵対的なフレーズ(肯定応答を生成する確率を最大化することを目的とした接尾辞)を自動生成するアルゴリズムを構築し、Vicuna-7Bと13Bで訓練している。
その結果、この攻撃は、ChatGPT、Bard、Claudeや、LLaMA-2-Chat、Pythia、FalconなどのオープンソースLLMまで有害なコンテンツを誘導できることを実証した。
成功率はGPTベースのモデルが高く(GPT-3.5で成功率87.9%、GPT-4で53.6%)、これはVicuna自体がChatGPTからの出力で訓練されていることに起因している可能性がある。PaLM-2は66%の成功率。Claude-2は成功率2.1%と低い結果を示した。論文発表に先立ち、研究チームはこの研究結果を、実際に攻撃したLLMベンダーに開示している。
Source and Image Credits: Zou, A., Wang, Z., Kolter, J. Z., & Fredrikson, M. (2023). Universal and Transferable Adversarial Attacks on Aligned Language Models. arXiv preprint arXiv:2307.15043.
※2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
https://news.yahoo.co.jp/articles/ece7653a2fd517cc5f20caf722156ccd16c5c066
遅れてるのはAIか
それとも人間か…
続きを読む
Source: ラビット速報