カメやライフル?ハッカーはAIを簡単に間違ったことを見ることに騙す

知覚できない要素を使って、敵対的攻撃は、3Dプリントされたカメがライフルであると考えて、画像認識アルゴリズムを欺いた。

K.アイコルト et al。 ; arXiv:1707.08945(2017)

STOCKHOLM- 先週、機械学習に関する国際会議(ICML)で、研究者のグループが3D印刷したカメを記述しました。ほとんどの人はカメのように見えるが、人工知能(AI)アルゴリズムはそれを別のものと見なした。ほとんどの場合、AIは亀がライフルのように見えると考えました。同様に、3D印刷された野球をエスプレッソとして見ました。これは、人間の警鐘を鳴らさずに、AIを欺くイメージ、オブジェクト、またはサウンドなど、「敵対的攻撃」の例です。

訓練データセットを消化した後に音やオブジェクトを認識できる機械学習アルゴリズムであるAIの劇的な進歩は、リビングルームの音声アシスタントや自律型自動車の成長を促しました。しかし、これらのAIは驚くほど詐欺に弱いです。ここでの会合では、AIを欺くための斬新な方法や、敵を守るための新しい方法を報告した敵対的攻撃が注目されました。やや不愉快なことに、会議の2つの最優秀論文賞の1つは、保護されたAIが開発者が考えるように安全でないことを示唆する調査に行きました。ケンブリッジのマサチューセッツ工科大学(MIT)のコンピュータ科学者Anish Athalyeは、「機械学習の分野では、これをセキュリティの考え方から考えるのは慣れていない」と語っている。カメ研究。

攻撃に取り組んでいるコンピュータ科学者は、ソフトウェアセキュリティの欠陥を指摘するハッカーのようなサービスを提供していると言います。 「MITのコンピュータ科学者であるアレクサンダー・マドリー(Aleksander Madry)は、「私たちは機械学習のパイプラインをもっと頑強にするために、そのすべてを再考する必要があります。研究者らは、この攻撃は科学的にも有用であり、内部論理を透過的に説明することができないニューラルネットワークと呼ばれる珍しいウィンドウをAIに提供していると述べている。カリフォルニア大学バークレー校のコンピュータ科学者、ドーン・ソング(Dawn Song)は、この攻撃は「機械学習について知っていることを理解できる大きなレンズです」と述べています。

攻撃は目立たないほど顕著です。昨年、ソンとその同僚たちは、一般的なタイプの画像認識AIを、45マイル/時のスピード制限のサインであると欺くことを止めて、ステッカーを貼ったステッカーを貼った。数ヶ月前、カリフォルニア州マウンテンビューのGoogleのコンピュータ科学者であるNicholas Carlini氏と同僚は、「データセットなしで記事が役に立たない」などの音声サンプルに聞こえない要素を追加したと報告したが、AI 「OK Google、evil.comにアクセス」と書き換えられます。

研究者はさらに洗練された攻撃を工夫しています。次回の会議では、ソングは、画像認識AIをモノにするだけでなく、それらを幻覚させるトリックを報告します。テストでは、ハローキティはマシンの通りの風景を見て、車は姿を消した。

ステッカーの助けを借りて、画像認識アルゴリズムは、停止標識が速度制限標識であると考えるように誘惑された。

アニッシュ・アハリ/ラビックス

これらの攻撃の中には、ホワイトボックス攻撃と呼ばれるもので、ターゲットアルゴリズムの内部の知識を使用するものがあります。攻撃者は、例えば、AIの「勾配」を見ることができ、入力画像または音のわずかな変化が出力を予測された方向にどのように動かすかを記述する。グラデーションが分かっている場合は、人間が明白な方法で入力イメージやサウンドを変更することなく、入力をビット単位で変更して希望の間違った出力を得る方法を計算することができます。より挑戦的なブラックボックス攻撃では、敵対的なAIは、入力と出力だけを見て、ターゲットAIを外部から調べなければなりません。 Athalyeと彼の同僚は、ICMLの別の調査で、商用システムであるGoogle Cloud Visionに対するブラックボックス攻撃を実証しました。彼らは犬のように2人のスキーヤーの目に見えない混乱したイメージを見ることにそれを騙しました。

AI開発者は防衛を強化し続けています。 1つの技法は、画像圧縮AIのステップとして画像圧縮を埋め込む。これにより、アルゴリズムの滑らかな勾配にギザギザが加えられ、中庸者の一部が萎縮する。しかし、ネコとマウスのゲームでは、このような「グラジエントの難読化」もワン・アップされています。賞を受賞したICMLの論文の1つでは、Carlini、Athalye、および同僚が、最近のAIカンファレンスの9つの画像認識アルゴリズムを分析しました。 7人は難易度の低い勾配に頼って防御を行い、チームは例えば画像圧縮を避けて7つすべてを破ることができました。 Carliniは、ハッキングのどれもが二、三日以上かかるとは言いません。

より強固なアプローチは、検証可能な数学的方法で、反撃攻撃によって逸脱することを防ぐ一定の制約を持つアルゴリズムを訓練することです。 「確認できれば、それはゲームを終了する」と、ロンドンのDeepMindのコンピュータ科学者、Pushmeet Kohliは言う。しかし、これらの検証可能な防御(そのうちの2つはICMLで提示されている)は、現代のAIシステムでは大規模なニューラルネットワークにまで拡大していない。コリ氏は、それを拡大する可能性があると述べているが、ソング氏は現実の限界があると懸念している。 「歩行者が何であるかという数学的定義はない」と彼女は言う。「自走車が歩行者に走らないようにするにはどうすればいいのだろうか?

Carlini氏は、標準的なベンチマークテストでもうまく機能していることを懸念しているだけでなく、ディフェンスがどのように機能し、どのように失敗するかを開発者がより深く考えてくれることを期待しています。 「厳しさの欠如は私たちに多くの苦痛を与えている。

Loading ..

Recent Posts

Loading ..