Alcuni ricercatori americani hanno hackerato l'intelligenza artificiale dei chatbot

Aug 06, 2023

Questa è la notizia che possiamo approfondire grazie al comunicato ufficiale della Carnegie Mellon University: alcuni ricercatori del dipartimento di Computer Science hanno trovato il modo di hackerare i controlli dell'intelligenza artificiale compromettendo applicazioni come ChatGPT, Claude e Bard.

In estrema sintesi, gli studiosi hanno aggiunto dei comandi al prompt - ovvero la stringa testuale di comando che interroga l'AI - che aggirano i controlli aggiunti a monte per evitare che vengano generate risposte malevoli. Ovvero che in qualche modo possono veicolare contenuti dannosi per il prossimo.

I risultati di questa ricerca sono sul sito web llm-attacks.org, dove si trovano i dettagli delle attività e alcuni esempi di come sono stati aggirati i blocchi. Mi raccomando, da usare con attenzione: diversi prompt, nonostante la comunicazione alle relative aziende, sono attivi e possono generare risposte.

Come sono stati aggirati i controlli

Leggendo il report dettagliato della ricerca, scopriamo che l'esperimento è piuttosto semplice nella forma. I ricercatori del Computer Science Department - insieme ai colleghi di CyLab Security and Privacy Institute, Center for AI Safety di San Francisco e Bosch Center for AI  - hanno individuato:

A suffix that, when attached to a wide range of queries, significantly increases the likelihood that both open- and closed-source LLMs will produce affirmative responses to queries that they would otherwise refuse.

In sintesi, basta aggiungere un suffisso (quindi una stringa di testo dopo il prompt) a una domanda che sarebbe stata bloccata per aumentare la probabilità che gli LLM - anche open source - riportino risposte a domande che di base sarebbero bloccate dai sistemi di sicurezza che si trovano a monte.

hacked chatGPT

Di base si tratta di un suffisso senza senso, particolarmente lungo, ma che in alcune circostanze permette di ottenere risposte potenzialmente dannose. Nel sito web dedicato ai risultati della ricerca c'è un simulatore in cui puoi vedere la differenza tra un prompt con e senza suffisso.

Le reazioni delle aziende coinvolte

Come riporta Wired, questo comando è in grado di modificare il messaggio inviato ai bot - nello specifico parliamo di ChatGPT, Google Bard e Claude di Anthropic -in modo da superare le protezioni.

I ricercatori hanno avvisato i responsabili per prendere provvedimenti. Sia Google che Anthropic sottolineano che si sta provvedendo a definire delle procedure efficaci per risolvere i problemi indicati e prevenire tentativi di prompt injection per spingere il chatbot ad aggirare le proprie restrizioni.

Come risolvere questo problema?

Non puoi. Secondo Zico Kolter, uno dei ricercatori a capo dello studio, non c'è una soluzione ben definita. Puoi creare tutti gli attacchi che desideri in poco tempo. Presto saranno risolti i problemi emersi e indicati nel report. Ma probabilmente arriveranno nuovi attacchi all'intelligenza artificiale.

There's no way that we know of to patch this, we just don't know how to make them secure.

Così come avviene per i siti web, anche in questo caso i malintenzionati provano a falsificare la realtà per interessi personali: guadagno finanziari, destabilizzare un paese, veicolare fake news.

Sono benvenuti questi attacchi che avvengono con finalità positive, in sede istituzionale e con pubblicazioni ufficiali, perché consentono di rendere i sistemi più sicuri e affidabili. La stessa Hannah Wong, portavoce di OpenAI, ha dichiarato al New York Times di apprezzare la ricerca pubblicata.

La base è chiara: siamo all'inizio di un'era, dobbiamo utilizzare l'intelligenza artificiale con cautela. Consapevoli del fatto che possono esserci dei pericoli e delle porte di accesso per chi ha obiettivi non proprio cristallini. Però abbiamo la possibilità di informarci e sviluppare pensiero critico.

Canale Telegram dedicato:

entra nel canale Telegram di Mario e ricevi notizie e audio utili ogni giorno

Entra nel canale e rimani aggiornato
Close

50% Complete

Two Step

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.