I rischi per la protezione dei dati nei sistemi AI e le misure di compliance

Nell’ambito dei sistemi di AI assumono un ruolo rilevante i rischi connessi al trattamento dei dati personali. Nulla di nuovo. Ma quali sono? cerchiamo di esplorarne due tra i più significativi e le conseguenti misure da mettere in atto per mitigarli.

Di certo, l’applicazione dell’Artificial Intelligenze Act, unitamente ai requisiti e controlli della norma ISO/IEC 42001:2023 “Sistema di gestione dell’intelligenza artificiale” e al GDPR forniscono robuste misure per mitigare tali rischi, si tratta “solo” di metterle a fuoco ed applicarle in modo efficiente.

I due rischi trattati in questo articolo sono il “Purpose creep” e il “Data drift".

Il rischio "Purpose creep" — Riutilizzo non autorizzato dei dati - Il purpose creep (letteralmente, "scorrimento della finalità/dello scopo") è forse il rischio più diffuso ed al contempo uno dei meno percepiti. Si verifica quando dati raccolti per una finalità determinata vengono successivamente utilizzati per addestrare o alimentare sistemi AI con obiettivi diversi, senza che esista una base giuridica adeguata per tale riuso.

Si pensi a un ente che offre servizi di credito al consumo raccoglie dati di navigazione sul proprio sito per finalità di analisi statistica aggregata (base giuridica: legittimo interesse). Successivamente, il team di sviluppo utilizza questi stessi dati per addestrare un modello AI di scoring creditizio dei potenziali clienti. Il trattamento originario non contemplava questa finalità; si configura una violazione dell’art. 5 1b del GDPR (limitazione della finalità).

In tali contesti, le misure da adottare per mitigare i rischi saranno le seguenti:

– prima di ogni attività di addestramento di un modello, deve essere condotta un’analisi formale di compatibilità della nuova finalità rispetto a quella originaria (art. 6.4 GDPR);
– deve essere riportato nel Registro dei trattamenti anche il trattamento relativo all’addestramento dei sistemi di AI, non solo quello di raccolta dei dati;
– la ISO/IEC 42001:2023, requisito 8.4 “Valutazione dell’impatto dei sistemi di AI” richiede esplicitamente di valutare la liceità del trattamento dei dati di training; tra i controlli da considerare dello standard si vedano A.7.2 “Dati per lo sviluppo e il potenziamento dei sistemi di AI” e A.7.4 “Qualità dei dati dei sistemi di AI”

Il rischio Data drift e degradazione della qualità decisionale dei dati - Si concretizza quando il modello prende decisioni su dati non aggiornati aumentando ed amplificando gli errori.

I modelli AI vengono addestrati su dati che rappresentano una fotografia di un contesto in un determinato momento. Nel tempo, il contesto cambia — i comportamenti degli utenti evolvono, le distribuzioni demografiche si spostano, le sensibilità sia individuali che collettive mutano — e il modello inizia a operare su dati sempre più distanti dal training set iniziale.

Questo fenomeno, noto come "data drift" (deriva), provoca una degradazione delle prestazioni che può avere impatti rilevanti sulla protezione dei dati, soprattutto quando il modello è impiegato per decisioni automatizzate.

(Nella foto: l'Ing. Monica Perego, docente del Corso di alta formazione per Data Manager)

Per fare un esempio, si pensi a un modello o di credit scoring addestrato qualche anno fa che continua a operare senza aggiornamenti anche ad alcuni anni di distanza. Le condizioni economiche sono cambiate significativamente: il modello produce errori sistematici, ad esempio in specifici segmenti demografici, portando a decisioni di diniego del credito ingiustificate. I soggetti colpiti (interessati) non dispongono di informazioni adeguate sull’impatto di tale fenomeno sulle loro pratiche.

In tale contesto, sarà necessario adottare le seguenti misure:

– definire metriche di monitoraggio del drift (es. Population Stability Index (PSI), KL divergence - Kullback–Leibler) e soglie operative che attivano automaticamente una revisione del modello;
– documentare le versioni del modello in produzione e notificare agli interessati (ove applicabile) i cambiamenti significativi nel funzionamento del sistema;
– includere nel ciclo di vita del sistema AI (richiesto dalla ISO/IEC 42001:2023, requisito 8 “Attività operative” e controlli tra cui A.5.4 “Valutazione di impatto del sistema di AI su individui e gruppi di individui”, A.7.2 “Dati per lo sviluppo e il potenziamento dei sistemi di AI”) procedure formali di riaddestramento e ri-validazione periodica;

In entrambi gli esempi proposti sono inoltre da applicare le misure previste dall’AI ACT per i sistemi AI ad alto rischio come definite dalla sezione 2 del Regolamento. Tali misure sono da applicare lungo tutto il cito di vita del sistema come richiede l’art. 9.2 quando cita “…Il sistema di gestione dei rischi è inteso come un processo iterativo continuo pianificato ed eseguito nel corso dell'intero ciclo di vita di un sistema di IA ad alto rischio, che richiede un riesame e un aggiornamento costanti e sistematici…”

Conclusioni - I due rischi descritti non sono ovviamente i soli implicati dall’uso di dati personali nel contesto dell’AI; rappresentano solo la punta di diamante di un insieme di minacce parte delle quali non note o non completamente note. Un sistema complesso tramite un impianto di compliance robusto di cui come europei disponiamo può fungere da anticorpi. Per taluni le misure poste da questo impianto di possono essere percepite come eccessive ed estremante costose. È sufficiente leggere il saggio di Dario Amodei fondatore e CEO di Anthropic tal titolo “The Adolescence of Technology”, a cui la stampa ha dato il giusto risalto, per cambiare subito idea.

Note sull'Autore

Monica Perego

Membro del Comitato Scientifico di Federprivacy, docente qualificato TÜV Italia e docente del Master per Esperto Privacy e del Corso di alta formazione per Data Manager - Twitter: monica_perego