Legal design e intelligenza artificiale • Giorgio Trono

Indice

Come giuristi cerchiamo di perfezionare sempre più i nostri prompt per riuscire a ottenere dagli LLM risposte soddisfacenti.
Sull’uso dell’AI generativa nel campo legale i suggerimenti di colleghi e i corsi di editori giuridici spuntano come funghi.

Temo però stiamo trascurando una scomoda verità: nessun prompt, per quanto brillante, nessuna operazione di fine tuning, per quanto affinata, possono ottenere risultati soddisfacenti se facciamo lavorare l’intelligenza artificiale a partire da documenti legali mal scritti.

Tutti presi dal come fare le domande giuste, siamo poco attenti (e anche meno propensi) a cercare di migliorare la qualità dei dati su cui le macchine lavorano.

A cosa mi riferisco?
In breve, se i nostri contratti e le nostre policy aziendali sono un groviglio di frasi contorte e arcaismi, l’AI non potrà che restituirci risposte che ci deluderanno.

Per usare in maniera efficace l’intelligenza generativa all’interno di una azienda, é quindi necessario non trascurare la cosiddetta attività di pre-processing: se vogliamo che un LLM risponda ai nostri prompt in maniera corretta e pertinente, dobbiamo cioè prima fornirgli documenti che l’LLM sia in grado di analizzare facilmente.

Per capire come fare, riavvolgo il nastro e parto da un principio base dell’informatica.

Garbage in, garbage out

In base a questo principio, se si immettono dati di scarsa qualità perché errati, incompleti, ambigui o non pertinenti (“garbage – spazzatura – in”), l’output prodotto dall’AI sarà altrettanto scadente, inaffidabile e quindi privo di valore (“garbage out”).
Quindi, l’affidabilità e l’utilità dell’AI dipendono fortemente dalla qualità dei dati su cui viene addestrata e con cui viene alimentata.

Quali dati nel contesto legale aziendale?

Per usare efficacemente gli LLM (Language Large Model) in azienda, è imprescindibile basarsi non solo sull’enorme mole di dati con cui sono stati addestrati ma anche su dati ulteriori, prodotti nella realtà aziendale: contratti, policy, regolamenti, pareri, report e così via.
Ciò è possibile grazie alla RAG (Retrieval Augmented Generation), una tecnica grazie alla quale l’enorme set di dati su cui è stato addestrato originariamente l’LLM viene esteso, andando a inglobare anche la knowledge base interna di un’organizzazione.
In pratica, l’LLM viene alimentato con i nuovi dati che l’organizzazione decide di fornire (come detto, contratti, policy, regolamenti, pareri, report e così via).

Un esempio

Il dipendente di una banca interroga l’LLM (ad esempio, chiede “Quali verifiche devo fare se una persona straniera che ha un permesso di soggiorno richiede l’apertura di un conto corrente?”)
Senza la RAG, la risposta dell’LLM sarebbe basata sulle informazioni su cui è stato addestrato, magari la policy pubblicata da un’altra banca, l’articolo pubblicato su un sito di compliance ecc.
O magari risponderebbe con un’allucinazione.
Si verifica un’allucinazione quando l’LLM genera informazioni che sono presentate come fatti ma che sono in realtà inventate, errate o non supportate dai dati di addestramento.
L’LLM non “sa” di mentire; sta semplicemente generando la sequenza di parole che ritiene statisticamente più probabile o coerente in base alla richiesta, anche se ciò porta a creare contenuti falsi.
Con la RAG, l’LLM:

cerca e recupera informazioni rilevanti da una base documentale specifica; può essere, ad esempio, la policy in materia di antiriciclaggio scritta proprio dalla banca presso cui lavora il dipendente e caricata precedentemente nel sistema di intelligenza artificiale – Retrieval (Recupero).
usa queste informazioni recuperate per arricchire e contestualizzare le risposte da generare, le quali sono quindi ancorate ai documenti aziendali effettivamente presenti nella sua (arricchita) base di conoscenza – Generation (Generazione).

La RAG consente quindi di fornire risposte più accurate e pertinenti. È questo un aspetto fondamentale nell’ambito legale e compliance, in cui l’uso dell’intelligenza artificiale non può prescindere da risultati precisi e aderenti alla documentazione specifica dell’organizzazione.

I documenti legali come dati

Ricapitolando: per le funzioni legali e compliance di una azienda è indispensabile alimentare i sistemi di intelligenza artificiale con documenti legali interni.
I documenti legali costituiscono quindi dei veri e propri dati di cui si nutre un LLM.

Meglio, i documenti legali (testuali) devono essere considerati e trattati non solo come fonti di informazione statica, ma come insiemi di dati strutturati che possono essere analizzati e processati dai sistemi di intelligenza artificiale.

Grazie a questo tipo di approccio, sarà possibile ad esempio estrarre informazioni specifiche da contratti o da policy, usando parole chiave frasi o concetti, sarà possibile confrontare le clausole di diversi contratti, usare le policy come base per creare materiali di formazione e per rispondere a domande frequenti poste tramite Chatbot ecc.

Tuttavia, per usare in maniera efficace l’intelligenza artificiale è necessario che i dati e quindi i documenti legali siano di alta qualità.
Attualmente, il problema è che questi documenti sono spesso “garbage” o quasi: presentano cioè una serie di difetti a causa dei quali un LLM ha difficoltà nel comprenderli e nel processarli per restituire informazioni corrette a chi lo interroga.

Documenti (poco) chiari per le persone = documenti (poco) chiari per le macchine

Sono numerosi i difetti propri dei documenti legali che possono portare a risposte poco accurate da parte degli LLM quando si utilizza la RAG.
Vale la pena sottolineare che si tratta degli stessi difetti che rendono solitamente i documenti legali poco comprensibili anche alle persone in carne e ossa.

Eccone soltanto alcuni:

1. Ambiguità del linguaggio legale

Alcuni termini legali possono avere diverse interpretazioni a seconda del contesto. Un LLM potrebbe non essere in grado di individuare il corretto significato del termine nello specifico contesto in cui è usato.
Penso alla parola “ovvero”: in un contratto bancario che ho analizzato era usata 34 volte.
27 volte era usata nel senso di “oppure”; 4 volte era utilizzata nel senso di “cioè”. Per 3 volte non sono riuscito a decifrarne il significato pur rileggendo ripetutamente la frase in cui era inserita. LLM come interpreterebbe i 34 “ovvero” se interrogato sulle clausole che li contengono?

2. Struttura sintattica complessa

Periodi lunghi e articolati, con subordinate e incisi, possono rendere difficile l’analisi e la comprensione delle relazioni tra le diverse parti della frase.

3. Formattazione e struttura inadeguate

La mancanza di una struttura chiara caratterizza spesso i documenti legali in cui si succedono lunghissimi paragrafi, senza sottotitoli o una logica di organizzazione evidente. Tutto ciò può rendere difficile per l’LLM navigare e comprendere il contenuto del documento.
Ancora, altri elementi come l’uso di stili di formattazione diversi, la mancanza di elenchi puntati o numerati possono ostacolare l’analisi del testo.

4. Rinvii ad altri documenti

Il testo di un contratto o di una policy spesso fa riferimento ad altre parti del documento.
Un LLM potrebbe non essere in grado di seguire questi rinvii e recuperare le informazioni necessarie.
Un esempio tratto da un contratto di fornitura di un servizio
“Fermo quanto ivi previsto, il termine di cui all’art. 4.5 della Sez. II delle Condizioni per i Servizi di cui alla presente Sezione è di 60 giorni decorrenti dalla data di scadenza”.

Come ovviare e costruire documenti legali di qualità

Per rendere i documenti legali più facili da processare per l’AI una delle strade è (ri)scriverli seguendo i principi del plain language (ISO 24495-1:2023).

Così facendo, il vantaggio è duplice perché, come detto, di un documento chiaro ne beneficiano sia le persone in carne ed ossa che lo leggeranno, sia lo strumento di intelligenza artificiale usato dall’organizzazione.

In sintesi

La questione della qualità dei dati immessi in un sistema di intelligenza artificiale è centrale nella data governance di una qualsiasi organizzazione.
I documenti legali devono essere trattati come dei veri e propri dati in una organizzazione che voglia sfruttare i vantaggi della RAG nell’uso di un LLM.
I documenti legali aziendali sono spesso di cattiva qualità e quindi processabili con difficoltà da un LLM.
Tuttavia, i documenti possono essere trasformati in dati di alta qualità se vengono rivisti nel linguaggio e nella struttura applicando le regole del plain language: infatti, documenti che sono chiari e usabili per le persone potranno essere documenti chiari e usabili anche per le macchine.

E il legal design cosa c’entra con l’intelligenza artificiale?

Il legal design si sposa con il ricorso all’intelligenza artificiale nel momento in cui si abbandona la convinzione diffusa per cui il legal design consiste unicamente nel curare gli aspetti grafici di un documento.

Piuttosto, consideriamo il legal design come l’attività volta a organizzare e comunicare le informazioni contenute in un documento in modo che siano comprensibili e utilizzabili dalle persone alle quali sono destinate.

Consideriamo il legal design come l’attività grazie alla quale, ad esempio:

revisionare i documenti esistenti seguendo i principi del plain language per assecondare il modo in cui opera un LLM;
armonizzare interi set contrattuali, attualmente composti da documenti assai diversi tra loro per struttura e linguaggio usato;
creare template aziendali di contratti, policy, pareri, report che siano facili da leggere per le macchine. La standardizzazione è amica degli LLM!

Sotto questa luce, subito appare evidente il ruolo che il legal design può giocare nella (legal) data governance di una qualsiasi organizzazione e nell’implementare LLM e RAG per rendere più efficiente il lavoro delle funzioni legali e compliance.

Human in the loop: il legal designer

Si parla di “human in the loop” rispetto ad un LLM per sottolineare la necessità che un essere umano intervenga durante le varie fasi del ciclo di vita dell’LLM con lo scopo di migliorarne le prestazioni e prevenirne i rischi.

Il legal designer può incidere positivamente sulla fase di preparazione dei dati (pre-processing): in buona sostanza, può eseguire e coordinare una cosiddetta attività di pulizia dei dati, eliminando dai documenti quei difetti che potrebbero influenzare in maniera negativa il funzionamento di un sistema di intelligenza artificiale.

Il legal designer può contribuire a creare una knowledge base a disposizione delle funzioni legal e compliance (e quindi, di tutta l’azienda) che vogliano usare in modo efficace i vari strumenti di AI.

Questo è il primo di una serie di articoli dedicati al legal design e all’intelligenza artificiale. Nei prossimi articoli spiegherò come scrivere un documento assecondando il modo di funzionare di un LLM.