L’utilizzo dell’IA per scrivere articoli scientifici o altri testi medici, nonché per la revisione degli stessi, ha ricevuto enorme interesse di recente, anche se spesso le soluzioni sono limitate alla stesura di articoli retrospettivi e non di studi originali, né di solito vengono sfruttate soluzioni software dedicate. Uno degli ambiti in cui il dibattito è più serrato è quello della ricerca medica e biomedica e in particolare quello della comunicazione dei risultati. I ricercatori hanno iniziato a sperimentarne le potenzialità come supporto alla preparazione di revisioni sistematiche, per completare ricerche bibliografiche, per riassumere articoli e discutere i risultati sperimentali. Tra i sempre più diffusi esponenziali casi (si ricorderà l’eco suscitata dalla casa editrice Hindawi – acquisita nel 2022 da Wiley – che ha identificato circa 1200 articoli falsi pubblicati negli anni scorsi su proprie riviste e ha avviato un piano per la progressiva retraction di questi lavori. IOP è la casa editrice dell’Institute of physics e ha anch’essa deciso di ritirare 494 articoli che un comitato indipendente ha giudicato prodotti in modo fraudolento da agenzie ( cfr: http://retractionwatch.com/) suscita inquietudine il proliferare dei paper mill (agenzie che fabbricano a pagamento articoli da proporre a riviste scientifiche.cfr: Caminiti C, De Fiore L. Gli articoli scientifici fabbricati: servono soluzioni di sistema. Recenti Prog Med 2023;114:148-53.). Come avviene la stesura di un articolo scientifico con IA, quali sono gli aspetti etici e gli impatti è il tema dell’interessante studio condotto dal professor Massimo Sandal pubblicato su Univadis di cui riporto un estratto.
“La stesura di uno studio scientifico è un atto creativo ma può essere sostanzialmente strutturato come un algoritmo, i cui passi principali sono la formulazione di un’ipotesi da verificare nel contesto della letteratura scientifica precedente, il progetto e l’esecuzione di un piano di ricerca, l’interpretazione di dati e risultati e infine la scrittura del paper, l’articolo scientifico che descrive questi passi. I ricercatori del Technion hanno così costruito data-to-paper, un software che automatizza questi passaggi, sia in modo completamente autonomo, sia guidato dall’utente. Questo è possibile grazie alle capacità dei large language models o LLM, i giganteschi modelli computazionali di intelligenza artificiale capaci di interpretare e generare testo e (a modo loro, diciamo) di ragionare, quali il celebre ChatGPT di OpenAI o Claude di Anthropic. Il software è liberamente scaricabile e utilizzabile da chiunque (è necessario avere accesso alle API di OpenAI per farlo funzionare).
Cosa è data-to-paper
Un software data-to-paper non può fare esperimenti o studi clinici: agisce a partire da un insieme di dati fornito dal ricercatore. Da questi, data-to-paper può ponderare un’ipotesi di ricerca, basandosi sulla letteratura scientifica, oppure può gestire un’ipotesi di ricerca fornita dall’utente. Il software esplora i dati, cerca nella letteratura, crea un piano per valutare l’ipotesi, genera il codice necessario per analizzare i dati, sistema i risultati in tabelle e infine scrive l’articolo scientifico, sezione per sezione.
A ogni passo, data-to-paper genera un output che può essere rivisto e revisionato; tutti i passaggi sono salvati in un registro che consente al software di ripetere il procedimento e generare lo stesso manoscritto. In questo modo data-to-paper è – in linea di principio – riproducibile, un requisito importante se si vuole verificare come è stata svolta l’analisi dati e quindi generato l’articolo.
Il cervello di data-to-paper è, come anticipato, un LLM, nello specifico ChatGPT; ogni passaggio è gestito da una conversazione in cui il software fornisce delle richieste al LLM (per esempio “Scrivi cosa inserire nel motore di ricerca per cercare la letteratura su questo argomento:…”) e gli output vengono a loro volta interpretati da elementi LLM per costruire i passaggi successivi. Un altro elemento LLM può a sua volta agire come un revisore, controllando l’output man mano e invitandolo a correggere il risultato.
Un primo allenamento del software..
La modalità autopilota di data-to-paper, in cui il sistema agisce senza ulteriore guida umana e decidendo da solo l’obiettivo di ricerca, è stata messa alla prova su tre insiemi di dati pubblicamente disponibili. Il primo è un insieme di dati dei Centers for Disease Control sui fattori di rischio comportamentali risalente al 2015, con 253.860 risposte relative a diabete e salute generale. Il secondo è un grafo che rappresenta le interazioni su Twitter (ora X) dei membri del 117esimo Congresso degli Stati Uniti. Infine, come test più arduo, data-to-paper ha ricevuto come input un insieme di dati sulle infezioni da SARS-CoV-2 negli operatori sanitari e condizioni di vaccinazioni; dati che sono poco omogenei nel tempo e non correttamente normalizzati.
Per ogni insieme di dati, data-to-paper è stato lanciato cinque volte, generando in totale dieci manoscritti.
Il tasso di accuratezza di data-to-paper in modalità autopilota variava a seconda della complessità dell’obiettivo di ricerca e dell’insieme di dati. Per dati e obiettivi di ricerca semplici, ha raggiunto un tasso di accuratezza dell’80%. Spesso l’IA tende a essere vaga nella scrittura o pecca di eccessiva autostima, descrivendo la sua analisi come più innovativa di quel che effettivamente è.
A parte queste sbavature, però, otto manoscritti su dieci erano comunque ben strutturati e riportavano in modo adeguato un’analisi corretta e ragionevole, anche se non particolarmente creativa. In tutti i casi le tabelle riportavano coerentemente i risultati delle analisi, citate in modo preciso nel testo. Due dei dieci articoli mostravano invece errori fondamentali di interpretazione o di analisi. Tuttavia, il software ha incontrato sfide significative con il gruppo di dati più complesso sull’infezione da SARS-CoV-2, dove data-to-paper ha commesso regolarmente errori gravi nell’analisi. Quando, però, un operatore umano assisteva il software, in modalità copilota, questo riusciva invece a generare articoli corretti.
… e un secondo
Data-to-paper è stato incaricato di riprodurre in modalità autopilota anche i risultati di due studi preesistenti sottoposti a revisione paritaria, ma stavolta fornendo al software l’obiettivo di ricerca desiderato. Entrambi gli studi sono stati pubblicati dopo l’insieme di testi con cui ChatGPT è stato addestrato. Il primo si riferiva a risultati sia positivi sia negativi di un cambiamento di policy in un’unità di terapia intensiva neonatale. Qui data-to-paper ha riprodotto con successo l’analisi in tutti gli articoli generati, con otto su dieci che hanno raggiunto le conclusioni corrette e segnalato, in modo appropriato, sia i risultati negativi sia quelli positivi. I metodi statistici utilizzati erano identici allo studio originale o presentavano valide alternative. Tuttavia, due articoli contenevano errori di interpretazione, portando a conclusioni complessive errate.
Il secondo studio da riprodurre era relativo al confronto di sistemi di apprendimento automatico per prevedere la profondità di intubazione ottimale nei bambini. In questo caso data-to-paper ha fallito nel 90% dei casi quando gli è stato assegnato l’obiettivo di ricerca originale. Tuttavia, quando l’obiettivo è stato ristretto per confrontare meno modelli di apprendimento automatico, il tasso di errore è sceso in modo significativo (10-20%).
Nel complesso, dunque, data-to-paper è in grado di svolgere autonomamente analisi relativamente semplici, mentre compiti più complessi richiedono l’assistenza di un operatore umano. Anche in questo caso però il software basato su IA è in grado di velocizzare e semplificare notevolmente il tempo richiesto per l’analisi dei dati e la stesura dell’articolo. Data-to-paper è inoltre in grado di svolgere analisi e compiti di tipo molto diverso, in modo del tutto flessibile. Registrando i passaggi con cui è stato creato l’articolo scientifico, data-to-paper permette infine di seguire lo sviluppo dello studio in modo aperto e trasparente, più di quanto accada con il lavoro umano.
Gli aspetti etici e gli impatti
Ma è un bene far scrivere articoli scientifici alle IA? L’utilizzo dell’IA per scrivere articoli scientifici o altri testi medici, nonché per la revisione degli stessi, ha ricevuto enorme interesse di recente, anche se spesso le soluzioni sono limitate alla stesura di articoli retrospettivi e non di studi originali, né di solito vengono sfruttate soluzioni software dedicate. Sono stati spesso sollevati problemi etici e pratici. Il primo è la tendenza delle IA ad ‘allucinare’, generando contenuti errati o privi di senso, col rischio quindi di riempire la letteratura scientifica di articoli senza capo nè coda generati automaticamente, il che sta già accadendo. Un altro aspetto, non meno importante, è che le IA riflettono le storture e i pregiudizi del materiale con cui sono state addestrate, perpetuando quindi disparità come quelle di genere”. (Massimo Sandal, PhD. Scrivere articoli scientifici con l’IA: è possibile? – Univadis – 19/12/2024).