Giornale Online Direttore Paolo Centofanti

Innovazione e ricerca

Salute: come l’Intelligenza Artificiale può rispondere a domande mediche

Intelligenza Artificiale: come può rispondere corettamente a domande sulla salute.

Un team di ricercatori di Google Research e DeepMind ha sviluppato un modo per misurare quanto bene i modelli di intelligenza artificiale – IA, conosciuti come grandi modelli linguistici – LLM, possono rispondere a domande mediche. Hanno creato un modello specializzato per l’ambito medico, e lo hanno confrontato con altri modelli simili.

Hanno scoperto che il modello Flan-PaLM, si è comportato molto bene in alcuni test, superando altri modelli dell’IA di oltre il 17%. Tuttavia, hanno notato che ci sono ancora delle lacune nelle risposte a domande mediche poste da non esperti.

Per migliorare questo, hanno utilizzato un metodo chiamato “instruction prompt tuning” per adattare meglio il modello  all’ambito medico. Il modello risultante, Med-PaLM, ha mostrato risultati molto promettenti, con la maggior parte delle sue risposte considerate accurate e sicure dai medici.

Tuttavia, gli autori sottolineano che, nonostante questi risultati promettenti, è necessario continuare a testare e valutare queste tecniche prima di poterle utilizzare in modo sicuro e efficace in contesti clinici reali.

L’articolo Nature

Un articolo pubblicato su Nature presenta un benchmark per valutare quanto bene i grandi modelli linguistici (LLMs) possono rispondere a domande mediche. Lo studio, proveniente da Google Research e DeepMind, introduce anche Med-PaLM, un LLM specializzato per il dominio medico. Tuttavia, gli autori sottolineano che devono essere superate molte limitazioni prima che gli LLM possano diventare utilizzabili per applicazioni cliniche.
I modelli di intelligenza artificiale (IA) potrebbero avere applicazioni potenziali in medicina, come il recupero di conoscenze e il supporto alle decisioni cliniche. Tuttavia, i modelli attuali potrebbero, ad esempio, generare informazioni mediche convincenti ma false o incorporare pregiudizi che potrebbero esacerbare le disparità di salute. Pertanto, è necessaria una valutazione delle loro conoscenze cliniche. Queste valutazioni si basano in genere su valutazioni automatizzate su benchmark limitati, come i punteggi sui singoli test medici, che potrebbero non tradursi in affidabilità o valore nel mondo reale.

Per valutare quanto bene gli LLM codificano la conoscenza clinica, Shekoofeh Azizi e colleghi hanno preso in considerazione la loro capacità di rispondere a domande mediche. Gli autori presentano un benchmark chiamato MultiMedQA, che combina sei dataset esistenti di risposta alle domande che coprono la medicina professionale, la ricerca e le query dei consumatori, e HealthSearchQA, un nuovo dataset di 3.173 domande mediche ricercate online. Gli autori hanno quindi valutato le prestazioni di PaLM (un LLM con 540 miliardi di parametri) e della sua variante, Flan-PaLM. Hanno scoperto che Flan-PaLM ha raggiunto prestazioni all’avanguardia su diversi dei dataset. Sul set di dati MedQA che comprende domande in stile esame per la licenza medica statunitense, FLAN-PaLM ha superato i precedenti LLM all’avanguardia del 17%. Tuttavia, mentre FLAN-PaLM si è comportato bene su domande a scelta multipla, ulteriori valutazioni hanno rivelato lacune nelle sue risposte a domande mediche dei consumatori.

Per risolvere questo, gli autori hanno utilizzato una tecnica chiamata regolazione dell’istruzione di sollecitazione per adattare ulteriormente Flan-PaLM al dominio medico. La regolazione dell’istruzione di sollecitazione viene introdotta come un approccio efficiente per allineare i LLM generalisti a nuovi domini specialistici. Il loro modello risultante, Med-PaLM, ha dato risultati incoraggianti nella valutazione pilota. Ad esempio, un panel di clinici ha giudicato che solo il 61,9% delle risposte lunghe di Flan-PaLM erano in linea con il consenso scientifico, rispetto al 92,6% per le risposte di Med-PaLM, in linea con le risposte generate dai clinici (92,9%). Analogamente, il 29,7% delle risposte di Flan-PaLM sono state valutate come potenzialmente dannose, rispetto al 5,8% per Med-PaLM, paragonabile alle risposte generate dai clinici (6,5%).

Articolo Nature: Large language models encode clinical knowledge. DOI 10.1038/s41586-023-06291-2 ,

Comments

comments