Il colosso di Mountain View sta sviluppando un tool di intelligenza artificiale specializzato in ambito medico e clinico. I test hanno dato buoni risultati, ma il rischio che il modello contribuisca alla disinformazione è elevato
AGI – In un nuovo test, Google Research valuta la capacità del suo nuovo tool di intelligenza artificiale specializzato in ambito medico e clinico. Lo studio, pubblicato in un articolo su Nature, ha al centro Med-PaLM, un Large Language Models (LLM) specializzato.
Nonostante diverse limitazioni ancora esistenti, Med-PaLM il modello linguistico di grandi dimensioni (LLM) di Google ha riscosso buoni risultati nei test di prova e presto questa Chatbot potrebbe diventare un valido supporto per il medico e per i professionisti sanitari. A dirlo, sono i ricercatori della Google Research che hanno appena diffuso i risultati di un nuovo benchmark.
Un bot che sbaglia quanto un medico vero
Med-PaLM nasce dall’ottimizzazione di PaLM e della sua variante Flan-PaLM. Dai risultati emerge che un gruppo di medici ha giudicato solo il 61,9% delle risposte in formato lungo Flan-PaLM scientificamente valide, rispetto al 92,6% delle risposte Med-PaLM, alla pari con le risposte generate dai medici (92,9%).
Allo stesso modo, il 29,7% delle risposte Flan-PaLM è stato valutato come potenzialmente in grado di portare a esiti dannosi, in contrasto con il 5,8% per Med-PaLM, paragonabile alle risposte generate dal medico (6,5%).
I modelli di intelligenza artificiale (AI) hanno grandi potenzialità di utilizzo in medicina, come l’archivio e il recupero delle conoscenze e il supporto alle decisioni cliniche.
Il rischio della disinformazione medica
Purtroppo, i modelli esistenti hanno evidenziato ancora diversi limiti, per questo numerosi test sono necessari per lo sviluppo di tali strumenti nella pratica clinica. Alcuni studi hanno fatto emergere il rischio potenziale di questi tool di IA specializzata di generare disinformazione medica o aumentare pregiudizi che potrebbero esacerbare le disparità di salute.
Spesso però, queste valutazioni si basano su stime automatizzate e su benchmark limitati, come i punteggi sui singoli test medici, che potrebbero non tradursi in affidabilità o valore nel mondo reale. Per valutare quanto gli LLM siano in grado di codificare la conoscenza clinica, il team di ricercatori di Google Research ha analizzato la capacità di questi modelli di rispondere a domande mediche.
Il benchmark, chiamato MultiMedQA, combina sei set di dati di risposta a domande esistenti che coprono medicina professionale, ricerche e domande dei consumatori, e HealthSearchQA, un nuovo set di dati di 3.173 domande mediche comunemente cercate online.