05/03/2026

Velika analiza stvarne koristi AI modela u kliničkoj medicini

Pericardion

Od javnog objavljivanja ChatGPT-a u novembru 2022. godine, veliki jezički modeli (LLM) podstakli su značajne promene u oblasti medicinske veštačke inteligencije, često pokazavši sposobnost rešavanja složenih problema i apstraktnog zaključivanja, iako te funkcije nisu bile eksplicitno programirane u njihovoj arhitekturi. Takođe su pokazali sposobnost prilagođavanja novim zadacima na osnovu primera ili dodatnih informacija unetih u upitu, kao i sposobnost razumevanja i izvršavanja komandi izraženih prirodnim jezikom.

Upravo ove karakteristike dovele su do naglog porasta interesovanja za potencijalnu primenu LLM modela u kliničkoj medicini, sa vrlo širokim spektrom mogućih primena: modeli mogu odgovarati na medicinska pitanja pacijenata, sažimati kliničke beleške i naučnu literaturu, ali i pružati podršku u kliničkom odlučivanju u složenim slučajevima. U pojedinim radovima ovi sistemi koriste se za pojednostavljivanje medicinske dokumentacije, podršku medicinskom obrazovanju ili obavljanje pojedinih operativnih zadataka u zdravstvenim sistemima.

Pokazano je da opšti LLM modeli, kao što su GPT-3.5, GPT-4 i PaLM-2, mogu postići rezultate bliske prolaznom pragu na standardizovanim medicinskim ispitima, uključujući i United States Medical Licensing Examination (USMLE). Kasnija istraživanja proširila su ova testiranja na sve veći broj zadataka i medicinskih oblasti, često poredeći performanse LLM modela sa lekarima ili sa podacima koje generišu pacijenti”.

Kolike su stvarne kliničke vrednosti ovih sistema, i ima li dokaza o tim vrednostima?” postavili su pitanje autori ove velike analize objavljene u Nature Medicine. Bilo je očigledno da se literatura zasniva na simulacijama ili ograničenim retrospektivnim analizama, dok su sistematski pregledi do sada najčešće sprovođeni ručno i obuhvatali relativno mali broj radova“. Upravo zbog toga cilj ovog istraživanja bio je da se napravi sveobuhvatna mapa postojeće literature o primeni velikih jezičkih modela u kliničkoj medicini.

Autori su najpre prikupili relevantne studije iz više bibliografskih baza podataka – PubMed, Embase i Scopus. Nakon toga jednom naprednom LLM modelu (GPT-5) dodeljen je zadatak da pregleda identifikovane radove i razvrsta ih prema unapred definisanim kategorijama nivoa dokaza. Rezultati ovog automatizovanog pregleda potom su provereni poređenjem sa referentnim skupom studija koje su nezavisno ocenili ljudski recenzenti. Dve grupe recenzenata postigle su dobru međusobnu saglasnost (Cohenov κ = 0,741), dok je GPT-5 pokazao još viši stepen saglasnosti sa konačnim ljudskim odlukama (κ = 0,820).

Pretraga je obuhvatila radove objavljene između januara 2022. i septembra 2025. godine. Ukupno je identifikovano 12.894 studija, od kojih je LLM model u konačnu analizu uključio 4.609 radova. Posmatrano kroz vreme, ovi podaci pokazuju da su u analiziranom periodu u proseku objavljivane tri studije dnevno o primeni LLM modela u kliničkoj medicini.

Identifikacija
Radovi identifikovani u bazama podataka:
Embase (n = 8.666)
PubMed (n = 5.633)
Scopus (n = 9.315)
Duplikati uklonjeni
(n = 10.720)
Skrining
Radovi pregledani pomoću GPT-5
(n = 12.894)
Radovi validirani od strane ljudi
(n = 500)
Radovi isključeni od strane GPT-5
(n = 8.285)
Uključivanje
Radovi prosleđeni za razvrstavanje po rangu dokaza
(n = 4.609)
Uključeno
Studije uključene u pregled
(n = 4.609)
Razvrstavanje po rangu dokaza
Studije razvrstane pomoću GPT-5:
Tier S (n = 21)
Tier I (n = 1.094)
Tier II (n = 1.767)
Tier III (n = 1.727)
Studije validirane od strane ljudi
(n = 250)

Opis dijagrama. Prvo su pretražene baze podataka Embase, PubMed i Scopus, pri čemu je identifikovano ukupno 23.614 zapisa. Nakon uklanjanja duplikata na osnovu naslova i DOI identifikatora, preostalo ih je 12.894. Ove studije su zatim programski pregledane uz pomoć velikog jezičkog modela (LLM), čime je izdvojeno 4.609 studija uključenih u analizu, od kojih je 500 dodatno provereno od strane ljudskih recenzenata. Uključene studije potom su programski razvrstane prema rangu dokaza uz pomoć LLM-a, pri čemu je 250 studija naknadno validirano od strane ljudi.

Kako bi procenili kvalitet dokaza, autori su studije razvrstali u četiri ranga. Najviši rang (Tier S) obuhvata prospektivne randomizovane kontrolisane evaluacije sprovedene u realnom kliničkom okruženju. Tokom ručnog pregleda istraživači nisu identifikovali nijednu studiju ovog ranga, dok je LLM model identifikovao 21 potencijalnu studiju, od kojih je naknadnom proverom potvrđeno 19.

Dalja analiza pokazala je da 77% radova pripada srednjim i nižim rangovima dokaza, odnosno studijama zasnovanim na simulacijama ili testovima znanja. Prve studije koje su analizirale generativne LLM modele na stvarnim kliničkim podacima pojavile su se početkom 2022. godine, dok je prva studija najvišeg ranga dokaza (Tier S) objavljena tek 2024. godine.

Analiza je takođe pokazala izrazitu dominaciju određenih tehnoloških platformi u istraživanjima. Sistemi kompanije OpenAI bili su najčešće proučavani, obuhvatajući čak 65,7% svih evaluacija. Modeli Gemini i Bard činili su 13,1% studija, dok su sistemi kao što su Alexa ili Google Assistant proučavani veoma retko, uprkos njihovoj širokoj upotrebi.

Rezultati poređenja sa ljudskim učesnicima bili su heterogeni. LLM modeli nadmašili su ljude u približno 33% analiziranih studija, ali su ishodi u velikoj meri zavisili od tipa zadatka i nivoa stručnosti ljudskog komparatora. Važno je naglasiti da ovo poređenje nije bilo primarni cilj ove analize. Autori su ovde samo sumirali nalaze ranije objavljenih studija u kojima su LLM modeli direktno poređeni sa ljudima. “Modeli su češće nadmašivali ljude u testovima znanja nego u analizama zasnovanim na stvarnim kliničkim podacima” naglašavaju autori ove analize. “Takođe su ređe bili uspešniji od lekara specijalista nego od studenata medicine ili specijalizanata”.

Analiza veličine studija ukazala je na metodološka ograničenja postojeće literature, jer je većina njih rađena na izrazito malom uzorku (manje od 30 slučajeva). Kada se tome doda i saznanje da većina istraživanja nije zasnovana na realnim kliničkim podacima, autori su zaključili da su dubina i klinička relevantnost postojećih dokaza o uspešnosti LLM u kliničkoj praksi i dalje vrlo ograničeni. U budućim istraživanjima fokus bi, prema njihovom mišljenju, trebalo pomeriti ka analizama zasnovanim na realnim kliničkim podacima i metodološki strožim studijskim dizajnima.