Představme si, že by ChatGPT byl nasazeno v ordinacích lékařské pohotovosti. Studie vědců z Kalifornské univerzity v San Francisku (UCSF) uvádí, že by umělá inteligence mohla být zatím až příliš štědrá – jak v doporučení zbytečných vyšetření, tak i nadměrném předepisování léků. Některým pacientům by tak ChatGPT mohlo navrhovat nepotřebná rentgenová vyšetření či antibiotika, a dokonce by mohlo hospitalizovat i ty, kteří to nepotřebují.
„I když modely můžeme přizpůsobit a zlepšit, stále se zatím nemohou rovnat klinickému úsudku zkušeného lékaře,“ říká Christopher Y. K. Williams, vedoucí autor studie Evaluating the Use of Large Language Models to Provide Clinical Recommendations in the Emergency Department, publikované 8. října 2024 v časopise Nature Communications.
ChatGPT umí pomoci, ale opatrnosti není na zbyt
ChatGPT-4 a další velké jazykové modely (LLM) mají už dnes své místo ve zdravotnictví, například při odpovídání na dotazy či pomoci s vypracováním klinických zpráv. Nicméně v prostředí pohotovostních oddělení, kde je vyžadován rychlý a přesný úsudek, zatím zaostávají.
Je to důležitá zpráva pro lékaře. Zatímco ChatGPT-4 dokázalo překvapivě dobře rozpoznat, který z pacientů je ve vážnějším stavu, při komplexnějších úkolech, jako jsou rozhodnutí o vyšetřeních, lécích nebo hospitalizaci, zatím ještě selhává.
Výzkum na reálných případech
Pro účely studie vědci analyzovali více než 1 000 návštěv na pohotovosti UCSF Health. ChatGPT-3.5 a ChatGPT-4 dostaly za úkol poskytnout doporučení na základě symptomů a výsledků vyšetření, zadaných prostřednictvím poznámek lékařů. Výsledky byly poté porovnány s klinickými rozhodnutími rezidentních lékařů.
Celkově se ukázalo, že zkoumané modely AI mají tendenci doporučovat více zásahů, než je skutečně nutné. ChatGPT-4 bylo o 8 % méně přesné než lékaři a verze 3.5 měla ještě větší odchylku – byla o 24 % méně přesná. Vědci upozorňují, že tato „přehnaná opatrnost“ může vést k zbytečným zásahům, které pacientům nejen nepomohou, ale mohou jim i uškodit.
Proč ChatGPT dělá chyby?
Nadměrné předepisování může být podle výzkumníků způsobeno tím, na jakých datech byla AI vytrénována. Dnes většina zdravotnických informací a postupů z internetu běžně směřuje čtenáře s příznaky onemocnění k tomu, aby co nejdříve odešli k lékaři. Na pohotovosti však tato opatrnost může být kontraproduktivní, protože zbytečné zásahy zvyšují riziko poškození pacienta, zatěžují zdravotnické zdroje a zvyšují náklady.
Co bude dál?
Podle výzkumníků je klíčové, aby modely umělé inteligence měly lepší kontexty pro hodnocení klinických informací a následnou interpretaci výsledku, než budou opravdu připraveny pro reálné použití v pohotovostní péči. Vývojáři i klinická komunita budou muset najít správnou rovnováhu mezi opatrností a efektivitou, aby AI přinášela skutečný užitek, nikoli zbytečnou zátěž.
„Dokonalé řešení zatím neexistuje,“ uzavírá Williams. „Ale nyní, když víme o těchto sklonech umělé inteligence, je na nás, abychom promysleli, jak ji co nejlépe integrovat do klinické praxe.“
Williams CYK, Miao BY, Kornblith AE, Butte AJ.
Evaluating the use of large language models to provide clinical recommendations in the Emergency Department [Hodnocení využití velkých jazykových modelů k poskytování klinických doporučení na oddělení urgentního příjmu].
Nat Commun. 8. října 2024;15(1):8236. doi: 10.1038/s41467-024-52415-1
Petr Moláček, digitalhealth.cz