Může umělá inteligence diagnostikovat lépe než zkušený lékař? A co když nemluvíme o jednom modelu, ale o celém virtuálním konziliu? Systém MAI Diagnostic Orchestrator (MAI-DxO) od Microsoftu ukazuje, že jazykové modely dokážou nejen přesně uvažovat nad pacientem, ale také spolupracovat a řídit diagnostický proces krok za krokem. Přesně tak, jako lékařský tým na vizitě.
Autoři ze společnosti Microsoft AI představili nedávno nový benchmark pro medicínu, řízené umělou inteligencí. Systém MAI-DxO, který v realistickém testu významně překonal zkušené lékaře i špičkové velké jazykové modely (LLM). Studie publikovaná 3. července 2025 na arXiv nabízí nejen výjimečný výzkumný výsledek, ale i první prakticky využitelný rámec pro hodnocení a optimalizaci diagnostického uvažování ve stylu „real-world medicine“.
Sekvenční diagnostika: Znovuobjevený základ lékařského myšlení v digitální éře
Většina dnešních testů medicínské AI připomíná spíš školní test – otázka, odpověď, konec. Jenže skutečná medicína takhle nefunguje. Diagnostika je živý proces, kdy lékař formuluje hypotézy, zadává vyšetření, reviduje předchozí úsudky a rozhoduje se postupně podle toho, jaké informace má k dispozici.
Přesně tento přístup stojí za vývojem benchmarku Sequential Diagnosis Benchmark (SDBench), který Microsoft navrhl jako nový standard pro hodnocení klinických AI nástrojů. Základem je převedení 304 případů z populárních NEJM CPC (Clinicopathological Conferences) do interaktivní simulace, kdy systém začíná s minimem dat a postupně „nakupuje“ další informace – za cenu času, peněz nebo pacientova diskomfortu. Tyto kazuistiky publikované pravidelně v prestižním časopise New England Journal of Medicine (NEJM) patří mezi diagnosticky nejsložitější a intelektuálně nejnáročnější případy v klinické praxi. Často vyžadují zapojení více specialistů a mnoha diagnostických testů, aby byla stanovena definitivní diagnóza.

Diagnóza jako orchestr: představení MAI-DxO
Pro využití v reálném klinickém prostředí vytvořili tvůrci systém MAI Diagnostic Orchestrator (MAI-DxO). Ten ale nefunguje, jako klasický AI chatbot s jedním výstupem. Funguje jako virtuální lékařský tým specialistů, kde každý „člen“ plní jasně definovanou roli:
- Dr. Hypothesis – – analytik, který drží přehled o nejpravděpodobnějších možnostech
sleduje pravděpodobnostní diagnózu a po každé nové informaci aktualizuje pořadí možných onemocnění, podobně jako lékař uvažující bayesovsky. - Dr. Test-Chooser – stratég vyšetření
vybírá taková vyšetření, která nejlépe rozliší mezi vedoucími hypotézami. Zajišťuje efektivitu a brání zbytečnému testování. - Dr. Challenger – skeptik, který vždy zpochybňuje první nápad
hraje roli skeptika. Aktivně zpochybňuje první dojem, hledá rozpory a brání ukvapeným závěrům. - Dr. Stewardship – rozpočtář s klinickým rozumem
hlídá poměr cena/výkon. Navrhuje levnější, ale účinné testy a eliminuje ty, které nic nepřinesou. - Dr. Checklist – inspektor kvality
dohlíží na kvalitu, proveditelnost a srozumitelnost celého postupu. Funguje jako pojistka proti opomenutím a systémovým chybám.
Jak proběhl test? Brilantně navržený simulační engine
Základem celé metodiky MAI‑DxO je tzv. Gatekeeper Agent – jazykový model, který má jednak přístup k celé kazuistice a také komunikuje s mimořádnou disciplínou. Odpovídá pouze na přesně formulované dotazy, bez spekulací, bez hodnocení výsledků a bez unáhlených závěrů. Pokud v klinickém popisu něco chybí, doplní to s využitím syntetických, ale medicínsky konzistentních údajů – tak, aby odpověď odpovídala reálnému průběhu nemoci a neztratila klinickou logiku.
Výsledné diagnózy pak posuzuje automatický agent s výmluvným jménem Judge. Ten využívá pětibodovou škálu, navrženou a validovanou samotnými lékaři, a sladěnou s realitou klinické praxe. Hodnocení 4 nebo 5 znamená, že by daná diagnóza v reálném prostředí vedla ke správnému léčebnému postupu – tedy byla by považována za klinicky správnou.
Když byl celý systém MAI‑DxO podle náročného benchmarku SDBench testován, překonal očekávání i samotných výzkumníků. Ukázal, že správně navržená orchestrace může dosáhnout přesnost, kterou dříve zajišťoval jen celý tým odborníků. Výsledky MAI‑DxO totiž v mnoha ohledech posunuly hranice toho, co si samotní tvůrci systému dokázali stěží představit:
- Dosáhl 80 % přesnosti diagnóz, zatímco průměr lékařů byl jen 20 %.
- Zredukoval náklady na testy o 70 % oproti off-the-shelf modelu OpenAI o3 (z $7 850 na $2 397).
- Nejvýkonnější bylo MAI-DxO ve spojení s OpenAI o3, které správně vyřešilo 85,5 % benchmarkových případů NEJM
- Ukázal univerzálnost – zlepšil výkony napříč všemi testovanými LLMs, včetně Gemini, Claude, Grok, DeepSeek a Llama.
Nejde jen o benchmarková čísla a hledání rozdílů. Jsou důkazy, že pečlivá orchestrace, správné rozdělení kompetencí a řízení kognitivních zkreslení může vést k superlidskému výkonu i bez nutnosti draze vyvíjet a trénovat nové modely.
A jak si vedli lidé?
Do testování bylo zapojeno 21 lékařů (USA/UK, medián praxe 12 let). Jejich průměrná přesnost byla 19,9 % a náklady $2 963 na případ. Ani nejúspěšnější lékař (41 %) ale nedosáhl přesnosti GPT-4o, a žádný z nich se nepřiblížil výkonu MAI-DxO.
Důležité je, že kazuistiky z NEJM CPC nejsou běžné případy z ordinace. Jde o složitá, diagnosticky nejednoznačná onemocnění, často s překryvem příznaků a nutností složitého testování. Přesto to ukazuje potenciál AI tam, kde se diagnostika láme mezi odborností, časem a přístupem ke specializovaným znalostem.
Jedním z případů byla například intoxikace alkoholem v nemocnici. O3 model se příliš upnul na hypotézu antibiotické toxicity, vedl diagnostiku na drahé EEG a MRI – a došel ke špatné diagnóze za 3 431 dolarů. MAI-DxO však již v první iteraci zařadil možnost intoxikace dezinfekcí a správným dotazem zjistil klíčovou informaci – pacient požil dezinfekci. Správnou diagnózu potvrdil ve finále levný toxikologický test (toxic alcohol panel). A za cenu pouhých 795 dolarů.
Přístup MAI‑DxO v sobě spojuje několik klíčových schopností, které posouvají úroveň klinického uvažování do digitální éry:
- Bayesovské myšlení
Model si od začátku vytváří soubor hypotéz, které dále ověřuje nebo vylučuje. Nepřemýšlí od nuly, ale udržuje aktivní mapu možností, což zvyšuje konzistenci a snižuje chybovost. - Dotazy s ohledem na hodnotu informace
Před každým testem zvažuje, kolik nových informací přinese a za jakou cenu – finančně, časově i vzhledem k pacientovu komfortu. Tento princip (value of information) je základem udržitelné medicíny. - Odolnost vůči biasům
Díky roli „Challengera“ dokáže přehodnotit směr uvažování a zpochybnit první dojem. To pomáhá vyhnout se typickému kognitivnímu zúžení, které často vede ke špatným závěrům. - Šetrný přístup k testování
Systém preferuje levnější, ale dostatečně přínosné vyšetření. Například místo CT nejprve zvažuje anamnézu – a často dosáhne podobného výsledku s nižšími náklady i menší zátěží pro pacienta.
Díky tomu se stává nejen výkonným nástrojem, ale novým mentálním modelem pro návrh klinických systémů založených na jazykových modelech.
Kde má MAI‑DxO největší dopad: Od ordinace po terén
MAI‑DxO není vázán na jeden konkrétní model – funguje spolehlivě i na levnějších a méně výkonných variantách. Právě tato flexibilita z něj dělá silného kandidáta pro nasazení v podmínkách s omezenými zdroji, jako jsou například venkovské ordinace nebo zdravotníci v rozvojových zemích. Právě tam může znamenat skokové zlepšení dostupnosti i kvality péče.
V praxi se MAI‑DxO uplatní jako spolehlivý partner lékařů první linie. Pomáhá při třídění pacientů a orientaci v případech, kde chybí dostupný specialista. Lékař tak nezůstane s rozhodnutím sám, systém mu nabízí oporu, a to i v náročnějších klinických situacích.
Silný potenciál má i v oblasti lékařského vzdělávání. MAI‑DxO může sloužit jako interaktivní trenažér diferenciální diagnostiky, na kterém si studenti i mladí lékaři procvičí reálné scénáře a naučí se přemýšlet systematicky krok za krokem.
Díky nízkým nárokům na výpočetní výkon dokáže běžet i na chytrém telefonu, a to i offline. Tím se otevírá cesta k využití v terénu, mimo nemocnice a mimo dosah mobilní sítě. V místech s omezenou infrastrukturou tak může hrát roli, kterou dosud žádná technologie nezvládla.
A konečně MAI‑DxO má co nabídnout i v rámci telemedicíny. Rozšiřuje klasickou videokonzultaci o aktivní diagnostickou asistenci. Výsledkem je vyšší klinická hodnota konzultace, lepší rozhodování a posílení role lékaře v digitálním prostředí.
A co dál?
MAI‑DxO není jen nástrojem, ale představuje možná první krok k digitálnímu klinickému aktérovi. Zatímco lidský lékař je limitován buď šíří, nebo hloubkou své specializace, MAI‑DxO tyto limity překonává. Dokáže kombinovat široké spektrum medicínských znalostí s hlubokou analytickou přesností – a navíc systematicky řídit diagnostický proces v čase, krok za krokem.
Tato schopnost orchestrace, založená na sekvenčním vyhodnocování, hodnotě informace a vnitřní debatě mezi specializovanými agenty, posouvá celý rámec klinického rozhodování. Už nejde jen o to, jak dobře AI zná diagnózy, ale jak promýšlí cestu k nim – a jak přitom dokáže být konzistentní, šetrná a odolná vůči chybám.
MAI‑DxO spolu s benchmarkem SDBench nastavují nový standard pro hodnocení a nasazení AI ve zdravotnictví. Ne jako nahrazení lékaře, ale jako digitální kolega – tým hráč, který v sobě spojuje analytika, stratéga, skeptika, ekonoma i kontrolora kvality. Zatímco dnešní AI ještě čeká na své regulační zakotvení, MAI‑DxO ukazuje, jak by mohlo vypadat její začlenění do reálné klinické praxe – jako digitální konzilium po ruce každému lékaři
Petr Moláček, digitalhealth.cz