V uplynulých letech se české zdravotnictví začalo rozpačitými krůčky přibližovat k možnosti širšího využití sekundárních zdravotních dat, tak jak to navrhuje dnes hojně diskutované EU nařízení EHDS.
Potenciální zájemci by mohli čerpat ze sice rozsáhlé, ale kvalitativně i formátově nesourodé základny primárních dat u poskytovatelů zdravotních služeb nebo u zdravotních pojišťoven. Orgány státní správy žárlivě střeží sekundární data, omezeně konsolidovaná z primárních dat do Národního zdravotního informačního systému (NZIS). Přístup k němu se snaží zájemcům ztížit odkazy na zpochybňované přílepky k zákonným regulacím nebo kreativní komunikací.
Dostupná otevřená data z jiných zdrojů poskytují pouze omezený rozsah potřebných informací. Uchazeči o zpracování sekundárních dat jsou proto odsouzeni k obtížnému a často nevstřícnému a neúspěšnému dialogu s jejich pověřenými vlastníky.
Využití dat k primární prevenci, diagnostice, klinickému rozhodování, léčbě, k organizaci a řízení zdravotnictví, upřesnění úhradových mechanismů nebo posouzení efektivity výdajů na péči je nedostatečné, zdaleka neodpovídá potřebám a možnostem systému.
Vstoupí-li v platnost Nařízení EU o evropském prostoru pro zdravotní data (EHDS) a zákonodárná i výkonná moc v České republice produktivně zareaguje, mohla by sekundární data pokročit k očekávanému a tolik potřebnému využití úspěšně a rychle.
Projednávané znění Nařízení přináší hlediska, která dosud nebyla zpracovatelům zdravotnických dat neznámá, obvykle se jevila jako samozřejmá, případně nedůležitá a nebyla proto v centru pozornosti. Pro případ širšího a otevřeného zpřístupnění sekundárních dat je naprosto zásadním předpokladem zajištění ochrany osobních údajů účinnými a spolehlivými postupy. V této souvislosti a jsou diskutované postupy anonymizace a pseudonymizace dat.
Dr. Aleš Tichopád je seniorní výzkumník a vedoucí v týmu CzechHTA. HTA a zdravotní ekonomikou se zabývá od roku 2003. V letech 2001 až 2013 se rovněž zabýval vývojem molekulárně diagnostických metod na principu real-time PCR, především potom algoritmů pro práci s daty. | Zdroj: archiv Aleše Tichopáda
Na otázky, jak a proč uplatnit uvedené postupy u sekundárních dat ve zdravotnictví nám odpověděl Aleš Tichopád, vedoucí týmu CzechHTA, zabývajícího se mimo jiné rozvojem a uplatněním algoritmů pro práci s daty ve zdravotnictví. Výzkumný tým CzechHTA (https://czechhta.cz/) vznikl na Katedře biomedicínské techniky Fakulty biomedicínského inženýrství ČVUT.
Začala v ekosystému českého zdravotnictví přínosná diskuse o efektivní ochraně osobních údajů při užití sekundárních dat a směřuje dobrým směrem?
Samotná diskuse na toto téma je spíše recentní jev. Spíše veřejné diskusi dominoval argument, že pacientská data třetím stranám nepatří, protože patří pacientovi. Takto postavená argumentace ovšem smývá zásadní fakta. Především pak nerozlišuje mezi primárním a sekundárním využitím dat. A až donedávna jsem nezaznamenal, že by někdo vnímal, že data lze poskytovat v anonymní podobě a tím neohrozit práva pacientů na soukromí. Znění EHDS tuto diskusi kultivuje. Je vidět že tyto modernizující vlivy EU prostě Česko potřebuje.
Jak rozšířit povědomí o nutnosti a vhodnosti anonymizace zdravotnických dat ke všem dotčeným uživatelům? Kde cítíte největší nedostatek v informovanosti dotčených subjektů?
Anonymizace by měla být nástrojem správců dat a měla by být transparentně popsaná její metodika pro žadatele. Mělo by se rozlišovat už samotné poskytování informací a poskytování dat, tedy dat na úrovní pacienta.
Dále je velmi zásadní, zda jsou data agregována v čase, nebo naopak obsahují události s jasným údajem o čase. To totiž rozhoduje, jak se budou anonymizovat. Takzvané průřezové sady lze anonymizovat relativně snadno, zatímco u těch dlouhodobých (longitudinálních) s opakovanou časovou stopou u jednotlivých události je to těžší. Žadatele totiž tuto rovinu většinou nevnímají.
Žadatelé by v mnoha případech uspokojili svou potřebu i na základě velmi málo rizikových průřezových sad. To je třeba příklad, kdy žadateli jde o kalkulaci čerpané péče a nákladů na ni. Tyto soubory by mohly agregovat jednotlivé zdroje nákladů (hospitalizace, ambulantní návštěvy, léky, atd.) za požadované období. A sice na úrovní jednotlivých pacientů a třeba podle typu léčby.
Co je podstatou anonymizace? Jaké nejčastější nedostatky se v ochraně osobních údajů vyskytují?
Podstatou anonymizace je buď agregace dat nebo deidentifikace osob. Agregace většinou vede ke snížení vědecké hodnoty dat, obzvlášť agregují-li se skupiny pacientů. Deidentifikace je lepší cestou z pohledu vědce, neboť zachová spojitosti, kauzality a posloupnosti dějů na úrovni jedince. Je tak možno aplikovat mnoho statistických metod a mimo jiné také statisticky kontrolovat rušivé vlivy.
Deidentifikace je založena na více postupech odstranění tzv. přímých a nepřímých identifikátorů, popř. na jejich zobecnění nebo maskovaní. Tím se sice také nějaká informace ztratí, často ale může jít o informaci, kterou analytik pro sledovaný záměr nepotřebuje.
Je možné odhadnout objem sekundárních dat, která jsou dotčenými uživateli zprostředkována bez anonymizace? Jaký je poměr správně připravených, a naopak nedostatečně ochráněných sekundárních dat?
To si netroufám říct. Ale mám pádný důvod věřit, že jsou některými subjekty požadována data ve formátech, u nichž je možno ztotožnit konkrétní osoby na základě nepřímých identifikátorů, jakými jsou třeba data návštěv na specializovaných pracovištích, nebo vzácné diagnózy.
Toto jsou typicky proměnné, které je třeba v procesu anonymizace velmi pečlivě hlídat. Je nutno stanovovat, jaká je šance, že se s pomocí některé z nich nebo třeba na jejich průsečíku nevyčlení konkrétní jedna osoba.
Postupem bránícím identifikaci prvotních zdrojů informace pro data jednotlivců může být i pseudonymizace? Kdy je vhodná nebo nezbytná?
Pseudonymizace nezajištuje ochranu osobních údajů, neboť se jedná o vratný proces. Jedná se o manipulaci přímého identifikátoru a případně dalších nepřímých identifikátorů. Ta se typicky děje konzistentně u všech datových sad stejně a je tak možno je propojovat. To má velkou výhodu pro vědecké analýzy. Obzvláště chceme-li prospektivně sledovat kohorty pacientů.
Současně se ale otevírá možnost nepřímé identifikace. Pseudonymizovaná data tak i nadále představují osobní údaje. V Česku neexistuje právní úprava, která by stanovila druh žadatele, který může žádat o pseudonymizovaná data a provádět tak mnohem rozsáhlejší analýzy a prospektivní sledování. Bylo by to však velmi žádoucí.
Jaké nejvýznamnější cíle vidíte pro váš tým v CzechHTA v dohledné době?
Na prvním místě, a mimo jiné i v tomto rozhovoru, chceme hlavně připravit žadatele ale i poskytovatele na věcný dialog o tom, co naše společnost chce či nechce. Jde nám o odbornou kultivaci na obou stranách s cílem maximalizovat dostupnost dat a současně neudělat nedůsledný kompromis v ochraně práv osob na ochranu soukromí.
Chceme, aby na jedné straně nevznikaly neadekvátní očekávání žadatelů na otevření administrativních databází na základě zákona 106/1999, současně ale nechceme aby bylo možno alibisticky tvrdit, že data patři jen a pouze pacientům, a proto se někde zamknou. A tou rozlišovací veličinou je právě správná a obhajitelná anonymizace.
Abychom pak nezůstali jen u slov, křídy a tabule, tak i vytváříme metodiky pro anonymizaci různých typů zdravotnických dat, programujeme nástroje pro anonymizaci dat na vstupu k nám. Snažíme se vlastně vytvoříte jakýsi mikro-ekosystém pro práci s anonymními zdravotnickými data u nás na fakultě tak, jak by jednou mohl fungovat v celém Česku.
S žadateli o data také stále více konzultujeme jejich žádosti, aby měli šanci na úspěch a žádali o data ve strukturách, které vyvažují rizika ztotožněni osoby se zachováním hodnoty pro statistiku. Tedy řekněme vzdělávání za běhu.
Za digitalhealth.cz se ptal Martin Doležal