Umělá inteligence a veřejná data: Jak ji vytrénovat?

Umělá inteligence a trénink na veřejných datech: GDPR, anonymita a odpovědnost uživatele

zdroj: Eprávo.cz
autoři: Mgr. Michal Nulíček, LL.M., Mgr. František Nonnemann

Umělá inteligence (AI)[1] už dnes není pouze hračkou vývojářů a technologických nadšenců. AI nástroje a služby se rozšiřují do řady oblastí a sektorů. Některé organizace je již nasadily, jiné to alespoň testují a zkoumají – jinak řečeno, hledají vhodné „use cases“. To samozřejmě vyvolává zásadní právní otázky. Kdy je při vývoji a trénování AI nutné dodržovat GDPR? Kdo odpovídá za nakládání s osobními údaji? V prvním díle našeho trojdílného seriálu si blíže přiblížíme mantinely vztahu AI a GDPR. Dozvíte se tak například, jaký je rozdíl mezi anonymními a neanonymními modely. Také zjistíte, v jakých situacích je uživatel z pohledu ochrany osobních údajů v bezpečí, a kdy naopak ne.

Organizace s pomocí AI zajišťují různé interní procesy a činnosti nebo i komunikaci s dotčenými osobami. Typickými oblastmi využití AI jsou analýza dat, příprava marketingových kampaní, zjednodušování a automatizace interních procesů nebo identifikace a předcházení podvodům či kybernetickým útokům. V řadě případů přitom dochází ke zpracování osobních údajů[2] ve smyslu obecného nařízení o ochraně osobních údajů (GDPR)[3].

Služby a nástroje využívající AI jsou často trénovány na osobních údajích. Velmi často se jedná o veřejně dostupná data v prostředí internetu. Význam a souvislosti využití veřejně dostupných údajů na sociálních sítích pro vývoj AI modelu zdůraznilo nedávné oznámení společnosti Meta, že od června tohoto roku bude pro trénink své AI využívat informace, včetně osobních údajů, ze sociálních sítí Facebook a Instagram.[4]

Toto oznámení vzbudilo poměrně veliký zájem. Nejen mezi běžnými uživateli sociálních sítí, ale i mezi dozorovými úřady pro ochranu osobních údajů z různých zemí. Například francouzský, nizozemský a belgický úřad již k tomuto záměru vyjádřily svoje pochybnosti. Naproti tomu irský dozorový úřad konstatoval, že záměr tohoto využití (zpracování) osobních údajů je z jeho pohledu podle dostupných informací v pořádku.[5] Nelze vyloučit, že postup společnosti Meta bude předmět dalšího šetření a kontroly souladu s požadavky GDPR.

Vývoj AI a soulad s GDPR

Shromažďování a využití osobních údajů pro vývoj AI modelu je bezpochyby zpracováním osobních údajů. Pokud se jedná o osobní údaje obyvatel Evropské unie, pak toto zpracování podléhá GDPR a dozorovým kompetencím národních úřadů pro ochranu dat. Subjekt, který takto AI vyvíjí, dikcí Aktu o umělé inteligenci „poskytovatel“, proto musí plnit veškeré požadavky GDPR. V kontextu využití veřejně dostupných osobních údajů pro vývoj AI se jedná především, ale ne pouze, o požadavek na existenci legitimního účelu zpracování, stanovení právního důvodu (titulu) ke zpracování a principy minimalizace a transparentnosti zpracování.

Jaká je však odpovědnost organizace (dikcí AI Actu se jedná o „zavádějící subjekt“), která AI trénovanou na osobních údajích implementuje? Může být tento zavádějící subjekt právně odpovědný za soulad využití osobních údajů k tréninku AI modelu, který si zakoupil jako hotové řešení? A mění se role a odpovědnosti zavádějícího subjektu tehdy, pokud jsou k jeho tréninku nějakým způsobem využity osobní údaje, vůči nimž je ve vztahu správce nebo společného správce s tím, kdo AI systém fakticky vyvíjí?

Anonymní a anonymizované modely: kdy se GDPR (skoro) neuplatní

Z pohledu ochrany osobních údajů bude nejjednodušší situace u AI nástrojů anonymních či anonymizovaných. Ty samy o sobě do působnosti GDPR vůbec spadat nebudou a jejich uživatel, zavádějící subjekt, z pohledu GDPR nemůže být odpovědný za zpracování osobních údajů při jejich tréninku. To samozřejmě nevylučuje aplikovatelnost GDPR na případné následné zpracování osobních údajů při používání (nikoliv vývoji) daného nástroje – stejně jako odpovědnost poskytovatele za proces získání a anonymizace osobních údajů za účelem tréninku AI.

Pro správné pochopení upřesněme, že anonymní AI nástroj je nástroj, pro jehož vývoj vůbec osobní údaje použity nebyly. Nástroj anonymizovaný je takový nástroj, při jehož vývoji sice osobní údaje využity byly, nicméně v rámci přípravy tréninkových dat nebo tréninku samotného byly do té míry anonymizovány, že tyto údaje nelze z nástroje extrahovat („vytáhnout“) přímo (např. útokem třetí strany na daný model) ani nepřímo (užíváním nástroje, např. přes prompt uživatele). V této souvislosti je však třeba připomenout, že laťka pro skutečnou anonymizaci je v EU nastavena opravdu vysoko.[6]

Jak ověřit anonymizaci?

Jak se ale z pohledu uživatele AI postavit k situaci, kdy dodavatel tvrdí, že jeho nástroj je anonymní či anonymizovaný? Využití osobních údajů v rozporu s tvrzením dodavatele nebo v rozporu s právními předpisy (zejm. GDPR) a případná spoluodpovědnost zavádějícího subjektu představují relevantní riziko, které je vhodné přiměřeným způsobem řešit. Z našeho pohledu je ideální získat smluvní prohlášení a záruku (či alespoň prohlášení v související komunikaci s dodavatelem). To je ovšem v praxi poměrně obtížně dosažitelné, poskytovatelé taková prohlášení a záruky poskytovat nechtějí.

Vhodné je alespoň základní posouzení anonymity či anonymizace nástroje samotným uživatelem, který k tomu potřebuje informace od poskytovatele. Lze se přitom inspirovat kritérii anonymizace uvedenými ve stanovisku EDPB k AI – například návrhem modelu (zdroje dat, příprava a minimalizace údajů), metodami trénování, opatřeními k výstupům, testováním, odolností či dokumentací. Rizika lze dále snížit zavedením organizačních a technických opatření, např. použitím nástrojů nad modelem, které odhalují a blokují výskyt osobních údajů ve výstupech.

Jak je tomu ale v situaci, kdy je nástroj sice správně anonymizovaný, ale při jeho vývoji/tréninku byly nezákonně použité a zpracované osobní údaje? Bude v takovém případě uživatel daného nástroje odpovědný za takovou nezákonnost? Dle EDPB i v tomto případě platí, že takový anonymizovaný nástroj a jeho další užití samy o sobě nespadají pod GDPR – uživatel tedy ve vztahu k případně nelegálnímu tréninku nástroje obavy mít nemusí.[8] Pokud v rámci svého užití po nasazení nástroje v rámci něj osobní údaje zpracovává, bude samozřejmě muset zajistit soulad takového zpracování.

Legalita zpracování osobních údajů pro trénink AI

Složitější situace nastává, pokud jsou při vývoji AI použity osobní údaje, ale nástroj není anonymní ani anonymizovaný a poskytovatel to netvrdí. V takovém případě musí zpracování probíhat v souladu s GDPR, jeho zásadami a povinnostmi – zejména s určením legitimního účelu, právního titulu, zajištěním transparentnosti a výkonu práv subjektů údajů. Dále je nutné dodržet principy minimalizace, bezpečnosti, integrity, omezení uložení a prokazování odpovědnosti, které jsou při tréninku AI obzvlášť významné.

V oblasti ochrany osobních údajů je ve vztahu k vývoji AI hlavní výzvou zákonnost zpracování, tedy volba správného právního rámce. Pokud je AI trénována na běžných osobních údajích, musí mít správce či poskytovatel právní důvod dle čl. 6 GDPR. Souhlas obvykle není vhodný, protože jeho získání od velké skupiny je složité, nákladné a prakticky těžko proveditelné. Navíc je problematický svou odvolatelností – po tréninku AI nelze zaručit výmaz údajů subjektu, který souhlas odvolal. Stejně tak nelze většinou využít právní titul plnění smlouvy, protože vztah mezi subjektem údajů a vývojářem AI obvykle neexistuje. I další tituly, např. plnění zákonné povinnosti, budou uplatnitelné jen výjimečně.

Právě uvedenou vylučovací metodou se zdá, že ve většině případů trénování AI na „běžných“ osobních údajích budou poskytovatelé AI spoléhat na oprávněný zájem svůj nebo třetí strany (čl. 6 odst. 1 písm. f) GDPR). Pokud tedy máme co do činění s AI nástrojem, který byl natrénován na neanonymních datech, musí jeho poskytovatel najít právní titul, který toto zpracování osobních údajů ospravedlní. To může být větší oříšek, než se na první pohled zdá. Právníci a vývojáři se proto ve většině případů nakonec propracují k institutu oprávněného zájmu. Jak přesně tento titul funguje? Za jakých předpokladů se na něj můžete před regulátorem bezpečně odvolat? Na tyto otázky odpovíme v druhém díle našeho seriálu.

František Nonnemann je vedoucím oddělení Compliance a oddělení Řízení operačního rizika ve společnosti Partners Banka

Pro účely našeho článku chápeme pojem „umělá inteligence“ dle definice v čl. 3 bodu 1) Aktu o umělé inteligenci: „Systémem AI [se rozumí] strojový systém navržený tak, aby po zavedení fungoval s různými úrovněmi autonomie a který po zavedení může vykazovat adaptabilitu a který za explicitními nebo implicitními účely z obdržených vstupů odvozuje, jak generovat výstupy, jako jsou predikce, obsah, doporučení nebo rozhodnutí, které mohou ovlivnit fyzická nebo virtuální prostředí.“
Srov. výklad k pojmům „osobní údaj“ a „zpracování údajů“ v Nulíček, M. Donát, J. Nonnemann, F. Lichnovský, B. Tomíšek, J. Kovaříková, K. GDPR / Obecné nařízení o ochraně osobních údajů. 2. vydání. Wolters Kluwer, Praha: 2018.
Nařízení Evropského parlamentu a Rady (EU) 2016/679 ze dne 27. dubna 2016 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů a o zrušení směrnice 95/46/ES (obecné nařízení o ochraně osobních údajů).
Např. https://www.euronews.com/next/2025/05/13/meta-is-about-to-use-europeans-social-posts-to-train-its-ai-heres-how-you-can-prevent-it.
Srov. https://www.dataprotection.ie/en/news-media/latest-news/dpc-statement-meta-ai.
Srov. výkladová vodítka Pracovní skupiny dle čl. 29 (předchůdce Evropského sboru pro ochranu osobních údajů) č. 5/2014 ze dne 10. dubna 2014 k technikám anonymizace, dostupné na: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_cs.pdf.
Viz Stanovisko EDPB 28/24 k určitým aspektům ochrany osobních údajů v souvislosti se zpracováním osobních údajů v kontextu modelů umělé inteligence, zejm. kapitola 3.2 tohoto stanoviska.
Viz Stanovisko EDPB 28/24 k určitým aspektům ochrany osobních údajů v souvislosti se zpracováním osobních údajů v kontextu modelů umělé inteligence, zejm. kapitola 3.4.3 tohoto stanoviska.

Specializace

Sektory

Další služby

Jak vytrénovat umělou inteligenci na veřejně dostupných datech? (1. díl)

Vývoj AI a soulad s GDPR

Anonymní a anonymizované modely: kdy se GDPR (skoro) neuplatní

Jak ověřit anonymizaci?

Legalita zpracování osobních údajů pro trénink AI

Další články

SDEU: Má správce povinnost informovat o příjemcích pseudonymizovaných údajů?

ČR: Podnět na protiprávní zpracování osobních údajů je stížností podle GDPR

Právní regulace ICT: Jak se orientovat v labyrintu předpisů?

Polsko: Plošné kopírování průkazů totožnosti bankou? Pokuta přes 4 miliony eur

Francie: Pokuty pro Google a Shein ve výši stovek milionů eur za cookies a další pochybení

Rakousko: Model „Pay or Okay“ je v rozporu s GDPR

EK: Chystá se zjednodušení předávání údajů do Brazílie

UK: Ochrana údajů při používání technologií rozpoznávání obličeje

Advokátní kancelář ROWAN LEGAL významně posílila příchodem Jany Otčenáškové

Ochrana osobních údajů a plánované změny

Bankovní aplikace a telefonní hovory

Nový nástroj pro ověřování věku

Pozdě hlášený bezpečnostní incident? Milionová pokuta.

Prevence bezpečnostních incidentů a na koho spadá odpovědnost?

Sledovací pixely a cookies na webových stránkách

Nedostatečná bezpečnostní opatření? Rekordní pokuty.

Oprávněný zájem pro trénování AI

Ochrana nezletilých na internetu

Předávání údajů do třetích zemí

Neoprávněná žádost osobních údajů

Posuzování úvěruschopnosti v souladu s GDPR

Souhlas s online reklamou

Strategie evropské datové unie a jak ji ovlivnit?

Zmírnění pravidel GDPR

Kybernetický útok a odpovědnost správce

Když se z lidí na Facebooku a Instagramu stávají trenéři robotů a ani o tom možná vůbec nevědí

Obecná bezpečnost výrobků

Pověřenec pro ochranu osobních údajů

Ukládání souhlasů cookies na zařízeních jednotlivce

Zpracování údajů v blockchainu

Udělejte první krok k naší spolupráci