# Audit datové kvality: Zpráva Auditora

<img src="img/VSE.png" width=500 height=500 />

* **Typ služby ujištění**: Přímý audit 
* **Určen pro**: Kurz 4IZ562 Řízeni datové kvality 
* **Vytvořil**: Fiktivní auditor, s.r.o.: Tým C
* **Audit od**: 14.02.2022
* **Audit do**: 13.05.2022
* **Autor**: Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec 
* **Revidoval**: Ing. David Pejčoch, Ph.D. 
* **Verze**: 1.0

## Historie dokumentu

|Verze |Datum |Autor |Změny | Autorizace |
|-|-|-|-|-|
|0.1 |12.06.2022 |Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec |První draft ||
|0.2|12.06.2022 |Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec |Druhý draft ||
|0.3 |13.06.2022 |Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec |Třetí draft ||
|0.4 |14.06.2022 |Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec |Čtvrtý draft ||
|1.0 |14.06.2022 |Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec |Finální verze ||

 



## Manažerské shrnutí

### Účel a cíle auditu

Hlavním cílem auditu jako součásti implementace a řešení pro CRM bylo nutné zhodnotit aktuální úroveň kvality dat a jejich dopadů na jednotlivé procesy společnosti. Taktéž na zaklade výstupu auditu cílem bylo navrhnout strategii pro případná opatření a řešeni za účelem zvýšeni datové kvality. 

### Určeno

Tato zprava je určena jako materiál pro jednání představenstva společnosti Fiktivní auditor, s.r.o. dne 14.06.2022. 

### Omezení užití

Tento audit se vztahuje výhradně ke stavu univerza dat, platného k datu 13.05.2022. Jakékoli změny po tomto datu nejsou v auditu zahrnuty.  

### Byznys dopady

Nesprávná data vedou k nesprávným výsledkům jejich zpracování a v důsledku ke špatnému fungování podnikových procesů s následkem ekonomických ztrát. Dalším důsledkem nekvality je vynakládání prostředků na správu, zpracování, archivaci nesprávných, nesmyslných a nadbytečných dat, což představuje přímé ekonomické ztráty. Průměrná cena za MD: 6000 Kč 
1. Nesoulad dat a neplnění GDPR směrnice nese za sebou následující náklady: 

    - Princip MIN (4% obratu, 2M euro) 

    - Princip MAX (4% obratu, 2M euro) 

2. Z důvodu chybějících nebo nekvalitních hodnot v rámci kontaktních údajů může dojít k nákladům na přímých kampaních. 

3. Velké riziko představují unikla data přímo vyžadovaná právními normami a můžou vest k postihům ze strany příslušného regulátora (např. během případné kontroly reportů určených ČNB.) 

4. Nepřímé náklady mohou vzniknout vlivem použití nekvalitních dat pro analytické účely.  

5. Ztrata konkurenceschopnosti firmy nebo stanoveni chybné vize na zaklade nekvalitních dat.  

### Doporučení

Doporučujeme provést realizaci následujících opatření:  

1. Zavést doporučené principy Data Governance 

2. Zavést navrhované validační kontroly 

3. Rozšířit stávající datový model o navrhované atributy 

4. Provést jednorázovou nápravu detekovaných nedostatků v datech 

5. Zavést mechanismy pro standardizaci dat 

6. Implementovat doporučené referenční zdroje 

7. Provést jednorázovou de-duplikaci záznamů klientů v CRM data martu 

8. Implementovat řešení pro automatickou de-duplikaci nove vstupujících záznamů (MDM) 

9. Preudoanonymizovat záznamy klientů, kteří již nemají žádnou aktivní smlouvu 

10. Zavést regulární monitoring úrovně datové kvality 

Očekávané náklady na implementaci jsou: **XXXXX** mil. Kč.

## Terminologie

| Termín / zkratka | Vysvětlení |
|------------------|------------|
| DQA | Data Quality Assessment, audit datové kvality |
|DQ |Data Quality |
|DQM |Data Quality Management |
|SQL |Structured Query Language |
|API  |Application Programming Interface |
|GDPR |General Data Protection Regulation |
|AML |Anti-Money Laundering |
|CRM |Customer Relationship Management |
|CEIOPS |Committee of European Insurance and Occupational Pensions Supervisors) |
|RUIAN |Registr územní identifikace, adres a nemovitostí |
|CDI |Customer Data Integration |
|LOV |List of values |
|MDM |Master Data Management |
|RES |Registr ekonomických subjektů |
|UCD |Unified Customer DB |



## Metodika auditu

1. Plán auditu.  

2. Vymezení univerza auditu. 

3. Definice rámce pro audit (definice standardů, nejlepších praktik, referenčních zdrojů, relevantních norem a variačních pravidel). 

4. Definice měřených charakteristik. 

5. Identifikace užití dat a prioritizace.  

6. Definice dopadů nekvalitních dat. 

7. Realizace základního technického profilingu. 

8. Naměření vlastností dat pomocí validních pravidel.  

9. Identifikace doporučených externích referenčních datových zdrojů. 

10. Kvantifikace dopadů. 

11. Sumarizace závěrů auditu. 

12. Formulace doporučení. 

## Rozsah auditu

### Identifikace a popis objektů univerza

In [2]:
mysql://student:student123@localhost:3306

In [3]:
use 4iz562;

In [5]:
select TABLE_NAME, COLUMN_NAME, COLUMN_COMMENT from DQM_MDR where COLUMN_NAME not like '%%DQM_%%'; 

Unnamed: 0,TABLE_NAME,COLUMN_NAME,COLUMN_COMMENT
0,PARTY_ADDRESS,ADDR_ID,Primární klíč adresy
1,PARTY_ADDRESS,PARTY_ID,Odkaz na PK tabulky PART_PARTY
2,PARTY_ADDRESS,ADDR_TYPE,Typ adresy
3,PARTY_ADDRESS,ADDR_COUNTRY,Kód země
4,PARTY_ADDRESS,ADDR_CITY,Město
5,PARTY_ADDRESS,ADDR_STREET,Ulice
6,PARTY_ADDRESS,ADDR_NUM1,Číslo popisné
7,PARTY_ADDRESS,ADDR_NUM2,Číslo orientační a písmeno adresy
8,PARTY_ADDRESS,ADDR_ZIP,PSČ
9,PARTY_ADDRESS,ADDR_CODE,


### Použitá kritéria hodnocení

Kvalita dat byla měřena pomocí vybraných vlastností (charakteristik) dat:


|Vlastnost dat |Definice  |Způsob měřění |
|-|-|-|
|Syntaktická správnost |Podíl počtu hodnot, které svou syntaxí neodpovídají danému atributu, na celkovém počtu vyplněných hodnot v rámci daného atributu | Regulární výrazy |
|Sémantická správnost |Podíl nesprávně vyplněných hodnot na celkovém počtu vyplněných hodnot v rámci daného atributu | Lookup do referenčních zdrojů, kontrola rozsahu přípustných hodnot, kontrola na modulo |
|Úplnost |Podíl nesprávně chybějících záznamů na celkovém počtu záznamů |Podíl NULL, “, ‘ ‘, ’NA’ pří definované WHERE podmínce |
|Vnitřní konzistentnost |Podíl nekonzistentních záznamů v rámci jedné entity na celkovém počtu záznamů |Křížové porovnání hodnot |
|Vnější konzistentnost |Podíl nekonzistentních záznamů na celkovém počtu záznamů |Křížové porovnání hodnot |
|Unikátnost |Podíl unikátních záznamů na celkovém počtu záznamů |COUNT() … GROUP BY … HAVING COUNT () > 1 |



### Použité standardy

**Zákon č. 253/2008 Sb. o některých opatřeních proti legalizaci výnosů z trestné činnosti a financování terorismu - AML**

Za účelem plnění právních povinností, především v oblasti AML, zpracování zejména následující osobní údaje:
- identifikační údaje sloužící k jednoznačné a nezaměnitelné identifikaci subjektu údajů (např. jméno, příjmení, titul, příp. rodné číslo, datum narození, adresa trvalého pobytu, pohlaví, místo narození), 
- kontaktní údaje (např. kontaktní adresa, číslo telefonu, e-mailová adresa), údaje o dokladech (druh a číslo předloženého dokladu, platnost a datum vydání předloženého dokladu, kým byl doklad vydán), 
- informace o tom, zda je, či není politicky exponovaná osoba, 
- transakční a uživatelské údaje, 
- informace o finančních převodech a transakcích.

**Evropská direktiva 2009/138/EC - Solvency II**
Regulace Solvency II uvažuje v rámci System of Governance řízení dat jako jednoho z největších operačních rizik firmy. Na úrovni Level1 tato směrnice hovoří též o úplnosti, přesnosti a vhodnosti použitých údajů pro interní model. Na dalších úrovních bude zřejmě poněkud sdílnější. Level 2 (Implementing Measures) i Level 3 (doporučení) však dosud nemají svou konečnou podobu. Zdůrazňuje význam kvalitních dat zejména pro interní modely. Zmiňuje zjeména tři vlastnosti: vhodnost, úplnost a správnost. Je kladen důraz i na uchování historických dat. Též zmiňuje význam porovnávání dat s externími zdroji za účelem ověření konzistence. S odvoláním na materiály CEIOPS (Committee of European Insurance and Occupational Pensions Supervisors) uvádí požadavky na transparentnost, granularitu, sběr historických dat a dohledatelnost dat. (Zdroj: Audit datové kvality podle IT Assurance Guide: Using COBIT - 3. díl - http://www.dataquality.cz/index.php?ID=5&ArtID=13&clanek=201203_DQA_IT_Assurance_Guide_3dil) 

**RUIAN**
Registr územní identifikace, adres a nemovitostí (RÚIAN) je jedním ze čtyř základních registrů veřejné správy ČR. RÚIAN je veřejný seznam, který umožňuje uživatelům z řad veřejné, ale i komerční a akademické sféry, dálkový přístup přes internet - aplikace Veřejného dálkového přístupu (VDP) k datům RÚIAN je dostupná zdarma a bez registrace na internetové adrese: https://vdp.cuzk.cz 

Prováděcí vyhláška č. 359/2011 Sb., o základním registru územní identifikace, adres a nemovitostí, v platném znění, je prvním prováděcím předpisem, který upravuje způsob zápisu adresy. Až doposud podobu adresy upravovaly pouze dokumenty a řády České pošty, s. p. 

V § 6 vyhlášky je popis sestavení adres z prvků vedených v RÚIAN. Vzory sestavení adresy jsou uvedeny v příloze prováděcí vyhlášky. Adresa může mít jeden, dva nebo tři řádky. Správný zápis konkrétní adresy je možné získat ve VDP pomocí funkce Ověření adresy. (Zdroj: Registr územní identifikace, adres a nemovitostí (RÚIAN) - https://www.cuzk.cz/ruian/RUIAN/Informace-o-RUIAN.aspx) 

**Další standardy:**
- Zákon 480/2004 Sb. o některých službách informační společnosti 
- Nařízení EU 2016/679 (GDPR) 
- Zákon 93/2009 Sb. O auditorech: §20 Zpráva auditora 
- ISACA Standart S7-Reporting 
- ISACA Návod G20-Reporting 
- Zákon č. 69/2006 Sb. o prováděni mezinárodních sankcí 
- Vyhláška č. 281/2008 Sb. O některých požadavcích na systém vnitřních zásad, postupů a konkrétních opatření proti legalizaci výnosů z trestné činnosti a financování terorismu 

## Výsledky auditu

Obecné připomínky k datovému modelu 
1. Datovy model neobsahuje standardizaci v hodnotách dat 
2. Nedodrzena pravidla pro collations 

**GDPR** 

Baze klientu obsahuje **XXXXX** zaznamu pro které potencialne chybi pravni důvod uchovávat jejich PII a mají pravo byt zapomenuti, tj.takovych pripadu, kdy maximalni datum platnosti smlouvy do je nižší nez aktualni datum. Na zaklade zbezne kontroly rodnych cisel / ICO bylo zjisteno, ze baze klientu obsahuje **XXXXXX** clusteru s vice jak jednim PARTY_ID. Compliance s GDPR je tak vhodne  znovu ověřit po doporucovane deduplikaci klientu. 

In [6]:
select count(*) from ( 
    select PARTY_ID, max(CNTR_VALIDTO) from PROD_CONTRACT group by 1 having max(CNTR_VALIDTO) < current_date 
    ) as a; 

select count(*) from (
select 
concat(PARTY_TYPE,'_',coalesce(trim(PARTY_RC),trim(PARTY_CREGNUM))) as CUST_ID, count(*) as FREQ 
from PART_PARTY 
group by 1 having count(*) >1) as a; 

Unnamed: 0,count(*)
0,140932


**AML** 

V poskytnutych datech chybi atibuty vyzadovane AML jako jsou: identifikace klienta, KYC (porovnavani profilu klienta s jeho chovanim), porovnani se sankčními seznamy, oznaceni politicky exponovanych osob, rizikova kategorizace typu klientu / produktu, rizikovost zemi. 

**PART_PARTY**

In [29]:
Select TABLE_NAME AS ‚Nazev tabulky‘, 
COLUMN_NAME as ‚Nazev atributu‘, 
CHAR_SEM_ACC as ‚Semanticka Spravnost‘, 
CHAR_SYN_ACC as ‚Syntakticka Spravnost‘, 
CHAR_COM as ‚Uplnost‘, 
CHAR_INT_CON as ‚Interni konzistentnost‘,  
CHAR_EXT_CON as ‚Externi konzistentnost‘ 
From DQM_MDR where TABLE_NAME = ‚PART_PARTY‘ and COLUMN_NAME not like '%%DQM%%'; 

In [44]:
Select TABLE_NAME AS NazevTabulky, 
COLUMN_NAME as NazevAtributu, 
CHAR_SEM_ACC as SemantickaSpravnost, 
CHAR_SYN_ACC as SyntaktickaSpravnost, 
CHAR_COM as Uplnost, 
CHAR_INT_CON as InterniKonzistentnost,  
CHAR_EXT_CON as ExterniKonzistentnost 
From DQM_MDR WHERE TABLE_NAME = "PART_PARTY" and COLUMN_NAME not like '%%DQM_%%';

Unnamed: 0,NazevTabulky,NazevAtributu,SemantickaSpravnost,SyntaktickaSpravnost,Uplnost,InterniKonzistentnost,ExterniKonzistentnost
0,PART_PARTY,PARTY_ID,1.0,1.0,1.0,1.0,1.0
1,PART_PARTY,PARTY_TYPE,1.0,1.0,1.0,1.0,1.0
2,PART_PARTY,PARTY_FNAME,0.817535,1.0,1.0,1.0,1.0
3,PART_PARTY,PARTY_LNAME,0.976603,1.0,1.0,1.0,1.0
4,PART_PARTY,PARTY_NAME,0.800173,1.0,1.0,1.0,1.0
5,PART_PARTY,PARTY_FORM,1.0,1.0,0.9309,1.0,1.0
6,PART_PARTY,PARTY_CREGNUM,0.693771,1.0,1.0,1.0,1.0
7,PART_PARTY,PARTY_RC,0.312421,0.966706,1.0,1.0,1.0
8,PART_PARTY,PARTY_COUNTRY,1.0,1.0,1.0,1.0,1.0
9,PART_PARTY,PARTY_POFBIRTH,1.0,1.0,1.0,1.0,1.0


|Atribut |Zjištění |
|-|-|
|PARTY_ID ||
|PARTY_TYPE ||
|PARTY_FNAME |Obsahuje N/A pro všechny Commercial Party. Obsahuje hodnoty s minimální délkou 1. Obsahuje hodnoty proložené mezerami. Je vhodné harmonizovat pomoci referenčního číselníku. Pro hodnoty, které není možné zřetězit, je vhodné jejich ověření formou neinkasní intervence obchodní službou. |
|PARTY_LNAME |Obsahuje NA pro všechny Commercial Party. Podivné Syntaktické vzory končící nealfanumerickým znakem. Obsahuje hodnoty se pozměněnou diakritikou. Je vhodné harmonizovat pomoci referenčního číselníku. Pro hodnoty, které není možné zřetězit, Je vhodné jejich ověření formou neinkasní intervence obchodní službou. 
|PARTY_NAME ||
|PARTY_FORM |Chybí referenční číselník. Chybějící záznamy Pro některé Commercial Party. |
|PARTY_CREGNUM |Referenční číselník obsahuje pouze 1000 záznamů. Doporučujeme nahradit extraktem RES. |
|PARTY_RC |Koexistence NULL a mezery je jako prázdné hodnoty. fiktivní záznamy pro občany CR. mezera na konci devítimístného RČ. vyplněno fiktivní RČ i pro některé Commercial party. Pokud se jedná o fyzické osoby podnikající doporučujeme označit jako separátní PARTY_TYPE. |
|PARTY_COUNTRY |Podezřelá konstanta „CZE“. |
|PARTY_POFBIRTH |konstanta Praha, zřejmě odpovídající default číselníkové hodnotě. |
|PARTY_AGE |Nesmyslný atribut neshodující se s věkem odvozeným z data narození. Posun cca 20 let od data narození s určitým rozptylem (nejedná se tedy o věk při sjednání pojištění). Obsahuje chybějící hodnoty pro některé Private party. |
|PARTY_GENDER |Odpovídá číselníku LOV_PARTY_GENDER. Obsahuje neúplná pozorování pro některé Private party. |
|PARTY_DOFBIRTH |Obsahuje data narození osob starších 100 let. Obsahuje chybějící hodnoty pro některé Private party (v některých případech i současně chybějící PARTY_DOFBIRTH a PARTY_GENDER).  |
|PARTY_TOTBEF |Chybná syntaxe bez teček doplněna mezerami do délky 10. |
|PARTY_TITAFT |Chybná syntaxe bez teček doplněna mezerami do délky 10. |
|PARTY_ESA95 |starší klasifikace - je vhodné nahradit ESA2010. Chybějící záznamy pro Private party.| 
|PARTY_OKEC |Obsahuje pouze prázdné hodnoty. nejedná se o aktuální platnou klasifikaci. Je nutné ji nahradit CZ-NACE. |
|PARTY_SINCE |Hodnoty pouze v rozmezí 2 let, relativně v minulosti 10.  |



**PARTY_ADRESS**

In [8]:
Select TABLE_NAME AS ‚Nazev tabulky‘, 
COLUMN_NAME as ‚Nazev atributu‘, 
CHAR_SEM_ACC as ‚Semanticka Spravnost‘,
CHAR_SYN_ACC as ‚Syntakticka Spravnost‘, 
CHAR_COM as ‚Uplnost‘, 
CHAR_INT_CON as ‚Interni konzistentnost‘, 
CHAR_EXT_CON as ‚Externi konzistentnost‘ 
From DQM_MDR where TABLE_NAME = ‚PARTY_ADRESS‘ and COLUMN_NAME not like ‚%%DQM_%%‘; 

In [43]:
Select TABLE_NAME AS NazevTabulky, 
COLUMN_NAME as NazevAtributu, 
CHAR_SEM_ACC as SemantickaSpravnost, 
CHAR_SYN_ACC as SyntaktickaSpravnost, 
CHAR_COM as Uplnost, 
CHAR_INT_CON as InterniKonzistentnost,  
CHAR_EXT_CON as ExterniKonzistentnost 
From DQM_MDR WHERE TABLE_NAME = "PARTY_ADDRESS" and COLUMN_NAME not like '%%DQM_%%';

Unnamed: 0,NazevTabulky,NazevAtributu,SemantickaSpravnost,SyntaktickaSpravnost,Uplnost,InterniKonzistentnost,ExterniKonzistentnost
0,PARTY_ADDRESS,ADDR_ID,1.0,1.0,1.0,1.0,1.0
1,PARTY_ADDRESS,PARTY_ID,1.0,1.0,1.0,1.0,1.0
2,PARTY_ADDRESS,ADDR_TYPE,1.0,1.0,1.0,1.0,1.0
3,PARTY_ADDRESS,ADDR_COUNTRY,1.0,1.0,1.0,1.0,1.0
4,PARTY_ADDRESS,ADDR_CITY,1.0,1.0,1.0,1.0,1.0
5,PARTY_ADDRESS,ADDR_STREET,1.0,1.0,1.0,1.0,1.0
6,PARTY_ADDRESS,ADDR_NUM1,1.0,1.0,1.0,1.0,1.0
7,PARTY_ADDRESS,ADDR_NUM2,1.0,1.0,1.0,1.0,1.0
8,PARTY_ADDRESS,ADDR_ZIP,1.0,0.97909,1.0,1.0,1.0
9,PARTY_ADDRESS,ADDR_CODE,,,,1.0,1.0


|Atribut |Zjištění |
|-|-|
|ADDR_ID ||
|PARTY_ID |Část adres k sobě nemá odpovídající PARTY_ID v tabulce PART_PARTY. Zřejmě se jedná o neaktivní klienty, kteří byli fyzicky od mazané nebo o prospekty, u nichž není vyžadována adresa ale pouze kontaktní údaje. |
|ADDR_TYPE |Obsahuje pouze hodnoty z číselníku LOV_ADDR_TYPE. |
|ADDR_COUNTRY |Obsahuje konstantu CZE. |
|ADDR_CITY |Některé města začínají nealfanumerickými znaky. |
|ADRR_STREET |Obsahuje číslo popisné, resp. orientační/ písmeno adresy. |
|ADDR_NUM1 |neobsahuje žádné hodnoty |
|ADDR_NUM2 |neobsahuje žádné hodnoty |
|ADDR_ZIP |čas záznamu obsahuje fiktivní hodnoty, chybějící hodnoty, část záznamu je usekla. |



Tabulka obecně obsahuje poměrně malý počet atributů, a to i v rámci českého prostředí. Pokud se firma zaměřuje pouze na českou klientelu bylo by vhodné strukturu harmonizovat s územním registrem RUIAN, případně použít přímo RUIAN jako referenční tabulku adres a odkazovat se z PARTY_ADRESS pouze na její primární identifikátor. V případě že se firma orientuje i na zahraniční klientelu bylo by vhodné rozšířit tabulku o univerzální atributy jako je Address line 1, Address line 2 atd. Městska část a část obce je v současných datech řešena jako část ADDR_CITY, oddělena pomlčkou. V tabulce existuje více collations: utf8mb4_0900_ai_ci, utf8_czech_ci a bylo by obecně doporučeno nahradit utf8mb4_general_ci.  

**PARTY_CONTRACT**

In [9]:
Select TABLE_NAME AS ‚Nazev tabulky‘, 
COLUMN_NAME as ‚Nazev atributu‘, 
CHAR_SEM_ACC as ‚Semanticka Spravnost‘, 
CHAR_SYN_ACC as ‚Syntakticka Spravnost‘, 
CHAR_COM as ‚Uplnost‘, 
CHAR_INT_CON as ‚Interni konzistentnost‘,  
CHAR_EXT_CON as ‚Externi konzistentnost‘ 
From DQM_MDR where TABLE_NAME = ‚PARTY_CONTRACT‘ and COLUMN_NAME not like ‚%%DQM_%%‘; 

In [42]:
Select TABLE_NAME AS NazevTabulky, 
COLUMN_NAME as NazevAtributu, 
CHAR_SEM_ACC as SemantickaSpravnost, 
CHAR_SYN_ACC as SyntaktickaSpravnost, 
CHAR_COM as Uplnost, 
CHAR_INT_CON as InterniKonzistentnost,  
CHAR_EXT_CON as ExterniKonzistentnost 
From DQM_MDR WHERE TABLE_NAME = "PARTY_CONTACT" and COLUMN_NAME not like '%%DQM_%%';

Unnamed: 0,NazevTabulky,NazevAtributu,SemantickaSpravnost,SyntaktickaSpravnost,Uplnost,InterniKonzistentnost,ExterniKonzistentnost
0,PARTY_CONTACT,CONT_ID,1.0,1.0,1.0,1.0,1.0
1,PARTY_CONTACT,PARTY_ID,1.0,1.0,1.0,1.0,1.0
2,PARTY_CONTACT,CONT_TYPE,1.0,1.0,1.0,1.0,1.0
3,PARTY_CONTACT,CONT_PRIMARY_FLG,1.0,1.0,1.0,1.0,1.0
4,PARTY_CONTACT,CONT_VALUE,0.896118,0.759499,0.595496,1.0,1.0


|Atribut |Zjištění |
|-|-|
|COUNT_ID ||
|PARTY_ID ||
|CONT_TYPE |Hodnoty obsažené v lookup tabulce LKP_CONT_TYPE. |
|CONT_PRIMARY_FLG |Má význam preferovaného komunikačního kanálu, ale neobsahuje žádné hodnoty. |
|CONT_VALUE |**XXXXX telefonních čísel s nekorektní délkou. XXXXXX e-mailu nemá korektní syntaxi. Nejčastější důvody jsou nahrazeni @-># a mezery v části před zavináčem.**  |



**PROD_CONTRACT**

In [10]:
Select TABLE_NAME AS ‚Nazev tabulky‘, 
COLUMN_NAME as ‚Nazev atributu‘, 
CHAR_SEM_ACC as ‚Semanticka Spravnost‘, 
CHAR_SYN_ACC as ‚Syntakticka Spravnost‘, 
CHAR_COM as ‚Uplnost‘, 
CHAR_INT_CON as ‚Interni konzistentnost‘,  
CHAR_EXT_CON as ‚Externi konzistentnost‘ 
From DQM_MDR where TABLE_NAME = ‚PROD_CONTRACT‘ and COLUMN_NAME not like ‚%%DQM_%%‘; 

In [41]:
Select TABLE_NAME AS NazevTabulky, 
COLUMN_NAME as NazevAtributu, 
CHAR_SEM_ACC as SemantickaSpravnost, 
CHAR_SYN_ACC as SyntaktickaSpravnost, 
CHAR_COM as Uplnost, 
CHAR_INT_CON as InterniKonzistentnost,  
CHAR_EXT_CON as ExterniKonzistentnost 
From DQM_MDR WHERE TABLE_NAME = "PROD_CONTRACT" and COLUMN_NAME not like '%%DQM_%%'


Unnamed: 0,NazevTabulky,NazevAtributu,SemantickaSpravnost,SyntaktickaSpravnost,Uplnost,InterniKonzistentnost,ExterniKonzistentnost
0,PROD_CONTRACT,CNTR_ID,1.0,1.0,1.0,1.0,1.0
1,PROD_CONTRACT,PARTY_ID,1.0,1.0,1.0,1.0,1.0
2,PROD_CONTRACT,PRODUCT_CODE,0.975116,1.0,1.0,1.0,1.0
3,PROD_CONTRACT,CNTR_VALIDFROM,1.0,1.0,1.0,1.0,1.0
4,PROD_CONTRACT,CNTR_VALIDTO,1.0,1.0,1.0,1.0,1.0
5,PROD_CONTRACT,CNTR_CANCTYPE,1.0,1.0,0.635358,1.0,1.0
6,PROD_CONTRACT,CNTR_PAY_FREQ,1.0,0.902811,1.0,1.0,1.0


|Atribut |Zjištění |
|-|-|
|CNTR_ID ||
|PARTY_ID ||
|PRODUCT_CODE |Kódy produktu odpovídají produktovému katalogu. |
|CNTR_VALIDFROM ||
|CNTR_VALIDTO | **X záznamů s datem platnosti do před datem platnosti od.** |
|CNTR_CANCTYPE | **X záznamů s nevyplněným typem ukončení smlouvy s datem platnosti v minulosti.**|
|CNTR_PAY_FREQ |**X hodnot nedopovídajících číselníků LOV_PMT_FREQ.**  |



## Závěry auditorské zprávy

### Vyjádření k efektivnosti kontrol

- Absence kontrol proti referenčním registrům (RUIAN) 
- Chybí proces ověření místa původu v případě FO (Private Party), které je vyžadováno AML 
- Zcela chybí kontrola konzistentnosti rodného čísla proti pohlaví 
- Chybí kontrola referenční integrity mezi kontakty a klienty (existují osamocené kontaktní údaje bez navázaného klienta). Je otázkou, zda k tomuto jevu došlo v rámci přípravy dat pro audit (realizována pracování IT oddělení pojišťovny) nebo zda se jedná o skutečné porušení integritních omezení. 
- Kontroly rodného čísla povolují vložit nevalidní záznamy a záznamy končící mezerou 
- Kontroly rodného čísla a pohlaví umožňují vložit nekonzistentní záznamy 
- Je možně sjednat neplatný produkt (není zachyceno kontrolou proti produktovému katalogu) 
- Je možně vložit nestandardní frekvenci placeni 
- Je možně vložit syntakticky nevalidní email 
- V případě mobilních čísel není realizována kontrola prefixů mobilních operatorů 

### Nálezy a závěry

- V architektuře pojišťovny zcela chybí MDM Hub centralizující kmenová data klientů.  
- Vstupní kontroly duplicit jsou realizovány pouze na úrovní dvou oddělených provozních systémů. 
- Online pojištění má svou vlastní datovou bázi a je s provozním systémem neživotního pojištění integrováno až v okamžiku, kdy dojde k platbě prvního pojistného. 
- Klienti jsou v rámci aplikace pro online pojištění vždy nově zakládáni a stejně tak následně pří jejich importu do systému neživotního pojištění. 
- Provozní systém je napojen na oba systémy pro správu smluv, nicméně v rámci něj opět nedochází k deduplikaci klienta, neboť pro něj je stěžejní pohled přes jednotlivě ziskatele jednotlivých smluv, kteří mohou být u jednoho klienta rozdílné.  
- K deduplikaci nedochází ani na úrovni datového skladu. Klient je na jeho úrovni definován na bázi identifikátoru z primárního systému, resp. rodného čísla. 
- Absence kontrol atributů adresy proti registru RUIAN je hlavní překážkou proti zvýšeni jejich datové kvality. Dopady nekvalitních adresních atributů se negativně promítají do provozu, analýz a interního reportingu.  
- Zcela chybí standardizace adres, jednotlivě atributy ulice a čísla popisná a orientační jsou slity do jednoho atributu.  
- Neúplnost číselníku přípustných titulů před a za jménem oproti referenčnímu zdrojů. 

### Doporučení

- Vytvoření Data Governance/ Datové strategie a roadmapy 
- Konstrukce procesu vzniku nového pojistného produktu z pohledu dat 
- Implementace kanonického datového modelu 
- Odstranit atributy které nemají význam 
- Provést jednorázovou nápravu detekovaných nedostatků v datech 
- Zavést mechanismy pro standardizaci dat 
- Provést jednorázovou de-duplikaci záznamu klientů v CRM data martu 
- Zavést navrhované validační kontroly 
- Pseudonymizovat záznamy klientů, kteří již nemají žádnou aktivní smlouvu 
- Zavést regulární monitoring úrovně datové kvality  

**Zavedení principů Data Governance:** 
- Kontinuální zvyšování kvality dat směrem k požadované úrovni na základě use cases 
- Dvourychlostní Governance: Striktní Governancepro KeyData Elements 
- Použití mezinárodních standardů, kde je to možné 
- Použití referenčních zdrojů, kde je to možné 
- Stewardshipand Ownership 

### Doporučená implmentace dodatečných kontrol

- Chybí kontrola referenční integrity mezi kontakty a klienty (existují osamocené kontaktní údaje bez navázaného klienta). 
- Chybí kontrola proti referenčnímu registru RUIAN. 
- Chybí referenční zdroj pro PARTY_FORM. 

### Identifikovaná omezení při realizaci auditu

- Relativně úzké vymezení univerza auditu kvality dat (pro daná užití by bylo nutné použit celou řadu dalších atributů, která nebyla zahrnuta do univerza auditu). 
- Je diskutabilní, zda byly předány všechny relevantní záznamy klientů (podezření na chybějící záznamy prospektů). 
- Nedostupnost aktuálních referenčních registrů. 
- Nepostačujicí výkonnost HW přiděleného IT pojišťovny pro účely realizace auditu.  
- Nebyla umožněna interakce s uživateli dat. Z tohoto důvodu nebyly naměřeny subjektivní vlastnosti dat a nebylo provedeno dotazníkové šetření zaměřené na povědomí uživatelů o reálné úrovni objektivních vlastnosti dat. 

Audit byl realizován v souladu s ISACA IT Audit and Assurance Standards a dalšími profesními standardy, jako jsou: Zákon 93/2009 Sb. O auditorech (§20 Zpráva auditora), ISACA Standart S7-Reporting, ISACA Návod G20-Reporting. 

Vyhotoveno dne: 16.06.2022

Popis auditorů: Jan Klačmera, Mariia Kotienieva, Tomáš Karásek, Zoia Kostyreva, Daniel Jírovec 

## Přílohy

### Příloha č. 1: Datový model odpovídající univerzu auditu

In [40]:
select TABLE_NAME, COLUMN_NAME, COLUMN_DEFAULT, DATA_TYPE, COLLATION_NAME from DQM_MDR where COLUMN_NAME not like '%%DQM_%%'; 

Unnamed: 0,TABLE_NAME,COLUMN_NAME,COLUMN_DEFAULT,DATA_TYPE,COLLATION_NAME
0,PARTY_ADDRESS,ADDR_ID,,bigint,
1,PARTY_ADDRESS,PARTY_ID,0.0,bigint,
2,PARTY_ADDRESS,ADDR_TYPE,,varchar,utf8mb4_0900_ai_ci
3,PARTY_ADDRESS,ADDR_COUNTRY,,varchar,utf8mb4_0900_ai_ci
4,PARTY_ADDRESS,ADDR_CITY,,varchar,utf8_czech_ci
5,PARTY_ADDRESS,ADDR_STREET,,varchar,utf8_czech_ci
6,PARTY_ADDRESS,ADDR_NUM1,,varchar,utf8_czech_ci
7,PARTY_ADDRESS,ADDR_NUM2,,varchar,utf8_czech_ci
8,PARTY_ADDRESS,ADDR_ZIP,,char,utf8_czech_ci
9,PARTY_ADDRESS,ADDR_CODE,,bigint,


### Příloha č. 2: Doporučené čísleníky

|Číselník |Popis |URL |
|-|-|-|
|PARTY_FORM |Právní formy |https://opendata.czso.cz/data/od_org03/res_pl_nace.csv |
|RES |Registr ekonomických subjektů |https://opendata.czso.cz/data/od_org03/res_data.csv |
|RUIAN |Registr územní identifikace, adres a nemovitostí |https://cuzk.cz/ruian/RUIAN.aspx |

