In [1]:
import sys
sys.path.append('../utils/')
from parsing import *
import pandas as pd
import re

import warnings
warnings.filterwarnings("ignore")

PATH_INTERMEDIATE = '../../data/intermediate/'
PATH_RAW = '../../data/raw/'
PATH_FINAL = '../../data/final/'

## OZP

In [41]:
insurance_companies = pd.DataFrame()

In [42]:
ozp = pd.read_excel(PATH_RAW+'ic/ozp.xlsx')

In [43]:
ozp.columns = ['year', 'facility_id', 'expertise', 'count'] # rok, identifikacni cislo strediska, odbornost, pocet vykonu
ozp['insurance_company'] = 'OZP'
ozp.info()
insurance_companies = insurance_companies.append(ozp)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343327 entries, 0 to 343326
Data columns (total 5 columns):
year                 343327 non-null int64
facility_id          343327 non-null int64
expertise            343325 non-null object
count                343327 non-null int64
insurance_company    343327 non-null object
dtypes: int64(3), object(2)
memory usage: 13.1+ MB


## VZP

In [44]:
vzp = pd.read_excel(PATH_RAW+'ic/vzp.xlsx')

In [45]:
vzp.columns = ['year', 'expertise', 'procedure_code', 'region', 'count'] # rok, odbornost, kod vykonu, region, pocet vykonu
vzp['insurance_company'] = 'VZP'
vzp.info()
insurance_companies = insurance_companies.append(vzp)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 455390 entries, 0 to 455389
Data columns (total 6 columns):
year                 455390 non-null int64
expertise            455390 non-null object
procedure_code       455390 non-null int64
region               455390 non-null object
count                455390 non-null int64
insurance_company    455390 non-null object
dtypes: int64(3), object(3)
memory usage: 20.8+ MB


## SKODA

In [46]:
skoda = pd.read_csv(PATH_RAW+'ic/skoda.csv', sep=';', usecols=['odb','sum_vykony','ico','rok'])

In [47]:
skoda.columns = ['expertise', 'count', 'facility_id', 'year'] # rok, odbornost, kod vykonu, region, pocet vykonu
skoda['insurance_company'] = 'SKODA'
skoda.info()
insurance_companies = insurance_companies.append(skoda)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80502 entries, 0 to 80501
Data columns (total 5 columns):
expertise            80491 non-null object
count                80502 non-null int64
facility_id          80435 non-null float64
year                 80502 non-null int64
insurance_company    80502 non-null object
dtypes: float64(1), int64(2), object(2)
memory usage: 3.1+ MB


In [36]:
insurance_companies.rename(columns={'expertise':'expertise_code'})

insurance_companies.reset_index().to_feather(PATH_INTERMEDIATE+'insurance_companies.ftr')
insurance_companies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 879219 entries, 0 to 80501
Data columns (total 7 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   count              879219 non-null  int64  
 1   expertise_code     879206 non-null  object 
 2   facilities_id      423762 non-null  float64
 3   insurance_company  879219 non-null  object 
 4   procedure_code     455390 non-null  float64
 5   region             455390 non-null  object 
 6   year               879219 non-null  int64  
dtypes: float64(2), int64(2), object(3)
memory usage: 53.7+ MB


## Codes name

In [2]:
ic = pd.read_feather(PATH_INTERMEDIATE+'insurance_companies.ftr').set_index('index')

ic = ic.rename(columns={'expertise':'expertise_code',
                        'facilities_id' : 'ico'})

In [5]:
with open(PATH_RAW+'ic/ODBORN', 'r', encoding="utf-8") as f:
    codes = pd.DataFrame([x.split(';') for x in f.read().splitlines()], columns=['expertise_code', 'expertise_name'])

In [6]:
# set(codes.expertise_code_code.unique()).difference(set(ic.expertise_code.unique()))
unknown_exp = set(ic.expertise_code.unique()).difference(set(codes.expertise_code.unique()))
unknown_count = ic[ic.expertise_code.isin(unknown_exp)]['count'].sum()
total_count = ic['count'].sum()

print(f'Počet nepřiřazených záznamů: {ic[ic.expertise_code.isin(unknown_exp)].shape[0]}/{ic.shape[0]} ({round(100*ic[ic.expertise_code.isin(unknown_exp)].shape[0]/ic.shape[0],2)} %)')
print(f'Počet výkonů z nepřiřazených záznamů: {unknown_count}/{total_count} ({round(100*unknown_count/total_count,2)} %)')

Počet nepřiřazených záznamů: 53154/879219 (6.05 %)
Počet výkonů z nepřiřazených záznamů: 347225075/4953258809 (7.01 %)


In [19]:
ic = ic[~ic.expertise_code.isin(unknown_exp) & (ic['count'] > 75)]
ic_total = pd.merge(ic,codes, on=['expertise_code'])

In [52]:
ic_total.to_csv(PATH_FINAL+'insurances.csv', index=True)

Unnamed: 0,count,expertise_code,ico,insurance_company,procedure_code,region,year,expertise_name
0,122,001,69909041.0,OZP,,,2012,praktické lékařství pro dospělé
1,170,001,67011080.0,OZP,,,2015,praktické lékařství pro dospělé
2,198,001,24235164.0,OZP,,,2016,praktické lékařství pro dospělé
3,247,001,18231454.0,OZP,,,2016,praktické lékařství pro dospělé
4,952,001,60700904.0,OZP,,,2011,praktické lékařství pro dospělé
...,...,...,...,...,...,...,...,...
442375,592,7U5,195201.0,SKODA,,,2021,dlouhodobá (chronická) ústavní lůžková péče o...
442376,710,7U5,195201.0,SKODA,,,2017,dlouhodobá (chronická) ústavní lůžková péče o...
442377,1197,7U5,195201.0,SKODA,,,2019,dlouhodobá (chronická) ústavní lůžková péče o...
442378,984,7U5,195201.0,SKODA,,,2020,dlouhodobá (chronická) ústavní lůžková péče o...


### Time and expenses

In [36]:
import tabula
df = tabula.read_pdf('https://media.vzpstatic.cz/media/Default/dokumenty/ciselniky/vykony_01336.pdf', pages='all')

In [34]:
dial_df = pd.concat(df)
dial_df = dial_df.drop_duplicates().dropna()
new_header = dial_df.iloc[0]
dial_df = dial_df[1:]
dial_df.columns = new_header
dial_df = dial_df[['KOD', 'ODB', 'NAZ', 'TVY', 'CTN']]
dial_df.columns = ['procedure_code', 'expertise_code', 'procedure_name', 'time_individual', 'time_total']
dial_df

IndexError: single positional indexer is out-of-bounds

In [4]:
# https://www.vzp.cz/poskytovatele/ciselniky/zdravotni-vykony
# https://szv.mzcr.cz/Vykon?page=0

dial_df2 = pd.DataFrame()
for i in range(4):
    x = pd.read_html(f'https://szv.mzcr.cz/Ciselnik/Odbornost?page={i}') # 10.11.2022
    dial_df2 = dial_df2.append(x[0])

dial_df2 = dial_df2.drop_duplicates()
dial_df2 = dial_df2[['Kód', 'Název', 'Sazba režie']]
dial_df2.columns = ['expertise_code', 'expertise_name', 'tariff']
dial_df2.expertise_code = dial_df2.expertise_code.apply(lambda n:f'{n:03}')

In [5]:
dial_dfs = pd.merge(dial_df, dial_df2, on='expertise_code', how='right')
dial_dfs['expertise_name'] = dial_dfs['expertise_name'].apply(lambda x: x.split('-')[0].strip())
dial_dfs

Unnamed: 0,procedure_code,expertise_code,procedure_name,time_individual,time_total,expertise_name,tariff
0,00130,304,DLOUHODOBÁ MIMOTĚLNÍ RESPIRAČNÍ PODPORA\rNOVOR...,480.0,1920.0,neonatologie,351
1,00132,304,VYŠETŘENÍ DÍTĚTE S VÝZNAMNÝM PERINATÁLNÍM RIZIKEM,70.0,70.0,neonatologie,351
2,07177,505,(DRG) NÁHRADA OBLOKU AORTY KOMPLETNÍ NEBO\rČÁS...,0.0,0.0,kardiochirurgie,421
3,07178,505,(DRG) NÁHRADA OBLOUKU AORTY PROTÉZOU - ČÁSTEČN...,0.0,0.0,kardiochirurgie,421
4,07179,505,(DRG) PLASTIKA OBLOUKU AORTY ZÁPLATOU,0.0,0.0,kardiochirurgie,421
...,...,...,...,...,...,...,...
1543,,812,,,,laboratoř farmakologie a toxikologie léčiv,351
1544,,814,,,,laboratoř toxikologická,351
1545,,815,,,,laboratoř nukleární medicíny,351
1546,,819,,,,laboratoř pro univerzální výkony,351


In [6]:
ic = pd.read_csv(PATH_FINAL+'insurances.csv', index_col=0)
ic.expertise_code = ic.expertise_code.apply(lambda n:f"{n:0>3}".format(num="1"))

In [31]:
dial_dfs['expertise_name'].unique()

array(['neonatologie', 'kardiochirurgie', 'chirurgie', 'cévní chirurgie',
       'gynekologie a porodnictví', 'dětská chirurgie',
       'úrazová chirurgie (traumatologie)', 'plastická chirurgie',
       'popáleninová medicína', 'dětská gynekologie', 'ortopedie',
       'otorinolaryngologie', 'urologie',
       'anesteziologie a intenzivní medicína', 'kardiologie',
       'vnitřní lékařství', 'nukleární medicína', 'ortopedická protetika',
       'oftalmologie', 'dětská urologie', 'klinická biochemie',
       'laboratoř alergologická a imunologická',
       'laboratoř lékařské genetiky', 'laboratoř klinické cytologie',
       'laboratoř hematologická', 'všeobecné praktické lékařství',
       'praktické lékařství pro děti a dorost', 'nemocniční lékárenství',
       'klinická farmacie', 'klinická stomatologie', 'ortodoncie',
       'angiologie', 'diabetologie', 'endokrinologie',
       'gastroenterologie', 'geriatrie', 'nefrologie', 'revmatologie',
       'klinická osteologie', 'medicína 

In [25]:
'otorinolaryngologie a chirurgie hlavy a krku', 'pediatrie',
       'oftalmologie', 'psychiatrie',
       'anesteziologie a intenzivní medicína', 'klinická onkologie',
       'radiační onkologie', 'gastroenterologie', 'vnitřní lékařství',
       'soudní lékařství', 'dermatovenerologie', 'geriatrie',
       'lékařská imunologie', 'alergologie a klinická imunologie',
       'radiologie a zobrazovací metody', 'urologie',
       'pneumologie a ftizeologie', 'lékařská genetika',
       'gynekologie a porodnictví', 'všeobecné praktické lékařství',
       'endokrinologie a diabetologie', 'foniatrie', 'dětská psychiatrie',
       'urgentní medicína', 'chirurgie', 'neurologie',
       'klinická biochemie',
       'fyziatrie, balneologie a léčebná rehabilitace',
       'gynekologie dětí a dospívajících', 'hygiena a epidemiologie',
       'infekční lékařství',
       'ortopedie a traumatologie pohybového ústrojí', 'kardiologie',
       'tuberkulóza a respirační nemoci', 'cévní chirurgie',
       'lékařská mikrobiologie', 'rehabilitační a fyzikální medicína',
       'urogynekologie', 'onkogynekologie',
       'perinatologie a fetomaternální medicína', 'angiologie',
       'kardiochirurgie', 'dětská chirurgie',
       'hematologie a transfuzní lékařství', 'plastická chirurgie',
       'tělovýchovné lékařství', 'dětská neurologie',
       'intervenční radiologie', 'intenzívní medicína',
       'dětská otorinolaryngologie',
       'sociální lékařství a organizace zdravotnictví',
       'dětská endokrinologie a diabetologie', 'neonatologie',
       'nefrologie', 'revmatologie', 'klinická farmakologie',
       'onkochirurgie', 'patologie', 'dětská hygiena',
       'korektivní dermatologie', 'dětská kardiologie',
       'úrazová chirurgie', 'nukleární medicína', 'onkourologie',
       'reprodukční medicína', 'dětská gastroenterologie a hepatologie',
       'paliativní medicína', 'gerontopsychiatrie', 'dětská nefrologie',
       'neurochirurgie', 'klinická výživa a intenzivní metabolická péče',
       'návykové nemoci', 'dětská dermatovenerologie',
       'veřejné zdravotnictví', 'psychosomatika', 'lékařská virologie',
       'sexuologie', 'maxilofaciální chirurgie', 'hygiena výživy',
       'dětská urologie', 'pracovní lékařství', 'neuroradiologie',
       'algeziologie', 'hrudní chirurgie',
       'vaskulární intervenční radiologie',
       'hyperbarická medicína a oxygenoterapie', 'lékařská parazitologie',
       'biomedicinská kybernetika', 'dětská onkologie a hematologie',
       'koloproktologie', 'dětská pneumologie', 'dětská radiologie',
       'klinická osteologie',
       'tuberkulóza a respirační nemoci v dětském věku',
       'medicína dlouhodobé péče', 'popáleninová medicína',
       'lékařská bakteriologie', 'spondylochirurgie',
       'dětská revmatologie', 'stomatologie'

array(['otorinolaryngologie a chirurgie hlavy a krku', 'pediatrie',
       'oftalmologie', 'psychiatrie',
       'anesteziologie a intenzivní medicína', 'klinická onkologie',
       'radiační onkologie', 'gastroenterologie', 'vnitřní lékařství',
       'soudní lékařství', 'dermatovenerologie', 'geriatrie',
       'lékařská imunologie', 'alergologie a klinická imunologie',
       'radiologie a zobrazovací metody', 'urologie',
       'pneumologie a ftizeologie', 'lékařská genetika',
       'gynekologie a porodnictví', 'všeobecné praktické lékařství',
       'endokrinologie a diabetologie', 'foniatrie', 'dětská psychiatrie',
       'urgentní medicína', 'chirurgie', 'neurologie',
       'klinická biochemie',
       'fyziatrie, balneologie a léčebná rehabilitace',
       'gynekologie dětí a dospívajících', 'hygiena a epidemiologie',
       'infekční lékařství',
       'ortopedie a traumatologie pohybového ústrojí', 'kardiologie',
       'tuberkulóza a respirační nemoci', 'cévní chirurgie',


In [32]:
expertises_to_specialty = {
    'nemocniční lékárenství' : 'nemocniční lékárenství',
    'angiologie' : 'angiologie',
    'gastroenterologie' : 'gastroenterologie',
    'geriatrie' : 'geriatrie',
    'nefrologie' : 'nefrologie',
    'revmatologie' : 'revmatologie',
    'klinická osteologie' : 'klinická osteologie',
    'medicína dlouhodobé péče' : 'medicína dlouhodobé péče',
    'infekční lékařství' : 'infekční lékařství',
    'tělovýchovné lékařství' : 'tělovýchovné lékařství',
    'pneumologie a ftizeologie' : 'pneumologie a ftizeologie',
    'klinická farmakologie' : 'klinická farmakologie',
    'alergologie a klinická imunologie' : 'alergologie a klinická imunologie',
    'lékařská genetika' : 'lékařská genetika',
    'neurologie' : 'neurologie',
    'dětská neurologie' : 'dětská neurologie',
    'dětská kardiologie' : 'dětská kardiologie',
    'psychiatrie' : 'psychiatrie',
    'návykové nemoci' : 'návykové nemoci',
    'sexuologie' : 'sexuologie',
    'centrum duševního zdraví' : 'centrum duševního zdraví',
    'Centrum duševního zdraví pro děti a dorost' : 'Centrum duševního zdraví pro děti a dorost',
    'pracovní lékařství' : 'pracovní lékařství',
    'klinická onkologie' : 'klinická onkologie',
    'radiační onkologie' : 'radiační onkologie',
    'dermatovenerologie' : 'dermatovenerologie',
    'dětská dermatologie' : 'dětská dermatologie',
    'korektivní dermatologie' : 'korektivní dermatologie',
    'neurochirurgie' : 'neurochirurgie',
    'hrudní chirurgie' : 'hrudní chirurgie',
    'algeziologie' : 'algeziologie',
    'foniatrie' : 'foniatrie',
    'dětská otorinolaryngologie' : 'dětská otorinolaryngologie',
    'urgentní medicína' : 'urgentní medicína',
    'paliativní medicína' : 'paliativní medicína',
    'hyperbarická a letecká medicína' : 'hyperbarická medicína a oxygenoterapie',
    'přeprava pacientů neodkladné péče' : 'přeprava pacientů neodkladné péče',
    'lékařská mikrobiologie' : 'lékařská mikrobiologie',
    'mamografický screening' : 'radiologie a zobrazovací metody',
    'patologická anatomie' : 'patologie',
    'soudní lékařství' : 'soudní lékařství',
    'radiologie a zobrazovací metody' : 'radiologie a zobrazovací metody',
    'transfuzní lékařství' : 'hematologie a transfuzní lékařství',
    'dětské lékařství' : 'pediatrie',
    'dorostové lékařství' : 'pediatrie',
    'orální a maxilofaciální chirurgie' : 'maxilofaciální chirurgie',
    'dětská a dorostová psychiatrie' : 'dětská psychiatrie',
    'klinická farmacie' : 'klinická farmakologie',
    'klinická stomatologie' : 'stomatologie',
    'ortodoncie' : 'stomatologie',
    'pracoviště hemodialýzy' : 'nefrologie',
    'rehabilitační a fyzikální medicína' : '',
    'hematologie' : 'hematologie a transfuzní lékařství',
    'diabetologie' : 'endokrinologie a diabetologie',
    'endokrinologie' : 'endokrinologie a diabetologie',
    'neonatologie':'neonatologie',
    'kardiochirurgie':'kardiochirurgie',
    'chirurgie':'chirurgie',
    'cévní chirurgie':'cévní chirurgie',
    'gynekologie a porodnictví':'gynekologie a porodnictví',
    'dětská chirurgie':'dětská chirurgie',
    'úrazová chirurgie (traumatologie)':'ortopedie a traumatologie pohybového ústrojí',
    'plastická chirurgie':'plastická chirurgie',
    'popáleninová medicína':'popáleninová medicína',
    'dětská gynekologie':'gynekologie dětí a dospívajících',
    'ortopedie':'ortopedie a traumatologie pohybového ústrojí',
    'otorinolaryngologie':'otorinolaryngologie a chirurgie hlavy a krku',
    'urologie':'urologie',
    'anesteziologie a intenzivní medicína':'anesteziologie a intenzivní medicína',
    'kardiologie':'kardiologie',
    'vnitřní lékařství - interna':'vnitřní lékařství',
    'nukleární medicína':'nukleární medicína',
    'ortopedická protetika' : 'ortopedie a traumatologie pohybového ústrojí',
    'oftalmologie' : 'oftalmologie',
    'dětská urologie' : 'dětská urologie',
    'klinická biochemie' : 'klinická biochemie',
    'laboratoř alergologická a imunologická' : 'laboratoř alergologická a imunologická',
    'laboratoř lékařské genetiky' : 'laboratoř lékařské genetiky',
    'laboratoř klinické cytologie' : 'laboratoř klinické cytologie',
    'laboratoř hematologická' : 'laboratoř hematologická',
    'laboratoř farmakologie a toxikologie léčiv' : 'laboratoř farmakologie a toxikologie léčiv',
    'laboratoř toxikologická' : 'laboratoř toxikologická',
    'laboratoř nukleární medicíny' : 'laboratoř nukleární medicíny',
    'laboratoř pro univerzální výkony' : 'laboratoř pro univerzální výkony',
    'laboratoř patologie' : 'laboratoř patologie',
    'všeobecné praktické lékařství' : 'všeobecné praktické lékařství',
    'praktické lékařství pro děti a dorost' : 'pediatrie',
}


## NRPZS

In [16]:
# nrpzs = pd.read_csv('https://opendata.mzcr.cz/data/nrpzs/narodni-registr-poskytovatelu-zdravotnich-sluzeb.csv') # 25. 9. 2022
nrpzs = pd.read_csv(PATH_RAW+'nrpzs.csv')

nrpzs.columns = [re.sub(r"(?<=[a-z])([A-Z])", r"_\1", x).lower() for x in nrpzs.columns]

not_required = ['Lékárna',
                'Samostatné zařízení fyzioterapeuta',
                'Zdravotnická zachranná služba',
                'Výdejna zdravotnických prostředků']
nrpzs = nrpzs[~nrpzs.druh_zarizeni.isin(not_required)].reset_index(drop=True)

nrpzs = nrpzs[[x for x in nrpzs.columns if not 'poskytovatel_' in x]]


nrpzs.loc[nrpzs.okres == 'území Hlavního města Prahy', 'okres'] = 'Hlavní město Praha'
nrpzs.loc[nrpzs.okres.isna() & (nrpzs.kraj == 'Hlavní město Praha'), 'okres'] = 'Hlavní město Praha'
nrpzs.loc[nrpzs.kraj.isna() & (nrpzs.okres == 'Hlavní město Praha'), 'kraj'] = 'Hlavní město Praha'
nrpzs.loc[nrpzs.kraj.isna() & (nrpzs.okres == 'Náchod'), 'kraj'] = 'Královéhradecký kraj'
nrpzs.loc[nrpzs.kraj.isna() & (nrpzs.okres == 'Pelhřimov'), 'kraj'] = 'Kraj Vysočina'

nrpzs.to_csv(PATH_FINAL+'nrpzs.csv')