In [1]:
import sys
from pathlib import Path

# Add project root to Python path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

# Import project paths
from src.helpers.config import DATA_DIR
from src.helpers.utils import (
    get_files_paths,
    load_files,
    filter_dataframe,
    analyze_dataframe,
    write_csv,
    fill_missing_values_based_on_column_mapping,
)

# Load dataframe

In [2]:
dataset_name = "statystyki_porad"

In [3]:
file_paths = get_files_paths(Path(DATA_DIR / "raw"), dataset_name, "csv")
df_raw = load_files(file_paths)

# Analyze dataframe

In [4]:
df_raw.shape

(58691965, 14)

In [5]:
df_raw.head(2)

Unnamed: 0,Nazwa świadczeniodawcy,Województwo,Powiat,Gmina,Specjalność komórki,Miesiąc,Rok,Kod ICD-10 poziom 3.,Nazwa ICD-10 poziom 3.,Kod ICD-10 poziom 2.,Nazwa ICD-10 poziom 2.,Kod ICD-10 poziom 1.,Nazwa ICD-10 poziom 1.,Liczba porad AOS
0,105 Kresowy Szpital Wojskowy Z Przychodnią sp....,dolnośląskie,bolesławiecki,Osiecznica,poradnia położniczo-ginekologiczna,1,2016,N76,Inne stany zapalne pochwy i sromu,N70-N77,Choroby zapalne narządów miednicy u kobiet,N00-N99,Choroby układu moczowo-płciowego,2
1,105 Kresowy Szpital Wojskowy Z Przychodnią sp....,dolnośląskie,bolesławiecki,Osiecznica,poradnia położniczo-ginekologiczna,1,2016,N80,Gruczolistość środmaciczna (endometrioza),N80-N98,Niezapalne choroby żeńskiego układu rozrodczego,N00-N99,Choroby układu moczowo-płciowego,1


In [6]:
nan_analysis = analyze_dataframe(df_raw)
nan_analysis

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Nazwa świadczeniodawcy,54330,0.092568,6392,object
1,Województwo,54330,0.092568,16,object
2,Powiat,0,0.0,368,object
3,Gmina,54330,0.092568,1406,object
4,Specjalność komórki,0,0.0,163,object
5,Miesiąc,0,0.0,12,int64
6,Rok,0,0.0,8,int64
7,Kod ICD-10 poziom 3.,126,0.000215,2040,object
8,Nazwa ICD-10 poziom 3.,126,0.000215,2040,object
9,Kod ICD-10 poziom 2.,126,0.000215,263,object


In [7]:
col = "Specjalność komórki"

In [8]:
df_raw[col].unique()

array(['poradnia położniczo-ginekologiczna', 'poradnia endokrynologiczna',
       'poradnia chirurgii urazowo-ortopedycznej',
       'poradnia onkologiczna', 'poradnia otorynolaryngologiczna',
       'poradnia neurologiczna', 'poradnia reumatologiczna',
       'poradnia okulistyczna', 'poradnia kardiologiczna',
       'poradnia dermatologiczna', 'pracownia tomografii komputerowej',
       'poradnia gruźlicy i chorób płuc', 'poradnia logopedyczna',
       'poradnia chorób zakaźnych', 'poradnia chirurgii ogólnej',
       'poradnia urologiczna', 'pracownia endoskopii',
       'poradnia neonatologiczna', 'poradnia diabetologiczna',
       'poradnia nadciśnienia tętniczego',
       'poradnia gastroenterologiczna', 'poradnia alergologiczna',
       'poradnia leczenia bólu', 'poradnia chirurgii onkologicznej',
       'poradnia chorób płuc', 'poradnia foniatryczna',
       'poradnia proktologiczna', 'pracownia rezonansu magnetycznego',
       'poradnia medycyny sportowej', 'poradnia neurologic

# Filter dataframe

In [9]:
speciality = "poradnia okulistyczna"

In [10]:
filter_dict = {col: speciality}
df = filter_dataframe(df_raw, filter_dict=filter_dict)

In [11]:
df.shape

(3078078, 14)

In [12]:
analyze_dataframe(df)

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Nazwa świadczeniodawcy,2840,0.092265,1747,object
1,Województwo,2840,0.092265,16,object
2,Powiat,0,0.0,356,object
3,Gmina,2840,0.092265,654,object
4,Specjalność komórki,0,0.0,1,object
5,Miesiąc,0,0.0,12,int64
6,Rok,0,0.0,8,int64
7,Kod ICD-10 poziom 3.,23,0.000747,1364,object
8,Nazwa ICD-10 poziom 3.,23,0.000747,1364,object
9,Kod ICD-10 poziom 2.,23,0.000747,249,object


## 23 rows with missing values in ICD-10

In [13]:
df[df["Kod ICD-10 poziom 1."].isna()].shape

(23, 14)

In [14]:
df[df["Kod ICD-10 poziom 1."].isna()]

Unnamed: 0,Nazwa świadczeniodawcy,Województwo,Powiat,Gmina,Specjalność komórki,Miesiąc,Rok,Kod ICD-10 poziom 3.,Nazwa ICD-10 poziom 3.,Kod ICD-10 poziom 2.,Nazwa ICD-10 poziom 2.,Kod ICD-10 poziom 1.,Nazwa ICD-10 poziom 1.,Liczba porad AOS
4849767,"NZOZ ""Ocumed"" Poradnia Okulistyczna",wielkopolskie,m. Leszno,Leszno,poradnia okulistyczna,9,2016,,,,,,,1
35919068,NZOZ Cito - Med,dolnośląskie,jeleniogórski,Kowary,poradnia okulistyczna,12,2021,,,,,,,1
41505914,Centrum Medyczne Niemcewicza,łódzkie,m. Łódź,Łódź-Górna,poradnia okulistyczna,9,2021,,,,,,,2
41506013,Centrum Medyczne Niemcewicza,łódzkie,m. Łódź,Łódź-Górna,poradnia okulistyczna,10,2021,,,,,,,1
41846560,NZOZ Wigor,łódzkie,łowicki,Łowicz,poradnia okulistyczna,11,2021,,,,,,,1
41846575,NZOZ Wigor,łódzkie,łowicki,Łowicz,poradnia okulistyczna,12,2021,,,,,,,2
44687402,Prywatny Gabinet Okulistyczny Anita Ryfun - Hn...,lubuskie,słubicki,Słubice,poradnia okulistyczna,1,2022,,,,,,,2
44687452,Prywatny Gabinet Okulistyczny Anita Ryfun - Hn...,lubuskie,słubicki,Słubice,poradnia okulistyczna,3,2022,,,,,,,9
44687553,Prywatny Gabinet Okulistyczny Anita Ryfun - Hn...,lubuskie,słubicki,Słubice,poradnia okulistyczna,7,2022,,,,,,,2
44687576,Prywatny Gabinet Okulistyczny Anita Ryfun - Hn...,lubuskie,słubicki,Słubice,poradnia okulistyczna,8,2022,,,,,,,5


## 2840 rows with missing values in Województwo

In [15]:
df[
    df["Województwo"].isna()
    & (df["Powiat"].notna() | df["Nazwa świadczeniodawcy"].notna())
].shape


(2840, 14)

In [16]:
df = fill_missing_values_based_on_column_mapping(
    df, target_col="Województwo", reference_col="Powiat"
)

In [17]:
df[
    df["Województwo"].isna()
    & (df["Powiat"].notna() | df["Nazwa świadczeniodawcy"].notna())
].shape

(0, 14)

# Save processed dataframe

In [18]:
file_path = Path(
    DATA_DIR / "processed" / f"{dataset_name}_{speciality.replace(' ', '_')}.csv"
)
file_path

WindowsPath('c:/Users/huber/OneDrive/Dokumenty/GitHub/mz_raport/data/processed/statystyki_porad_poradnia_okulistyczna.csv')

In [19]:
write_csv(df, file_path)

CSV file successfully written to: c:\Users\huber\OneDrive\Dokumenty\GitHub\mz_raport\data\processed\statystyki_porad_poradnia_okulistyczna.csv
