In [1]:
import sys
from pathlib import Path

# Add project root to Python path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

# Import project paths
from src.helpers.config import DATA_DIR
from src.helpers.utils import (
    get_files_paths,
    load_files,
    filter_dataframe,
    analyze_dataframe,
    write_csv,
)

# Load dataframe

In [2]:
dataset_name = "problemy_zdrowotne_icd10"

In [3]:
file_paths = get_files_paths(Path(DATA_DIR / "raw"), dataset_name, "csv")
df_raw = load_files(file_paths)

# Analyze dataframe

In [4]:
df_raw.shape

(4933415, 12)

In [5]:
df_raw.head(2)

Unnamed: 0,Rok,Województwo,Specjalność komórki,Grupa wiekowa,Płeć,Kod ICD-10 poziom 3.,Nazwa ICD-10 poziom 3.,Kod ICD-10 poziom 2.,Nazwa ICD-10 poziom 2.,Kod ICD-10 poziom 1.,Nazwa ICD-10 poziom 1.,Liczba porad AOS
0,2016,dolnośląskie,poradnia chorób zakaźnych,18-39,Kobiety,A04,Inne bakteryjne zakażenia jelitowe,A00-A09,Choroby zakaźne jelit,A00-B99,Wybrane choroby zakaźne i pasożytnicze,3
1,2016,dolnośląskie,pracownia tomografii komputerowej,18-39,Kobiety,A04,Inne bakteryjne zakażenia jelitowe,A00-A09,Choroby zakaźne jelit,A00-B99,Wybrane choroby zakaźne i pasożytnicze,1


In [6]:
nan_analysis = analyze_dataframe(df_raw)
nan_analysis

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Rok,0,0.0,8,int64
1,Województwo,0,0.0,16,object
2,Specjalność komórki,0,0.0,163,object
3,Grupa wiekowa,0,0.0,4,object
4,Płeć,0,0.0,2,object
5,Kod ICD-10 poziom 3.,0,0.0,2041,object
6,Nazwa ICD-10 poziom 3.,0,0.0,2041,object
7,Kod ICD-10 poziom 2.,0,0.0,264,object
8,Nazwa ICD-10 poziom 2.,0,0.0,264,object
9,Kod ICD-10 poziom 1.,0,0.0,23,object


In [7]:
col = "Specjalność komórki"

In [8]:
df_raw[col].unique()

array(['poradnia chorób zakaźnych', 'pracownia tomografii komputerowej',
       'poradnia gastroenterologiczna', 'poradnia gruźlicy i chorób płuc',
       'poradnia chorób płuc', 'poradnia dermatologiczna',
       'poradnia położniczo-ginekologiczna', 'poradnia chemioterapii',
       'poradnia gruźlicy i chorób płuc dla dzieci',
       'poradnia otorynolaryngologiczna', 'poradnia chirurgii ogólnej',
       'poradnia chirurgii urazowo-ortopedycznej',
       'pracownia rezonansu magnetycznego', 'poradnia ginekologiczna',
       'poradnia chirurgii plastycznej', 'poradnia genetyczna',
       'poradnia endokrynologiczna', 'poradnia neurologiczna',
       'poradnia reumatologiczna', 'poradnia chorób zakaźnych dla dzieci',
       'poradnia alergologiczna', 'poradnia onkologiczna',
       'poradnia chirurgii szczękowo-twarzowej', 'poradnia okulistyczna',
       'poradnia chirurgii ogólnej dla dzieci',
       'poradnia chorób metabolicznych', 'poradnia hepatologiczna',
       'poradnia wzw', '

# Filter dataframe

In [9]:
speciality = "poradnia okulistyczna"

In [10]:
filter_dict = {col: speciality}
df = filter_dataframe(df_raw, filter_dict=filter_dict)

In [11]:
df.shape

(106253, 12)

# Save processed dataframe

In [18]:
file_path = Path(
    DATA_DIR / "processed" / f"{dataset_name}_{speciality.replace(' ', '_')}.csv"
)
file_path

WindowsPath('c:/Users/huber/OneDrive/Dokumenty/GitHub/mz_raport/data/processed/problemy_zdrowotne_icd10_poradnia_okulistyczna.csv')

In [19]:
write_csv(df, file_path)

CSV file successfully written to: c:\Users\huber\OneDrive\Dokumenty\GitHub\mz_raport\data\processed\problemy_zdrowotne_icd10_poradnia_okulistyczna.csv
