In [1]:
import sys
from pathlib import Path

# Add project root to Python path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

# Import project paths
from src.helpers.config import DATA_DIR
from src.helpers.utils import (
    get_files_paths,
    load_files,
    filter_dataframe,
    analyze_dataframe,
    write_csv,
)

# Load dataframe

In [2]:
dataset_name = "swiad_pow"

In [3]:
file_paths = get_files_paths(Path(DATA_DIR / "raw"), dataset_name, "csv")
df_raw = load_files(file_paths)

# Analyze dataframe

In [4]:
df_raw.shape

(75608, 9)

In [5]:
df_raw.head(2)

Unnamed: 0,Rok,Województwo,Powiat,Populacja,Specjalność komórki,Liczba porad AOS,Liczba porad AOS/1 tys. mieszk.,Liczba poradni AOS,Liczba poradni AOS/10 tys. mieszk.
0,2016,dolnośląskie,bolesławiecki,90180,poradnia chirurgii ogólnej,21082,233.78,1,0.11
1,2016,dolnośląskie,bolesławiecki,90180,poradnia chirurgii urazowo-ortopedycznej,7961,88.28,2,0.22


In [6]:
nan_analysis = analyze_dataframe(df_raw)
nan_analysis

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Rok,0,0.0,8,int64
1,Województwo,0,0.0,16,object
2,Powiat,0,0.0,368,object
3,Populacja,0,0.0,2983,int64
4,Specjalność komórki,0,0.0,163,object
5,Liczba porad AOS,0,0.0,21397,int64
6,Liczba porad AOS/1 tys. mieszk.,0,0.0,21244,float64
7,Liczba poradni AOS,0,0.0,72,int64
8,Liczba poradni AOS/10 tys. mieszk.,0,0.0,177,float64


In [7]:
col = "Specjalność komórki"

In [8]:
df_raw[col].unique()

array(['poradnia chirurgii ogólnej',
       'poradnia chirurgii urazowo-ortopedycznej',
       'poradnia chorób zakaźnych', 'poradnia dermatologiczna',
       'poradnia diabetologiczna', 'poradnia endokrynologiczna',
       'poradnia gastroenterologiczna', 'poradnia gruźlicy i chorób płuc',
       'poradnia kardiologiczna', 'poradnia logopedyczna',
       'poradnia nadciśnienia tętniczego', 'poradnia neonatologiczna',
       'poradnia neurologiczna', 'poradnia okulistyczna',
       'poradnia onkologiczna', 'poradnia otorynolaryngologiczna',
       'poradnia położniczo-ginekologiczna', 'poradnia reumatologiczna',
       'poradnia urologiczna', 'pracownia endoskopii',
       'pracownia tomografii komputerowej', 'poradnia alergologiczna',
       'poradnia chirurgii onkologicznej', 'poradnia chorób płuc',
       'poradnia foniatryczna', 'poradnia leczenia bólu',
       'poradnia medycyny sportowej', 'poradnia neurologiczna dla dzieci',
       'poradnia proktologiczna', 'pracownia rezonansu

# Filter dataframe

In [9]:
speciality = "poradnia okulistyczna"

In [10]:
filter_dict = {col: speciality}
df = filter_dataframe(df_raw, filter_dict=filter_dict)

In [11]:
df.shape

(2864, 9)

In [12]:
analyze_dataframe(df)

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Rok,0,0.0,8,int64
1,Województwo,0,0.0,16,object
2,Powiat,0,0.0,356,object
3,Populacja,0,0.0,2825,int64
4,Specjalność komórki,0,0.0,1,object
5,Liczba porad AOS,0,0.0,2713,int64
6,Liczba porad AOS/1 tys. mieszk.,0,0.0,2720,float64
7,Liczba poradni AOS,0,0.0,53,int64
8,Liczba poradni AOS/10 tys. mieszk.,0,0.0,134,float64


# Save processed dataframe

In [13]:
file_path = Path(
    DATA_DIR / "processed" / f"{dataset_name}_{speciality.replace(' ', '_')}.csv"
)
file_path

WindowsPath('c:/Users/huber/OneDrive/Dokumenty/GitHub/mz_raport/data/processed/swiad_pow_poradnia_okulistyczna.csv')

In [14]:
write_csv(df, file_path)

CSV file successfully written to: c:\Users\huber\OneDrive\Dokumenty\GitHub\mz_raport\data\processed\swiad_pow_poradnia_okulistyczna.csv
