In [1]:
import sys
from pathlib import Path

# Add project root to Python path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

# Import project paths
from src.helpers.config import DATA_DIR
from src.helpers.utils import (
    get_files_paths,
    load_files,
    filter_dataframe,
    analyze_dataframe,
    write_csv,
)

# Load dataframe

In [2]:
dataset_name = "swiad_woj"

In [3]:
file_paths = get_files_paths(Path(DATA_DIR / "raw"), dataset_name, "csv")
df_raw = load_files(file_paths)

# Analyze dataframe

In [4]:
df_raw.shape

(10638, 8)

In [5]:
df_raw.head(2)

Unnamed: 0,Rok,Województwo,Populacja,Specjalność komórki,Liczba porad AOS,Liczba porad AOS/1 tys. mieszk.,Liczba poradni AOS,Liczba poradni AOS/10 tys. mieszk.
0,2023,dolnośląskie,2879271,poradnia alergologiczna,156187,54.25,61,0.21
1,2023,dolnośląskie,2879271,poradnia alergologiczna dla dzieci,30880,10.72,11,0.04


In [7]:
nan_analysis = analyze_dataframe(df_raw)
nan_analysis

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Rok,0,0.0,8,int64
1,Województwo,0,0.0,16,object
2,Populacja,0,0.0,128,int64
3,Specjalność komórki,0,0.0,163,object
4,Liczba porad AOS,0,0.0,9103,int64
5,Liczba porad AOS/1 tys. mieszk.,0,0.0,4046,float64
6,Liczba poradni AOS,0,0.0,247,int64
7,Liczba poradni AOS/10 tys. mieszk.,0,0.0,95,float64


In [8]:
col = "Specjalność komórki"

In [9]:
df_raw[col].unique()

array(['poradnia alergologiczna', 'poradnia alergologiczna dla dzieci',
       'poradnia audiologiczna', 'poradnia chemioterapii',
       'poradnia chirurgii klatki piersiowej',
       'poradnia chirurgii naczyniowej', 'poradnia chirurgii ogólnej',
       'poradnia chirurgii ogólnej dla dzieci',
       'poradnia chirurgii onkologicznej',
       'poradnia chirurgii onkologicznej dla dzieci',
       'poradnia chirurgii plastycznej',
       'poradnia chirurgii szczękowo-twarzowej',
       'poradnia chirurgii urazowo-ortopedycznej',
       'poradnia chirurgii urazowo-ortopedycznej dla dzieci',
       'poradnia chorób metabolicznych', 'poradnia chorób naczyń',
       'poradnia chorób płuc', 'poradnia chorób wewnętrznych',
       'poradnia chorób zakaźnych',
       'poradnia chorób zakaźnych dla dzieci', 'poradnia dermatologiczna',
       'poradnia diabetologiczna', 'poradnia diabetologiczna dla dzieci',
       'poradnia endokrynologiczna',
       'poradnia endokrynologiczna dla dzieci',
   

# Filter dataframe

In [10]:
speciality = "poradnia okulistyczna"

In [11]:
filter_dict = {col: speciality}
df = filter_dataframe(df_raw, filter_dict=filter_dict)

In [12]:
df.shape

(128, 8)

In [13]:
analyze_dataframe(df)

Unnamed: 0,column_name,missing_values_total,missing_values_percent,unique_values_count,data_type
0,Rok,0,0.0,8,int64
1,Województwo,0,0.0,16,object
2,Populacja,0,0.0,128,int64
3,Specjalność komórki,0,0.0,1,object
4,Liczba porad AOS,0,0.0,128,int64
5,Liczba porad AOS/1 tys. mieszk.,0,0.0,127,float64
6,Liczba poradni AOS,0,0.0,88,int64
7,Liczba poradni AOS/10 tys. mieszk.,0,0.0,35,float64


# Save processed dataframe

In [14]:
file_path = Path(
    DATA_DIR / "processed" / f"{dataset_name}_{speciality.replace(' ', '_')}.csv"
)
file_path

WindowsPath('c:/Users/huber/OneDrive/Dokumenty/GitHub/mz_raport/data/processed/swiad_woj_poradnia_okulistyczna.csv')

In [15]:
write_csv(df, file_path)

CSV file successfully written to: c:\Users\huber\OneDrive\Dokumenty\GitHub\mz_raport\data\processed\swiad_woj_poradnia_okulistyczna.csv
