# Analiza Eksploracyjna Danych (EDA) i Przygotowanie Danych
## System Wspomagania Decyzji w Triaży Medycznym

**Data:** 2025-10-15  
**Cel:** Analiza danych syntetycznych, identyfikacja wzorców i przygotowanie danych do modelowania ML

## 1. Import bibliotek i konfiguracja

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings

# Konfiguracja
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Ustawienia wyświetlania
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

print("✓ Biblioteki zaimportowane pomyślnie")

## 2. Załadowanie danych

In [None]:
# Ścieżki do plików
TRIAGE_DATA_PATH = '../data/raw/triage_data.csv'
ARRANGEMENT_DATA_PATH = '../data/raw/department_arrangement_data.csv'

# Wczytanie danych
print("="*70)
print("WCZYTYWANIE DANYCH")
print("="*70)

df_triage = pd.read_csv(TRIAGE_DATA_PATH)
df_arrangement = pd.read_csv(ARRANGEMENT_DATA_PATH)

print(f"\n✓ Dane triaży: {df_triage.shape[0]} wierszy × {df_triage.shape[1]} kolumn")
print(f"✓ Dane alokacji: {df_arrangement.shape[0]} wierszy × {df_arrangement.shape[1]} kolumn")

## 3. Wstępna inspekcja danych

In [None]:
print("="*70)
print("INSPEKCJA DANYCH TRIAŻY")
print("="*70)

# Wyświetlenie pierwszych wierszy
print("\n--- Pierwsze 5 wierszy ---")
display(df_triage.head())

In [None]:
# Informacje o typach danych
print("\n--- Informacje o kolumnach ---")
df_triage.info()

In [None]:
# Statystyki opisowe dla zmiennych numerycznych
print("\n--- Statystyki opisowe (zmienne numeryczne) ---")
display(df_triage.describe())

In [None]:
# Analiza brakujących wartości
print("\n--- Brakujące wartości ---")
missing = df_triage.isnull().sum()
missing_pct = (missing / len(df_triage)) * 100
missing_df = pd.DataFrame({
    'Liczba': missing,
    'Procent': missing_pct
}).sort_values('Liczba', ascending=False)
display(missing_df[missing_df['Liczba'] > 0])

## 4. Feature Engineering - Cechy czasowe

In [None]:
print("="*70)
print("PRZYGOTOWANIE DANYCH")
print("="*70)

# Konwersja daty
df_triage['data_przyjęcia'] = pd.to_datetime(df_triage['data_przyjęcia'])
df_arrangement['timestamp'] = pd.to_datetime(df_arrangement['timestamp'])

# Ekstrakcja cech czasowych
df_triage['godzina'] = df_triage['data_przyjęcia'].dt.hour
df_triage['dzien_tygodnia'] = df_triage['data_przyjęcia'].dt.dayofweek
df_triage['miesiac'] = df_triage['data_przyjęcia'].dt.month
df_triage['czy_weekend'] = df_triage['dzien_tygodnia'].isin([5, 6]).astype(int)

# Nazwy dni tygodnia
dni_tygodnia_map = {0: 'Pn', 1: 'Wt', 2: 'Śr', 3: 'Cz', 4: 'Pt', 5: 'Sb', 6: 'Nd'}
df_triage['dzien_nazwa'] = df_triage['dzien_tygodnia'].map(dni_tygodnia_map)

# Pora dnia
def okresl_pore_dnia(godzina):
    if 6 <= godzina < 12:
        return 'Rano'
    elif 12 <= godzina < 18:
        return 'Popołudnie'
    elif 18 <= godzina < 24:
        return 'Wieczór'
    else:
        return 'Noc'

df_triage['pora_dnia'] = df_triage['godzina'].apply(okresl_pore_dnia)

print("✓ Cechy czasowe utworzone")
print(f"\nNowe kolumny: {list(df_triage.columns[-6:])}")

## 5. Analiza rozkładów - Zmienne kategoryczne

In [None]:
# Funkcja do tworzenia wykresów rozkładów
def plot_categorical_distribution(df, column, title, figsize=(10, 6)):
    fig, ax = plt.subplots(figsize=figsize)
    counts = df[column].value_counts()
    counts.plot(kind='bar', ax=ax, color='skyblue', edgecolor='black')
    ax.set_title(title, fontsize=14, fontweight='bold')
    ax.set_xlabel(column, fontsize=12)
    ax.set_ylabel('Liczba przypadków', fontsize=12)
    ax.grid(axis='y', alpha=0.3)
    
    # Dodanie wartości na słupkach
    for i, v in enumerate(counts.values):
        ax.text(i, v + max(counts)*0.01, str(v), ha='center', va='bottom')
    
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
    
    # Statystyki
    print(f"\nRozkład: {column}")
    print(counts)
    print(f"Procent:\n{(counts/len(df)*100).round(2)}")

In [None]:
# Kategorie triaży
print("\n--- Kategorie Triaży ---")
plot_categorical_distribution(df_triage, 'kategoria_triażu', 
                              'Rozkład Kategorii Triaży', (10, 6))

In [None]:
# Oddziały docelowe
print("\n--- Oddziały Docelowe ---")
plot_categorical_distribution(df_triage, 'oddział_docelowy', 
                              'Rozkład Oddziałów Docelowych', (12, 6))

In [None]:
# Płeć
print("\n--- Płeć ---")
plot_categorical_distribution(df_triage, 'płeć', 
                              'Rozkład Płci', (8, 6))

In [None]:
# Szablony przypadków
print("\n--- Top 10 Szablonów Przypadków ---")
top_templates = df_triage['szablon_przypadku'].value_counts().head(10)
fig, ax = plt.subplots(figsize=(12, 6))
top_templates.plot(kind='barh', ax=ax, color='coral', edgecolor='black')
ax.set_title('Top 10 Najczęstszych Szablonów Przypadków', fontsize=14, fontweight='bold')
ax.set_xlabel('Liczba przypadków', fontsize=12)
plt.tight_layout()
plt.show()

## 6. Analiza rozkładów - Zmienne numeryczne

In [None]:
# Lista parametrów życiowych
vital_params = ['wiek', 'tętno', 'ciśnienie_skurczowe', 'ciśnienie_rozkurczowe', 
                'temperatura', 'saturacja']

# Funkcja do analizy zmiennej numerycznej
def analyze_numeric_variable(df, column):
    print(f"\n{'='*50}")
    print(f"Analiza: {column}")
    print('='*50)
    
    # Usunięcie NaN
    data = df[column].dropna()
    
    if len(data) == 0:
        print("Brak danych!")
        return
    
    # Statystyki
    print(f"\nŚrednia: {data.mean():.2f}")
    print(f"Mediana: {data.median():.2f}")
    print(f"Odch. std.: {data.std():.2f}")
    print(f"Min: {data.min():.2f}")
    print(f"Max: {data.max():.2f}")
    print(f"Q1: {data.quantile(0.25):.2f}")
    print(f"Q3: {data.quantile(0.75):.2f}")
    
    # Wykres
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Histogram
    axes[0].hist(data, bins=30, color='steelblue', edgecolor='black', alpha=0.7)
    axes[0].axvline(data.mean(), color='red', linestyle='--', linewidth=2, label=f'Średnia: {data.mean():.2f}')
    axes[0].axvline(data.median(), color='green', linestyle='--', linewidth=2, label=f'Mediana: {data.median():.2f}')
    axes[0].set_title(f'Histogram: {column}', fontsize=12, fontweight='bold')
    axes[0].set_xlabel(column, fontsize=10)
    axes[0].set_ylabel('Częstość', fontsize=10)
    axes[0].legend()
    axes[0].grid(alpha=0.3)
    
    # Boxplot
    axes[1].boxplot(data, vert=True, patch_artist=True,
                    boxprops=dict(facecolor='lightblue', color='black'),
                    whiskerprops=dict(color='black'),
                    capprops=dict(color='black'),
                    medianprops=dict(color='red', linewidth=2))
    axes[1].set_title(f'Boxplot: {column}', fontsize=12, fontweight='bold')
    axes[1].set_ylabel(column, fontsize=10)
    axes[1].grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()

In [None]:
# Analiza każdego parametru
for param in vital_params:
    if param in df_triage.columns:
        analyze_numeric_variable(df_triage, param)

## 7. Analiza wzorców czasowych

In [None]:
# Przyjęcia według godziny
print("\n--- Rozkład przyjęć według godziny ---")
fig, ax = plt.subplots(figsize=(14, 6))
hourly_admits = df_triage.groupby('godzina').size()
hourly_admits.plot(kind='bar', ax=ax, color='teal', edgecolor='black')
ax.set_title('Rozkład przyjęć według godziny dnia', fontsize=14, fontweight='bold')
ax.set_xlabel('Godzina', fontsize=12)
ax.set_ylabel('Liczba przyjęć', fontsize=12)
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Przyjęcia według dnia tygodnia
print("\n--- Rozkład przyjęć według dnia tygodnia ---")
fig, ax = plt.subplots(figsize=(10, 6))
daily_admits = df_triage.groupby('dzien_nazwa').size().reindex(['Pn', 'Wt', 'Śr', 'Cz', 'Pt', 'Sb', 'Nd'])
daily_admits.plot(kind='bar', ax=ax, color='salmon', edgecolor='black')
ax.set_title('Rozkład przyjęć według dnia tygodnia', fontsize=14, fontweight='bold')
ax.set_xlabel('Dzień tygodnia', fontsize=12)
ax.set_ylabel('Liczba przyjęć', fontsize=12)
ax.grid(axis='y', alpha=0.3)
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

In [None]:
# Przyjęcia według miesiąca
print("\n--- Rozkład przyjęć według miesiąca ---")
fig, ax = plt.subplots(figsize=(12, 6))
monthly_admits = df_triage.groupby('miesiac').size()
monthly_admits.plot(kind='bar', ax=ax, color='gold', edgecolor='black')
ax.set_title('Rozkład przyjęć według miesiąca (Sezonowość)', fontsize=14, fontweight='bold')
ax.set_xlabel('Miesiąc', fontsize=12)
ax.set_ylabel('Liczba przyjęć', fontsize=12)
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Przyjęcia według pory dnia
print("\n--- Rozkład przyjęć według pory dnia ---")
fig, ax = plt.subplots(figsize=(10, 6))
pora_admits = df_triage.groupby('pora_dnia').size().reindex(['Rano', 'Popołudnie', 'Wieczór', 'Noc'])
pora_admits.plot(kind='bar', ax=ax, color='mediumseagreen', edgecolor='black')
ax.set_title('Rozkład przyjęć według pory dnia', fontsize=14, fontweight='bold')
ax.set_xlabel('Pora dnia', fontsize=12)
ax.set_ylabel('Liczba przyjęć', fontsize=12)
ax.grid(axis='y', alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 8. Analiza korelacji

In [None]:
# Wybór zmiennych numerycznych do korelacji
numeric_cols = ['wiek', 'tętno', 'ciśnienie_skurczowe', 'ciśnienie_rozkurczowe',
                'temperatura', 'saturacja', 'kategoria_triażu']

# Filtracja istniejących kolumn
available_cols = [col for col in numeric_cols if col in df_triage.columns]

# Macierz korelacji
corr_matrix = df_triage[available_cols].corr()

print("\n--- Macierz korelacji ---")
display(corr_matrix)

# Wizualizacja
fig, ax = plt.subplots(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8},
            ax=ax)
ax.set_title('Macierz Korelacji Parametrów Życiowych', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 9. Analiza według kategorii triaży

In [None]:
# Parametry życiowe według kategorii triaży
print("\n--- Średnie parametry według kategorii triaży ---")
triage_stats = df_triage.groupby('kategoria_triażu')[available_cols[:-1]].mean()
display(triage_stats)

In [None]:
# Wizualizacja
fig, axes = plt.subplots(2, 3, figsize=(16, 10))
axes = axes.flatten()

params_to_plot = ['wiek', 'tętno', 'ciśnienie_skurczowe', 'temperatura', 'saturacja']

for idx, param in enumerate(params_to_plot):
    if param in df_triage.columns:
        df_triage.boxplot(column=param, by='kategoria_triażu', ax=axes[idx])
        axes[idx].set_title(f'{param} według kategorii triaży')
        axes[idx].set_xlabel('Kategoria triaży')
        axes[idx].set_ylabel(param)
        plt.sca(axes[idx])
        plt.xticks(rotation=0)

# Ukrycie pustego subplotu
if len(params_to_plot) < 6:
    axes[-1].axis('off')

plt.suptitle('')
fig.suptitle('Parametry życiowe według kategorii triaży', fontsize=14, fontweight='bold', y=1.00)
plt.tight_layout()
plt.show()

## 10. Analiza oddziałów

In [None]:
# Rozkład kategorii triaży według oddziałów
print("\n--- Kategorie triaży według oddziałów ---")
dept_triage = pd.crosstab(df_triage['oddział_docelowy'], 
                          df_triage['kategoria_triażu'], 
                          normalize='index') * 100

display(dept_triage.round(2))

# Wizualizacja
fig, ax = plt.subplots(figsize=(14, 8))
dept_triage.plot(kind='bar', stacked=True, ax=ax, colormap='viridis')
ax.set_title('Rozkład kategorii triaży według oddziałów (%)', fontsize=14, fontweight='bold')
ax.set_xlabel('Oddział', fontsize=12)
ax.set_ylabel('Procent', fontsize=12)
ax.legend(title='Kategoria triaży', bbox_to_anchor=(1.05, 1), loc='upper left')
ax.grid(axis='y', alpha=0.3)
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

## 11. Przygotowanie danych do modelowania

In [None]:
print("="*70)
print("PRZYGOTOWANIE DANYCH DO MODELOWANIA")
print("="*70)

# Stworzenie kopii dataframe
df_model = df_triage.copy()

# 1. Kodowanie zmiennych kategorycznych
print("\n--- Kodowanie zmiennych kategorycznych ---")

# Label encoding dla płci
df_model['płeć_encoded'] = df_model['płeć'].map({'M': 1, 'K': 0})

# One-hot encoding dla oddziałów
dept_dummies = pd.get_dummies(df_model['oddział_docelowy'], prefix='oddział')
df_model = pd.concat([df_model, dept_dummies], axis=1)

# One-hot encoding dla szablonów przypadków
template_dummies = pd.get_dummies(df_model['szablon_przypadku'], prefix='szablon')
df_model = pd.concat([df_model, template_dummies], axis=1)

print(f"✓ Zmienne zakodowane")
print(f"Nowa liczba kolumn: {df_model.shape[1]}")

In [None]:
# 2. Selekcja cech dla modelu
print("\n--- Selekcja cech ---")

# Cechy numeryczne
numeric_features = ['wiek', 'tętno', 'ciśnienie_skurczowe', 'ciśnienie_rozkurczowe',
                   'temperatura', 'saturacja', 'płeć_encoded', 
                   'godzina', 'dzien_tygodnia', 'miesiac', 'czy_weekend']

# Dodanie cech dummy
dept_cols = [col for col in df_model.columns if col.startswith('oddział_')]
template_cols = [col for col in df_model.columns if col.startswith('szablon_')]

all_features = numeric_features + dept_cols + template_cols

# Usunięcie NaN
df_model_clean = df_model[all_features + ['kategoria_triażu']].dropna()

print(f"Liczba cech: {len(all_features)}")
print(f"Liczba rekordów po usunięciu NaN: {len(df_model_clean)}")

In [None]:
# 3. Normalizacja cech numerycznych
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df_model_clean[numeric_features] = scaler.fit_transform(df_model_clean[numeric_features])

print("✓ Cechy numeryczne znormalizowane")

In [None]:
# 4. Podział na X i y
X = df_model_clean[all_features]
y = df_model_clean['kategoria_triażu']

print(f"\nKształt X: {X.shape}")
print(f"Kształt y: {y.shape}")

In [None]:
# 5. Podział na zbiory treningowy, walidacyjny i testowy
from sklearn.model_selection import train_test_split

# Podział: 70% trening, 15% walidacja, 15% test
X_temp, X_test, y_temp, y_test = train_test_split(X, y, test_size=0.15, random_state=42, stratify=y)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.1765, random_state=42, stratify=y_temp)

print("\n--- Podział zbiorów ---")
print(f"Zbiór treningowy: {X_train.shape[0]} próbek ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"Zbiór walidacyjny: {X_val.shape[0]} próbek ({X_val.shape[0]/len(X)*100:.1f}%)")
print(f"Zbiór testowy: {X_test.shape[0]} próbek ({X_test.shape[0]/len(X)*100:.1f}%)")

In [None]:
# Sprawdzenie balansu klas
print("\n--- Rozkład klas w zbiorach ---")
print("\nTreningowy:")
print(y_train.value_counts().sort_index())
print("\nWalidacyjny:")
print(y_val.value_counts().sort_index())
print("\nTestowy:")
print(y_test.value_counts().sort_index())

## 12. Eksport przygotowanych danych

In [None]:
import os

# Stworzenie folderu jeśli nie istnieje
os.makedirs('../data/processed/', exist_ok=True)

# Eksport do plików
df_model_clean.to_csv('../data/processed/prepared_data.csv', index=False)
X_train.to_csv('../data/processed/X_train.csv', index=False)
X_val.to_csv('../data/processed/X_val.csv', index=False)
X_test.to_csv('../data/processed/X_test.csv', index=False)
y_train.to_csv('../data/processed/y_train.csv', index=False)
y_val.to_csv('../data/processed/y_val.csv', index=False)
y_test.to_csv('../data/processed/y_test.csv', index=False)

print("="*70)
print("EKSPORT DANYCH")
print("="*70)
print("\n✓ Dane zapisane w folderze 'data/processed/':")
print("  - prepared_data.csv")
print("  - X_train.csv, X_val.csv, X_test.csv")
print("  - y_train.csv, y_val.csv, y_test.csv")

## Podsumowanie analizy

In [None]:
print("\n" + "="*70)
print("PODSUMOWANIE ANALIZY")
print("="*70)

print("""
✅ WYKONANE KROKI:

1. ✓ Wczytanie i inspekcja danych
2. ✓ Analiza brakujących wartości
3. ✓ Inżynieria cech czasowych
4. ✓ Analiza rozkładów zmiennych kategorycznych
5. ✓ Analiza rozkładów zmiennych numerycznych
6. ✓ Analiza wzorców czasowych (sezonowość)
7. ✓ Analiza korelacji między zmiennymi
8. ✓ Analiza według kategorii triaży
9. ✓ Analiza oddziałów
10. ✓ Kodowanie zmiennych kategorycznych
11. ✓ Normalizacja cech
12. ✓ Podział na zbiory treningowy/walidacyjny/testowy
13. ✓ Eksport przygotowanych danych

📊 KLUCZOWE OBSERWACJE:
- Dane zawierają realistyczne wzorce sezonowości
- Wyraźne różnice w parametrach życiowych według kategorii triaży
- Zbalansowany rozkład kategorii triaży i oddziałów
- Dane gotowe do trenowania modeli ML

🎯 NASTĘPNY KROK:
ETAP 2 - Budowa modeli uczenia maszynowego
""")

print("\n" + "="*70)
print("ANALIZA ZAKOŃCZONA POMYŚLNIE!")
print("="*70)