# SVM i XGBoost - Zadania praktyczne z danymi Attrition

## Cel ƒáwicze≈Ñ
W tych zadaniach bƒôdziemy pracowaƒá z rzeczywistym zbiorem danych HR dotyczƒÖcym odej≈õƒá pracownik√≥w (attrition). Nauczimy siƒô:
- Przeprowadzaƒá eksploracyjnƒÖ analizƒô danych (EDA)
- Przygotowywaƒá dane do modelowania
- Implementowaƒá i por√≥wnywaƒá modele SVM i XGBoost
- Optymalizowaƒá hiperparametry
- Interpretowaƒá wyniki i wyciƒÖgaƒá wnioski biznesowe

## Informacje o zbiorze danych
- **Liczba rekord√≥w**: 59,598 pracownik√≥w
- **Liczba cech**: 24 (8 numerycznych, 16 kategorycznych)
- **Target**: Attrition (Stayed/Left)
- **Braki danych**: Brak
- **Balans klas**: Stayed ‚âà 52.5%, Left ‚âà 47.5%

In [None]:
# Importy bibliotek - uzupe≈Çnij brakujƒÖce
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score
import xgboost as xgb
from xgboost import XGBClassifier
import warnings
warnings.filterwarnings('ignore')

# Ustawienia wykres√≥w
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)

# Zadanie 1: Wczytanie i podstawowe poznanie danych üìä

## Cel
Zapoznaƒá siƒô ze strukturƒÖ i jako≈õciƒÖ danych przed przystƒÖpieniem do modelowania.

## Do zrobienia:

### 1.1 Wczytanie danych
- Wczytaj plik `attrition.csv` do DataFrame
- Wy≈õwietl podstawowe informacje o zbiorze: `info()`, `describe()`, `shape`
- Sprawd≈∫ czy sƒÖ braki danych

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: pd.read_csv(), .info(), .describe(), .shape, .isnull().sum()

### 1.2 Analiza zmiennej target
- Sprawd≈∫ rozk≈Çad zmiennej `Attrition` (ile os√≥b zosta≈Ço/odesz≈Ço)
- Oblicz procenty dla ka≈ºdej kategorii
- Stw√≥rz wykres s≈Çupkowy pokazujƒÖcy rozk≈Çad

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: .value_counts(), .value_counts(normalize=True), sns.countplot()

### 1.3 Identyfikacja typ√≥w zmiennych
- Podziel kolumny na numeryczne i kategoryczne
- Wy≈õwietl listƒô zmiennych numerycznych (powinno byƒá 8)
- Wy≈õwietl listƒô zmiennych kategorycznych (powinno byƒá 16)
- Sprawd≈∫ unikalne warto≈õci w zmiennych kategorycznych

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: .select_dtypes(), list(), .nunique()
target = 'Attrition'

# Zadanie 2: Eksploracyjna Analiza Danych (EDA) üîç

## Cel
Zrozumieƒá wzorce w danych i zidentyfikowaƒá potencjalne czynniki wp≈ÇywajƒÖce na odej≈õcia.

### 2.1 Analiza zmiennych numerycznych
- Stw√≥rz histogramy dla wszystkich zmiennych numerycznych
- U≈ºyj `subplot` ≈ºeby pokazaƒá wszystkie na jednym wykresie
- Sprawd≈∫ czy sƒÖ outliersy u≈ºywajƒÖc boxplot√≥w
- Oblicz korelacje miƒôdzy zmiennymi numerycznymi

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: plt.subplots(), .hist(), sns.boxplot(), .corr(), sns.heatmap()

### 2.2 Analiza zmiennych kategorycznych
- Dla ka≈ºdej zmiennej kategorycznej sprawd≈∫:
  - Liczbƒô unikalnych warto≈õci
  - Rozk≈Çad czƒôsto≈õci ka≈ºdej kategorii
- Stw√≥rz wykresy s≈Çupkowe dla najwa≈ºniejszych zmiennych kategorycznych
- Zwr√≥ƒá szczeg√≥lnƒÖ uwagƒô na `Job Role`, `Work-Life Balance`, `Job Satisfaction`

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: for loop, .value_counts(), sns.barplot(), plt.subplots()

### 2.3 Analiza zwiƒÖzku zmiennych z target
- Dla zmiennych numerycznych:
  - Stw√≥rz boxploty por√≥wnujƒÖce rozk≈Çady dla Stayed vs Left
  - Przeprowad≈∫ test t-Studenta dla istotnych r√≥≈ºnic
- Dla zmiennych kategorycznych:
  - Stw√≥rz tabele krzy≈ºowe (crosstab) z procentami
  - Zidentyfikuj kt√≥re kategorie majƒÖ wy≈ºszy % odej≈õƒá

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: sns.boxplot(), pd.crosstab(), normalize='index'

### 2.4 Wnioski z EDA
Na podstawie analizy odpowiedz na pytania:
- Kt√≥re zmienne numeryczne najsilniej r√≥≈ºnicujƒÖ grupy Stayed/Left?
- Kt√≥re kategorie w zmiennych kategorycznych majƒÖ najwy≈ºszy % odej≈õƒá?
- Czy widzisz jakie≈õ interesujƒÖce wzorce? (np. overtime vs attrition)
- Kt√≥re zmienne mogƒÖ byƒá najwa≈ºniejsze dla modelu?

**Twoje obserwacje i wnioski:**
<!-- Zapisz tutaj swoje przemy≈õlenia po EDA -->

# Zadanie 3: Przygotowanie danych do modelowania üõ†Ô∏è

## Cel
Przekszta≈Çciƒá dane surowe w format odpowiedni dla algorytm√≥w ML.

### 3.1 Czyszczenie danych
- Usu≈Ñ kolumnƒô `Employee ID` (nie pomaga w predykcji)
- Przekszta≈Çƒá zmiennƒÖ target `Attrition` na warto≈õci binarne (0/1)
- Sprawd≈∫ czy wszystkie dane sƒÖ w odpowiednim formacie

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: .drop(), .map(), .copy()

### 3.2 Preprocessing Pipeline
- U≈ºyj `ColumnTransformer` do zdefiniowania preprocessingu:
  - `StandardScaler` dla zmiennych numerycznych
  - `OneHotEncoder` dla zmiennych kategorycznych
- Stw√≥rz pipeline ≈ÇƒÖczƒÖcy preprocessing z modelem
- Podziel dane na X (cechy) i y (target)

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: ColumnTransformer(), transformers=[...], StandardScaler(), OneHotEncoder()
# Pipeline(), steps=[...]

preprocessor = # ColumnTransformer tutaj

### 3.3 Podzia≈Ç na zbiory train/validation/test
- Podziel dane na train (60%), validation (20%), test (20%)
- U≈ºyj `stratify` ≈ºeby zachowaƒá proporcje klas
- Ustaw `random_state=42` dla powtarzalno≈õci

In [None]:
# Tw√≥j kod tutaj:
# Wskaz√≥wki: train_test_split(), stratify=, random_state=42

### 3.4 Uwaga o Preprocessingu
- **Pipeline automatycznie zastosuje preprocessing** podczas .fit() i .predict()
- Nie musisz rƒôcznie skalowaƒá danych - Pipeline to zrobi
- ColumnTransformer zapewni, ≈ºe odpowiednie transformacje zostanƒÖ zastosowane do odpowiednich kolumn

In [None]:
# Preprocessing jest ju≈º zdefiniowany w ColumnTransformer powy≈ºej
# Pipeline automatycznie zastosuje odpowiednie transformacje


# Zadanie 4: Implementacja i trening modelu SVM üéØ

## Cel
Zbudowaƒá i zoptymalizowaƒá model SVM dla predykcji attrition.

### 4.1 Pipeline SVM
- Stw√≥rz pipeline ≈ÇƒÖczƒÖcy preprocessor z modelem SVM (kernel='rbf')
- Wytrenuj pipeline na zbiorze treningowym
- Oce≈Ñ na zbiorze walidacyjnym
- Wy≈õwietl accuracy, classification report i confusion matrix

In [None]:
# Tw√≥j kod tutaj:
# Model bazowy
# svm_base = SVC(kernel='rbf', random_state=42)
# svm_base.fit(X_train_scaled, y_train)

# Predykcje
# y_val_pred = svm_base.predict(X_val_scaled)

# Ocena
# print("Accuracy:", accuracy_score(y_val, y_val_pred))
# print("\nClassification Report:")
# print(classification_report(y_val, y_val_pred))

### 4.2 Testowanie r√≥≈ºnych kerneli
- Przetestuj kernele: 'linear', 'rbf', 'poly'
- Dla ka≈ºdego kernela:
  - Wytrenuj model
  - Oce≈Ñ na walidacji
  - Por√≥wnaj wyniki
- Kt√≥ry kernel dzia≈Ça najlepiej?

In [None]:
# Tw√≥j kod tutaj:
# kernels = ['linear', 'rbf', 'poly']
# results = {}

# for kernel in kernels:
#     svm = SVC(kernel=kernel, random_state=42)
#     svm.fit(X_train_scaled, y_train)
#     y_pred = svm.predict(X_val_scaled)
#     accuracy = accuracy_score(y_val, y_pred)
#     results[kernel] = accuracy
#     print(f"{kernel}: {accuracy:.4f}")

### 4.3 Optymalizacja hiperparametr√≥w
- U≈ºyj `GridSearchCV` do optymalizacji parametr√≥w C i gamma dla najlepszego kernela
- Zakres parametr√≥w:
  - C: [0.1, 1, 10, 100]
  - gamma: ['scale', 'auto', 0.001, 0.01, 0.1, 1]
- U≈ºyj 5-fold cross-validation
- Oce≈Ñ najlepszy model na zbiorze walidacyjnym

In [None]:
# Tw√≥j kod tutaj:
# param_grid = {
#     'C': [0.1, 1, 10, 100],
#     'gamma': ['scale', 'auto', 0.001, 0.01, 0.1, 1]
# }

# grid_search = GridSearchCV(...)
# grid_search.fit(X_train_scaled, y_train)

# print("Najlepsze parametry:", grid_search.best_params_)
# print("Najlepszy wynik CV:", grid_search.best_score_)

### 4.4 Ocena finalnego modelu SVM
- U≈ºyj najlepszego modelu z Grid Search
- Oce≈Ñ na zbiorze testowym
- Stw√≥rz confusion matrix z ≈Çadnymi etykietami
- Oblicz dodatkowe metryki: precision, recall, F1-score

In [None]:
# Tw√≥j kod tutaj:
# best_svm = grid_search.best_estimator_
# y_test_pred = best_svm.predict(X_test_scaled)

# print("Test Accuracy:", accuracy_score(y_test, y_test_pred))
# print("\nClassification Report:")
# print(classification_report(y_test, y_test_pred, target_names=['Stayed', 'Left']))

# Confusion Matrix
# cm = confusion_matrix(y_test, y_test_pred)
# plt.figure(figsize=(8, 6))
# sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
#             xticklabels=['Stayed', 'Left'], yticklabels=['Stayed', 'Left'])
# plt.title('SVM - Confusion Matrix')
# plt.show()

# Zadanie 5: Implementacja i trening modelu XGBoost üöÄ

## Cel
Zbudowaƒá i zoptymalizowaƒá model XGBoost i por√≥wnaƒá z SVM.

### 5.1 Model bazowy XGBoost
- Stw√≥rz model XGBoost z domy≈õlnymi parametrami
- **Uwaga**: XGBoost nie wymaga standaryzacji, u≈ºyj oryginalnych danych
- Wytrenuj i oce≈Ñ na zbiorze walidacyjnym
- Por√≥wnaj wyniki z modelem SVM

In [None]:
# Tw√≥j kod tutaj:
# xgb_base = XGBClassifier(random_state=42, eval_metric='logloss')
# xgb_base.fit(X_train, y_train)

# y_val_pred_xgb = xgb_base.predict(X_val)
# print("XGBoost Accuracy:", accuracy_score(y_val, y_val_pred_xgb))
# print("\nClassification Report:")
# print(classification_report(y_val, y_val_pred_xgb))

### 5.2 Analiza wa≈ºno≈õci cech
- Wy≈õwietl feature importance z modelu XGBoost
- Stw√≥rz wykres s≈Çupkowy 15 najwa≈ºniejszych cech
- Zinterpretuj wyniki - kt√≥re cechy sƒÖ najwa≈ºniejsze dla predykcji?
- Czy wyniki sƒÖ zgodne z twoimi obserwacjami z EDA?

In [None]:
# Tw√≥j kod tutaj:
# feature_importance = xgb_base.feature_importances_
# feature_names = X.columns  # je≈õli X to DataFrame

# Stw√≥rz DataFrame z wa≈ºno≈õciƒÖ cech
# importance_df = pd.DataFrame({
#     'feature': feature_names,
#     'importance': feature_importance
# }).sort_values('importance', ascending=False)

# Wykres 15 najwa≈ºniejszych cech
# plt.figure(figsize=(10, 8))
# sns.barplot(data=importance_df.head(15), x='importance', y='feature')
# plt.title('XGBoost - 15 najwa≈ºniejszych cech')
# plt.show()

### 5.3 Optymalizacja hiperparametr√≥w XGBoost
- U≈ºyj GridSearchCV do optymalizacji kluczowych parametr√≥w:
  - n_estimators: [100, 200, 300]
  - max_depth: [3, 4, 5, 6]
  - learning_rate: [0.01, 0.1, 0.2]
  - subsample: [0.8, 0.9, 1.0]
- **Uwaga**: To mo≈ºe potrwaƒá d≈Çugo, mo≈ºesz zmniejszyƒá zakres

In [None]:
# Tw√≥j kod tutaj:


# print("Rozpoczynam Grid Search XGBoost...")
# grid_search_xgb.fit(X_train, y_train)

### 5.4 Ocena finalnego modelu XGBoost
- Oce≈Ñ najlepszy model XGBoost na zbiorze testowym
- Stw√≥rz confusion matrix
- Por√≥wnaj metryki z modelem SVM
- Przeanalizuj feature importance dla zoptymalizowanego modelu

In [None]:
# Tw√≥j kod tutaj:


# print("Najlepsze parametry XGBoost:", grid_search_xgb.best_params_)
# print("XGBoost Test Accuracy:", accuracy_score(y_test, y_test_pred_xgb))
# print("\nClassification Report:")
# print(classification_report(y_test, y_test_pred_xgb, target_names=['Stayed', 'Left']))

# Zadanie 6: Por√≥wnanie modeli i wnioski biznesowe üìà

## Cel
Por√≥wnaƒá oba modele i wyciƒÖgnƒÖƒá praktyczne wnioski dla dzia≈Çu HR.

### 6.1 Por√≥wnanie wynik√≥w
- Stw√≥rz tabelƒô por√≥wnujƒÖcƒÖ oba modele:
  - Accuracy na test
  - Precision dla klasy "Left"  
  - Recall dla klasy "Left"
  - F1-score dla klasy "Left"
- Kt√≥ry model jest lepszy i dlaczego?

In [None]:
# Tw√≥j kod tutaj:
import time



# Stw√≥rz tabelƒô por√≥wnawczƒÖ

# print(comparison)

### 6.2 Analiza b≈Çƒôd√≥w
- Znajd≈∫ przypadki gdzie oba modele siƒô myli≈Çy
- Znajd≈∫ przypadki gdzie modele siƒô r√≥≈ºni≈Çy w predykcji
- Przeanalizuj charakterystyki b≈Çƒôdnie sklasyfikowanych pracownik√≥w
- Czy widzisz jakie≈õ wzorce?

In [None]:
# Tw√≥j kod tutaj:
# Por√≥wnanie predykcji
# comparison_df = pd.DataFrame({
#     'Actual': ,
#     'SVM_Pred': ,
#     'XGB_Pred': 
# })

# B≈Çƒôdy obu modeli
# both_wrong = 

# R√≥≈ºnice miƒôdzy modelami
# different_pred = 

# print(f"Przypadki gdzie oba modele siƒô myli≈Çy: ")
# print(f"Przypadki gdzie modele r√≥≈ºniƒÖ siƒô: ")

### 6.3 Wnioski biznesowe
Na podstawie analizy odpowiedz na pytania:

**Dla dzia≈Çu HR:**
- Kt√≥re czynniki najsilniej wp≈ÇywajƒÖ na odej≈õcia pracownik√≥w?
- Jakie dzia≈Çania profilaktyczne mo≈ºna podjƒÖƒá?
- Na kt√≥rych grupach pracownik√≥w HR powinien siƒô skupiƒá?

**Dla modelowania:**
- Kt√≥ry model polecasz do wdro≈ºenia i dlaczego?
- Jakie sƒÖ g≈Ç√≥wne zalety i wady ka≈ºdego podej≈õcia?
- Jak mo≈ºna poprawiƒá wyniki modeli?

**Twoje wnioski biznesowe:**

### Kluczowe czynniki wp≈ÇywajƒÖce na attrition:
<!-- Wymie≈Ñ 5 najwa≈ºniejszych czynnik√≥w i jak je interpretowaƒá -->

### Rekomendacje dla HR:
<!-- Konkretne dzia≈Çania kt√≥re mo≈ºe podjƒÖƒá dzia≈Ç HR -->

### Rekomendacje techniczne:
<!-- Kt√≥ry model wdro≈ºyƒá, jak go monitorowaƒá, jak poprawiƒá -->

### Ograniczenia analizy:
<!-- Co mog≈Çoby byƒá zrobione lepiej, jakie sƒÖ ograniczenia danych -->

# Zadanie 7: Zadania dodatkowe (dla chƒôtnych) üåü

## Cel
Pog≈Çƒôbiƒá analizƒô i sprawdziƒá zaawansowane techniki.

### 7.1 Feature Engineering
- Stw√≥rz nowe cechy:
  - Ratio: Monthly Income / Years at Company (wzrost zarobk√≥w)
  - Age groups (m≈Çodzi/≈õredni/starsi)
  - Interakcje miƒôdzy wa≈ºnymi cechami
- Sprawd≈∫ czy poprawiajƒÖ one wyniki modeli

In [None]:
# Tw√≥j kod tutaj (opcjonalnie):
# Feature engineering
# ...

### 7.2 Ensemble model
- Stw√≥rz VotingClassifier ≈ÇƒÖczƒÖcy SVM i XGBoost
- Sprawd≈∫ czy ensemble daje lepsze wyniki ni≈º pojedyncze modele
- Przetestuj r√≥≈ºne wagi dla modeli

In [None]:
# Tw√≥j kod tutaj (opcjonalnie):
# from sklearn.ensemble import VotingClassifier
# ensemble = VotingClassifier(...)
# ...

### 7.3 Krzywa ROC i AUC
- Narysuj krzywe ROC dla obu modeli
- Oblicz AUC score
- Zinterpretuj wyniki

In [None]:
# Tw√≥j kod tutaj (opcjonalnie):
# from sklearn.metrics import roc_curve, auc
# ...

### 7.4 Analiza SHAP 
- U≈ºyj biblioteki SHAP do interpretacji modelu XGBoost
- Stw√≥rz wykresy SHAP values dla najwa≈ºniejszych cech
- Przeanalizuj jak poszczeg√≥lne cechy wp≈ÇywajƒÖ na konkretne predykcje

In [None]:
# Tw√≥j kod tutaj (opcjonalnie):
# import shap
# explainer = shap.Explainer(best_xgb)
# shap_values = explainer(X_test[:100])  # sample dla szybko≈õci
# shap.plots.waterfall(shap_values[0])

# Podsumowanie i refleksje üéØ

## Co osiƒÖgnƒÖ≈Çe≈õ w tych ƒáwiczeniach:
‚úÖ Przeprowadzi≈Çe≈õ kompleksowƒÖ analizƒô rzeczywistego zbioru danych HR  
‚úÖ Zaimplementowa≈Çe≈õ i por√≥wna≈Çe≈õ dwa r√≥≈ºne algorytmy ML  
‚úÖ Dokona≈Çe≈õ optymalizacji hiperparametr√≥w  
‚úÖ Przeanalizowa≈Çe≈õ wyniki z perspektywy biznesowej  
‚úÖ WyciƒÖgnƒÖ≈Çe≈õ praktyczne wnioski dla organizacji  

## Kluczowe umiejƒôtno≈õci:
- **Data Science workflow**: od surowych danych do wdro≈ºenia
- **Model comparison**: obiektywne por√≥wnanie algorytm√≥w
- **Business insights**: t≈Çumaczenie wynik√≥w ML na jƒôzyk biznesu
- **Critical thinking**: analiza ogranicze≈Ñ i mo≈ºliwo≈õci poprawy

## Nastƒôpne kroki:
- Przetestuj inne algorytmy (Random Forest, Logistic Regression)


**Gratulacje! Uko≈Ñczy≈Çe≈õ kompletny projekt ML od A do Z! üéâ**