# üéØ Trening Modelu Churn - Deployment Ready

## üìã Kontekst projektu

**‚ö†Ô∏è UWAGA:** Model churn by≈Ç ju≈º szczeg√≥≈Çowo:
- **Trenowany** w projekcie 04 (churn_overfitting)
- **Optymalizowany i tuningowany** w projekcie 05 (churn_model_tuning)
- **Analizowany** w projekcie 06 (churn_recall_threshold)

**Dlaczego trenujemy go ponownie tutaj?**

1. **Przejrzysto≈õƒá** - Projekt 07 pokazuje pe≈Çny proces deployment od A do Z
2. **Sp√≥jno≈õƒá** - Wszystko w jednym miejscu (trening ‚Üí predykcje)
3. **Samodzielno≈õƒá** - Mo≈ºesz u≈ºywaƒá tego projektu niezale≈ºnie od poprzednich
4. **Best practice** - W produkcji masz pe≈ÇnƒÖ kontrolƒô nad treningiem i zapisem modelu

Ten notebook to **wersja produkcyjna** - prostsza, gotowa do u≈ºycia w realnym ≈õrodowisku.

## Krok 1: Import bibliotek

In [1]:
# Importujemy pandas - bibliotekƒô do pracy z danymi (jak Excel w Pythonie)
import pandas as pd

# Importujemy PyCaret - narzƒôdzie AutoML do klasyfikacji
# To biblioteka kt√≥ra automatyzuje proces uczenia maszynowego
from pycaret.classification import *

# Importujemy json - do zapisywania ustawie≈Ñ modelu (threshold, itp.)
import json

print("‚úÖ Biblioteki zaimportowane!")

‚úÖ Biblioteki zaimportowane!


## Krok 2: Wczytanie i przygotowanie danych

In [2]:
# Wczytujemy dane klient√≥w z pliku CSV
# CSV = Comma Separated Values (plik tekstowy z danymi oddzielonymi przecinkami)
df = pd.read_csv('data/WA_Fn-UseC_-Telco-Customer-Churn.csv')

# Sprawdzamy ile mamy klient√≥w i kolumn
print(f"üìä Liczba klient√≥w: {len(df)}")
print(f"üìã Liczba kolumn: {len(df.columns)}")

# Wy≈õwietlamy pierwsze 3 wiersze ≈ºeby zobaczyƒá jak wyglƒÖdajƒÖ dane
print("\nüîç Przyk≈Çadowe dane:")
df.head(3)

üìä Liczba klient√≥w: 7043
üìã Liczba kolumn: 21

üîç Przyk≈Çadowe dane:


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes


In [3]:
# CZYSZCZENIE DANYCH

# 1. Usuwamy kolumnƒô customerID
# To tylko identyfikator klienta (jak numer PESEL) - nie pomaga w przewidywaniu
df = df.drop('customerID', axis=1)

# 2. Naprawiamy kolumnƒô TotalCharges (≈ÇƒÖczne op≈Çaty)
# Niekt√≥re warto≈õci sƒÖ tekstem " " zamiast liczb - konwertujemy na liczby
# errors='coerce' oznacza: jak nie da siƒô zamieniƒá na liczbƒô, wpisz NaN (brak danych)
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# 3. Wype≈Çniamy brakujƒÖce warto≈õci zerem
# Nowi klienci (tenure=0) majƒÖ 0 historii p≈Çatno≈õci - logicznie to ma sens
df['TotalCharges'].fillna(0, inplace=True)

# 4. Sprawdzamy rozk≈Çad churn (ile klient√≥w odchodzi vs zostaje)
print("\nüìä Rozk≈Çad Churn (czy klient odszed≈Ç):")
print(df['Churn'].value_counts())
print(f"\nüí° Procent odchodzƒÖcych: {(df['Churn'] == 'Yes').sum() / len(df) * 100:.1f}%")

print("\n‚úÖ Dane przygotowane!")


üìä Rozk≈Çad Churn (czy klient odszed≈Ç):
Churn
No     5174
Yes    1869
Name: count, dtype: int64

üí° Procent odchodzƒÖcych: 26.5%

‚úÖ Dane przygotowane!


## Krok 3: Konfiguracja PyCaret (przygotowanie do treningu)

In [4]:
# Inicjalizujemy PyCaret - przygotowujemy ≈õrodowisko do uczenia maszynowego
# To jak przygotowanie kuchni przed gotowaniem - ustawiamy wszystkie narzƒôdzia

clf_setup = setup(
    data=df,              # Nasze dane
    target='Churn',       # Co chcemy przewidzieƒá (czy klient odejdzie: Yes/No)
    session_id=123,       # "Ziarnko losowo≈õci" - dla powtarzalnych wynik√≥w
    train_size=0.8,       # 80% danych do treningu, 20% do testowania
    fold=5,               # 5-fold cross-validation (dzielimy dane na 5 czƒô≈õci)
    normalize=True,       # Normalizacja - skalowanie liczb do podobnego zakresu
    verbose=False         # Nie pokazuj szczeg√≥≈Ç√≥w konfiguracji (mniej tekstu)
)

print("\n‚úÖ PyCaret skonfigurowany!")
print("üìä Dane podzielone: 80% trening, 20% test")
print("üéØ Target: Churn (Yes/No)")


‚úÖ PyCaret skonfigurowany!
üìä Dane podzielone: 80% trening, 20% test
üéØ Target: Churn (Yes/No)


## Krok 4: Wyb√≥r najlepszego modelu (optymalizacja pod Recall)

### Co to jest Recall?
**Recall** = Ile % faktycznie odchodzƒÖcych klient√≥w wykrywamy

**Przyk≈Çad:**
- Jest 100 klient√≥w kt√≥rzy faktycznie odejdƒÖ
- Model wykrywa 80 z nich
- **Recall = 80%**

### Dlaczego optymalizujemy pod Recall?
W churn prediction **gorsze jest przegapienie klienta**, kt√≥ry odejdzie, ni≈º fa≈Çszywy alarm. Najwa≈ºniejsze dla nas jest przewidzenie ile bƒôdzie przypadk√≥w odej≈õcia, dlatego metryka recall najbardziej nadaje siƒô do tego.

In [7]:
# Por√≥wnujemy r√≥≈ºne algorytmy uczenia maszynowego
# PyCaret automatycznie testuje ~15 r√≥≈ºnych modeli (Gradient Boosting, Random Forest, itp.)
# sort='Recall' - wybieramy model kt√≥ry NAJLEPIEJ wykrywa odchodzƒÖcych klient√≥w
# n_select=1 - wybieramy tylko 1 najlepszy model

print("üîÑ Por√≥wnywanie modeli...")
print("Szukamy modelu kt√≥ry wykryje NAJWIƒòCEJ odchodzƒÖcych klient√≥w!\n")

# To mo≈ºe zajƒÖƒá 1-2 minuty - PyCaret testuje ka≈ºdy model na 5-fold cross-validation
best_model = compare_models(sort='Recall', n_select=1)

print("\n‚úÖ Najlepszy model wybrany!")
print(f"üìä Algorytm: {type(best_model).__name__}")

üîÑ Por√≥wnywanie modeli...
Szukamy modelu kt√≥ry wykryje NAJWIƒòCEJ odchodzƒÖcych klient√≥w!




‚úÖ Najlepszy model wybrany!
üìä Algorytm: LogisticRegression


## Krok 5: Zapisanie modelu do pliku

In [8]:
# Zapisujemy wytrenowany model do pliku
# To jak zapisanie gry - p√≥≈∫niej mo≈ºemy go za≈Çadowaƒá i u≈ºywaƒá bez ponownego treningu
# PyCaret automatycznie tworzy plik .pkl (pickle) - spakowany model Python

print("üíæ Zapisywanie modelu...")

# save_model zapisuje model do folderu models/
save_model(best_model, 'models/churn_model')

print(f"\n‚úÖ Model zapisany jako: models/churn_model.pkl")
print("üì¶ Plik zawiera: wytrenowany model + preprocessing pipeline")

üíæ Zapisywanie modelu...
Transformation Pipeline and Model Successfully Saved

‚úÖ Model zapisany jako: models/churn_model.pkl
üì¶ Plik zawiera: wytrenowany model + preprocessing pipeline


## Krok 6: Zapisanie metadanych (ustawie≈Ñ modelu)

### Co to sƒÖ metadata?
**Metadata** = "dane o danych" - informacje opisujƒÖce nasz model

### Po co zapisujemy metadata?
1. **Dokumentacja** - Pamiƒôtamy jak model by≈Ç trenowany (threshold, optymalizacja)
2. **Reprodukowalno≈õƒá** - Kto≈õ inny mo≈ºe zrozumieƒá ustawienia modelu
3. **Konsystencja** - Predykcje u≈ºywajƒÖ tych samych ustawie≈Ñ co trening
4. **Wersjonowanie** - Wiemy kiedy model by≈Ç trenowany, jakie mia≈Ç parametry

### Co daje nam to w produkcji?
- ‚úÖ Skrypt `predict.py` **automatycznie** odczyta threshold z metadata
- ‚úÖ Nie trzeba pamiƒôtaƒá jakie by≈Çy ustawienia
- ‚úÖ ≈Åatwa zmiana threshold bez zmiany kodu (tylko edycja JSON)
- ‚úÖ Historia modelu - mo≈ºesz mieƒá wiele wersji z r√≥≈ºnymi metadata

In [9]:
# METADATA = informacje o modelu (nie sam model, ale jego "instrukcja obs≈Çugi")
# Zapisujemy: threshold, pod co optymalizowany, dlaczego takie ustawienia

metadata = {
    "threshold": 0.5,                          # Pr√≥g decyzyjny: >= 0.5 = "klient odejdzie"
    "optimized_for": "recall",                 # Model zoptymalizowany pod Recall
    "business_reason": "false negatives are costly",  # Dlaczego? Bo przegapienie klienta odchodzƒÖcego = strata pieniƒôdzy
    "model_type": type(best_model).__name__,  # Jaki algorytm u≈ºyty (np. GradientBoostingClassifier)
    "train_date": pd.Timestamp.now().strftime("%Y-%m-%d %H:%M:%S")  # Kiedy wytrenowany
}

# Zapisujemy metadata do pliku JSON
# JSON = prosty format tekstowy do przechowywania danych (jak s≈Çownik Python)
with open('models/metadata.json', 'w', encoding='utf-8') as f:
    json.dump(metadata, f, indent=2, ensure_ascii=False)

print("üíæ Zapisano metadata.json")
print("\nüìã Zawarto≈õƒá:")
print(json.dumps(metadata, indent=2, ensure_ascii=False))

print("\n‚úÖ Model i metadata gotowe do u≈ºycia!")

üíæ Zapisano metadata.json

üìã Zawarto≈õƒá:
{
  "threshold": 0.5,
  "optimized_for": "recall",
  "business_reason": "false negatives are costly",
  "model_type": "LogisticRegression",
  "train_date": "2026-01-07 20:26:39"
}

‚úÖ Model i metadata gotowe do u≈ºycia!


## üéâ Podsumowanie

### Co zrobili≈õmy?

1. ‚úÖ Wczytali≈õmy i oczy≈õcili≈õmy dane (7,043 klient√≥w)
2. ‚úÖ Skonfigurowali≈õmy PyCaret (80/20 train/test split)
3. ‚úÖ Wybrali≈õmy najlepszy model pod kƒÖtem **Recall**
4. ‚úÖ Zapisali≈õmy model do pliku `models/churn_model.pkl`
5. ‚úÖ Zapisali≈õmy ustawienia do `models/metadata.json`

### Co dalej?

Teraz mo≈ºemy u≈ºyƒá zapisanego modelu w notebooku **predict.ipynb** do:
- Przewidywania churn dla nowych klient√≥w
- Stosowania threshold do podjƒôcia decyzji
- Wdro≈ºenia modelu w produkcji

### üí° Kluczowe pliki:
- `models/churn_model.pkl` - wytrenowany model
- `models/metadata.json` - ustawienia (threshold, optymalizacja)

**Model jest gotowy do deployment! üöÄ**