
## 🚀 **1. Ładowanie danych**

Wczytaj dane z pliku CSV i wyświetl kilka pierwszych wierszy oraz ogólne informacje o danych.

> **📌 Podpowiedź:**  
> `pd.read_csv('data/loans.csv')`, `.head()`, `.info()`

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.decomposition import PCA

df = pd.read_csv('data/loans.csv')

print(df.info())
display(df.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58645 entries, 0 to 58644
Data columns (total 13 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   id                          58645 non-null  int64  
 1   person_age                  58645 non-null  int64  
 2   person_income               58645 non-null  int64  
 3   person_home_ownership       58645 non-null  object 
 4   person_emp_length           58645 non-null  float64
 5   loan_intent                 58645 non-null  object 
 6   loan_grade                  58645 non-null  object 
 7   loan_amnt                   58645 non-null  int64  
 8   loan_int_rate               58645 non-null  float64
 9   loan_percent_income         58645 non-null  float64
 10  cb_person_default_on_file   58645 non-null  object 
 11  cb_person_cred_hist_length  58645 non-null  int64  
 12  loan_status                 58645 non-null  int64  
dtypes: float64(3), int64(6), object

Unnamed: 0,id,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length,loan_status
0,0,37,35000,RENT,0.0,EDUCATION,B,6000,11.49,0.17,N,14,0
1,1,22,56000,OWN,6.0,MEDICAL,C,4000,13.35,0.07,N,2,0
2,2,29,28800,OWN,8.0,PERSONAL,A,6000,8.9,0.21,N,10,0
3,3,30,70000,RENT,14.0,VENTURE,B,12000,11.11,0.17,N,5,0
4,4,22,60000,RENT,2.0,MEDICAL,A,6000,6.92,0.1,N,3,0



# 🔍 **Eksploracyjna Analiza Danych (EDA)**

## 2. Statystyki opisowe danych numerycznych

Wyświetl podstawowe statystyki opisowe dla danych numerycznych (średnia, min, max, kwartyle).

> **📌 Podpowiedź:**  
> `.describe()`

In [4]:
display(df.describe())

Unnamed: 0,id,person_age,person_income,person_emp_length,loan_amnt,loan_int_rate,loan_percent_income,cb_person_cred_hist_length,loan_status
count,58645.0,58645.0,58645.0,58645.0,58645.0,58645.0,58645.0,58645.0,58645.0
mean,29322.0,27.550857,64046.17,4.701015,9217.556518,10.677874,0.159238,5.813556,0.142382
std,16929.497605,6.033216,37931.11,3.959784,5563.807384,3.034697,0.091692,4.029196,0.349445
min,0.0,20.0,4200.0,0.0,500.0,5.42,0.0,2.0,0.0
25%,14661.0,23.0,42000.0,2.0,5000.0,7.88,0.09,3.0,0.0
50%,29322.0,26.0,58000.0,4.0,8000.0,10.75,0.14,4.0,0.0
75%,43983.0,30.0,75600.0,7.0,12000.0,12.99,0.21,8.0,0.0
max,58644.0,123.0,1900000.0,123.0,35000.0,23.22,0.83,30.0,1.0


In [None]:
print("\nIlość braków w poszczególnych kolumnach:")
print(df.isnull().sum())


Ilość braków w poszczególnych kolumnach:
id                            0
person_age                    0
person_income                 0
person_home_ownership         0
person_emp_length             0
loan_intent                   0
loan_grade                    0
loan_amnt                     0
loan_int_rate                 0
loan_percent_income           0
cb_person_default_on_file     0
cb_person_cred_hist_length    0
loan_status                   0
dtype: int64


In [8]:
print("\nRozkład zmiennej docelowej (target 0-nie przyznany 1-przyznany):")
print(df['loan_status'].value_counts())


Rozkład zmiennej docelowej (target 0-nie przyznany 1-przyznany):
loan_status
0    50295
1     8350
Name: count, dtype: int64


## 📈 **Wizualizacja zmiennych numerycznych**

Dla każdej zmiennej numerycznej wykonaj histogramy, aby zobaczyć rozkłady danych.

> **📌 Podpowiedź:**  
> `sns.histplot()`

In [None]:
all_fetures = [col for col in df.columns]
num_cols = [col for col in all_fetures if df[col].dtype != 'object' ]

## 📊 **Analiza zmiennych kategorycznych**

Przeanalizuj częstości występowania poszczególnych kategorii. Zrób wykresy słupkowe dla każdej cechy kategorycznej.

> **📌 Podpowiedź:**  
> `sns.countplot()`

## 🔍 **Identyfikacja wartości odstających**

Dla każdej zmiennej numerycznej stwórz wykres pudełkowy (boxplot), aby zidentyfikować potencjalne wartości odstające.

> **📌 Podpowiedź:**  
> `sns.boxplot()`




# 🧹 **Czyszczenie danych**

Usuń wartości odstające za pomocą metody IQR (Interquartile Range).

> **📌 Podpowiedź:**  
> Policzyć IQR i odfiltrować wartości spoza przedziału `(Q1 - 1.5*IQR, Q3 + 1.5*IQR)`

---

## ⚙️ **Przygotowanie danych**

Oddziel zmienną docelową od predyktorów. Następnie podziel dane na zbiór treningowy i testowy.

> **📌 Podpowiedź:**  
> `train_test_split()`

## 🔧 **Przekształcenia danych (preprocessing)**

Utwórz pipeline, w którym:

- **zmienne numeryczne** są skalowane (np. StandardScaler),
- **zmienne kategoryczne** są kodowane (np. OneHotEncoder).

> **📌 Podpowiedź:**  
> `ColumnTransformer` i `Pipeline`

## ⚖️ **(Opcjonalnie) Balansowanie klas**

Sprawdź balans klas w zmiennej docelowej.  
Jeśli są niezbalansowane, zastosuj technikę oversamplingu (np. SMOTE).

> **📌 Podpowiedź:**  
> `SMOTE()` z biblioteki `imblearn`

# 🧠 **Modelowanie**

Stwórz i wytrenuj modele klasyfikacyjne:

- **Decision Tree**
- **Random Forest**
- **SVM**

Dla każdego modelu ustaw wstępne hiperparametry.

## 🔎 **Optymalizacja hiperparametrów**

Dla każdego z modeli zastosuj `GridSearchCV`, aby znaleźć optymalne parametry.

> **📌 Podpowiedź:**  
> Ustaw `cv=5`, użyj metryki oceny np. `"accuracy"` lub `"f1"`

# ✅ **Ewaluacja modeli**

Oceń modele używając:

- Dokładność (**accuracy**)
- **F1-score**
- **ROC-AUC**
- Macierz błędów (**confusion matrix**)
- Raport klasyfikacji (**classification report**)

Dla każdego modelu wyświetl wyniki i stwórz krzywą ROC.

## 📉 **Analiza ważności cech (dla Random Forest)**

Wyświetl najważniejsze cechy (feature importances), które wpływają na wynik modelu.


# 🥇 **Podsumowanie i porównanie modeli**

Na podstawie uzyskanych wyników wybierz najlepszy model spośród przetestowanych i uzasadnij swój wybór.


## 📝 **Zapis wyników**

Stwórz słownik, który będzie zawierał najlepsze wyniki każdego modelu (accuracy, F1, ROC-AUC, najlepsze parametry).
