In [4]:
!pip install xlrd



In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, confusion_matrix

In [5]:
# =========================
# INIT
# =========================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

df = pd.read_excel(
    "default_of_credit_card_clients.xls",
    header=1,
    engine="xlrd"
)

df.rename(columns={
    "default payment next month": "default_payment"
}, inplace=True)

In [6]:
# 1. Wczytanie danych
# =========================
df = pd.read_excel(
    "default_of_credit_card_clients.xls",  # <-- popraw rozszerzenie
    header=1,
    engine="xlrd"
)

# =========================
# 2. Zmiana nazw kolumn
# =========================
df.rename(columns={
    "default payment next month": "default_payment"
}, inplace=True)

# =========================
# 3. Target i cechy
# =========================
y = df["default_payment"]
X = df.drop(columns=["default_payment", "ID"])

# =========================
# 4. Podział train / test
# =========================
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

# ===================# 5. Standaryzacja
# =========================
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# =========================
# 6. Model
# =========================
model = LogisticRegression(
    max_iter=1000,
    class_weight="balanced"
)
model.fit(X_train, y_train)

# =========================
# 7. Ewaluacja
# =========================
y_prob = model.predict_proba(X_test)[:, 1]

print("AUC:", roc_auc_score(y_test, y_prob))
print(confusion_matrix(y_test, (y_prob >= 0.3).astype(int)))

NameError: name 'train_test_split' is not defined

In [None]:
#Eksploracyjna Analiza Danych (EDA) – kod
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# =========================
# 1. Podstawowe informacje o danych
# =========================
print(df.shape)
df.head()

df.info()

# =========================
# 2. Braki danych
# =========================
df.isnull().sum()
# =========================
# 3. Rozkład zmiennej docelowej
# =========================
target_dist = df["default_payment"].value_counts(normalize=True)
print(target_dist)

sns.countplot(x="default_payment", data=df)
plt.title("Rozkład zmiennej docelowej (default_payment)")
plt.show()
#Wniosek:

#ok. 77% klientów bez defaultu

#ok. 23% klientów z defaultem
# silna nierównowaga klas → accuracy nieadekwatne
# =========================
# 4. Statystyki opisowe
# =========================
df.describe().T
# =========================
# 5. Default vs kluczowe zmienne
# =========================
key_features = [
    "LIMIT_BAL",
    "PAY_0",
    "PAY_2",
    "PAY_3",
    "AGE"
]

for col in key_features:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="default_payment", y=col, data=df)
    plt.title(f"{col} vs Default")
    plt.show()# =========================
# 6. Korelacje (numeryczne)
# =========================
plt.figure(figsize=(12, 8))
corr = df.corr()
sns.heatmap(
    corr,
    cmap="coolwarm",
    center=0,
    cbar_kws={"shrink": 0.8}
)
plt.title("Macierz korelacji")
plt.show()
#Wnioski:

#najwyższe dodatnie korelacje z defaultem mają zmienne PAY_*

#zmienne demograficzne mają słabszy, ale niezerowy wpływ

# =========================
# 7. Default rate vs opóźnienia
# =========================
default_by_pay = (
    df.groupby("PAY_0")["default_payment"]
    .mean()
    .reset_index()
)

sns.barplot(x="PAY_0", y="default_payment", data=default_by_pay)
plt.ylabel("Prawdopodobieństwo defaultu")
plt.title("Default rate vs PAY_0")
plt.show()

In [None]:
#Opis projektu

#Celem projektu jest przewidywanie niespłacenia zobowiązania karty kredytowej w kolejnym miesiącu (credit card default) na podstawie danych historycznych klientów. Jest to problem klasyfikacji binarnej o silnej nierównowadze klas, osadzony w realnym kontekście zarządzania ryzykiem kredytowym.

#Projekt został zrealizowany jako kompletny pipeline data science, obejmujący:

#zrozumienie i walidację danych,

#eksploracyjną analizę danych (EDA),

#preprocessing i inżynierię cech,

#trenowanie i ewaluację modeli,

#interpretację wyników w kontekście biznesowym. 
  

In [None]:
#Opis danych

#Źródło: UCI Machine Learning Repository – Default of Credit Card Clients Dataset (Taiwan)
#Liczba obserwacji: ~30 000 klientów
#Zmienna docelowa: default_payment

#1 – klient nie spłacił zobowiązania w kolejnym miesiącu

#0 – klient spłacił zobowiązanie terminowo

#Główne cechy

#LIMIT_BAL – przyznany limit kredytowy

#SEX, EDUCATION, MARRIAGE, AGE – dane demograficzne

#PAY_0–PAY_6 – status spłaty w poprzednich miesiącach

#BILL_AMT1–BILL_AMT6 – kwoty rachunków z poprzednich miesięcy

In [None]:
#Jakość danych i sanity check

#W zbiorze danych nie występują braki danych (NaN), jednak zidentyfikowano istotne problemy jakościowe wymagające korekty.

#EDUCATION

#Zgodnie z dokumentacją poprawne wartości to {1, 2, 3, 4}.
#W danych występowały wartości {0, 5, 6}, które zostały przekodowane do kategorii 4 ("inne"). Jest to standardowa i rekomendowana procedura dla tego zbioru danych.

#MARRIAGE

#Poprawne wartości to {1, 2, 3}.
#Wartość 0 została przekodowana na 3 ("inne").

#Zmienne BILL_AMT

#Występują wartości ujemne, które odpowiadają nadpłatom lub korektom księgowym. Zostały one zachowane jako informacyjnie istotne.

In [14]:
#Eksploracyjna analiza danych (EDA)
#Rozkład zmiennej docelowej

#Zmienna docelowa jest silnie niezbalansowana:

#ok. 77% klientów bez defaultu

#ok. 23% klientów z defaultem

# Konsekwencje:

#accuracy nie jest odpowiednią metryką

#kluczowe są ROC AUC, Recall, Precision

#zastosowano class_weight="balanced"

#Kluczowe obserwacje

#Opóźnienia w spłatach (PAY_0, PAY_2 itd.) są najsilniejszymi predyktorami defaultu

#Wyższy limit kredytowy wiąże się z niższym ryzykiem

#Zmienne demograficzne mają mniejszy, lecz mierzalny wpływ

In [15]:
#Podejście modelowe
#Model bazowy – regresja logistyczna

#Regresja logistyczna została wybrana jako model bazowy ze względu na:

#wysoką interpretowalność,

#stabilność,

#szerokie zastosowanie w scoringu kredytowym.

#Przetwarzanie danych:

#podział train/test z zachowaniem proporcji klas (stratyfikacja),

#standaryzacja cech (StandardScaler),

#uwzględnienie niezbalansowania klas.

#Próg decyzyjny

#Zamiast domyślnego progu 0.5 zastosowano próg 0.3, dobrany na podstawie analizy krzywej precision–recall.

#Uzasadnienie biznesowe:

#W zarządzaniu ryzykiem kredytowym koszt błędnej akceptacji klienta wysokiego ryzyka (false negative) jest znacznie wyższy niż koszt błędnego odrzucenia klienta niskiego ryzyka (false positive).

In [16]:
#Ewaluacja modelu
#Zastosowane metryki

#ROC AUC

#macierz pomyłek (confusion matrix)

#analiza precision / recall

#Interpretacja macierzy pomyłek

#False Negative (FN): klient ryzykowny zaklasyfikowany jako bezpieczny → potencjalna strata finansowa

#False Positive (FP): klient bezpieczny odrzucony → koszt utraconej okazji

#Wybrany próg decyzyjny minimalizuje liczbę FN kosztem większej liczby FP.

In [17]:
#Interpretacja modelu

#Analiza współczynników regresji logistycznej pozwoliła na identyfikację najważniejszych cech.

#Najistotniejsze zmienne

#Zwiększające ryzyko defaultu:

#PAY_0, PAY_2, PAY_3

#Zmniejszające ryzyko defaultu:

#LIMIT_BAL

#brak opóźnień w spłatach

#Wyniki są spójne z wiedzą domenową dotyczącą ryzyka kredytowego.


In [18]:
#Ograniczenia projektu

#Brak zaawansowanego strojenia hiperparametrów

#Wykorzystano klasyczne modele ML

#Dane pochodzą z jednego rynku (Tajwan)

In [20]:
#Możliwe kierunki rozwoju

#Dodanie modeli drzewiastych (Random Forest, XGBoost)

#Walidacja krzyżowa i tuning hiperparametrów

#Dodatkowa inżynieria cech

#Kalibracja prawdopodobieństw

In [22]:
#credit-default/
#│
#├── data/
#│ └── default_of_credit_card_clients.xls
#│
#├── notebooks/
#│ └── 01_eda_and_model.ipynb
#│
#├── src/
#│ └── model.py
#│
#├── README.md
#└── requirements.txt