In [4]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
from sklearn import tree

In [5]:
# Wczytanie danych
# Dane pochodzą z: https://www.kaggle.com/datasets/sujithmandala/credit-score-classification-dataset

data = pd.read_csv('Credit Score Classification Dataset.csv')

In [6]:
# Pierwsze spojrzenie na dane

print(data.head())

   Age  Gender  Income            Education Marital Status  \
0   25  Female   50000    Bachelor's Degree         Single   
1   30    Male  100000      Master's Degree        Married   
2   35  Female   75000            Doctorate        Married   
3   40    Male  125000  High School Diploma         Single   
4   45  Female  100000    Bachelor's Degree        Married   

   Number of Children Home Ownership Credit Score  
0                   0         Rented         High  
1                   2          Owned         High  
2                   1          Owned         High  
3                   0          Owned         High  
4                   3          Owned         High  


In [7]:
# Korekta nazwy kolumny

data.rename(columns={'Marital Status': 'Martial Status'}, inplace=True)

print(data.head())

   Age  Gender  Income            Education Martial Status  \
0   25  Female   50000    Bachelor's Degree         Single   
1   30    Male  100000      Master's Degree        Married   
2   35  Female   75000            Doctorate        Married   
3   40    Male  125000  High School Diploma         Single   
4   45  Female  100000    Bachelor's Degree        Married   

   Number of Children Home Ownership Credit Score  
0                   0         Rented         High  
1                   2          Owned         High  
2                   1          Owned         High  
3                   0          Owned         High  
4                   3          Owned         High  


In [8]:
# Wyświetlenie uniklanych wartośći dla danych tekstowych

print("Gender: ", data['Gender'].unique())
print("Education: ", data['Education'].unique())
print("Martial Status: ", data['Martial Status'].unique())
print("Home Ownership: ", data['Home Ownership'].unique())
print("Credit Score: ", data['Credit Score'].unique())

Gender:  ['Female' 'Male']
Education:  ["Bachelor's Degree" "Master's Degree" 'Doctorate' 'High School Diploma'
 "Associate's Degree"]
Martial Status:  ['Single' 'Married']
Home Ownership:  ['Rented' 'Owned']
Credit Score:  ['High' 'Average' 'Low']


In [9]:
# Sprawdzenie wartości NaN

nan_counts = data.isna().sum()

print(nan_counts)

Age                   0
Gender                0
Income                0
Education             0
Martial Status        0
Number of Children    0
Home Ownership        0
Credit Score          0
dtype: int64


In [10]:
# Sprawdzenie wartości pustych

nan_counts = data.isnull().sum()

print(nan_counts)

Age                   0
Gender                0
Income                0
Education             0
Martial Status        0
Number of Children    0
Home Ownership        0
Credit Score          0
dtype: int64


In [11]:
# Zakodowanie wartości:
# dla kolumny Gender: Female jako 0, Male jako 1
# dla kolumny Education: Bachelor's Degree jako 0, Master's Degree jako 1, Doctorate jako 2, High School Diploma jako 3, Associate's Degree jako 4


data['Gender'] = data['Gender'].replace({'Female': 0, 'Male': 1})
data['Education'] = data['Education'].replace({"Bachelor's Degree": 0, "Master's Degree": 1, 'Doctorate': 2, 'High School Diploma': 3, "Associate's Degree": 4})
data['Martial Status'] = data['Martial Status'].replace({'Single': 0, 'Married': 1})
data['Home Ownership'] = data['Home Ownership'].replace({'Rented': 0, 'Owned': 1})
data['Credit Score'] = data['Credit Score'].replace({'Low': 0, 'Average': 1, 'High': 2})

In [12]:
# Wyświetlenie danych i informacji o nich

print(data.head())
print(data.dtypes)

   Age  Gender  Income  Education  Martial Status  Number of Children  \
0   25       0   50000          0               0                   0   
1   30       1  100000          1               1                   2   
2   35       0   75000          2               1                   1   
3   40       1  125000          3               0                   0   
4   45       0  100000          0               1                   3   

   Home Ownership  Credit Score  
0               0             2  
1               1             2  
2               1             2  
3               1             2  
4               1             2  
Age                   int64
Gender                int64
Income                int64
Education             int64
Martial Status        int64
Number of Children    int64
Home Ownership        int64
Credit Score          int64
dtype: object


In [13]:
# Statystyki opisowe danych

print(data.describe())

              Age      Gender         Income   Education  Martial Status  \
count  164.000000  164.000000     164.000000  164.000000      164.000000   
mean    37.975610    0.475610   83765.243902    1.756098        0.530488   
std      8.477289    0.500934   32457.306728    1.410399        0.500598   
min     25.000000    0.000000   25000.000000    0.000000        0.000000   
25%     30.750000    0.000000   57500.000000    0.000000        0.000000   
50%     37.000000    0.000000   83750.000000    2.000000        1.000000   
75%     45.000000    1.000000  105000.000000    3.000000        1.000000   
max     53.000000    1.000000  162500.000000    4.000000        1.000000   

       Number of Children  Home Ownership  Credit Score  
count          164.000000      164.000000    164.000000  
mean             0.652439        0.676829      1.597561  
std              0.883346        0.469120      0.652692  
min              0.000000        0.000000      0.000000  
25%              0.000000

In [14]:
# Wybór cech i etykiet

X = data.drop('Credit Score', axis=1)
y = data['Credit Score']

In [15]:
# Podział na zbiór treningowy i testowy

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [16]:
# Inicjalizacja modelu drzewa decyzyjnego

model = DecisionTreeClassifier(random_state=42)

In [17]:
# Trenowanie modelu

model.fit(X_train, y_train)

In [18]:
# Predykcje na zbiorze testowym

y_pred = model.predict(X_test)

In [19]:
# Ocena dokładności na danych treningowych
# Model bardzo dobrze dopasował się do danych treningowych co może sugerować przeuczenie

y_train_pred = model.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f'Dokładność na danych treningowych: {train_accuracy:.4f}')

Dokładność na danych treningowych: 1.0000


In [20]:
# Ocena dokładności na danych testowych
# Bardzo wysoką dokładność model osiągnął też dla danych testowych co może wskazywać na to, że jednak prawidło rozpoznaje dane, których jeszcze nie widział

accuracy = accuracy_score(y_test, y_pred)
print(f'Dokładność: {accuracy:.4f}')

Dokładność: 0.9697


In [25]:
# Macierz konfuzji
# Otrzymane wyniki na zbiorze testowym wskazują, że:
#  klasa 0 została 5 razy przewidziana poprawnie i ani razu błędnie;
#  klasa 1 została 5 razy przewidziana poprawnie i ani razu błędnie;
#  klasa 2 została 22 razy przewidziana poprawnie i raz błędnie jako klasa 1;


conf_matrix = confusion_matrix(y_test, y_pred)

print("Macierz konfuzji:")
print("Przewidziana wartość:  0  1  2")
for i, row in enumerate(conf_matrix):
    print(f"Aktualna wartość {i} {row}")

Macierz konfuzji:
Przewidziana wartość:  0  1  2
Aktualna wartość 0 [5 0 0]
Aktualna wartość 1 [0 5 0]
Aktualna wartość 2 [ 0  1 22]


In [22]:
# Szczegółowy raport klasyfikacji

class_report = classification_report(y_test, y_pred)
print(f'Raport klasyfikacji:\n{class_report}')

# Wysoka precyzja oznacza, że niewiele przypadków zostało błędnie sklasyfikowanych jako pozytywne.
# Wysoka czułość oznacza, że model dobrze wykrywa pozytywne przypadki.
# Wysoki F1-score oznacza dobry balans między precyzją a czułością.

Raport klasyfikacji:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         5
           1       0.83      1.00      0.91         5
           2       1.00      0.96      0.98        23

    accuracy                           0.97        33
   macro avg       0.94      0.99      0.96        33
weighted avg       0.97      0.97      0.97        33



In [23]:
# Nowe dane (przykładowe)

new_data = pd.DataFrame({
    'Age': [30, 60],
    'Gender': [0, 1],
    'Income': [100000, 25000],
    'Education': [0, 3],
    'Martial Status': [1, 0],
    'Number of Children': [0, 3],
    'Home Ownership': [1, 0],
})

In [24]:
#Predykcja zdolnośći kredytowej dla nowych danych

new_predictions = model.predict(new_data)
print(f'Nowe predykcje: {new_predictions}')

Nowe predykcje: [2 0]


In [None]:
# Problemem może być zbyta mała liczba danych na których uczył się model.