## Zaczynamy od importów

In [206]:
import pandas as pd

## Odczytaj przetworzone wcześniej dane
Następnym krokiem jest odczytanie przetworzonych wcześniej danych. Wszystkie dane są numeryczne, bądź binarne (true / false). Dzięki temu będą mogły zostać przyjęte przez większość modeli.

In [207]:
df = pd.read_csv('../data/03_processed/data_processed.csv')

df.head()

Unnamed: 0,age,education-num,hours-per-week,workclass_Local-gov,workclass_Private,workclass_Self-emp-inc,workclass_Self-emp-not-inc,workclass_State-gov,marital-status_Married-AF-spouse,marital-status_Married-civ-spouse,...,native-country_Philippines,native-country_Poland,native-country_Portugal,native-country_Puerto-Rico,native-country_Taiwan,native-country_Thailand,native-country_United-States,income_encoded,capital-gain-log,capital-loss-log
0,39,13,40,False,False,False,False,True,False,False,...,False,False,False,False,False,False,True,0,7.684784,0.0
1,50,13,13,False,False,False,True,False,False,True,...,False,False,False,False,False,False,True,0,0.0,0.0
2,38,9,40,False,True,False,False,False,False,False,...,False,False,False,False,False,False,True,0,0.0,0.0
3,53,7,40,False,True,False,False,False,False,True,...,False,False,False,False,False,False,True,0,0.0,0.0
4,28,13,40,False,True,False,False,False,False,True,...,False,False,False,False,False,False,False,0,0.0,0.0


## Podział zbioru
Zbiór dzielimy na dwie części - zbiór danych treningowych i testowych. Zbiór testowy stanowi 30% danych.

In [None]:
from sklearn.model_selection import train_test_split

Y = df['income_encoded'] 
X = df.drop(columns=['income_encoded'])

X_train, X_test, Y_train, Y_test = train_test_split(
    X,
    Y,
    test_size=0.3, # 30% for test set
    random_state=17, # to keep results consistent
    stratify=Y # to maintain class distribution in both sets
)

print(f"Zbiór treningowy X: {X_train.shape}")
print(f"Zbiór testowy X: {X_test.shape}")

Zbiór treningowy X: (322, 60)
Zbiór testowy X: (139, 60)


## Uruchomienie baseline'u
Jako nasz pierwszy baseline wybraliśmy las losowy.

In [209]:
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(
    n_estimators = 200,      # number of trees in the forest
    max_depth = None,        
    random_state = 17,       # to keep results consistent
    n_jobs = -1              # use all available cores
)

rf_model.fit(X_train, Y_train)
print("Model wytrenowany.")

Model wytrenowany.


## Ocena modelu
Zgodnie z wcześniejszymi ustaleniami, do oceny modelu wykorzystujemy metrykę Average Precision.

Jako dodatkowe punkty odniesienia obliczyliśmy również metryki F1 oraz ROC-AUC.

In [210]:
from sklearn.metrics import average_precision_score, f1_score, roc_auc_score

Y_proba= rf_model.predict_proba(X_test)[:, 1]  # probability of the positive class
Y_pred = rf_model.predict(X_test)

avg_precision = average_precision_score(Y_test, Y_proba)
print(f"\nAverage Precision: {avg_precision:.4f}")

f1 = f1_score(Y_test, Y_pred)
print(f"F1-Score: {f1:.4f}")

roc_auc = roc_auc_score(Y_test, Y_proba)
print(f"Wartość ROC AUC dla modelu: {roc_auc:.4f}")


Average Precision: 0.6883
F1-Score: 0.6207
Wartość ROC AUC dla modelu: 0.8702
