In [20]:
import numpy as np 
import pandas as pd 
from sklearn.metrics import confusion_matrix 
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 
from sklearn.metrics import classification_report 

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/balance-scale/balance-scale.data"
df = pd.read_csv(url, header=None)

print(df.shape) # viser antallet af rækker og kolonner i datasættet
print(df.head()) # viser de første fem rækker i datasættet


(625, 5)
   0  1  2  3  4
0  B  1  1  1  1
1  R  1  1  1  2
2  R  1  1  1  3
3  R  1  1  1  4
4  R  1  1  1  5


In [21]:
#Nu skal vi opdele datasættet i trænings- og testdatasæt, så vi kan træne vores beslutningstræmodel 
#og evaluere dens ydeevne.

"""
Vi vil bruge inputvariablerne til at forudsige labelsne, så vi deler 
datasættet i to dele - inputvariabler og labels - ved hjælp af "iloc" funktionen fra Pandas. 
Vi gemmer inputvariablerne i variablen "X" og labelsne i variablen "y"

For at træne og evaluere vores beslutningstræmodel deler vi datasættet i to dele - 
trænings- og testdatasæt 
"""

X = df.iloc[:, 1:].values # inputværdierne
y = df.iloc[:, 0].values # labelsne

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape, y_train.shape) # viser antallet af træningsdata
print(X_test.shape, y_test.shape) # viser antallet af testdata


(500, 4) (500,)
(125, 4) (125,)


In [22]:
#Nu kan vi oprette vores beslutningstræmodel og træne den på træningsdatasættet. 
#Vi kan bruge Scikit-Learn's "DecisionTreeClassifier

"""
Vi opretter beslutningstræmodellen ved hjælp af "DecisionTreeClassifier()" funktionen fra Scikit-Learn. 
Vi angiver nogle parametre til modellen, såsom "criterion", "random_state", "max_depth" 
og "min_samples_leaf". Disse parametre bestemmer, hvordan modellen træffes beslutninger 
og hvordan den oprettes. Vi træner derefter modellen på træningsdatasættet ved hjælp af "fit()" funktionen
"""

# Create and train the model
dt = DecisionTreeClassifier(criterion = "gini", random_state=100, max_depth=3, min_samples_leaf=5)
dt.fit(X_train, y_train)



In [23]:
#Nu kan vi bruge den trænede model til at forudsige labelsne for testdatasættet og evaluere dens ydeevne 
#ved hjælp af nøjagtigheds-score og klassifikationsrapport

"""
Vi bruger den trænede beslutningstræmodel til at forudsige labelsne for testdatasættet 
ved hjælp af "predict()" funktionen. Vi sammenligner de forudsagte labels med de rigtige labels 
og beregner nøjagtigheden ved hjælp af "accuracy_score()" funktionen. 
Vi viser også en klassifikationsrapport ved hjælp af "classification_report()" funktionen, 
som viser præcision, recall og F1-score for hver label

Klassifikationsrapporten viser præcision, recall og F1-score for hver label i testdatasættet. 
Præcision måler andelen af forudsagte positive labels, der faktisk var positive. 
Recall måler andelen af positive labels i datasættet, der blev forudsagt korrekt. 
F1-score er en kombination af præcision og recall, som beregner den harmoniske gennemsnit af de to værdier.

Rapporten inkluderer også det vægtede gennemsnit og den gennemsnitlige score for alle labels. 
Det vægtede gennemsnit tager hensyn til, hvor mange samples der tilhører hver label, 
mens den gennemsnitlige score er gennemsnittet af præcision, recall og F1-score for alle labels.

På denne måde kan vi bruge klassifikationsrapporten til at evaluere, 
hvor godt vores beslutningstræmodel præsterer på de forskellige labels og i gennemsnit.
"""

y_pred = dt.predict(X_test)

#Confusion matrix kan hjælpe med at identificere, hvilke labels der er sværere at forudsige 
#og hvor modellen gør fejl
cm = confusion_matrix(y_test, y_pred)

print("Confusion matrix:")
print(cm)

print("Accuracy score:", accuracy_score(y_test, y_pred))
print("Classification report:")
print(classification_report(y_test, y_pred, zero_division=1))


Confusion matrix:
[[ 0  5  6]
 [ 0 48  7]
 [ 0 11 48]]
Accuracy score: 0.768
Classification report:
              precision    recall  f1-score   support

           B       1.00      0.00      0.00        11
           L       0.75      0.87      0.81        55
           R       0.79      0.81      0.80        59

    accuracy                           0.77       125
   macro avg       0.85      0.56      0.54       125
weighted avg       0.79      0.77      0.73       125



In [24]:

from sklearn.model_selection import GridSearchCV

# Opret en beslutningstræmodel med standard hyperparametre
dt = DecisionTreeClassifier(random_state=42)

# Træn modellen på træningsdatasættet
dt.fit(X_train, y_train)

# Lav forudsigelser på testdatasættet
y_pred = dt.predict(X_test)

# Evaluer modellens præstation
print("Standard model accuracy:", accuracy_score(y_test, y_pred))

# Definer et gitter af mulige værdier for max_depth parameteren
param_grid = {"max_depth": [1, 2, 3, 4, 5]}

# Opret et GridSearchCV objekt
grid_search = GridSearchCV(dt, param_grid, cv=5)

# Udfør en gittersøgning for at finde den bedste max_depth parameter
grid_search.fit(X_train, y_train)

# Vis den bedste kombination af hyperparametre
print("Best hyperparameters:", grid_search.best_params_)

# Lav forudsigelser på testdatasættet med den bedste model
y_pred = grid_search.predict(X_test)

# Evaluer den bedste models præstation
print("Best model accuracy:", accuracy_score(y_test, y_pred))


Standard model accuracy: 0.76
Best hyperparameters: {'max_depth': 5}
Best model accuracy: 0.728


In [25]:


# Opret en beslutningstræmodel med standard hyperparametre
dt = DecisionTreeClassifier(random_state=42)

# Træn modellen på træningsdatasættet
dt.fit(X_train, y_train)

# Lav forudsigelser på testdatasættet
y_pred = dt.predict(X_test)

# Evaluer modellens præstation
print("Standard model accuracy:", accuracy_score(y_test, y_pred))

# Definer et gitter af mulige værdier for min_samples_leaf parameteren
param_grid = {"min_samples_leaf": [1, 2, 3, 4, 5]}

# Opret et GridSearchCV objekt
grid_search = GridSearchCV(dt, param_grid, cv=5)

# Udfør en gittersøgning for at finde den bedste min_samples_leaf parameter
grid_search.fit(X_train, y_train)

# Vis den bedste kombination af hyperparametre
print("Best hyperparameters:", grid_search.best_params_)

# Lav forudsigelser på testdatasættet med den bedste model
y_pred = grid_search.predict(X_test)

# Evaluer den bedste models præstation
print("Best model accuracy:", accuracy_score(y_test, y_pred))


Standard model accuracy: 0.76
Best hyperparameters: {'min_samples_leaf': 5}
Best model accuracy: 0.768


In [28]:
from sklearn.feature_selection import RFE

# Opret en beslutningstræmodel med standard hyperparametre
dt = DecisionTreeClassifier(random_state=42)

# Definer en RFE model med 3 features
rfe = RFE(dt, n_features_to_select=3)

# Anvend RFE på træningsdatasættet
rfe.fit(X_train, y_train)

# Vis de mest relevante features
selected_features = rfe.support_
print("Selected features:", selected_features)

# Vis navnene på de mest relevante features
all_features = ["feature1", "feature2", "feature3", "feature4"]
selected_feature_names = [all_features[i] for i in range(len(selected_features)) if selected_features[i]]
print("Selected feature names:", selected_feature_names)



Selected features: [ True  True  True False]
Selected feature names: ['feature1', 'feature2', 'feature3']
