# SKI FARHT

Importieren von packages

In [123]:
import numpy as np 
import matplotlib.pyplot as plt
import pandas as pd

Lesen der Daten

In [124]:
dataset = pd.read_excel('skifahren.xlsx')

#dataset.head()
#dataset.info()
print(dataset)

  Sonnig Wochenende  Entfernung Skifahren hat sich gelohnt
0     Ja         Ja          90                         Ja
1     Ja         Ja         120                       Nein
2   Nein         Ja          80                         Ja
3   Nein       Nein          80                         Ja
4     Ja         Ja         110                       Nein
5     Ja       Nein          76                         Ja
6   Nein         Ja         105                       Nein
7     Ja       Nein         131                         Ja
8   Nein       Nein          95                         Ja
9   Nein       Nein         114                       Nein


In [125]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Sonnig                      10 non-null     object
 1   Wochenende                  10 non-null     object
 2   Entfernung                  10 non-null     int64 
 3   Skifahren hat sich gelohnt  10 non-null     object
dtypes: int64(1), object(3)
memory usage: 452.0+ bytes


In [126]:
dataset['Entfernung_Kategorie'] = dataset['Entfernung'].apply(lambda x: '<=100' if x <= 100 else '>100')

#attributen
features = ['Sonnig','Wochenende', 'Entfernung_Kategorie'] 
#zielvariable
label = 'Skifahren hat sich gelohnt' # oder dataset.iloc[-1]

for feature in features:
    feature_value_counts = dataset[feature].value_counts()
    print(f'Number of samples in each class for {feature} is:\n{feature_value_counts}')

label_value_counts = dataset[label].value_counts()
print(f'Number of samples in each class for {label} is:\n{label_value_counts}')

Number of samples in each class for Sonnig is:
Sonnig
Ja      5
Nein    5
Name: count, dtype: int64
Number of samples in each class for Wochenende is:
Wochenende
Ja      5
Nein    5
Name: count, dtype: int64
Number of samples in each class for Entfernung_Kategorie is:
Entfernung_Kategorie
<=100    5
>100     5
Name: count, dtype: int64
Number of samples in each class for Skifahren hat sich gelohnt is:
Skifahren hat sich gelohnt
Ja      6
Nein    4
Name: count, dtype: int64


# Gini Impurity und Information Gain

In [127]:
# Definition der Gini-Impurity-Funktion
def gi (labels):
    n = labels.sum()
    p_sum = 0
    for label in labels.keys():
        p_sum += (labels[label] / n) * (labels[label] / n)
    gini = 1 - p_sum
    return gini


In [128]:
gini_gesamt = gi(label_value_counts)
print(f'Gini Impurity von {label}: {gini_gesamt:.3f}')

Gini Impurity von Skifahren hat sich gelohnt: 0.480


In [129]:

def gini_split(feature):
    feature_value_counts = dataset[feature].value_counts()
    gini_neu = 0
    total = dataset.shape[0] #oder len(dataset)
    
    for value, count in feature_value_counts.items():
        feature_dataset = dataset[label][dataset[feature] == value].value_counts()
        gini_neu += (count / total) * gi(feature_dataset)

    return gini_neu 

split_mask = {}
for feature in features:
    split_mask[feature] = gini_split(feature)
    print(f'Gini Impurity für den Node {feature}: {split_mask[feature]:.3f}') 

Gini Impurity für den Node Sonnig: 0.480
Gini Impurity für den Node Wochenende: 0.400
Gini Impurity für den Node Entfernung_Kategorie: 0.160


In [130]:

min_value = min(split_mask.values())
print('The minimum value of Gini Impurity : {0:.3} '.format(min_value))
print('The maximum value of Gini Gain     : {0:.3} '.format(1-min_value))

selected_node = min(split_mask.keys())
print('The selected attiribute is: ', selected_node)

The minimum value of Gini Impurity : 0.16 
The maximum value of Gini Gain     : 0.84 
The selected attiribute is:  Entfernung_Kategorie


In [131]:
#Information gain
information_gain = gini_gesamt - split_mask[feature]
print (f'Der Information Gain ist {information_gain:.3f}')


Der Information Gain ist 0.320


In [132]:
def find_best_split(data, features, target):
    # Initialisieren der Variablen für die beste Aufteilung
    best_gain = -1  # Ein negativer Informationsgewinn ist nicht möglich, also ein guter Startwert
    best_feature = None
    best_split_value = None

    # Die aktuelle Gini-Impurity des Datensatzes vor dem Split berechnen
    current_gini = gi(data[target])

    # Überprüfen aller möglichen Splits für jedes Feature
    for feature in features:
        unique_values = data[feature].unique()
        for value in unique_values:
            # Teile die Daten basierend auf dem Feature-Wert
            left_split = data[data[feature] <= value]
            right_split = data[data[feature] > value]

            # Berechne die Gini-Impurity für jeden Teilsplit
            left_gini = gi(left_split[target])
            right_gini = gi(right_split[target])

            # Berechne den gewichteten Durchschnitt der Gini-Impurity nach dem Split
            p_left = len(left_split) / len(data)
            p_right = len(right_split) / len(data)
            weighted_gini = p_left * left_gini + p_right * right_gini

            # Berechne den Informationsgewinn vom aktuellen Split
            gain = current_gini - weighted_gini

            # Überprüfe, ob dieser Split besser ist als der bisher beste
            if gain > best_gain:
                best_gain = gain
                best_feature = feature
                best_split_value = value

    # Gib die Details des besten gefundenen Splits zurück
    print(f'The best split is on feature {best_feature} at value {best_split_value} with Gini Gain {best_gain:.3f}')
    return best_feature, best_split_value


# Entscheidungs baum

In [133]:
def make_decision(data, target, features, current_depth=1, max_depth=None):
    # Basisfall: Überprüfen, ob alle Datenpunkte dasselbe Label haben oder keine Features mehr übrig sind
    if len(data[target].unique()) == 1 or not features or (max_depth is not None and current_depth > max_depth):
        return {current_depth: data[target].mode()[0]}  # oder ein anderes Kriterium für das Label

    # Finden des besten Features und Wertes für den Split
    best_feature, best_value = find_best_split(data, features, target)
    
    # Erstellen des Knotens im Baum
    tree = {current_depth: [f"{best_feature} <= {best_value}", current_depth*2, current_depth*2 + 1]}
    
    # Daten aufteilen
    left_data = data[data[best_feature] <= best_value]
    right_data = data[data[best_feature] > best_value]
    
    # Rekursiver Aufruf für die linken und rechten Teilbäume
    tree.update(make_decision(left_data, target, features, current_depth*2, max_depth))
    tree.update(make_decision(right_data, target, features, current_depth*2 + 1, max_depth))
    
    return tree

# Anwendung des Entscheidungsbaum-Algorithmus
# Angenommen, Sie haben ein DataFrame `df`, ein Ziel `target` und eine Liste von Feature-Namen `features`
decision_tree = make_decision(df, 'target', features)


NameError: name 'df' is not defined