# Decision Trees

## Aufgabe 7.1: Entscheidungsbäume
Schritt 1: Erstellen eines Entscheidungsbaums nach dem Algorithmus in der Vorlesung mit Hilfe der Entropie als Unreinheitsmaß


In [11]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier, export_text

data = {
    'Himmel': ['frei', 'frei', 'frei', 'bewölkt', 'bewölkt', 'bewölkt'],
    'Temperatur': ['mild', 'mild', 'heiß', 'mild', 'heiß', 'heiß'],
    'Luftfeuchtigkeit': ['normal', 'hoch', 'normal', 'hoch', 'normal', 'hoch'],
    'Gehen': ['ja', 'ja', 'nein', 'nein', 'ja', 'nein']
}

# DataFrame erstellen
df = pd.DataFrame(data)

# Zielvektor y und Featurevektor X
y = df['Gehen']
X = df.drop(columns=['Gehen'])

# Kategorische Daten in numerische Daten umwandeln
X = pd.get_dummies(X)

# Erstellen des Entscheidungsbaum-Modells mit Entropie
model = DecisionTreeClassifier(criterion='entropy')
model.fit(X, y)

# Visualisierung des Entscheidungsbaums
tree_rules = export_text(model, feature_names=list(X.columns))
print(tree_rules)


|--- Temperatur_mild <= 0.50
|   |--- Luftfeuchtigkeit_normal <= 0.50
|   |   |--- class: nein
|   |--- Luftfeuchtigkeit_normal >  0.50
|   |   |--- Himmel_bewölkt <= 0.50
|   |   |   |--- class: nein
|   |   |--- Himmel_bewölkt >  0.50
|   |   |   |--- class: ja
|--- Temperatur_mild >  0.50
|   |--- Himmel_frei <= 0.50
|   |   |--- class: nein
|   |--- Himmel_frei >  0.50
|   |   |--- class: ja



Schritt 2: Entscheidungsbaum für heiße Tage mit hoher Luftfeuchtigkeit und freiem Himmel

In [12]:
# Funktion zur Erstellung des Test-Datasets mit korrekten Dummy-Variablen
def create_test_data(himmel, temperatur, luftfeuchtigkeit):
    test_data = pd.DataFrame({
        'Himmel_frei': [1 if himmel == 'frei' else 0],
        'Himmel_bewölkt': [1 if himmel == 'bewölkt' else 0],
        'Temperatur_mild': [1 if temperatur == 'mild' else 0],
        'Temperatur_heiß': [1 if temperatur == 'heiß' else 0],
        'Luftfeuchtigkeit_normal': [1 if luftfeuchtigkeit == 'normal' else 0],
        'Luftfeuchtigkeit_hoch': [1 if luftfeuchtigkeit == 'hoch' else 0]
    })
    return test_data[X.columns]

In [13]:
# Vorhersage für einen heißen Tag mit hoher Luftfeuchtigkeit und freiem Himmel
test_data = create_test_data('frei', 'heiß', 'hoch')
prediction = model.predict(test_data)
print("Sollten Sie an einem heißen Tag mit hoher Luftfeuchtigkeit und freiem Himmel wandern gehen? ", prediction[0])

Sollten Sie an einem heißen Tag mit hoher Luftfeuchtigkeit und freiem Himmel wandern gehen?  nein


Schritt 3: Entscheidungsbaum für milde Tage mit normaler Luftfeuchtigkeit und bewölktem Himmel

In [14]:
# Vorhersage für einen milden Tag mit normaler Luftfeuchtigkeit und bewölktem Himmel
test_data = create_test_data('bewölkt', 'mild', 'normal')
prediction = model.predict(test_data)
print("Sollten Sie an einem milden Tag mit normaler Luftfeuchtigkeit und bewölktem Himmel wandern gehen? ", prediction[0])

Sollten Sie an einem milden Tag mit normaler Luftfeuchtigkeit und bewölktem Himmel wandern gehen?  nein


## Aufgabe 7.2: Praxisbeispiel Entscheidungsbäume

Schritt 1: Laden und Vorbereiten des Datensatzes 

In [3]:
import pandas as pd
import numpy as np


# Laden des Datensatzes
file_path = 'Auto.csv'
df = pd.read_csv(file_path)

# Ersetzen von '?' durch NaN und konvertieren der Daten in geeignete Typen
df.replace('?', np.nan, inplace=True)
df = df.apply(pd.to_numeric, errors='ignore')

# Anzeigen der ersten Zeilen des Datensatzes, um einen Überblick zu bekommen
df.head()

  df = df.apply(pd.to_numeric, errors='ignore')


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,1,ford torino


## Schritt 2: Bereinigen des Datensatzes

- Überprüfen auf fehlende Werte
- Korrigieren oder Entfernen von fehlerhaften Daten

In [4]:
# Überprüfen auf fehlende Werte
df.isnull().sum()

# Entfernen von Zeilen mit fehlenden Werten
df = df.dropna()

# Anzeigen der Dateninfo, um die Datentypen zu überprüfen
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 392 entries, 0 to 396
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           392 non-null    float64
 1   cylinders     392 non-null    int64  
 2   displacement  392 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        392 non-null    int64  
 5   acceleration  392 non-null    float64
 6   year          392 non-null    int64  
 7   origin        392 non-null    int64  
 8   name          392 non-null    object 
dtypes: float64(4), int64(4), object(1)
memory usage: 30.6+ KB


## Schritt 3: Ziel- und Featurevektoren erstellen
- Zielvektor y: Anzahl der Zylinder
- Featurevektor X: Alle Features außer name und cylinders

In [5]:
# Zielvektor y
y = df['cylinders']

# Featurevektor X
X = df.drop(columns=['name', 'cylinders'])

# Überprüfen der ersten Zeilen der Features und des Zielvektors
X.head(), y.head()

(    mpg  displacement  horsepower  weight  acceleration  year  origin
 0  18.0         307.0       130.0    3504          12.0    70       1
 1  15.0         350.0       165.0    3693          11.5    70       1
 2  18.0         318.0       150.0    3436          11.0    70       1
 3  16.0         304.0       150.0    3433          12.0    70       1
 4  17.0         302.0       140.0    3449          10.5    70       1,
 0    8
 1    8
 2    8
 3    8
 4    8
 Name: cylinders, dtype: int64)

## Schritt 4: Trainieren des Entscheidungsbaummodells

- Verwenden von sklearn.tree.DecisionTreeClassifier
- Anwendung von 3-facher Kreuzvalidierung

In [6]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# Erstellen des Modells
model = DecisionTreeClassifier()

# Anwenden der 3-fachen Kreuzvalidierung
scores = cross_val_score(model, X, y, cv=3)

# Ausgeben der Genauigkeit
accuracy = scores.mean()
accuracy

0.9104521432765708