<h1>Decision Tree und Random-Forest</h1>

Entscheidungsbäume sind Bäume, die das Dataset aufteilen können, um daraus eine Schlussfolgerung zu ziehen.

<i>Abb1</i>: Vergleich der Datasets. Links: eine einfache Boundary reicht. Rechts: mehrere Boundaries wären nötig.

<img src="./files_data/img/sklearn_dtrm_1.PNG" width=700 hight=400>

Bei einem Dataset das einfach zu überblicken ist, reicht es eine einfache Boundary zu ziehen, um diese Punkte zu klassifizieren. Dann könnte man zum Beispiel ein SVM Model nutzen, um das Problem zu lösen. 

Bei einem Dataset, das nicht so einfach durch eine Boundary separiert werden kann, muss es ggf. aufgeteilt werden, um mehrere Boundaries zu ziehen. Genau das machen auch die Bäume.

Visualisiert  lässt sich das einfach erklären. <br>
Für das Training und das Beispiel nutzen wir ein Dataset, wo es um Kredite geht, ob diese gewährt werden oder nicht.

> https://www.kaggle.com/datasets/sujithmandala/simple-loan-classification-dataset [Letzter Zugriff: 07.06.2024]


In [None]:
# // A visualization will be added

Auch die Reihenfolge, wie der Baum aufgeteilt wird, spielt eine wichtige Rolle.

In [52]:
# Imports
import pandas as pd

from sklearn.preprocessing import LabelEncoder

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

In [53]:
# Erstelle Dataframe aus der CSV Datei. 
loan_df = pd.read_csv("./files_data/data/loanClass.zip", compression='zip')
loan_df.head()

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
2,28,Male,Student,High School,Single,25000,590,Denied
3,51,Female,Manager,Bachelor's,Married,105000,780,Approved
4,36,Male,Accountant,Bachelor's,Married,75000,710,Approved


In [54]:
# Zeige, welche Features dafür sorge, dass der Kredit genehmigt wird. 
loan_df[loan_df['loan_status'] == 'Approved' ].head()

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,Engineer,Bachelor's,Married,85000,720,Approved
1,45,Female,Teacher,Master's,Single,62000,680,Approved
3,51,Female,Manager,Bachelor's,Married,105000,780,Approved
4,36,Male,Accountant,Bachelor's,Married,75000,710,Approved
6,42,Male,Lawyer,Doctoral,Married,120000,790,Approved


In [55]:
loan_df[loan_df['loan_status'] == 'Approved' ].count()

age                45
gender             45
occupation         45
education_level    45
marital_status     45
income             45
credit_score       45
loan_status        45
dtype: int64

In [56]:
loan_df[loan_df['loan_status'] == 'Denied' ].count()

age                16
gender             16
occupation         16
education_level    16
marital_status     16
income             16
credit_score       16
loan_status        16
dtype: int64

Ohne zu sehr ins Detail zu gehen, geht es weiter. Die Features, die Strings enthalten, müssen erst dekodiert werden.

In [57]:
loan_df['occupation'].unique

<bound method Series.unique of 0         Engineer
1          Teacher
2          Student
3          Manager
4       Accountant
          ...     
56       Architect
57    Receptionist
58          Banker
59          Writer
60            Chef
Name: occupation, Length: 61, dtype: object>

Für die Features occupation und education_level verwenden wir ein Label Encoding, für die anderen (marital_status, gender, loan_status) On Hot Encode.

In [58]:
# On Hot Encode für gender und marital_status.
gender_married_df = pd.get_dummies(\
    loan_df[ ['gender', 'marital_status', 'loan_status']], drop_first=True, dtype='int')
gender_married_df.head()

Unnamed: 0,gender_Male,marital_status_Single,loan_status_Denied
0,1,0,0
1,0,1,0
2,1,1,1
3,0,0,0
4,1,0,0


In [59]:
# Sklearn Label Encoder. 
le = LabelEncoder()
loan_df['occupation']       = le.fit_transform(loan_df['occupation'] )
loan_df['education_level']  = le.fit_transform(loan_df['education_level'] )

In [60]:
loan_df.head()

Unnamed: 0,age,gender,occupation,education_level,marital_status,income,credit_score,loan_status
0,32,Male,12,1,Married,85000,720,Approved
1,45,Female,35,4,Single,62000,680,Approved
2,28,Male,33,3,Single,25000,590,Denied
3,51,Female,16,1,Married,105000,780,Approved
4,36,Male,0,1,Married,75000,710,Approved


Jetzt müssen die nicht benötigten Features mit Strings entfernt und die Neuen eingefügt werden.

In [61]:
# Lösche die drei Spalten, wo wir On Hot Encode verwendet haben. 
loan_df.drop(['gender', 'marital_status', 'loan_status'], axis='columns', inplace=True)
# Füge die Neuen ein. 
loan_df = pd.concat([loan_df, gender_married_df], axis='columns')
loan_df.head()

Unnamed: 0,age,occupation,education_level,income,credit_score,gender_Male,marital_status_Single,loan_status_Denied
0,32,12,1,85000,720,1,0,0
1,45,35,4,62000,680,0,1,0
2,28,33,3,25000,590,1,1,1
3,51,16,1,105000,780,0,0,0
4,36,0,1,75000,710,1,0,0


Dann können wir ein Train- und Testset erstellen.

In [65]:
X_train, X_test, y_train, y_test = \
                     train_test_split(loan_df.drop(['loan_status_Denied'], axis="columns"), \
                                     loan_df['loan_status_Denied'], test_size=0.3)

In [66]:
X_train.shape

(42, 7)

Jetzt kann das Model erstellt und trainiert werden.

In [67]:
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
tree.score(X_test, y_test)

1.0

<h1>Random-Forest</h1>

In [68]:
# Sallery Pred Dataset
#https://www.kaggle.com/datasets/rkiattisak/salaly-prediction-for-beginer

<i>Abb2</i>: Funktionsweise von Random-Forest.
<center>
    <img src="./files_data/img/sklearn_dtrm_2.PNG" width=600 hight=600>
</center>

Das gegebene Dataset wird in n-Random Batches aufgeteilt. Jedes dieser Batches kann unterschiedlich viele positive oder negative Samples haben.

Aus diese Batches werden wie beim normalen Decision Tree Bäume erstellt. Mit vielen Bäumen hat man ein Forest => Random-Forest

Bei einer Prediction kann jeder Baum seine Entscheidung machen. Am Ende wird durch ein Vote entschieden, welche Entscheidung genommen wird. 