**Beschreibung:** Der bereitgestellte Code ist ein Beispiel für die Erstellung, das Training und die Evaluierung eines Random Forest Klassifikators für die Vorhersage der Qualität von Weißwein anhand verschiedener Merkmale.

## 1. Datenimport und -vorbereitungg
Es werden die benötigten Python-Bibliotheken (`pandas`, `numpy`) importiert. Die Weinqualitätsdaten werden aus einer CSV-Datei (`winequality-white.csv`) eingelesen und in einem Pandas-Datenrahmen (`wine_quality`) gespeichert. Die Daten werden dann für die Verwendung vorbereitet, indem die Merkmale in der Variable `X` gespeichert und die Labels in der Variable `y` abgelegt werden.


In [1]:
# 1. Standard Library Import und Daten vorbereiten
import pandas as pd
import numpy as np

In [2]:
# Daten einlesen
wine_quality = pd.read_csv("winequality-white.csv", sep=";")
wine_quality

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.00100,3.00,0.45,8.8,6
1,6.3,0.30,0.34,1.6,0.049,14.0,132.0,0.99400,3.30,0.49,9.5,6
2,8.1,0.28,0.40,6.9,0.050,30.0,97.0,0.99510,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.99560,3.19,0.40,9.9,6
...,...,...,...,...,...,...,...,...,...,...,...,...
4893,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6
4894,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5
4895,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6
4896,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7


In [18]:
# Erstellen von X (Merkmalsmatrix)
X = wine_quality.drop("quality", axis=1)

# Erstellen von y (Labels)
y = wine_quality["quality"]

### 2. Modellinitialisierung
Ein Random Forest Klassifikator wird aus der `RandomForestClassifier`-Klasse des `sklearn.ensemble`-Moduls initialisiert. Dabei wird die Anzahl der Bäume (`n_estimators`) auf 100 festgelegt.


In [4]:
# 2. Wahl des richtigen Modells oder Hyperparameter
from sklearn.ensemble import RandomForestClassifier

# Modellinitialisierung
model = RandomForestClassifier(n_estimators=100)

In [46]:
# Die Standard-Hyperparameter beibehalten
model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 90,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

### 3. Anpassen des Modells
Das Modell wird an die Trainingsdaten angepasst. Dafür werden die Daten in Trainings- und Testsets aufgeteilt (`train_test_split`) und das Modell wird auf den Trainingsdaten mit der Methode `fit` trainiert.


In [6]:
# 3. Anpassen des Modells an die Trainingsdaten
from sklearn.model_selection import train_test_split

# Aufteilung in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
model.fit(X_train, y_train);

# Überprüfen der Trainingsdaten
X_train


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
1648,7.1,0.30,0.49,1.6,0.045,31.0,100.0,0.99420,3.40,0.59,10.2
4418,6.6,0.22,0.23,17.3,0.047,37.0,118.0,0.99906,3.08,0.46,8.8
1937,7.3,0.13,0.27,4.6,0.080,34.0,172.0,0.99380,3.23,0.39,11.1
1616,6.9,0.34,0.49,7.3,0.045,61.0,206.0,0.99570,3.09,0.40,9.0
176,7.2,0.32,0.47,5.1,0.044,19.0,65.0,0.99100,3.03,0.41,12.6
...,...,...,...,...,...,...,...,...,...,...,...
2063,7.6,0.18,0.36,2.4,0.049,38.0,123.0,0.99600,3.60,0.46,10.3
2441,7.2,0.20,0.28,1.6,0.028,13.0,168.0,0.99203,3.17,1.06,11.5
1442,8.0,0.25,0.49,1.2,0.061,27.0,117.0,0.99380,3.08,0.34,9.4
2827,6.4,0.14,0.31,1.2,0.034,53.0,138.0,0.99084,3.38,0.35,11.5


In [44]:
# from sklearn import linear_model
# modelLM = linear_model.LinearRegression()
# modelLM.fit(X_train,y_train)
# modelLM.score(X_test,y_test)
# wine_quality.size
# from sklearn.svm import LinearSVC
# from sklearn.pipeline import make_pipeline
# from sklearn.preprocessing import StandardScaler
# clf = make_pipeline(StandardScaler(),LinearSVC(dual="auto", random_state=0, tol=1e-5))
# clf.fit(X_train, y_train)
# clf.score(X_test,y_test)
from sklearn.ensemble import RandomForestClassifier
modelKN = RandomForestClassifier().fit(X_train, y_train)
modelKN.score(X_test,y_test)

0.6959183673469388

### 4. Vorhersage und Evaluierung
Das trainierte Modell wird verwendet, um Vorhersagen für die Testdaten zu treffen. Die Genauigkeit des Modells wird sowohl für die Trainings- als auch für die Testdaten mit der Methode `score` bewertet. Darüber hinaus werden verschiedene Metriken wie der Klassifikationsbericht (`classification_report`), die Konfusionsmatrix (`confusion_matrix`) und die Genauigkeit (`accuracy_score`) für die Testdaten berechnet und ausgegeben.


In [28]:
y_preds = model.predict(X_test)
y_preds

array([5, 6, 5, 6, 6, 6, 6, 6, 6, 6, 5, 6, 7, 6, 5, 6, 5, 6, 7, 4, 6, 6,
       7, 6, 6, 6, 7, 5, 6, 7, 6, 6, 5, 6, 5, 6, 5, 6, 7, 5, 6, 6, 6, 6,
       6, 6, 6, 6, 7, 7, 5, 6, 6, 5, 6, 6, 7, 7, 6, 5, 5, 6, 5, 7, 6, 5,
       5, 5, 5, 6, 5, 6, 6, 5, 5, 6, 5, 5, 5, 5, 6, 7, 6, 8, 6, 6, 6, 6,
       5, 6, 6, 6, 6, 6, 7, 6, 7, 6, 6, 6, 8, 6, 6, 5, 6, 6, 6, 7, 5, 6,
       6, 6, 8, 6, 7, 5, 6, 5, 7, 6, 6, 5, 6, 6, 7, 5, 6, 6, 5, 6, 7, 6,
       5, 6, 5, 6, 7, 6, 6, 7, 5, 6, 6, 6, 5, 5, 5, 5, 6, 5, 6, 6, 6, 5,
       6, 6, 6, 5, 6, 6, 7, 6, 5, 7, 5, 5, 6, 5, 6, 6, 6, 6, 5, 6, 7, 6,
       5, 6, 6, 6, 7, 5, 6, 7, 5, 6, 7, 6, 6, 6, 6, 6, 5, 7, 5, 6, 6, 5,
       6, 7, 5, 7, 5, 7, 6, 6, 6, 5, 6, 6, 6, 6, 6, 6, 6, 6, 8, 6, 6, 5,
       8, 6, 6, 6, 6, 5, 6, 6, 5, 5, 7, 6, 6, 7, 6, 7, 7, 6, 5, 6, 6, 5,
       5, 6, 5, 6, 5, 6, 6, 6, 6, 5, 6, 6, 6, 6, 5, 5, 5, 6, 7, 6, 6, 6,
       5, 5, 5, 4, 4, 8, 7, 6, 6, 5, 8, 6, 5, 6, 6, 5, 6, 6, 6, 6, 6, 6,
       6, 5, 8, 6, 7, 5, 6, 5, 5, 6, 5, 6, 7, 6, 6,

In [29]:
# Bewertung des Modells anhand der Trainings- und Testdaten
model.score(X_train, y_train)

1.0

In [30]:
model.score(X_test, y_test)

0.6908163265306122

In [31]:
# Importieren von Metriken zur Evaluierung
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Ausgabe des Klassifikationsberichts
print(classification_report(y_test, y_preds))

              precision    recall  f1-score   support

           3       0.00      0.00      0.00         3
           4       0.78      0.16      0.26        44
           5       0.70      0.68      0.69       289
           6       0.67      0.82      0.74       442
           7       0.75      0.55      0.63       173
           8       0.70      0.48      0.57        29

    accuracy                           0.69       980
   macro avg       0.60      0.45      0.48       980
weighted avg       0.70      0.69      0.68       980



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [32]:
# Konfusionsmatrix und Genauigkeitsbewertung
confusion_matrix(y_test, y_preds)
accuracy_score(y_test, y_preds)

0.6908163265306122

### 5. Verbesserung des Modells
Es wird eine Schleife verwendet, um das Modell mit verschiedenen Werten für die Anzahl der Bäume (`n_estimators`) zu trainieren. Dabei wird die Genauigkeit des Modells auf den Testdaten für jede Iteration ausgegeben, um die beste Konfiguration zu ermitteln.


In [33]:
# 5. Verbesserung des Modells
# Versuchen mit verschiedenen Werten für n_estimators 
np.random.seed(42)
for i in range(10, 100, 10):
    print(f"Versuche Modell mit {i} Estimators...")
    model = RandomForestClassifier(n_estimators=i).fit(X_train, y_train)
    print(f"Modellgenauigkeit auf Testdaten: {model.score(X_test, y_test) * 100:.2f}%")
    print("")

Versuche Modell mit 10 Estimators...
Modellgenauigkeit auf Testdaten: 67.45%

Versuche Modell mit 20 Estimators...
Modellgenauigkeit auf Testdaten: 69.08%

Versuche Modell mit 30 Estimators...
Modellgenauigkeit auf Testdaten: 69.69%

Versuche Modell mit 40 Estimators...
Modellgenauigkeit auf Testdaten: 69.49%

Versuche Modell mit 50 Estimators...
Modellgenauigkeit auf Testdaten: 69.08%

Versuche Modell mit 60 Estimators...
Modellgenauigkeit auf Testdaten: 68.47%

Versuche Modell mit 70 Estimators...
Modellgenauigkeit auf Testdaten: 69.59%

Versuche Modell mit 80 Estimators...
Modellgenauigkeit auf Testdaten: 70.51%

Versuche Modell mit 90 Estimators...
Modellgenauigkeit auf Testdaten: 69.08%



### 6. Modellspeicherung und -ladung
Das trainierte Modell wird mit der `pickle`-Bibliothek als Datei (`random_forest_model_1.pkl`) gespeichert. Danach wird das gespeicherte Modell wieder geladen und seine Leistung auf den Testdaten erneut überprüft.


In [34]:
# 6. Modell speichern und laden
import pickle 

# Modell speichern
pickle.dump(model, open("random_forest_model_1.pkl", "wb"))

In [35]:
# Geladenes Modell überprüfen
loaded_model = pickle.load(open("random_forest_model_1.pkl", "rb"))
loaded_model.score(X_test, y_test)

0.6908163265306122