# Machine Learning Beispiel mit AutoML (PyCaret)

In diesem Notebook wird mittels einem AutoML-Modell eine Pipeline durchlaufen um ein Modell für Vorhersagen zu trainieren. Dafür wird die Python-Bibliothek [PyCaret](https://pycaret.org/) genutzt. In diesem AutoML-Modell werden weitestgehend alle Vorverarbeitungsprozesse und auch verschiedene Modelle automatisch genutzt um das "bestmögliche" mit Hyperparametern angepasste Modell zu trainieren. Dieses Modell kann heruntergeladen und für Vorhersagen genutzt werden.

All diese Schritte werden hier in Folge gezeigt.



1.   Installation aller nötigen Bibliotheken
2.   Import der Funktionen der entsprechenden Bibliotheken
3.   Datensatz beziehen (hochladen oder online-Link)
4.   Datensatz analysieren mit Y-Data
5.   Datensatz vorverarbeiten
6.   Auswahl der Merkmale
7.   Auswahl des Vorhersageproblems (Klassifikation/Regression)
8.   Evaluierung des Modells
9.   Export des Modells
10.  Vorhersage auf unbekannte Daten



# 1. Installation der relevanten Bibliotheken
Es werden zunächst alle relevanten Bibliotheken installiert. In Colab muss dafür vor dem pip install ein ! stehen. Dies für die Ausführung auf dem eigenen Rechner (z.B. in VisualStudioCode) entfernen.
%%capture bedeutet, dass die Installationsprozesse nicht in der Ausgabe des Codes angezeigt werden.

In [27]:
#Installation aller nötigen Python-Bibliotheken um ein AutoML auf einen Datensatz anzuwenden
%%capture
!pip install -q plotly pycaret pandas ydata-profiling imblearn lightgbm

print("Alles Fertig!")

# 2. Import aller relevanten Bibliotheken

Es werden alle nötigen Bibliotheken und teils nur Funktionen dieser Bibliotheken (um effizienterweise Speicherplatz zu sparen) importiert.

In [28]:
# Importiere alle nötigen Bibliotheken
from google.colab import files
import os
import pandas as pd
from ydata_profiling import ProfileReport
from IPython.display import display, HTML, FileLink, clear_output
import ipywidgets as widgets
import urllib.request
from pycaret.datasets import get_data
from pycaret.regression import *
from pycaret.classification import *
from imblearn.over_sampling import RandomOverSampler, SMOTE
import lightgbm as lgb

## 3. Datensatz beziehen

In [29]:
# Überprüfen Sie, ob die Datei existiert und löschen Sie sie, falls sie existiert
if os.path.exists("dataset.csv"):
  os.remove("dataset.csv")

# Frage den Benutzer, ob er einen Datensatz hochladen möchte oder einen Datensatz aus einer Onlinequelle verwenden möchte
source = input("Möchten Sie einen Datensatz aus einer Onlinequelle verwenden oder einen Datensatz hochladen? (o/h)")

# Wenn der Benutzer einen Datensatz aus einer Onlinequelle verwenden möchte, frage nach der Quelle
if source == "o":
    online_source = input("Welche Onlinequelle möchten Sie verwenden? (UCI Machine Learning Repository/Kaggle)")
    urllib.request.urlretrieve(online_source, 'dataset.csv')
    df = pd.read_csv('dataset.csv')

# Wenn der Benutzer einen Datensatz hochladen möchte, füge eine Upload-Funktion für den Datensatz hinzu
if source == "h":
    # Wähle die Datei aus, die du hochladen möchtest
    uploaded = files.upload()
    # Ändere den Dateinamen
    for fn in uploaded.keys():
        os.rename(fn, 'dataset.csv')
    # Öffne die Datei
    df = pd.read_csv("dataset.csv")

Möchten Sie einen Datensatz aus einer Onlinequelle verwenden oder einen Datensatz hochladen? (o/h)o
Welche Onlinequelle möchten Sie verwenden? (UCI Machine Learning Repository/Kaggle)https://raw.githubusercontent.com/ProfEngel/datasets/main/Schwertlilie.csv


# 5. Datensatz analysieren mit YData

Mit der Bibliothek [YData-Profiling](https://docs.profiling.ydata.ai/4.6/) können sehr schnell und einfach statistische Kennzahlen eines Datensatzes ausgegeben werden. Dadurch können im Vorfeld erste Erkenntnisse über mögliche Korrelationen, Ausreisser und weiteres ermittelt werden.

In [30]:
# Erstelle den Profilbericht
profile = ProfileReport(df, title="Auswertung des Datensatz in einem Profiling Report")
profile.to_file("output.html")

# Zeige den Bericht im Notebook an
display(HTML("output.html"))

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

0,1
Number of variables,5
Number of observations,150
Missing cells,0
Missing cells (%),0.0%
Duplicate rows,2
Duplicate rows (%),1.3%
Total size in memory,6.0 KiB
Average record size in memory,40.9 B

0,1
Numeric,4
Categorical,1

0,1
Dataset has 2 (1.3%) duplicate rows,Duplicates
Blütenblattlänge is highly overall correlated with Blütenblattweite and 2 other fields,High correlation
Blütenblattweite is highly overall correlated with Blütenblattlänge and 2 other fields,High correlation
Klasse is highly overall correlated with Blütenblattlänge and 2 other fields,High correlation
Länge des Kelchblatts is highly overall correlated with Blütenblattlänge and 2 other fields,High correlation
Klasse is uniformly distributed,Uniform

0,1
Analysis started,2023-11-29 11:05:13.482408
Analysis finished,2023-11-29 11:05:18.222759
Duration,4.74 seconds
Software version,ydata-profiling vv4.6.2
Download configuration,config.json

0,1
Distinct,35
Distinct (%),23.3%
Missing,0
Missing (%),0.0%
Infinite,0
Infinite (%),0.0%
Mean,5.8433333

0,1
Minimum,4.3
Maximum,7.9
Zeros,0
Zeros (%),0.0%
Negative,0
Negative (%),0.0%
Memory size,1.3 KiB

0,1
Minimum,4.3
5-th percentile,4.6
Q1,5.1
median,5.8
Q3,6.4
95-th percentile,7.255
Maximum,7.9
Range,3.6
Interquartile range (IQR),1.3

0,1
Standard deviation,0.82806613
Coefficient of variation (CV),0.14171126
Kurtosis,-0.55206404
Mean,5.8433333
Median Absolute Deviation (MAD),0.7
Skewness,0.31491096
Sum,876.5
Variance,0.68569351
Monotonicity,Not monotonic

Value,Count,Frequency (%)
5,10,6.7%
5.1,9,6.0%
6.3,9,6.0%
5.7,8,5.3%
6.7,8,5.3%
5.8,7,4.7%
5.5,7,4.7%
6.4,7,4.7%
4.9,6,4.0%
5.4,6,4.0%

Value,Count,Frequency (%)
4.3,1,0.7%
4.4,3,2.0%
4.5,1,0.7%
4.6,4,2.7%
4.7,2,1.3%
4.8,5,3.3%
4.9,6,4.0%
5.0,10,6.7%
5.1,9,6.0%
5.2,4,2.7%

Value,Count,Frequency (%)
7.9,1,0.7%
7.7,4,2.7%
7.6,1,0.7%
7.4,1,0.7%
7.3,1,0.7%
7.2,3,2.0%
7.1,1,0.7%
7.0,1,0.7%
6.9,4,2.7%
6.8,3,2.0%

0,1
Distinct,23
Distinct (%),15.3%
Missing,0
Missing (%),0.0%
Infinite,0
Infinite (%),0.0%
Mean,3.054

0,1
Minimum,2
Maximum,4.4
Zeros,0
Zeros (%),0.0%
Negative,0
Negative (%),0.0%
Memory size,1.3 KiB

0,1
Minimum,2.0
5-th percentile,2.345
Q1,2.8
median,3.0
Q3,3.3
95-th percentile,3.8
Maximum,4.4
Range,2.4
Interquartile range (IQR),0.5

0,1
Standard deviation,0.43359431
Coefficient of variation (CV),0.14197587
Kurtosis,0.29078106
Mean,3.054
Median Absolute Deviation (MAD),0.25
Skewness,0.33405266
Sum,458.1
Variance,0.18800403
Monotonicity,Not monotonic

Value,Count,Frequency (%)
3,26,17.3%
2.8,14,9.3%
3.2,13,8.7%
3.1,12,8.0%
3.4,12,8.0%
2.9,10,6.7%
2.7,9,6.0%
2.5,8,5.3%
3.5,6,4.0%
3.3,6,4.0%

Value,Count,Frequency (%)
2.0,1,0.7%
2.2,3,2.0%
2.3,4,2.7%
2.4,3,2.0%
2.5,8,5.3%
2.6,5,3.3%
2.7,9,6.0%
2.8,14,9.3%
2.9,10,6.7%
3.0,26,17.3%

Value,Count,Frequency (%)
4.4,1,0.7%
4.2,1,0.7%
4.1,1,0.7%
4.0,1,0.7%
3.9,2,1.3%
3.8,6,4.0%
3.7,3,2.0%
3.6,3,2.0%
3.5,6,4.0%
3.4,12,8.0%

0,1
Distinct,43
Distinct (%),28.7%
Missing,0
Missing (%),0.0%
Infinite,0
Infinite (%),0.0%
Mean,3.7586667

0,1
Minimum,1
Maximum,6.9
Zeros,0
Zeros (%),0.0%
Negative,0
Negative (%),0.0%
Memory size,1.3 KiB

0,1
Minimum,1.0
5-th percentile,1.3
Q1,1.6
median,4.35
Q3,5.1
95-th percentile,6.1
Maximum,6.9
Range,5.9
Interquartile range (IQR),3.5

0,1
Standard deviation,1.7644204
Coefficient of variation (CV),0.46942721
Kurtosis,-1.4019208
Mean,3.7586667
Median Absolute Deviation (MAD),1.25
Skewness,-0.27446425
Sum,563.8
Variance,3.1131794
Monotonicity,Not monotonic

Value,Count,Frequency (%)
1.5,14,9.3%
1.4,12,8.0%
5.1,8,5.3%
4.5,8,5.3%
1.6,7,4.7%
1.3,7,4.7%
5.6,6,4.0%
4.7,5,3.3%
4.9,5,3.3%
4,5,3.3%

Value,Count,Frequency (%)
1.0,1,0.7%
1.1,1,0.7%
1.2,2,1.3%
1.3,7,4.7%
1.4,12,8.0%
1.5,14,9.3%
1.6,7,4.7%
1.7,4,2.7%
1.9,2,1.3%
3.0,1,0.7%

Value,Count,Frequency (%)
6.9,1,0.7%
6.7,2,1.3%
6.6,1,0.7%
6.4,1,0.7%
6.3,1,0.7%
6.1,3,2.0%
6.0,2,1.3%
5.9,2,1.3%
5.8,3,2.0%
5.7,3,2.0%

0,1
Distinct,22
Distinct (%),14.7%
Missing,0
Missing (%),0.0%
Infinite,0
Infinite (%),0.0%
Mean,1.1986667

0,1
Minimum,0.1
Maximum,2.5
Zeros,0
Zeros (%),0.0%
Negative,0
Negative (%),0.0%
Memory size,1.3 KiB

0,1
Minimum,0.1
5-th percentile,0.2
Q1,0.3
median,1.3
Q3,1.8
95-th percentile,2.3
Maximum,2.5
Range,2.4
Interquartile range (IQR),1.5

0,1
Standard deviation,0.76316074
Coefficient of variation (CV),0.6366747
Kurtosis,-1.3397542
Mean,1.1986667
Median Absolute Deviation (MAD),0.7
Skewness,-0.10499656
Sum,179.8
Variance,0.58241432
Monotonicity,Not monotonic

Value,Count,Frequency (%)
0.2,28,18.7%
1.3,13,8.7%
1.8,12,8.0%
1.5,12,8.0%
1.4,8,5.3%
2.3,8,5.3%
1,7,4.7%
0.4,7,4.7%
0.3,7,4.7%
0.1,6,4.0%

Value,Count,Frequency (%)
0.1,6,4.0%
0.2,28,18.7%
0.3,7,4.7%
0.4,7,4.7%
0.5,1,0.7%
0.6,1,0.7%
1.0,7,4.7%
1.1,3,2.0%
1.2,5,3.3%
1.3,13,8.7%

Value,Count,Frequency (%)
2.5,3,2.0%
2.4,3,2.0%
2.3,8,5.3%
2.2,3,2.0%
2.1,6,4.0%
2.0,6,4.0%
1.9,5,3.3%
1.8,12,8.0%
1.7,2,1.3%
1.6,4,2.7%

0,1
Distinct,3
Distinct (%),2.0%
Missing,0
Missing (%),0.0%
Memory size,1.3 KiB

0,1
Iris-setosa,50
Iris-versicolor,50
Iris-virginica,50

0,1
Max length,15.0
Median length,14.0
Mean length,13.333333
Min length,11.0

0,1
Total characters,2000
Distinct characters,14
Distinct categories,3 ?
Distinct scripts,2 ?
Distinct blocks,1 ?

0,1
Unique,0 ?
Unique (%),0.0%

0,1
1st row,Iris-setosa
2nd row,Iris-setosa
3rd row,Iris-setosa
4th row,Iris-setosa
5th row,Iris-setosa

Value,Count,Frequency (%)
Iris-setosa,50,33.3%
Iris-versicolor,50,33.3%
Iris-virginica,50,33.3%

Value,Count,Frequency (%)
iris-setosa,50,33.3%
iris-versicolor,50,33.3%
iris-virginica,50,33.3%

Value,Count,Frequency (%)
i,350,17.5%
r,300,15.0%
s,300,15.0%
I,150,7.5%
-,150,7.5%
o,150,7.5%
e,100,5.0%
a,100,5.0%
v,100,5.0%
c,100,5.0%

Value,Count,Frequency (%)
Lowercase Letter,1700,85.0%
Uppercase Letter,150,7.5%
Dash Punctuation,150,7.5%

Value,Count,Frequency (%)
i,350,20.6%
r,300,17.6%
s,300,17.6%
o,150,8.8%
e,100,5.9%
a,100,5.9%
v,100,5.9%
c,100,5.9%
t,50,2.9%
l,50,2.9%

Value,Count,Frequency (%)
I,150,100.0%

Value,Count,Frequency (%)
-,150,100.0%

Value,Count,Frequency (%)
Latin,1850,92.5%
Common,150,7.5%

Value,Count,Frequency (%)
i,350,18.9%
r,300,16.2%
s,300,16.2%
I,150,8.1%
o,150,8.1%
e,100,5.4%
a,100,5.4%
v,100,5.4%
c,100,5.4%
t,50,2.7%

Value,Count,Frequency (%)
-,150,100.0%

Value,Count,Frequency (%)
ASCII,2000,100.0%

Value,Count,Frequency (%)
i,350,17.5%
r,300,15.0%
s,300,15.0%
I,150,7.5%
-,150,7.5%
o,150,7.5%
e,100,5.0%
a,100,5.0%
v,100,5.0%
c,100,5.0%

Unnamed: 0,Blütenblattlänge,Blütenblattweite,Kelchblattweite,Klasse,Länge des Kelchblatts
Blütenblattlänge,1.0,0.936,-0.303,0.89,0.881
Blütenblattweite,0.936,1.0,-0.278,0.924,0.834
Kelchblattweite,-0.303,-0.278,1.0,0.437,-0.159
Klasse,0.89,0.924,0.437,1.0,0.798
Länge des Kelchblatts,0.881,0.834,-0.159,0.798,1.0

Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite,Klasse
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa

Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite,Klasse
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica

Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite,Klasse,# duplicates
0,4.9,3.1,1.5,0.1,Iris-setosa,3
1,5.8,2.7,5.1,1.9,Iris-virginica,2


# 6. Merkmalsauswahl
Auswahl des Targets und welche Merkmale in der Untersuchung berücksichtigt werden sollen.

In [31]:
# Lassen Sie den Benutzer das Target-Merkmal auswählen
print("Verfügbare Merkmale:", df.columns.tolist())
target_column = input("Welches Merkmal soll das Target sein? ")

# Zeilen mit fehlenden Werten in der Ziel-Spalte entfernen
df = df.dropna(subset=[target_column])

# Lassen Sie den Benutzer die Merkmale auswählen, die in der Vorverarbeitung berücksichtigt werden sollen
print("\nWählen Sie die Merkmale aus, die Sie in der Vorverarbeitung berücksichtigen möchten:")
features_to_include = {}
for col in df.columns:
    if col != target_column:
        include = input(f"Möchten Sie das Merkmal '{col}' berücksichtigen? (ja/nein) ").lower() == 'ja'
        features_to_include[col] = include

# Filtern Sie die Daten basierend auf den Auswahlkriterien des Benutzers
selected_features = [col for col, include in features_to_include.items() if include]
df = df[selected_features + [target_column]]

# Zeige die ersten Zeilen des DataFrames
display(df.head())

Verfügbare Merkmale: ['Länge des Kelchblatts', 'Kelchblattweite', 'Blütenblattlänge', 'Blütenblattweite', 'Klasse']
Welches Merkmal soll das Target sein? Klasse

Wählen Sie die Merkmale aus, die Sie in der Vorverarbeitung berücksichtigen möchten:
Möchten Sie das Merkmal 'Länge des Kelchblatts' berücksichtigen? (ja/nein) ja
Möchten Sie das Merkmal 'Kelchblattweite' berücksichtigen? (ja/nein) ja
Möchten Sie das Merkmal 'Blütenblattlänge' berücksichtigen? (ja/nein) ja
Möchten Sie das Merkmal 'Blütenblattweite' berücksichtigen? (ja/nein) ja


Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite,Klasse
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


# Vorverarbeitungskonfiguration für AutoML-Modell
Dieser Abschnitt des Notebooks erlaubt die Konfiguration der Datenvorverarbeitung für ein AutoML-Modell. Die Vorverarbeitung kann entweder automatisch oder manuell durchgeführt werden, basierend auf der Entscheidung des Benutzers.

**Automatische vs. Manuelle Vorverarbeitung:**

Wenn das Zielattribut (target_column) numerisch ist, werden die Vorverarbeitungsparameter automatisch gesetzt.
Andernfalls wird der Benutzer gefragt, ob er die Vorverarbeitung automatisch oder manuell durchführen möchte.
Automatische Vorverarbeitung:

Bei Auswahl von "Automatisch" werden Standard-Vorverarbeitungsschritte angewandt, darunter:

*   Einfache Imputation (simple imputation) fehlender Werte.
*   Normalisierung der Daten.
*   Entfernung von Multikollinearität mit einem Schwellenwert von 0.95.
*   Hinzufügen polynomialer Merkmale.
*   Durchführung von Merkmalsauswahl (Feature Selection).
*   Principal Component Analysis (PCA), falls die Anzahl der Merkmale (ohne das Zielmerkmal) größer als 10 ist.

**Manuelle Vorverarbeitung:**

Bei manueller Auswahl können die Vorverarbeitungsschritte individuell festgelegt werden, einschließlich:
*   Art der Imputation (simple/iterative).
*   Entscheidung über Normalisierung.
*   Entfernung von Multikollinearität und Festlegung des Schwellenwerts.
*   Hinzufügen polynomialer Merkmale.
*   Durchführung von Merkmalsauswahl.
*   Entscheidung über die Anwendung von PCA, falls die Anzahl der Merkmale (ohne das Zielmerkmal) größer als 10 ist.

**Gemeinsame Parameter:**

Unabhängig von der Wahl der Vorverarbeitung werden die Daten (df), das Zielmerkmal (target_column) und eine feste session_id als Parameter gesetzt.

**Einfache Imputation fehlender Werte:**

Ziel: Behandlung von fehlenden Daten in Ihrem Dataset.
Nutzen: Ermöglicht dem Modell, auch mit unvollständigen Daten umzugehen, indem es fehlende Werte durch plausible Schätzungen ersetzt (z.B. Durchschnittswerte).

**Normalisierung der Daten:**

Ziel: Skalierung der Daten, so dass sie innerhalb eines bestimmten Bereichs (typischerweise zwischen 0 und 1) liegen.
Nutzen: Verhindert, dass Merkmale mit größeren Maßstäben die Modellierung dominieren und verbessert die Konvergenzgeschwindigkeit bei der Optimierung.

**Entfernung von Multikollinearität mit einem Schwellenwert von 0.95:**

Ziel: Identifikation und Entfernung von Merkmalen, die stark miteinander korreliert sind.
Nutzen: Vermeidet Redundanzen und Stabilitätsprobleme im Modell, da hochkorrelierte Merkmale das Modell und dessen Interpretation verzerren können.

**Hinzufügen polynomialer Merkmale:**

Ziel: Erzeugung neuer Merkmale, die polynomiale Kombinationen der ursprünglichen Merkmale sind.
Nutzen: Ermöglicht es dem Modell, komplexere Beziehungen in den Daten zu erfassen und zu lernen, was besonders bei nichtlinearen Zusammenhängen nützlich ist.

**Durchführung von Merkmalsauswahl (Feature Selection):**

Ziel: Auswahl der relevantesten Merkmale für das Modell.
Nutzen: Reduziert die Dimensionalität der Daten, verbessert die Modellleistung und vereinfacht das Modell, indem irrelevante oder redundante Merkmale entfernt werden.

**Principal Component Analysis (PCA), falls die Anzahl der Merkmale größer als 10 ist:**

Ziel: Reduktion der Dimensionalität der Daten durch Transformation in einen neuen Merkmalsraum.
Nutzen: Identifiziert die wichtigsten Merkmale, die die meiste Varianz in den Daten erklären, und reduziert die Komplexität des Modells, ohne signifikante Informationsverluste zu erleiden.

In [32]:
# Lassen Sie den Benutzer zwischen automatischer und manueller Vorverarbeitung wählen
if isinstance(df[target_column].iloc[0], (int, float)):
        preprocessing_params = {
            'data': df,
            'target': target_column,
            'session_id': 42,
        }
else:
    preprocessing_choice = input("Möchten Sie die Vorverarbeitung automatisch durchführen lassen oder selbst auswählen? (Automatisch/Manuell): ")

    if preprocessing_choice.lower() == "automatisch":
        # Prüfen, ob die Anzahl der Merkmale (ohne das Zielmerkmal) größer als 10 ist
        pca = True if len(df.columns) - 1 > 10 else False
        if pca:
            pca_choice = input("Principal Component Analysis (PCA) durchführen? (ja/nein): ").lower() == 'ja'
            pca = pca_choice

        preprocessing_params = {
            'data': df,
            'target': target_column,
            'session_id': 42,
            'imputation_type': 'simple',
            'normalize': False,
            'remove_multicollinearity': False,
            'multicollinearity_threshold': 0.95,
            'polynomial_features': False,
            'feature_selection': False,
            'pca': pca
        }

    else:
        # Manuelle Auswahl der Vorverarbeitungsschritte
        print("\nWählen Sie die gewünschten Vorverarbeitungsschritte:")
        imputation_type = input("Art der Imputation (simple/iterative): ")
        normalize = input("Daten normalisieren? (ja/nein): ").lower() == 'ja'
        remove_multicollinearity = input("Multikollinearität entfernen? (ja/nein): ").lower() == 'ja'
        multicollinearity_threshold = float(input("Schwellenwert für Multikollinearität (0.0 bis 1.0): "))
        polynomial_features = input("Polynomiale Merkmale hinzufügen? (ja/nein): ").lower() == 'ja'
        feature_selection = input("Merkmal-Auswahl durchführen? (ja/nein): ").lower() == 'ja'

        # Prüfen, ob die Anzahl der Merkmale (ohne das Zielmerkmal) größer als 10 ist
        pca = True if len(df.columns) - 1 > 10 else False
        if pca:
            pca_choice = input("Principal Component Analysis (PCA) durchführen? (ja/nein): ").lower() == 'ja'
            pca = pca_choice

        preprocessing_params = {
            'data': df,
            'target': target_column,
            'session_id': 42,
            'imputation_type': imputation_type,
            'normalize': normalize,
            'remove_multicollinearity': remove_multicollinearity,
            'multicollinearity_threshold': multicollinearity_threshold,
            'polynomial_features': polynomial_features,
            'feature_selection': feature_selection,
            'pca': pca
        }

Möchten Sie die Vorverarbeitung automatisch durchführen lassen oder selbst auswählen? (Automatisch/Manuell): Automatisch


# Wahl der Vorhersageart (Klassifikation oder Regression)

**Überprüfung des Zielmerkmals:**

Der Code überprüft, ob ***target_column*** definiert und nicht None ist.
Basierend auf dem Datentyp des Zielmerkmals (numerisch oder kategorisch) wird zwischen Regression und Klassifikation unterschieden.

**Regressionstraining (für kontinuierliche Zielmerkmale):**

Nach Bestätigung durch den Benutzer beginnt das Regressionstraining.
Der Prozess umfasst:


*   Initialisierung des Regressionsmodells mit vordefinierten Vorverarbeitungsparametern.
*   Vergleich verschiedener Modelle.
*   Auswertung des besten Modells.
*   Anzeige statistischer Zusammenfassungen und Vorhersagen.
*   Speicherung des besten Modells.

**Klassifikationstraining (für kategorische Zielmerkmale):**

Beinhaltet die Untersuchung der Klassenverteilung und Anwendung von Datenausgleichsmethoden (z.B. SMOTE oder RandomOverSampler).
Nach Benutzerbestätigung erfolgt das Klassifikationstraining.
Der Prozess umfasst:
*   Initialisierung des Klassifikationsmodells mit den angepassten Vorverarbeitungsparametern.
*   Auswahl des Modells basierend auf einem vom Benutzer gewählten Kriterium (z.B. AUC, Genauigkeit).
*   Vergleich und Bewertung des besten Modells.
*   Anzeige von Feature Importance, falls verfügbar.
*   Vorhersagen und Speicherung des besten Modells.

**Gemeinsame Schritte:**

Beide Prozesse (Regression und Klassifikation) umfassen das Anzeigen der ersten Zeilen des DataFrames, die statistische Zusammenfassung, die Vorhersagen des Modells und das Speichern des besten Modells.

In [33]:
# Überprüfen Sie, ob target_column definiert ist und nicht None ist
if target_column is not None:

    # Bestimmen Sie, ob das Zielmerkmal numerisch oder kategorisch ist
    if isinstance(df[target_column].iloc[0], (int, float)):
        # Wenn das Zielmerkmal kontinuierlich ist, verwende das pycaret.regression Modul

        choice = input("Möchten Sie das Regressionstraining starten? (ja/nein): ").lower()
        if choice == 'ja':
            ############################
            # Regression klappt nicht... Hier ein paar Erklärungsversuche
            #if df[target_column].isnull().any():
              #df.dropna(subset=[target_column], inplace=True)
            #if df[target_column].nunique() < 10:
              #print(f"Warnung: Das Zielattribut hat nur {df[target_column].nunique()} eindeutige Werte. Ist dies sicherlich ein Regressionsproblem?")
            #df[target_column] = df[target_column].astype(float)
            #print(df[target_column].value_counts())
            #reg = setup(data = df, target = target_column, session_id=123)
            ############################
            reg = setup(**preprocessing_params)
            setup_df = pull()
            print("\nDies ist das AutoML Training")
            display(setup_df)
            best_model = compare_models()
            compare_df = pull()
            print("\nHier sind die AutoML Modelle")
            display(compare_df)
            print(f"\nBestes Modell: {best_model}")

            # Diagramme für Regression
            evaluate_model(best_model)

            # Zeige die ersten Zeilen des DataFrames
            display(df.head())

            # Statistische Zusammenfassung
            display(df.describe())

            # Modell vorhersagen
            predictions = predict_model(best_model)
            print("\nVorhersagen des Modells:")
            display(predictions)

            # Modell speichern
            save_model(best_model, 'best_model')
            print("\nDas Modell wurde als 'best_model' gespeichert.")

    else:
        # Wenn das Zielmerkmal kategorisch ist, verwende das pycaret.classification Modul

        # Prüfen Sie die Anzahl der Beispiele in jeder Klasse
        class_counts = df[target_column].value_counts()

        # Prüfen Sie die Anzahl der Beispiele in der kleinsten Klasse
        min_class_count = class_counts.min()

        # Wenn die kleinste Klasse weniger als 6 Beispiele hat (standardmäßige n_neighbors für SMOTE + 1),
        # verwenden Sie ROS, andernfalls verwenden Sie SMOTE.
        if min_class_count < 6:
            resampling_method = RandomOverSampler()
        else:
            resampling_method = SMOTE()

        preprocessing_params['fix_imbalance'] = True
        preprocessing_params['fix_imbalance_method'] = resampling_method

        # Benutzer wählt das Kriterium aus
        metrics = {
            "AUC": "AUC (Area Under the Curve)",
            "Accuracy": "Accuracy",
            "Recall": "Recall",
            "Precision": "Precision",
            "F1": "F1 Score"
        }
        sort_metric = input(f"Wählen Sie das Kriterium für die Modellauswahl aus {list(metrics.keys())}: ")
        print(metrics[sort_metric])

        choice = input("Möchten Sie das Klassifikationstraining starten? (ja/nein): ").lower()
        if choice == 'ja':
            clf = setup(**preprocessing_params)
            setup_df = pull()
            print("\nDies ist das AutoML Training")
            display(setup_df)

            best_model = compare_models()
            print(f"\nBestes Modell basierend auf {sort_metric}: {best_model}")

            compare_df = pull()
            print("\nDies ist das ML Modell")
            display(compare_df)

            # Diagramme für Klassifikation
            evaluate_model(best_model)

            # Überprüfen, ob das Modell coef_ oder feature_importances_ Attribute hat
            if hasattr(best_model, 'coef_') or hasattr(best_model, 'feature_importances_'):
                print("\nFeature Importance:")
                plot_model(best_model, plot='feature')
            else:
                print("\nFeature Importance ist für dieses Modell nicht verfügbar.")

            # Zeige die ersten Zeilen des DataFrames
            display(df.head())

            # Statistische Zusammenfassung
            display(df.describe())

            # Modell vorhersagen
            if isinstance(best_model, list):
                if len(best_model) > 0:
                    best_model = best_model[0]
                    predictions = predict_model(best_model)
                    print("\nVorhersagen des Modells:")
                    display(predictions)
                else:
                    print("Error: Kein Modell in der Liste 'best_model' gefunden.")
                    # Beenden Sie hier, da kein Modell zum Vorhersagen vorhanden ist

            # Modell speichern
            save_model(best_model, 'best_model')
            print("\nDas Modell wurde als 'best_model' gespeichert.")

Wählen Sie das Kriterium für die Modellauswahl aus ['AUC', 'Accuracy', 'Recall', 'Precision', 'F1']: Accuracy
Accuracy
Möchten Sie das Klassifikationstraining starten? (ja/nein): ja


Unnamed: 0,Description,Value
0,Session id,42
1,Target,Klasse
2,Target type,Multiclass
3,Target mapping,"Iris-setosa: 0, Iris-versicolor: 1, Iris-virginica: 2"
4,Original data shape,"(150, 5)"
5,Transformed data shape,"(150, 5)"
6,Transformed train set shape,"(105, 5)"
7,Transformed test set shape,"(45, 5)"
8,Numeric features,4
9,Preprocess,True



Dies ist das AutoML Training


Unnamed: 0,Description,Value
0,Session id,42
1,Target,Klasse
2,Target type,Multiclass
3,Target mapping,"Iris-setosa: 0, Iris-versicolor: 1, Iris-virgi..."
4,Original data shape,"(150, 5)"
5,Transformed data shape,"(150, 5)"
6,Transformed train set shape,"(105, 5)"
7,Transformed test set shape,"(45, 5)"
8,Numeric features,4
9,Preprocess,True


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
qda,Quadratic Discriminant Analysis,0.9809,1.0,0.9809,0.9852,0.9805,0.9711,0.9735,0.041
nb,Naive Bayes,0.9727,0.9974,0.9727,0.9806,0.9714,0.9588,0.9638,0.085
lda,Linear Discriminant Analysis,0.9718,0.9974,0.9718,0.978,0.9712,0.9573,0.9609,0.045
et,Extra Trees Classifier,0.9718,1.0,0.9718,0.978,0.9712,0.9573,0.9609,0.283
lr,Logistic Regression,0.9618,0.9974,0.9618,0.9705,0.961,0.9422,0.947,0.543
ada,Ada Boost Classifier,0.9618,0.9878,0.9618,0.9705,0.961,0.9422,0.947,0.128
knn,K Neighbors Classifier,0.9527,0.9888,0.9527,0.9595,0.952,0.9284,0.9322,0.087
xgboost,Extreme Gradient Boosting,0.9527,0.9847,0.9527,0.9636,0.9519,0.9286,0.9345,0.125
rf,Random Forest Classifier,0.9518,0.9971,0.9518,0.966,0.9487,0.927,0.9352,0.223
gbc,Gradient Boosting Classifier,0.9518,0.9855,0.9518,0.966,0.9487,0.927,0.9352,0.251


Processing:   0%|          | 0/65 [00:00<?, ?it/s]


Bestes Modell basierend auf Accuracy: QuadraticDiscriminantAnalysis(priors=None, reg_param=0.0,
                              store_covariance=False, tol=0.0001)

Dies ist das ML Modell


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
qda,Quadratic Discriminant Analysis,0.9809,1.0,0.9809,0.9852,0.9805,0.9711,0.9735,0.041
nb,Naive Bayes,0.9727,0.9974,0.9727,0.9806,0.9714,0.9588,0.9638,0.085
lda,Linear Discriminant Analysis,0.9718,0.9974,0.9718,0.978,0.9712,0.9573,0.9609,0.045
et,Extra Trees Classifier,0.9718,1.0,0.9718,0.978,0.9712,0.9573,0.9609,0.283
lr,Logistic Regression,0.9618,0.9974,0.9618,0.9705,0.961,0.9422,0.947,0.543
ada,Ada Boost Classifier,0.9618,0.9878,0.9618,0.9705,0.961,0.9422,0.947,0.128
knn,K Neighbors Classifier,0.9527,0.9888,0.9527,0.9595,0.952,0.9284,0.9322,0.087
xgboost,Extreme Gradient Boosting,0.9527,0.9847,0.9527,0.9636,0.9519,0.9286,0.9345,0.125
rf,Random Forest Classifier,0.9518,0.9971,0.9518,0.966,0.9487,0.927,0.9352,0.223
gbc,Gradient Boosting Classifier,0.9518,0.9855,0.9518,0.966,0.9487,0.927,0.9352,0.251


interactive(children=(ToggleButtons(description='Plot Type:', icons=('',), options=(('Pipeline Plot', 'pipelin…


Feature Importance ist für dieses Modell nicht verfügbar.


Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite,Klasse
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Unnamed: 0,Länge des Kelchblatts,Kelchblattweite,Blütenblattlänge,Blütenblattweite
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Transformation Pipeline and Model Successfully Saved

Das Modell wurde als 'best_model' gespeichert.


In [34]:
    # Datei-Link zum Herunterladen erstellen
link = FileLink('best_model.pkl')
display(link)

In [35]:
print("Vorhersage auf trainiertes Modell prüfen:")

# Lade das trainierte Modell
loaded_model = None
try:
    loaded_model = load_model('best_model')
except:
    print("Es wurde kein Modell gefunden. Bitte trainieren Sie zuerst ein Modell.")

# Option für den Benutzer, Daten zum Vorhersagen hochzuladen
print("\nDaten für die Vorhersage hochladen oder eingeben:")

upload_button = widgets.FileUpload(description="CSV hochladen")

def on_upload_change(change):
    clear_output(wait=True)
    predict_df = pd.read_csv(upload_button.data[-1])
    # Stellen Sie sicher, dass die Ziel-Spalte (falls vorhanden) aus dem Vorhersage-DataFrame entfernt wird
    predict_df = predict_df.drop(columns=[target_column], errors='ignore')
    predictions = predict_model(loaded_model, data=predict_df)
    print("\nVorhersageergebnisse:")
    display(predictions)

upload_button.observe(on_upload_change, names='_counter')
display(upload_button)

# Lassen Sie den Benutzer die Daten manuell eingeben, jedoch ohne die Ziel-Spalte
input_data = {}
for col in df.columns:
    # Wir überspringen die Ziel-Spalte, da wir diese vorhersagen möchten
    if col != target_column:
        value = input(f"Geben Sie einen Wert für {col} ein: ")
        input_data[col] = value

# Überprüfen, ob alle Felder ausgefüllt sind
if all(val for val in input_data.values()):
    input_df = pd.DataFrame([input_data])
    predictions = predict_model(loaded_model, data=input_df)
    print(predictions.columns)
    print("\nVorhersageergebnis:")
    print(predictions['prediction_label'].iloc[0])


Vorhersage auf trainiertes Modell prüfen:
Transformation Pipeline and Model Successfully Loaded

Daten für die Vorhersage hochladen oder eingeben:


FileUpload(value={}, description='CSV hochladen')

Geben Sie einen Wert für Länge des Kelchblatts ein: 1
Geben Sie einen Wert für Kelchblattweite ein: 1
Geben Sie einen Wert für Blütenblattlänge ein: 1
Geben Sie einen Wert für Blütenblattweite ein: 1


Index(['Länge des Kelchblatts', 'Kelchblattweite', 'Blütenblattlänge',
       'Blütenblattweite', 'prediction_label', 'prediction_score'],
      dtype='object')

Vorhersageergebnis:
Iris-virginica
