### 1. **Klassifikation** (Classification)
**Spam-Erkennung**: Ein Modell kann mithilfe eines Datensatzes trainiert werden, um E-Mails in „Spam“ und „Nicht-Spam“ zu klassifizieren. Ein Algorithmus wie Support Vector Machines (SVM) oder Naive Bayes wird dafür häufig verwendet.


In [15]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import cross_val_score

# Beispiel-Datensatz: E-Mails (Training)
emails = ['This is spam', 'You won a prize', 'Hello, how are you?', 'Spam offer!']
labels = [1, 1, 0, 1]  # 1 = Spam, 0 = Nicht-Spam

# Text in numerische Merkmale umwandeln (Bag-of-Words Modell)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(emails)

# Naive Bayes Modell für die Klassifikation
model = MultinomialNB()

# Kreuzvalidierung mit n_splits=2 (aufgrund der kleinen Datenmenge)
scores = cross_val_score(model, X, labels, cv=2)  # Genauigkeit des Modells
print("Kreuzvalidierungs-Score:", scores)  # Die Genauigkeit liegt bei ungefähr 50 %, dies ist ein sehr schlechtes Modell

# Neue E-Mails zum Testen (als Liste)
new_emails = ['Win a free trip to Paris!', 'Can we schedule a meeting?', 'Good Morning!']

# Die neuen E-Mails in numerische Merkmale umwandeln (gleicher Vektorizer wie für das Training)
new_X = vectorizer.transform(new_emails)

# Modell auf den gesamten Datensatz trainieren
model.fit(X, labels)

# Vorhersage für neue E-Mails
predictions = model.predict(new_X)
print("Vorhersagen für neue E-Mails:", predictions)

# Vorhersagen interpretieren: 1 = Spam, 0 = Nicht-Spam
for email, prediction in zip(new_emails, predictions):
    print(f"Email: '{email}' - {'Spam' if prediction == 1 else 'Nicht-Spam'}")


Kreuzvalidierungs-Score: [0.5 0.5]
Vorhersagen für neue E-Mails: [1 1 1]
Email: 'Win a free trip to Paris!' - Spam
Email: 'Can we schedule a meeting?' - Spam
Email: 'Good Morning!' - Spam




### 2. **Regression**
**Vorhersage von Immobilienpreisen**: Ein Modell kann trainiert werden, um anhand von Merkmalen wie Fläche, Zimmeranzahl und Standort den Preis einer Immobilie vorherzusagen. Hier wird häufig ein Algorithmus wie die lineare Regression verwendet.


In [4]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Beispiel-Daten
X = np.array([[100, 2], [150, 3], [200, 4]])  # Quadratmeter, Anzahl Zimmer
y = np.array([200000, 300000, 400000])  # Immobilienpreise

# Modell erstellen und trainieren
model = LinearRegression()
model.fit(X, y)

# Vorhersage für ein neues Haus
new_house = np.array([[120, 3]])
price_prediction = model.predict(new_house)
print(price_prediction)


[240023.99040384]


### 3. **Clusteranalyse**
**Kundensegmentierung**: Scikit-learn kann verwendet werden, um Kunden basierend auf Merkmalen wie Kaufverhalten in verschiedene Gruppen zu segmentieren. Der K-Means-Algorithmus ist hierbei häufig im Einsatz.


In [5]:
from sklearn.cluster import KMeans
import numpy as np

# Beispiel-Daten: Einkäufe in Euro
data = np.array([[100, 200], [120, 220], [250, 300], [400, 500]])

# K-Means-Clustering
kmeans = KMeans(n_clusters=2)
kmeans.fit(data)

# Cluster-Zuordnungen
cluster_labels = kmeans.labels_
print(cluster_labels)

  super()._check_params_vs_input(X, default_n_init=10)


[0 0 0 1]


### 4. **Dimensionsreduktion** (PCA – Hauptkomponentenanalyse)
**Bildkomprimierung**: Durch die Reduktion der Anzahl der Pixel in einem Bild kann Speicherplatz gespart werden, ohne dass viel Information verloren geht. Scikit-learn verwendet hier die Hauptkomponentenanalyse (PCA), um die Dimensionen zu reduzieren.


In [7]:
from sklearn.decomposition import PCA
import numpy as np

# Beispiel-Daten: Bild-Pixel (4 Bilder mit je 6 Pixeln)
images = np.array([[0, 1, 0, 1, 0, 1], [1, 0, 1, 0, 1, 0], [0, 1, 1, 0, 0, 1], [1, 0, 0, 1, 1, 0]])

# PCA durchführen und die Daten auf 2 Dimensionen reduzieren
pca = PCA(n_components=2)
reduced_images = pca.fit_transform(images)
print(reduced_images)

[[-1.         -0.70710678]
 [ 1.          0.70710678]
 [-1.          0.70710678]
 [ 1.         -0.70710678]]


### 5. **Modellbewertung**
**Kreuzvalidierung**: Scikit-learn bietet die Möglichkeit, ein Modell durch Kreuzvalidierung zu bewerten, um sicherzustellen, dass es nicht überangepasst ist.


In [10]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Beispiel-Daten
X = [[1, 2], [3, 4], [1, 1], [4, 5]]
y = [0, 1, 0, 1]

# Random Forest Modell
model = RandomForestClassifier()

# Kreuzvalidierung mit n_splits=2
scores = cross_val_score(model, X, y, cv=2)
print(scores)

[1. 1.]
