# Python für Aktuare Teil 5

## Agenda
Innerhalb dieses Notebooks behandeln wir:
- Einführung in maschinelles Lernen:
    - Grundlegende Konzepte des maschinellen Lernens
    - Supervised Learning: Regression und Klassifikation
    - Unsupervised Learning: Clustering
- Nutzung von Scikit-learn:
    - Datenvorbereitung und Feature Engineering
    - Training und Evaluierung von Modellen

# Einführung in Maschinelles Lernen

In diesem Abschnitt werden wir uns mit den grundlegenden Konzepten des **maschinellen Lernens** befassen. Maschinelles Lernen (ML) ist ein Teilgebiet der künstlichen Intelligenz, das es Computern ermöglicht, aus Daten zu lernen und Vorhersagen oder Entscheidungen zu treffen, ohne explizit programmiert zu sein.

## 1. Grundlegende Konzepte des Maschinellen Lernens

Maschinelles Lernen beruht auf dem Prinzip, dass Algorithmen aus **Daten** lernen, um Muster zu erkennen und auf Basis dieser Muster Vorhersagen oder Entscheidungen zu treffen. Die wichtigsten Begriffe und Konzepte dabei sind:

- **Daten**: Die Grundlage für jedes maschinelle Lernmodell. Daten bestehen aus **Merkmalen** (Features), die für Vorhersagen oder Klassifizierungen relevant sind.
- **Modelle**: Ein mathematisches Konstrukt, das aus den Daten lernt und Vorhersagen trifft.
- **Training**: Der Prozess, in dem das Modell aus den vorhandenen Daten lernt.
- **Überanpassung (Overfitting)**: Wenn ein Modell zu spezifisch für die Trainingsdaten ist und nicht gut auf neue, ungesehene Daten generalisiert.
- **Evaluierung**: Der Prozess, das Modell zu testen, um zu sehen, wie gut es funktioniert.

Es gibt verschiedene Arten von maschinellen Lernansätzen, die je nach Art der Daten und der Zielsetzung gewählt werden.

## 2. Supervised Learning: Regression und Klassifikation

Beim **Supervised Learning** lernt das Modell von einem **beschrifteten Datensatz**, d.h. die Daten enthalten sowohl Eingaben als auch die zugehörigen Ausgaben. Das Ziel ist es, eine Funktion zu finden, die auf Grundlage der Eingaben die richtigen Ausgaben vorhersagt.

### a. Regression

Die **Regression** ist ein Verfahren im supervised learning, bei dem der Output eine kontinuierliche, numerische Größe ist. Das Modell versucht, eine Linie (oder Fläche) zu finden, die den Zusammenhang zwischen den Eingaben und der Ausgabe am besten beschreibt.

Beispiele für Regression:
- Vorhersage der Schadenshöhe bei Versicherungsfällen
- Prognose von Aktienkursen

Typische Algorithmen:
- **Lineare Regression**
- **Polynomiale Regression**

In [None]:
# Import der benötigten Bibliotheken
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Synthetische Daten erstellen
np.random.seed(42)

# Alter der Versicherungsnehmer (zufällig zwischen 18 und 70 Jahren)
alter = np.random.randint(18, 70, 100)

# Versicherungsprämie (angenommen, sie steigt linear mit dem Alter + etwas zufälliges Rauschen)
prämie = 200 + (alter * 10) + np.random.normal(0, 100, 100)

# Erstellen eines DataFrames
daten = pd.DataFrame({'Alter': alter, 'Prämie': prämie})

# Überblick über die Daten
print(daten.head())

In [7]:
# Linear Regression Modell
model = LinearRegression()

# Umformen der Daten für das Modell
X = daten[['Alter']]  # Eingabedaten (Alter)
y = daten['Prämie']   # Zielvariable (Prämie)

# Modell trainieren
model.fit(X, y)

# Vorhersagen für die lineare Regression
pred = model.predict(X)

In [None]:
# Plotten der Daten und der linearen Regression
plt.scatter(alter, prämie, color='blue', label='Daten')
plt.plot(alter, pred, color='red', label='Lineare Regression')

# Beschriftungen und Titel
plt.xlabel('Alter der Versicherungsnehmer')
plt.ylabel('Versicherungsprämie')
plt.title('Lineare Regression: Alter vs. Versicherungsprämie')
plt.legend()

# Plot anzeigen
plt.show()

# Ausgabe der Koeffizienten der linearen Regression
print(f"Koeffizient: {model.coef_[0]}")
print(f"Intercept: {model.intercept_}")

### b. Klassifikation

Die **Klassifikation** ist eine weitere Form des supervised learning, bei der der Output diskrete Klassen sind. Das Ziel ist es, die Daten in verschiedene Kategorien oder Gruppen einzuteilen.

Beispiele für Klassifikation:
- Erkennung von Betrugsfällen in Versicherungen
- Vorhersage, ob ein Kunde ein Produkt kauft (Ja/Nein)

Typische Algorithmen:
- **Logistische Regression**
- **Entscheidungsbäume**
- **K-Nearest Neighbors (k-NN)**


In [None]:
# Import der benötigten Bibliotheken
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Synthetische Daten erstellen
np.random.seed(42)

# Alter der Versicherungsnehmer (zufällig zwischen 18 und 70 Jahren)
alter = np.random.randint(18, 70, 100)

# Versicherungsprämie (angenommen, sie steigt linear mit dem Alter + zufälliges Rauschen)
prämie = 200 + (alter * 10) + np.random.normal(0, 100, 100)

# Kundenklassen: Wir segmentieren die Kunden basierend auf einem Muster
# (1 = Jung und geringe Prämie, 2 = Älter und mittlere Prämie, 3 = Älter und hohe Prämie)
klassen = np.where((alter < 30) & (prämie < 500), 1,
                   np.where((alter >= 30) & (alter < 50), 2, 3))

# Erstellen eines DataFrames
daten = pd.DataFrame({'Alter': alter, 'Prämie': prämie, 'Klasse': klassen})

# Überblick über die Daten
print(daten.head())

In [None]:
# Plotten der Kunden und ihrer Klassen
plt.scatter(daten['Alter'], daten['Prämie'], c=daten['Klasse'], cmap='viridis', label='Kundensegmente')
plt.xlabel('Alter der Versicherungsnehmer')
plt.ylabel('Versicherungsprämie')
plt.title('K-Nearest Neighbors: Kundensegmentierung')
plt.colorbar(label='Kundensegmente')
plt.show()

In [None]:
# Eingabe- und Zielvariablen
X = daten[['Alter', 'Prämie']]
y = daten['Klasse']

# Daten in Trainings- und Testdaten aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardisierung der Eingabedaten (wichtig für KNN)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# KNN-Klassifikator erstellen und trainieren
knn = KNeighborsClassifier(n_neighbors=5)  # Wir wählen 5 Nachbarn
knn.fit(X_train_scaled, y_train)

# Vorhersagen auf Testdaten
y_pred = knn.predict(X_test_scaled)
# Genauigkeit des Modells
accuracy = knn.score(X_test_scaled, y_test)
print(f"Genauigkeit des Modells: {accuracy * 100:.2f}%")

In [None]:
# Vergleich der Vorhersagen und tatsächlichen Klassen in zwei Subplots
fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# Subplot 1: Tatsächliche Klassen
scatter1 = ax[0].scatter(X_test['Alter'], X_test['Prämie'], c=y_test, marker='o', cmap='viridis')
ax[0].set_title('Tatsächliche Klassen')
ax[0].set_xlabel('Alter der Versicherungsnehmer')
ax[0].set_ylabel('Versicherungsprämie')
fig.colorbar(scatter1, ax=ax[0])

# Subplot 2: Vorhergesagte Klassen
scatter2 = ax[1].scatter(X_test['Alter'], X_test['Prämie'], c=y_pred, marker='x', cmap='viridis')
ax[1].set_title('Vorhergesagte Klassen')
ax[1].set_xlabel('Alter der Versicherungsnehmer')
ax[1].set_ylabel('Versicherungsprämie')
fig.colorbar(scatter2, ax=ax[1])

# Rote Kreise um fehlerhafte Vorhersagen
ax[1].scatter(X_test['Alter'][y_test != y_pred], X_test['Prämie'][y_test != y_pred], 
                      facecolors='none', edgecolors='r', s=150, linewidths=1, label='Fehler')


# Layout-Anpassung
plt.tight_layout()
plt.show()


## 3. Unsupervised Learning: Clustering

Im Gegensatz zum supervised learning arbeitet **unsupervised learning** mit unbeschrifteten Daten. Das bedeutet, dass das Modell keine vordefinierten Ausgaben hat, sondern eigenständig Muster und Strukturen in den Daten findet.

### Clustering

Beim **Clustering** werden Datenpunkte in Gruppen unterteilt, die sich durch Ähnlichkeiten oder bestimmte gemeinsame Merkmale auszeichnen. Ziel ist es, Daten so zu gruppieren, dass Punkte innerhalb einer Gruppe möglichst ähnlich und Punkte aus verschiedenen Gruppen möglichst unterschiedlich sind.

Beispiele für Clustering:
- Segmentierung von Kunden in verschiedene Gruppen basierend auf ihrem Verhalten
- Erkennung von Schadensmustern in Versicherungsdaten

Typische Algorithmen:
- **K-Means Clustering**
- **Hierarchisches Clustering**

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Auswahl der Merkmale für das Clustering (z.B. Alter und Prämie)
X_clustering = X_test[['Alter', 'Prämie']]

# K-Means Modell mit 3 Clustern
kmeans = KMeans(n_clusters=3, random_state=42, n_init= 10)
kmeans.fit(X_clustering)

# Cluster-Zuordnungen vorhersagen
cluster_labels = kmeans.predict(X_clustering)

# Streudiagramm für das Clustering-Ergebnis
plt.figure(figsize=(8, 6))
plt.scatter(X_clustering['Alter'], X_clustering['Prämie'], c=cluster_labels, cmap='viridis', marker='o', s=100)
plt.title('Kunden-Segmentierung mit K-Means Clustering')
plt.xlabel('Alter der Versicherungsnehmer')
plt.ylabel('Versicherungsprämie')

# Cluster-Zentren plotten
centroids = kmeans.cluster_centers_
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200, label='Cluster-Zentren')
plt.legend()

plt.show()


## Zusammenfassung

- Beim **supervised learning** lernt ein Modell von beschrifteten Daten, um Vorhersagen zu treffen.
- Bei der **Regression** handelt es sich um die Vorhersage von kontinuierlichen Werten, bei der **Klassifikation** um die Zuordnung von Daten zu diskreten Klassen.
- Beim **unsupervised learning** lernt das Modell ohne vorher definierte Ausgaben, und das **Clustering** ist eine Möglichkeit, ähnliche Datenpunkte zu gruppieren.


# 4. Datengetriebene Entscheidungen durch MachineLearning

## Erstes Beispiel für datengetriebene Entscheidungen
Wir befinden uns in der Geschäftseinheit für Naturgefahrenversicherungen.

**Ziel**: Müssen wir unsere Prämien in den nächsten drei Jahren erhöhen?

-> Können wir ein Modell erstellen, das unsere Schadensmeldungen abbildet?

**Daten**:
- Wetterdaten
- Öffentlich verfügbare Finanzdaten
- Schadensdaten der letzten fünf Jahre


# Daten laden und erster Blick auf die Daten

In [26]:
# load data
weather_data = pd.read_csv('./data/weather_data.csv',parse_dates=['Date'])
finance_data = pd.read_csv('./data/financial_data.csv',parse_dates=['Date'])
claims_data = pd.read_csv('./data/claims_data.csv',parse_dates=['Date'])
# from remote server
#weather_data = pd.read_csv('https://raw.githubusercontent.com/DeutscheAktuarvereinigung/Python_fuer_Aktuare/refs/heads/main/data/weather_data.csv',parse_dates=['Date'])
#finance_data = pd.read_csv('https://raw.githubusercontent.com/DeutscheAktuarvereinigung/Python_fuer_Aktuare/refs/heads/main/data/financial_data.csv',parse_dates=['Date'])
#claims_data  = pd.read_csv('https://raw.githubusercontent.com/DeutscheAktuarvereinigung/Python_fuer_Aktuare/refs/heads/main/data/claims_data.csv',parse_dates=['Date'])




## Wetter Daten
Schauen wir uns einmal die Wetterdaten an.

In [None]:
# Visualize the data
plt.figure(figsize=(12, 6))

# Plot temperature
plt.subplot(3, 1, 1)
plt.plot(weather_data['Date'], weather_data['Temperature (Celsius)'], label='Temperature (Celsius)')
plt.title('Weather Data Visualization')
plt.ylabel('Temperature (Celsius)')
plt.legend()

# Plot humidity
plt.subplot(3, 1, 2)
plt.bar(weather_data['Date'], weather_data['Humidity (%)'], label='Humidity (%)', color='orange')
plt.ylabel('Humidity (%)')
plt.legend()

# Plot precipitation
plt.subplot(3, 1, 3)
plt.bar(weather_data['Date'], weather_data['Precipitation (mm)'], label='Precipitation (mm)', color='green')
plt.xlabel('Date')
plt.ylabel('Precipitation (mm)')
plt.legend()

plt.tight_layout()
plt.show()

## Finanzdaten

In [None]:
# Plotting MSCI World Index, Inflation Rate, and GDP Growth
plt.figure(figsize=(12, 8))

# MSCI World Index
plt.subplot(3, 1, 1)
plt.plot(finance_data['Date'], finance_data['Stock Index'], label='Stock Index', color='blue')
plt.title('Stock Index Over Time')
plt.xlabel('Date')
plt.ylabel('Index Value')
plt.legend()

# Inflation Rate
plt.subplot(3, 1, 2)
plt.plot(finance_data['Date'], finance_data['Inflation Rate'], label='Inflation Rate', color='orange')
plt.title('Inflation Rate Over Time')
plt.xlabel('Date')
plt.ylabel('Inflation Rate')
plt.legend()

# GDP Growth
plt.subplot(3, 1, 3)
plt.plot(finance_data['Date'], finance_data['GDP Growth'], label='GDP Growth', color='green')
plt.title('GDP Growth Over Time')
plt.xlabel('Date')
plt.ylabel('GDP Growth Rate')
plt.legend()

# Adjust layout for better spacing
plt.tight_layout()
plt.show()

# Schadendaten

In [None]:
# Visualize the distribution of Claim Amounts
plt.figure(figsize=(12, 6))
plt.hist(claims_data['ClaimAmount'], bins=50, color='skyblue', edgecolor='black')
plt.title('Distribution of Claim Amounts')
plt.xlabel('Claim Amount')
plt.ylabel('Frequency')
plt.show()

In [None]:
# Group by Location and ClaimType and count the number of claims
claims_grouped = claims_data.groupby(['Location', 'ClaimType']).size().unstack(fill_value=0)

# Plot
plt.figure(figsize=(12, 8))
claims_grouped.plot(kind='bar', stacked=True)
plt.title('Distribution of Claims by Location and Claim Type')
plt.xlabel('Location')
plt.ylabel('Count of Claims')
plt.xticks(rotation=45)
plt.legend(title='Claim Type')
plt.show()

In [None]:
# Show histplot for every ClaimType and Location
locations = ['City', 'Rural', 'Suburb']
claim_types = ["Flood", "Earthquake", "Storm"]
fig, axes = plt.subplots(len(locations), len(claim_types), figsize=(15, 15), sharex=True, sharey=True)

# iterate over every location and type
for i, location in enumerate(locations):
    for j, claim_type in enumerate(claim_types):
        # Filtern Sie die Daten entsprechend der aktuellen Kombination von Standort und Schadentyp
        subset = claims_data[(claims_data['Location'] == location) & (claims_data['ClaimType'] == claim_type)]
        # Erstellen Sie ein Histogramm für die Schadensbeträge in diesem Subset
        axes[i, j].hist(subset['ClaimAmount'], bins=20, color='skyblue', edgecolor='black')
        # Einstellungen für die Beschriftung und den Titel
        axes[i, j].set_title(f'Location: {location}, Claim Type: {claim_type}')
        axes[i, j].set_xlabel('Claim Amount')
        axes[i, j].set_ylabel('Frequency')

# Layout
for ax in axes.flat:
    ax.set_xlabel('Claim Amount')
    ax.set_xticks(np.arange(10000, claims_data['ClaimAmount'].max(), 5000))
    ax.set_xticklabels(np.arange(10000, claims_data['ClaimAmount'].max(), 5000), rotation=45)

plt.tight_layout()
plt.show()

# Daten vorbereiten

In [None]:
# erstmal alles in ein Datenset packen
merged_data = pd.merge(weather_data, finance_data)
merged_data = pd.merge(merged_data,claims_data)
merged_data['DayOfYear'] = merged_data['Date'].dt.day_of_year
merged_data.head()

In [39]:
# Wir wollen die Schadenhöhe aus den anderen Daten vorhersagen
X = merged_data[['Temperature (Celsius)', 'Humidity (%)', 'Precipitation (mm)','Stock Index', 'Inflation Rate', 'GDP Growth']]
y = merged_data['ClaimAmount']

# Dateien in zwei Datensets aufteilen
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
# Wir fitten ein einfaches Model
from sklearn.metrics import mean_squared_error
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersagen auf dem Testset
predictions = model.predict(X_test)


# Modell evaluieren
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {mse}')

r2_score = model.score(X_test, y_test)
print(f'R-squared Score: {r2_score}')

In [None]:
# Calculate the slope (m) and intercept (b) of the regression line
slope, intercept = np.polyfit(y_test, predictions, 1)

# Create a figure with two subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Plot the scatter plot with regression line in the first subplot
ax1.scatter(y_test, predictions, label='Actual vs Predicted')
ax1.plot(y_test, slope*y_test + intercept, color='red', label='Regression Line')
ax1.plot(y_test, y_test, color='green', linestyle='--', label='Diagonal Line')
# Add labels and title
ax1.set_xlabel('Actual Values')
ax1.set_ylabel('Predicted Values')
ax1.set_title('Actual vs Predicted Values with Regression Line')
ax1.legend()

# Plot the residual plot in the second subplot
residuals = y_test - predictions
ax2.scatter(predictions, residuals)
ax2.set_xlabel('Predicted Values')
ax2.set_ylabel('Residuals')
ax2.set_title('Residual Plot')
ax2.axhline(y=0, color='r', linestyle='-')

# Adjust layout
plt.tight_layout()

# Show plots
plt.show()


„Hmm, es sieht so aus, als wäre etwas schiefgelaufen. Ein gutes Modell wäre, wenn die rote Linie und die gepunktete grüne Linie besser übereinstimmen und die Residuen nahe Null liegen. Warten Sie mal..

# Was ist mit Schadensart und Schadensort?
Nun, das sind kategoriale Werte („Erdbeben“, „Überschwemmung“, ...). Aber die meisten maschinellen Lernalgorithmen erwarten nur numerische Werte. Bei unserem ersten Versuch haben wir sie ignoriert. Aber wie können wir sie verwenden? Zum Beispiel, wie bringen wir sie in numerische Werte?

Eine Möglichkeit ist *One-Hot-Encoding*:

Wir erstellen eine neue Spalte für jeden Wert in der kategorialen Spalte und markieren sie mit 1 / Wahr, wenn der Wert den Merkmalen entspricht, oder 0 / Falsch, wenn nicht. Zum Beispiel:

| ClaimType | ClaimType_Earthquake | ClaimType_Flood | ClaimType_Storm |
|-----------|----------------------|-----------------|-----------------|
| Earthquake | 1                    | 0               | 0               |
| Flood      | 0                    | 1               | 0               |
| Storm      | 0                    | 0               | 1               |




In [None]:
merged_data_encoded = pd.get_dummies(merged_data, columns=['ClaimType', 'Location'])

merged_data_encoded.head()

Also auf ein neues, modellieren und evaluieren:

In [None]:
X = merged_data_encoded.drop(['ClaimAmount', 'Date'], axis=1)
y = merged_data['ClaimAmount']

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model_adv = LinearRegression()
model_adv.fit(X_train, y_train)

# Make predictions on the test set
predictions = model_adv.predict(X_test)


# Evaluate the model
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {mse}')

In [None]:
# Calculate the slope (m) and intercept (b) of the regression line
slope, intercept = np.polyfit(y_test, predictions, 1)

# Create a figure with two subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Plot the scatter plot with regression line in the first subplot
ax1.scatter(y_test, predictions, label='Actual vs Predicted')
ax1.plot(y_test, slope*y_test + intercept, color='red', label='Regression Line')
ax1.plot(y_test, y_test, color='green', linestyle='--', label='Diagonal Line')
# Add labels and title
ax1.set_xlabel('Actual Values')
ax1.set_ylabel('Predicted Values')
ax1.set_title('Actual vs Predicted Values with Regression Line')
ax1.legend()

# Plot the residual plot in the second subplot
residuals = y_test - predictions
ax2.scatter(predictions, residuals)
ax2.set_xlabel('Predicted Values')
ax2.set_ylabel('Residuals')
ax2.set_title('Residual Plot')
ax2.axhline(y=0, color='r', linestyle='-')

# Adjust layout
plt.tight_layout()

# Show plots
plt.show()


Viel besser! Eigentlich... ein bisschen zu gut. Es scheint fast wie eine perfekte Anpassung. Nun ... Da dies künstliche Daten sind, habe ich ein wenig geschummelt und die Schadensbeträge mit einer linearen Regressionsfunktion und etwas stochastischem Rauschen generiert, sodass das Modell perfekt funktioniert.

# Aufgabe

Jetzt sind wieder Sie dran. Im Ordner `examples` finden Sie drei Machine-Learning-Notebooks übernommen aus kaggle. Sie sollten nun in der Lage sein, sich diese anzusehen und *durchzuklicken*. Eventuell schaffen Sie es ja, diese an der ein oder anderen Stelle zu erweitern.

# Abschluss des Seminars

Herzlichen Dank für Ihre Teilnahme am Seminar! Wir haben gemeinsam einen umfassenden Überblick über die verschiedenen Aspekte der Datenanalyse und Visualisierung gewonnen. 

Wir begannen mit den **Python-Grundlagen**, die Ihnen die notwendigen Werkzeuge an die Hand gegeben haben, um Daten zu manipulieren und zu analysieren. Anschließend haben wir uns intensiv mit **Pandas** beschäftigt, um die Grundlagen der Datenverarbeitung zu erlernen, einschließlich des Umgangs mit fehlenden Werten und der Erstellung von Pivot-Tabellen.

In der nächsten Phase haben wir verschiedene **Visualisierungstechniken** behandelt. Wir haben gelernt, wie man aussagekräftige Diagramme mit **Matplotlib** und **Seaborn** erstellt, um Erkenntnisse aus Daten zu gewinnen. 

Darüber hinaus haben wir uns mit den Grundlagen des **maschinellen Lernens** beschäftigt. Wir haben Konzepte wie **Supervised Learning** und **Unsupervised Learning** erkundet und einfache Modelle wie **lineare Regression** und **k-nearest neighbors** implementiert.

Abschließend hoffe ich, dass Sie wertvolle Fähigkeiten und Kenntnisse erworben haben, die Ihnen helfen werden, datenbasierte Entscheidungen in Ihrem Arbeitsumfeld zu treffen. Denken Sie daran, dass die Welt der Datenanalyse und des maschinellen Lernens ständig wächst und sich weiterentwickelt. Bleiben Sie neugierig und motiviert Ihre Kenntnisse weiter auszubauen!
