# Datenbeschreibung

- **Dataset**
  - 85 Prädiktoren zu Demografie von 5.822 Personen.
  - Response-Variable: `Purchase` (Kauf von Caravan-Versicherung, 6% taten es).
- **Variablengruppen**
  - **Soziodemografische Daten (Variablen 1-43)**
    - Basierend auf Postleitzahlen, gleiche Attribute für Personen in derselben Gegend.
  - **Produktbesitz (Variablen 44-86)**
    - Variable 86 (`Purchase`) zeigt, ob Caravan-Versicherung gekauft wurde.

# Load Packages and Data

In [2]:
import numpy as np, pandas as pd, matplotlib.pyplot as plt
from ISLP import load_data, confusion_table
from ISLP.models import (ModelSpec as MS, summarize)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [3]:
Caravan = load_data('Caravan')
Caravan.head()

Unnamed: 0,MOSTYPE,MAANTHUI,MGEMOMV,MGEMLEEF,MOSHOOFD,MGODRK,MGODPR,MGODOV,MGODGE,MRELGE,...,APERSONG,AGEZONG,AWAOREG,ABRAND,AZEILPL,APLEZIER,AFIETS,AINBOED,ABYSTAND,Purchase
0,33,1,3,2,8,0,5,1,3,7,...,0,0,0,1,0,0,0,0,0,No
1,37,1,2,2,8,1,4,1,4,6,...,0,0,0,1,0,0,0,0,0,No
2,37,1,2,2,8,0,4,2,4,3,...,0,0,0,1,0,0,0,0,0,No
3,9,1,3,3,3,2,3,2,4,5,...,0,0,0,1,0,0,0,0,0,No
4,40,1,4,2,10,1,4,1,4,7,...,0,0,0,1,0,0,0,0,0,No


In [3]:
Caravan.describe().round(1)

Unnamed: 0,MOSTYPE,MAANTHUI,MGEMOMV,MGEMLEEF,MOSHOOFD,MGODRK,MGODPR,MGODOV,MGODGE,MRELGE,...,ALEVEN,APERSONG,AGEZONG,AWAOREG,ABRAND,AZEILPL,APLEZIER,AFIETS,AINBOED,ABYSTAND
count,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,...,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0,5822.0
mean,24.3,1.1,2.7,3.0,5.8,0.7,4.6,1.1,3.3,6.2,...,0.1,0.0,0.0,0.0,0.6,0.0,0.0,0.0,0.0,0.0
std,12.8,0.4,0.8,0.8,2.9,1.0,1.7,1.0,1.6,1.9,...,0.4,0.1,0.1,0.1,0.6,0.0,0.1,0.2,0.1,0.1
min,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,10.0,1.0,2.0,2.0,3.0,0.0,4.0,0.0,2.0,5.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,30.0,1.0,3.0,3.0,7.0,0.0,5.0,1.0,3.0,6.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
75%,35.0,1.0,3.0,3.0,8.0,1.0,6.0,2.0,4.0,7.0,...,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
max,41.0,10.0,5.0,6.0,10.0,9.0,9.0,5.0,9.0,9.0,...,8.0,1.0,1.0,2.0,7.0,1.0,2.0,3.0,2.0,2.0


In [4]:
Purchase = Caravan.Purchase
Purchase.value_counts(normalize=True)

Purchase
No     0.940227
Yes    0.059773
Name: proportion, dtype: float64

# K-Nearest Neighbors

- **Features**
  - Alle Spalten außer `Purchase`.

In [10]:
feature_df = Caravan.drop(columns=['Purchase'])

- **KNN-Performance**
  - Beeinflusst durch Variablenskalierungen, denn vorhersagen basieren auf den nächsten Beobachtungen.
- **Problem**
  - Großskalige Variablen dominieren Distanzberechnungen.
  - Beispiel: 1.000 USD Gehaltsunterschied > 50 Jahre Altersunterschied.
- **Lösung**
  - Daten standardisieren.
  - Mittelwert = 0, Standardabweichung = 1.
  - Verwende `StandardScaler()`.

In [11]:
scaler = StandardScaler(with_mean=True, with_std=True, copy=True)

- **Parameter Einstellungen**
  - `with_mean`: Bestimmt, ob der Mittelwert subtrahiert wird.
  - `with_std`: Bestimmt, ob Spalten eine Standardabweichung von 1 haben sollen.
  - `copy=True`: Stellt sicher, dass Daten für Berechnungen kopiert werden.

In [12]:
scaler.fit(feature_df)
X_std = scaler.transform(feature_df)

In [21]:
X_std[:1].round(1)

array([[ 0.7, -0.3,  0.4, -1.2,  0.8, -0.7,  0.2, -0.1, -0.2,  0.4, -0.9,
        -0.2, -0.5, -0.8,  0.8, -0.3, -0.8,  1.1, -0.5, -0.5,  0.5, -0.5,
         1.6, -0.2, -0.4, -0.5, -0.1,  1.2, -0.1, -1. ,  1. ,  1.3, -1.1,
        -0.6,  0.9, -0.9, -1.2,  0.2,  1.2, -0.7, -0.4,  0.2, -0.6, -0.8,
        -0.1, -0.1,  1. , -0.1, -0.2, -0. , -0.1, -0.2, -0.1, -0.3, -0.2,
        -0.1, -0.1, -0.1,  1.7, -0. , -0.1, -0.2, -0.1, -0.1, -0.8, -0.1,
        -0.1,  0.7, -0.1, -0.2, -0. , -0.1, -0.1, -0. , -0.3, -0.2, -0.1,
        -0.1, -0.1,  0.8, -0. , -0.1, -0.2, -0.1, -0.1]])

- Now each column of `feature_std` has a mean of zero and a standard deviation of one.

In [22]:
feature_std = pd.DataFrame(X_std, columns=feature_df.columns);
feature_std.std()

MOSTYPE     1.000086
MAANTHUI    1.000086
MGEMOMV     1.000086
MGEMLEEF    1.000086
MOSHOOFD    1.000086
              ...   
AZEILPL     1.000086
APLEZIER    1.000086
AFIETS      1.000086
AINBOED     1.000086
ABYSTAND    1.000086
Length: 85, dtype: float64

- **Standardabweichungen**
  - `scaler()` nutzt $1/n$.
  - `std()` nutzt $1/(n-1)$.
  - Unterschiedliche Konventionen, aber gleiche Skalierung der Variablen.
- **Datenaufteilung**
  - Verwende `train_test_split()`.
  - Testset: 1000 Beobachtungen.
  - Trainingsset: Restliche Daten.

In [10]:
(X_train, X_test,  y_train, y_test) = train_test_split(
    feature_std, Purchase, test_size=1000, random_state=0)

- **KNN-Modell**
  - Fit auf Trainingsdaten mit K=1.
  - Bewertung auf Testdaten.

In [11]:
knn1 = KNeighborsClassifier(n_neighbors=1)
knn1_pred = knn1.fit(X_train, y_train).predict(X_test)
np.mean(y_test != knn1_pred), np.mean(y_test == "Yes")

(0.111, 0.067)

- **KNN-Fehlerrate**
  - Fehlerrate auf 1.000 Testdaten: ca. 11%.
  - Immer "Nein" vorhersagen: Fehlerrate ca. 6% (*null rate*).
- **Verkauf von Versicherungen**
  - Erfolg von 6% durch Zufall ist zu niedrig.
  - Ziel: Kunden identifizieren, die wahrscheinlich kaufen.
  - Fokus: Korrekte Vorhersage der Käufer.

In [12]:
confusion_table(knn1_pred, y_test)

Truth,No,Yes
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
No,880,58
Yes,53,9


In [13]:
(880+9)/1000

0.889

- **KNN mit K=1**
  - Bessere Leistung als zufälliges Raten bei Versicherungsprognosen.
  - Von 62 vorhergesagten Käufern kaufen 9 (14,5%) tatsächlich.
  - Doppelte Rate im Vergleich zum zufälligen Raten.

## Parameteroptimierung (Tuning Parameters)
- **Anzahl der Nachbarn (KNN)**
  - Hyperparameter, dessen optimaler Wert vorher unbekannt ist.
  - Leistung wird auf Testdaten durch Variation dieses Parameters bewertet.
- **Untersuchung der Genauigkeit**
  - Verwende eine `for`-Schleife.
  - Prüfe die Klassifizierungsgenauigkeit für Nachbarn von 1 bis 5.

In [14]:
for K in range(1,6):
    knn = KNeighborsClassifier(n_neighbors=K)
    knn_pred = knn.fit(X_train, y_train).predict(X_test)
    C = confusion_table(knn_pred, y_test)
    templ = ('K={0:d}: # predicted to rent: {1:>2},' +
            '  # who did rent {2:d}, accuracy {3:.1%}')
    pred = C.loc['Yes'].sum()
    did_rent = C.loc['Yes','Yes']
    print(templ.format(
          K,
          pred,
          did_rent,
          did_rent / pred))

K=1: # predicted to rent: 62,  # who did rent 9, accuracy 14.5%
K=2: # predicted to rent:  6,  # who did rent 1, accuracy 16.7%
K=3: # predicted to rent: 20,  # who did rent 3, accuracy 15.0%
K=4: # predicted to rent:  4,  # who did rent 0, accuracy 0.0%
K=5: # predicted to rent:  7,  # who did rent 1, accuracy 14.3%


### Vergleich zur logistischen Regression
- **Logistische Regression mit `sklearn`**
  - Standardmäßig Ridge-Regression.
  - `C` auf hohen Wert setzen für übliche logistische Regression.
- **Unterschiede zu `statsmodels`**
  - `sklearn`: Fokus auf Klassifikation.
  - Keine `summary`-Methoden für detaillierte Inferenz.

In [15]:
logit = LogisticRegression(C=1e10, solver='liblinear')
logit.fit(X_train, y_train)
logit_pred = logit.predict_proba(X_test)
logit_labels = np.where(logit_pred[:,1] > .5, 'Yes', 'No')
confusion_table(logit_labels, y_test)

Truth,No,Yes
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
No,931,67
Yes,2,0


- **Solver-Einstellung**
  - `solver='liblinear'` verwendet, um Konvergenzwarnungen zu vermeiden.
- **Wahrscheinlichkeitsschwellen**
  - 0.5: Nur 2 Käufe vorhergesagt.
  - 0.25: 29 Käufe vorhergesagt.
  - Genauigkeit: ca. 31%, fast fünfmal besser als zufällig.

In [16]:
logit_labels = np.where(logit_pred[:,1]>0.25, 'Yes', 'No')
confusion_table(logit_labels, y_test)

Truth,No,Yes
Predicted,Unnamed: 1_level_1,Unnamed: 2_level_1
No,913,58
Yes,20,9


In [17]:
9/(20+9)

0.3103448275862069