# Coding Block 2 - Logistic Regression

### Load the packages

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import itertools
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
'''
...
'''

'\n...\n'

### Read the dataset (You can test both preprocessed and raw data). 

In [7]:
df = pd.read_csv("../data/df_imputed_clean.csv")

### Let's Do Some Predictive Modeling

### Stratification:
Split the dataset into train (75%) and test datasets (25%)

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Stratification: Datensatz in Training (75%) und Test (25%) aufteilen
X = df.drop(columns=['Outcome'])  # Features (alle außer Zielvariable)
y = df['Outcome']  # Zielvariable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42)

# Gesäuberte Daten anzeigen
print("Trainingsdaten:", X_train.shape, "Testdaten:", X_test.shape)

Trainingsdaten: (546, 12) Testdaten: (183, 12)


### Do a Logistic Regression with test and training data

In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Stratification: Datensatz in Training (75%) und Test (25%) aufteilen
X = df.drop(columns=['Outcome'])  # Features (alle außer Zielvariable)
y = df['Outcome']  # Zielvariable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42)

# Logistische Regression
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train, y_train)

# Vorhersagen treffen
y_pred = model.predict(X_test)

# Evaluierung des Modells
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Trainingsdaten:", X_train.shape, "Testdaten:", X_test.shape)
print("Genauigkeit des Modells:", accuracy)
print("Klassifikationsbericht:\n", report)

Trainingsdaten: (546, 12) Testdaten: (183, 12)
Genauigkeit des Modells: 0.7650273224043715
Klassifikationsbericht:
               precision    recall  f1-score   support

         0.0       0.80      0.86      0.83       121
         1.0       0.68      0.58      0.63        62

    accuracy                           0.77       183
   macro avg       0.74      0.72      0.73       183
weighted avg       0.76      0.77      0.76       183



### Calculate Odds Ratios 
Find out about the feature importance by calculating the odds ratios of the logistic regression model 

In [18]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import MinMaxScaler

# Stratification: Datensatz in Training (75%) und Test (25%) aufteilen
X = df.drop(columns=['Outcome'])  # Features (alle außer Zielvariable)
y = df['Outcome']  # Zielvariable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42)

# Min-Max-Normalisierung
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Logistische Regression
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train, y_train)

# Vorhersagen treffen
y_pred = model.predict(X_test)

# Evaluierung des Modells
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Trainingsdaten:", X_train.shape, "Testdaten:", X_test.shape)
print("Genauigkeit des Modells:", accuracy)
print("Klassifikationsbericht:\n", report)

# Berechnung der Odds Ratios
odds_ratios = np.exp(model.coef_)[0]  # Exponentiierung der Koeffizienten
feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Odds Ratio': odds_ratios
}).sort_values(by='Odds Ratio', ascending=False)

print("Feature Importance (Odds Ratios):\n", feature_importance)


Trainingsdaten: (546, 12) Testdaten: (183, 12)
Genauigkeit des Modells: 0.7595628415300546
Klassifikationsbericht:
               precision    recall  f1-score   support

         0.0       0.79      0.87      0.83       121
         1.0       0.68      0.55      0.61        62

    accuracy                           0.76       183
   macro avg       0.73      0.71      0.72       183
weighted avg       0.75      0.76      0.75       183

Feature Importance (Odds Ratios):
                      Feature  Odds Ratio
2                    Glucose   51.423750
9       Mahalanobis_Distance    6.234325
6                        BMI    5.920159
7   DiabetesPedigreeFunction    4.390899
1                Pregnancies    2.545815
8                        Age    2.047151
5                    Insulin    1.381729
4              SkinThickness    1.332747
10      Multivariate_Outlier    1.000000
3              BloodPressure    0.978303
0                 Unnamed: 0    0.936679
11                   Outlier  

Hier ist die Interpretation des Outputs:

---

### **1. Modellleistung**
- **Genauigkeit (Accuracy):**  
  - Das Modell erreicht eine **Genauigkeit von 75,96%**.  
  - Dies bedeutet, dass etwa 76% der Testfälle korrekt vorhergesagt wurden.

- **Klassifikationsbericht:**  
  - **Präzision (Precision):**  
    - **Klasse 0 (Kein Diabetes)**: 79% der als "Kein Diabetes" klassifizierten Fälle sind korrekt.  
    - **Klasse 1 (Diabetes)**: 68% der als "Diabetes" vorhergesagten Fälle sind tatsächlich Diabetes.  
  - **Recall (Empfindlichkeit):**  
    - **Klasse 0:** 87% der tatsächlichen "Kein Diabetes"-Fälle wurden korrekt erkannt.  
    - **Klasse 1:** Nur 55% der tatsächlichen Diabetes-Fälle wurden erkannt.  
  - **F1-Score:**  
    - Das Modell erkennt **"Kein Diabetes" (F1-Score 83%) besser als "Diabetes" (F1-Score 61%)**.  
    - Dies deutet darauf hin, dass das Modell eine **leichte Tendenz zur Vorhersage von "Kein Diabetes" hat**.

---

### **2. Feature Importance – Odds Ratios**
Die **Odds Ratios (OR)** zeigen, wie stark sich die Odds für Diabetes ändern, wenn sich der Wert eines Merkmals um 1 Einheit erhöht.

- **Glucose (OR = 51.42)**  
  - Das wichtigste Merkmal.  
  - Eine Erhöhung des Glucose-Wertes erhöht die Wahrscheinlichkeit für Diabetes **stark**.  
  - Glucose ist somit der stärkste Prädiktor für Diabetes.

- **Mahalanobis_Distance (OR = 6.23)**  
  - Höhere Werte dieses Features korrelieren mit einem erhöhten Diabetes-Risiko.  
  - Mahalanobis-Distanz kann ein Indikator für abweichende Werte sein.

- **BMI (OR = 5.92)**  
  - Ein höherer BMI erhöht die Wahrscheinlichkeit für Diabetes signifikant.  

- **DiabetesPedigreeFunction (OR = 4.39)**  
  - Familienhistorie spielt eine wichtige Rolle bei Diabetes.

- **Pregnancies (OR = 2.54)**  
  - Mehr Schwangerschaften erhöhen das Risiko für Diabetes.

- **Alter (OR = 2.05)**  
  - Ältere Menschen haben ein höheres Diabetes-Risiko.

- **Insulin (OR = 1.38), SkinThickness (OR = 1.33)**  
  - Diese Merkmale haben einen moderaten Einfluss auf Diabetes.

- **BloodPressure (OR = 0.98)**  
  - Kein starker Zusammenhang mit Diabetes.

- **Outlier (OR = 0.76)**  
  - Dieses Feature senkt möglicherweise die Diabetes-Wahrscheinlichkeit oder wurde anders verarbeitet.

---

### **3. Fazit**
- Das Modell ist **gut, aber könnte verbessert werden**, insbesondere bei der Erkennung von **Diabetes-Fällen (Recall von 55%)**.
- **Glucose ist der wichtigste Prädiktor für Diabetes**, gefolgt von **BMI, Mahalanobis_Distance und DiabetesPedigreeFunction**.
- **BloodPressure hat kaum Einfluss auf die Odds für Diabetes**.
- Eine bessere Balance zwischen Präzision und Recall könnte helfen, mehr Diabetes-Fälle richtig zu erkennen.

Falls du Optimierungsmöglichkeiten brauchst, wie z. B. Hyperparameter-Tuning oder Feature Selection, lass es mich wissen! 🚀

In [19]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline

# Stratification: Datensatz in Training (75%) und Test (25%) aufteilen
X = df.drop(columns=['Outcome'])  # Features (alle außer Zielvariable)
y = df['Outcome']  # Zielvariable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42)

# Min-Max-Normalisierung
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Feature Selection (Wähle die besten Merkmale)
selector = SelectKBest(score_func=f_classif, k=8)  # Wähle die 8 besten Features
X_train = selector.fit_transform(X_train, y_train)
X_test = selector.transform(X_test)

# Principal Component Analysis (PCA zur Dimensionsreduktion)
pca = PCA(n_components=5)
X_train = pca.fit_transform(X_train)
X_test = pca.transform(X_test)

# Logistische Regression mit optimierten Hyperparametern
model = LogisticRegression(max_iter=2000, solver='liblinear', C=1.5, penalty='l1', random_state=42)
model.fit(X_train, y_train)

# Vorhersagen treffen
y_pred = model.predict(X_test)

# Evaluierung des Modells
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Trainingsdaten:", X_train.shape, "Testdaten:", X_test.shape)
print("Genauigkeit des Modells:", accuracy)
print("Klassifikationsbericht:\n", report)

# Berechnung der Odds Ratios
odds_ratios = np.exp(model.coef_)[0]  # Exponentiierung der Koeffizienten
feature_importance = pd.DataFrame({
    'Feature': [f'PC{i+1}' for i in range(len(odds_ratios))],
    'Odds Ratio': odds_ratios
}).sort_values(by='Odds Ratio', ascending=False)

print("Feature Importance (Odds Ratios):\n", feature_importance)

Trainingsdaten: (546, 5) Testdaten: (183, 5)
Genauigkeit des Modells: 0.7540983606557377
Klassifikationsbericht:
               precision    recall  f1-score   support

         0.0       0.81      0.82      0.81       121
         1.0       0.64      0.63      0.63        62

    accuracy                           0.75       183
   macro avg       0.73      0.72      0.72       183
weighted avg       0.75      0.75      0.75       183

Feature Importance (Odds Ratios):
   Feature  Odds Ratio
0     PC1  117.879510
2     PC3    6.725676
3     PC4    1.341192
1     PC2    0.379883
4     PC5    0.206994


  f = msb / msw


In [21]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.ensemble import RandomForestClassifier

# Stratification: Datensatz in Training (75%) und Test (25%) aufteilen
X = df.drop(columns=['Outcome'])  # Features (alle außer Zielvariable)
y = df['Outcome']  # Zielvariable
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42)

# Min-Max-Normalisierung
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Feature Selection (Wähle die besten Merkmale)
selector = SelectKBest(score_func=f_classif, k='all')  # Behalte alle Features, keine Einschränkung
X_train = selector.fit_transform(X_train, y_train)
X_test = selector.transform(X_test)

# RandomForest zur besseren Feature-Analyse
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)
feature_importance = rf.feature_importances_
selected_features = np.argsort(feature_importance)[-10:]  # Wähle die 10 wichtigsten Features aus
X_train = X_train[:, selected_features]
X_test = X_test[:, selected_features]

# Logistische Regression mit optimierten Hyperparametern
model = LogisticRegression(max_iter=5000, solver='saga', C=1.0, penalty='l2', random_state=42)
model.fit(X_train, y_train)

# Vorhersagen treffen
y_pred = model.predict(X_test)

# Evaluierung des Modells
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Trainingsdaten:", X_train.shape, "Testdaten:", X_test.shape)
print("Genauigkeit des Modells:", accuracy)
print("Klassifikationsbericht:\n", report)

# Berechnung der Odds Ratios
odds_ratios = np.exp(model.coef_)[0]  # Exponentiierung der Koeffizienten
feature_importance_df = pd.DataFrame({
    'Feature': [X.columns[i] for i in selected_features],
    'Odds Ratio': odds_ratios
}).sort_values(by='Odds Ratio', ascending=False)

print("Feature Importance (Odds Ratios):\n", feature_importance_df)


Trainingsdaten: (546, 10) Testdaten: (183, 10)
Genauigkeit des Modells: 0.7595628415300546
Klassifikationsbericht:
               precision    recall  f1-score   support

         0.0       0.79      0.87      0.83       121
         1.0       0.68      0.55      0.61        62

    accuracy                           0.76       183
   macro avg       0.73      0.71      0.72       183
weighted avg       0.75      0.76      0.75       183

Feature Importance (Odds Ratios):
                     Feature  Odds Ratio
9                   Glucose   51.503143
8      Mahalanobis_Distance    6.205647
6                       BMI    5.950606
4  DiabetesPedigreeFunction    4.416700
0               Pregnancies    2.541115
5                       Age    2.048542
7                   Insulin    1.383210
2             SkinThickness    1.326868
1             BloodPressure    0.975822
3                Unnamed: 0    0.938545


  f = msb / msw


### Logistic Regression Using Standardization

Do a logistic regression on data that has been standardized before. Are there differences in the model output?