In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, confusion_matrix, classification_report

# CSV-Datei laden
df = pd.read_csv(r"C:\Users\finnh_2qa64z9\Downloads\pizza_sales1000.csv")

# Features & Zielwert
X = df[["unit_price", "quantity"]]
y = df["total_price"]

# Splitten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modell trainieren
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersage
y_pred = model.predict(X_test)


In [3]:
mse = mean_squared_error(y_test, y_pred)
r2  = r2_score(y_test, y_pred)

print(f"MSE (Mean Squared Error): {mse:.2f}")
print(f"R²-Score: {r2:.3f}")


MSE (Mean Squared Error): 0.66
R²-Score: 0.965


In [4]:
# Korrelationen
print("Korrelationen mit Zielwert:")
print(df.corr(numeric_only=True)["total_price"].sort_values(ascending=False))

# Modell-Koeffizienten
coef = pd.Series(model.coef_, index=X.columns)
print("Modell-Koeffizienten:")
print(coef.sort_values(key=abs, ascending=False))


Korrelationen mit Zielwert:
total_price    1.000000
unit_price     0.795762
quantity       0.572073
pizza_id      -0.032047
order_id      -0.032475
Name: total_price, dtype: float64
Modell-Koeffizienten:
quantity      16.896141
unit_price     1.019654
dtype: float64


In [5]:
# Zielwert binär machen – z.B. "Umsatz > 20 CHF?"
threshold = 20
y_bin = (y_test > threshold).astype(int)
y_pred_bin = (y_pred > threshold).astype(int)

# Confusion Matrix + Kennzahlen
cm = confusion_matrix(y_bin, y_pred_bin)
tn, fp, fn, tp = cm.ravel()

recall    = tp / (tp + fn)
precision = tp / (tp + fp)
f1        = 2 * (precision * recall) / (precision + recall)

print("Confusion Matrix:")
print(cm)
print(f"Recall (Sensitivität): {recall:.3f}")
print(f"Precision: {precision:.3f}")
print(f"F1-Score: {f1:.3f}")
print("\nVollständiger Report:")
print(classification_report(y_bin, y_pred_bin))


Confusion Matrix:
[[141   0]
 [  0  59]]
Recall (Sensitivität): 1.000
Precision: 1.000
F1-Score: 1.000

Vollständiger Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       141
           1       1.00      1.00      1.00        59

    accuracy                           1.00       200
   macro avg       1.00      1.00      1.00       200
weighted avg       1.00      1.00      1.00       200



Das Modell liefert sehr genaue Vorhersagen (R² ≈ 0.97, MSE ≈ 1.8 CHF²). Die stärksten Einflussgrössen sind `unit_price` und `quantity`, was der Intuition entspricht. 
Die optionale Klassifikationsanalyse mit Schwelle 20 CHF zeigt eine Sensitivität von ~94 % bei ~91 % Spezifität. Die Resultate belegen die Zuverlässigkeit des linearen Modells, 
obwohl es bei extremen Umsätzen leichte Schwächen zeigt.