In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
# Daten laden
df = pd.read_csv("data_sorted_fill_level_grams.csv")
print(f"Kopfzeile {df.head} \n\n")

# Relevante Spalten auswählen
xData = df[["fill_level_blue", "fill_level_green", "fill_level_red"]]  # Eingangsgrößen
yData = df["final_weight"]  # Zielgröße

# Trainings- und Testdaten aufteilen
xTrainingData, xTestData, yTrainingData, yTestData = train_test_split(xData, yData, test_size=0.2, random_state=42)


Kopfzeile <bound method NDFrame.head of           ID  fill_level_blue  fill_level_green  fill_level_red  final_weight
0   49626430         0.000000               0.0        0.000000     11.300110
1   49626432         0.000000               0.0        0.000000     11.692605
2   49626434       386.804727               0.0        0.000000     11.550287
3   49626436       381.288909               0.0      445.999631     11.800093
4   49626438       375.966803               0.0      444.174771     10.868427
..       ...              ...               ...             ...           ...
70  49626570        32.644821               0.0      312.520292     11.785446
71  49626572        27.425226               0.0      310.564847     11.017673
72  49626574        21.556917               0.0      308.668335      0.000000
73  49626576        16.570874               0.0      307.033630      0.000000
74  49626578         0.000000               0.0      305.130629      0.000000

[75 rows x 5 columns]> 

In [5]:
# Modell erstellen und trainieren
model = LinearRegression()
model.fit(xTrainingData, yTrainingData)

#print(xTrainingData)
# Vorhersagen machen
yPredictedData = model.predict(xTestData)

mse = mean_squared_error(yTestData, yPredictedData)
print(f"Mittlerer quadratischer Fehler (MSE): {mse}")

# Modellparameter anzeigen
print("Koeffizienten:", model.coef_)
print("Intercept:", model.intercept_)

Mittlerer quadratischer Fehler (MSE): 53.098145001351035
Koeffizienten: [-0.03607825  0.03863822  0.01035415]
Intercept: 19.967456630049476


### 📊 Zusammenfassung des Regressionsmodells

| Eingangsgrößen (Features `X`)                    | Zielgröße (`y`)          | MSE (Testdaten) | Regressionskoeffizienten                            | Intercept (`b`) |
|--------------------------------------------------|---------------------------|------------------|------------------------------------------------------|------------------|
| `fill_level_blue`, `fill_level_green`, `fill_level_red` | `final_weight` (g)         | 53.098           | `[-0.0361, 0.0386, 0.0104]`                         | 19.9675          |

**Formel:**  


final_weight = −0,0361 ⋅ blue + 0,0386 ⋅ green + 0,0104 ⋅ red + 19,9675

In [10]:
# Ursprüngliche Daten laden
X_raw = pd.read_csv("X.csv")

# Spalten umbenennen und auswählen
X_model_input = X_raw.rename(columns={
    "fill_level_grams_red": "fill_level_red",
    "fill_level_grams_blue": "fill_level_blue",
    "fill_level_grams_green": "fill_level_green"
})[["fill_level_blue", "fill_level_green", "fill_level_red"]]

# Vorhersage durchführen
y_predicted = model.predict(X_model_input)

# Flaschen-ID extrahieren (angenommen Spalte heißt 'bottle')
bottle_ids = X_raw["bottle"]

# Ergebnis-DataFrame erstellen
df_output = pd.DataFrame({
    "bottle": bottle_ids,
    "y_hat": y_predicted
})

# Speichern in CSV-Datei
df_output.to_csv("reg_Florian_Widmann-Lukas_Heiss-Ahmed_Koca.csv", index=False)


## Ergebnisdokumentation

Die Vorhersage des finalen Gewichts wurde mit dem trainierten linearen Regressionsmodell durchgeführt. Die verwendeten Eingangsgrößen (`X`) waren:

- `fill_level_blue`
- `fill_level_green`
- `fill_level_red`

Die Vorhersagen wurden in der Datei  
**`reg_Florian_Widmann-Lukas_Heiss-Ahmed_Koca.csv`**  
gespeichert. Jede Zeile enthält das vorhergesagte Gewicht (`predicted_final_weight`) für einen Datensatz aus `X.csv`.
