# Machine Learning Projekt - Gruppe 9
## Projekt: _Electric Motor Temperature Estimation_
### SS2025

Gruppenmitglieder: André Korten, Fynn Buhl, Kilian Feil, Lukas XXX, Nic Tusch, Tobi XXX
____

## Aufgabenstellung:

Aufgabe des Projekts ist es, auf Grundlage des vorliegenden Datensatzes die Temperatur des Permanentmagneten eines Motors vorherzusagen.
Zur Umsetzung dieser Regressionsaufgabe werden zwei vorgegebene Verfahren eingesetzt: der Random Forest Regressor sowie ein künstliches neuronales Netz (ANN). Zusätzlich wird ein drittes, selbst gewähltes Verfahren zur Modellierung und zum Vergleich herangezogen.




&nbsp;


### 1. Frame the Problem and Look at the Big Picture
    1. Define the objective of your project in your own words.
    2. Select a performance criteria for evaluation of the task.
    3. Explain in a paragraph how you would solve the problem manually.
    4. List assumptions that you made so far.
    

### 2. Get the Data

**Kontext**

Der Datensatz umfasst verschiedene Sensordaten, die von einem Permanentmagnet-Synchronmotor (PMSM) auf einem Prüfstand gesammelt wurden. Bei dem PMSM handelt es sich um den Prototyp eines deutschen OEMs. Die Prüfstandsmessungen wurden von der Abteilung LEA der Universität Paderborn durchgeführt.


**Inhalt**

Alle Aufzeichnungen werden mit 2 Hz abgetastet. Der Datensatz besteht aus mehreren Messsitzungen, die durch die Spalte „profile_id“ voneinander unterschieden werden können. Eine Messsitzung kann zwischen einer und sechs Stunden lang sein.

Der Motor wird durch von Hand entworfene Fahrzyklen erregt, die eine Referenzmotordrehzahl und ein Referenzdrehmoment vorgeben.
Die Ströme in d/q-Koordinaten (Spalten „i_d“ und i_q„) und die Spannungen in d/q-Koordinaten (Spalten ‚u_d‘ und “u_q") sind das Ergebnis einer Standardregelstrategie, die versucht, der Solldrehzahl und dem Solldrehmoment zu folgen.
Die Spalten „motor_speed“ und „torque“ sind die resultierenden Größen, die durch diese Strategie erreicht werden, abgeleitet von den eingestellten Strömen und Spannungen.

Die meisten Fahrzyklen stellen Zufallsbewegungen in der Drehzahl-Drehmoment-Ebene dar, um die realen Fahrzyklen genauer zu imitieren, als dies bei konstanter Erregung und Hoch- und Herunterfahren der Fall wäre.


Quelle: _https://www.kaggle.com/datasets/wkirgsn/electric-motor-temperature_




4. Convert the data to a format you can easily manipulate (if required).
5. Check the size and type of the data.
6. Sample a test set, put it aside, and never look at it (no data snooping!).
7. (Sample a training set and a validation set. Only necessary if N-fold cross-validation is not used)

In [9]:
# import required packages
import os
import pandas as pd

# Define the path where the data file is stored
DATA_PATH = "./"

# Function to load motor data from a CSV file
def load_motor_data(data_path=DATA_PATH):
    csv_path = os.path.join(data_path, "measures_v2.csv") #CSV file has a header row -> Default: Assumes that the first row is the header
    return pd.read_csv(csv_path)

# Load the motor dataset using the defined function
motor = load_motor_data(DATA_PATH)

# Display information about the loaded DataFrame
motor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1330816 entries, 0 to 1330815
Data columns (total 13 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   u_q             1330816 non-null  float64
 1   coolant         1330816 non-null  float64
 2   stator_winding  1330816 non-null  float64
 3   u_d             1330816 non-null  float64
 4   stator_tooth    1330816 non-null  float64
 5   motor_speed     1330816 non-null  float64
 6   i_d             1330816 non-null  float64
 7   i_q             1330816 non-null  float64
 8   pm              1330816 non-null  float64
 9   stator_yoke     1330816 non-null  float64
 10  ambient         1330816 non-null  float64
 11  torque          1330816 non-null  float64
 12  profile_id      1330816 non-null  int64  
dtypes: float64(12), int64(1)
memory usage: 132.0 MB


### 3. Explore the Data

1. Create a copy of the training set for exploration (sample it down to a manageable size if necessary).
2. (Create a Jupyter Notebook for your data exploration.)
3. Study each attribute and its characteristics
    - name
    - type
    - % of missing values
    - noisiness
    - usefulness for task
    - type of distribution
    - ...
4. Identify the target attribute (supervised learning).
5. Visualize the data.
6. Study correlations between attributes.
7. Identify the promising transformations you may want to apply.
8. Document the results of your exploratory data analysis.

### 4. Prepare the Data

1. Write functions for all data transformations you apply.
2. Clean the data.
    - remove outliers
    - fill in missing values
3. Select important features (drop attributes that provide no useful information for the task).
4. Use feature engineering.
    - decompose categorical features
    - add promising transformations for features
    - aggregate features into promissing new features
5. Use feature scaling (standardize or normalize features).

### 5. Select and Train your Models

1. Learn the basics about the models you've been assigned.
2. Select a 3rd model on your own. Use criteria for your selection.
3. Make a plan for training and evaluation of the models.
4. Build your models (select meaningful values for the model parameters).
5. Train your models with the training set.
6. Measure and compare the performance of your models (use N-fold cross-validation).
7. Analyze the most significant parameters for each model.
8. Analyze the types of errors the models make.

### 6. Fine-Tune your Models

1. Fine-tune the hyperparameters using cross-validation.
    - treat your data transformation choices as hyperparameters, especially when you are not sure about them. (e.g. if you are not sure whether to replace missing values with zeros or with the median value, or to just drop the rows.)
    - use grid search and random search $\to$ compare and evaluate the results.
2. Compare the results of all three models after the fine-tuning process to determine the best hyperparameters.
3. Select a final model and measure its performance on the test set to estimate the generalization error.
    - dont tweak your model after measuring the generalization error: you would just start overfitting the test set.
4. Document the results of the examined models. Pay particular attention to the final model.

### 7. Present Your Solution

1. Document what you have done.
    - write a summary of the results in a new, final section
    - explain why your solution achieves the task objective
2. Create a nice presentation.
    - make sure to highlight the big picture first
    - make sure you explain the assigned model in detail to your fellow students
    - dont forget to present interesting points you noticed along the way
    - list your assumptions and your systems limitations
    - ensure your key findings are communicated