# Calcul du State of Health (SoH) pour Mercedes-Benz

Ce notebook explore diff√©rentes m√©thodes pour calculer le State of Health (SoH) des batteries des v√©hicules Mercedes-Benz en utilisant les donn√©es de charge.

## Conclusion

### M√©thode 1 : Calcul du SoH avec dur√©e de phase et taux de charge

Nous pouvons calculer le State of Health (SoH) en utilisant la dur√©e de phase calcul√©e (`phase_duration`) combin√©e avec le `CHARGING_RATE_MEAN` pour estimer l'√©nergie accumul√©e pendant les phases de charge.

**Formule utilis√©e :**
$$ Capacity_{estimated} = \frac{phase\_duration \times CHARGING\_RATE\_MEAN}{\frac{SOC\_DIFF}{100}} $$
$$ SoH = \frac{Capacity_{estimated}}{BATTERY\_NET\_CAPACITY} $$

**Filtres appliqu√©s :**
- `NO_SOC_DATAPOINT > 10` : Filtrer les charges avec peu de points de donn√©es
- `SOC_LAST < 99` : Arr√™ter de prendre en compte les temps apr√®s 99% SoC pour r√©duire la corr√©lation avec `SOC_LAST`
- `phase_duration < 10` : Filtrer les phases de charge trop longues (en heures)

**Correction de corr√©lation - Methode 1: r√©gression lin√©aire :**
Une correction a √©t√© appliqu√©e pour r√©duire la corr√©lation avec la dur√©e de phase :
$$ SoH_{corrected} = \frac{SoH}{0.0277742 \times phase\_duration + 1.01565} $$

Pas possible de corriger la d√©pendance au charging rate sans toucher √† celle sur la dur√©e de la phase. Donc pour l'instant on reste sur une seule correction de d√©pendance avec une r√©gression lin√©aire

**Correction de corr√©lation - Methode 2 : XGBOOST :**
- POur l'instant pas de conclusion tir√©e, mais cette m√©thode pourra √™tre creus√© si l'on constate des d√©pendances importantes


**Agr√©gation :**
- Agr√©gation hebdomadaire avec m√©diane du SoH par VIN et par semaine pour lisser les variations

**Probl√®mes identifi√©s :**
- `CHARGING_DURATION_OEM` est beaucoup plus court que la dur√©e r√©elle de la phase, d'o√π l'utilisation de `phase_duration` calcul√©e
- Il y a un d√©calage temporel dans `raw_ts` entre la r√©ception de la valeur `total_charging_duration` et une valeur `soc`
- Il reste des outliers, comprendre pourquoi ils sont pr√©sents et comment les supprimer.
- Certaines phase de charges sont tr√®s/trop longue.

**R√©sultat :** En utilisant notre propre dur√©e de phase, nous pouvons calculer plus de valeurs de SoH, mais la variance est √©lev√©e et une grande majorit√© des calculs de SoH sont sup√©rieurs √† 100%. Pour le moment, cette m√©thode n√©cessite des am√©liorations suppl√©mentaires.



**Next steps**: 
- outliers:
    - connaitre le nombre d'outliers par vin (modele/vin)
    - Outliers li√©e au charging rate (proportion)
- phase duration 


M√©thode 2: 
$$ Capacity_{estimated} = \frac{TOTAL\_ENERGY\_CHARGED}{\frac{SOC\_DIFF}{100}} $$
- La valeur TOTAL_ENERGY_CHARGED ne semble pas li√© directement √† l'√©nergie cumul√© pendant une charge, cette valeur n'est pas exploitable en tant que tel



In [None]:
from core.spark_utils import *
import os
from core.s3.s3_utils import S3Service
import plotly.express as px
import pandas as pd
import numpy as np
from pyspark.sql import functions as F
from pyspark.sql import SparkSession, Window
from core.stats_utils import mask_out_outliers_by_interquartile_range, force_decay
from core.spark_utils import safe_astype_spark_with_error_handling
from core.sql_utils import *
from transform.fleet_info.config import *


## 1. Chargement des donn√©es

In [None]:
spark_session = create_spark_session(os.environ.get('S3_KEY'), os.environ.get('S3_SECRET'))

In [None]:
s3 = S3Service()

In [None]:
processed_phase = s3.read_parquet_df_spark(spark_session, f'processed_phases/processed_phases_mercedes_benz.parquet').toPandas()
processed_phase_charging = processed_phase[processed_phase["SOC_DIFF"] > 0].copy()


In [None]:

raw_tss = s3.read_parquet_df_spark(spark_session, f'raw_ts/mercedes-benz/time_series/raw_ts_spark.parquet')
raw_ts = raw_tss.filter(F.col("date") >= "2025-08-01")
raw_ts = raw_ts.toPandas()

In [None]:
dtypes_list = { "charging_rate": 'float',
    "energy_charged": 'float',
    "battery_level": 'float',
    "battery_level_at_departure": 'float',
    "displayed_start_state_of_charge": 'float',
    "displayed_state_of_charge": 'float',
    "electric_consumption_rate_since_reset": 'float',
    "electric_consumption_rate_since_start": 'float',
    "estimated_range": 'float',
    "max_range": 'float',
    "odometer": 'float',
    "plugged_in": 'bool',
    "preconditioning_departure_status": 'str',
    "smart_charging_status": 'str',
    "starter_battery_state": 'str',
    "status": 'str',
    "total_charging_duration": 'float',
    "vin": 'str',
}

raw_ts = raw_ts.astype(dtypes_list)

In [None]:
# Assure-toi que les dates sont au bon format
raw_ts['date'] = pd.to_datetime(raw_ts['date'])
processed_phase_charging['DATETIME_BEGIN'] = pd.to_datetime(processed_phase_charging['DATETIME_BEGIN'])
processed_phase_charging['DATETIME_END'] = pd.to_datetime(processed_phase_charging['DATETIME_END'])

# Tri par VIN et datetime
df_dates = raw_ts.sort_values(['date'])
df_phases = processed_phase_charging.sort_values(['DATETIME_BEGIN'])

merged = pd.merge_asof(
    df_dates,
    df_phases[['DATETIME_BEGIN', 'DATETIME_END', 'VIN', 'PHASE_INDEX', "SOC_DIFF", "SOC_FIRST", "SOC_LAST", "BATTERY_NET_CAPACITY", "CHARGING_DURATION_OEM", "CHARGING_RATE_MEAN", 'ODOMETER_LAST']],
    left_by='vin',
    right_by='VIN',
    left_on='date',
    right_on='DATETIME_BEGIN',
    direction='backward'
)

tss = merged[merged['date'] <= merged['DATETIME_END']]

tss = tss.copy()
tss['PHASE_INDEX'] = tss['PHASE_INDEX'].astype(str)

In [None]:
processed_phase_charging[['BATTERY_NET_CAPACITY', 'CHARGING_DURATION_OEM', 'CHARGING_RATE_MEAN','ODOMETER_FIRST', 'ODOMETER_LAST', 'RANGE', 'SOC_DIFF', 'SOC_FIRST', 'SOC_LAST',
       'TOTAL_ENERGY_CHARGED']] = processed_phase_charging[['BATTERY_NET_CAPACITY', 'CHARGING_DURATION_OEM', 'CHARGING_RATE_MEAN','ODOMETER_FIRST', 'ODOMETER_LAST', 'RANGE', 'SOC_DIFF', 'SOC_FIRST', 'SOC_LAST',
       'TOTAL_ENERGY_CHARGED']].astype(float)

## 2. M√©thode 1 : Calcul du SoH avec dur√©e de phase et taux de charge

Cette premi√®re m√©thode estime l'√©nergie charg√©e en utilisant la dur√©e de la phase de charge multipli√©e par le taux de charge moyen.

### 2.1 Principe de calcul

Nous pouvons estimer l'√©nergie de charge avec `CHARGING_DURATION_OEM * CHARGING_RATE_MEAN`. En divisant cela par le **SOC_DIFF** pendant la charge, nous obtenons une capacit√© de batterie estim√©e.

**Formules :**

$$ Capacity_{estimated} = \frac{CHARGING\_DURATION \times CHARGING\_RATE\_MEAN}{\frac{SOC\_DIFF}{100}} $$

$$ SoH = \frac{Capacity_{estimated}}{BATTERY\_NET\_CAPACITY} $$


### 2.2 Charging duration vs temps de charge calculer pas nous

#### 2.2.1 charging_duration 

**Note :** Nous manquons beaucoup de phases de charge. Nous pouvons utiliser notre propre dur√©e de phase pour calculer plus de valeurs de SoH.


In [None]:
processed_phase_charging['estimated_capacity'] = (processed_phase_charging['CHARGING_DURATION_OEM'] / 3600) * processed_phase_charging['CHARGING_RATE_MEAN'] / (processed_phase_charging['SOC_DIFF'] / 100)
processed_phase_charging["soh"] = (processed_phase_charging["estimated_capacity"] / processed_phase_charging["BATTERY_NET_CAPACITY"]) 


In [None]:
px.scatter(processed_phase_charging[(processed_phase_charging['SOC_DIFF'] > 0)], x='ODOMETER_FIRST', y='soh', color='VIN', hover_data=['SOC_DIFF'])

**Note :** Nous manquons beaucoup de phases de charge. Nous pouvons utiliser notre propre dur√©e de phase pour calculer plus de valeurs de SoH.

#### 2.2.2 dur√©e de charge calcul√©e 

In [None]:
processed_phase_charging['phase_duration'] = (processed_phase_charging["DATETIME_END"] - processed_phase_charging["DATETIME_BEGIN"] ).dt.total_seconds()/3600

In [None]:
processed_phase_charging['estimated_capacity'] = (processed_phase_charging['phase_duration']) * processed_phase_charging['CHARGING_RATE_MEAN'] / (processed_phase_charging['SOC_DIFF'] / 100)
processed_phase_charging["soh"] = (processed_phase_charging["estimated_capacity"] / processed_phase_charging["BATTERY_NET_CAPACITY"]) 


In [None]:
px.scatter(processed_phase_charging, x='ODOMETER_FIRST', y='soh', color='VIN', )

### 2.3 Filtrage SoH absurde

#### 2.3.1 Nombre de point par charge

**Observation**: On voit que les charges avec peut de point on des SoH absurdes:
**Cocnlusion**: On filtre les charges qui ont moins de 10 points 

In [None]:
px.scatter(processed_phase_charging, x='NO_SOC_DATAPOINT', y='soh')

In [None]:
processed_phase_charging_filtered = processed_phase_charging[processed_phase_charging['NO_SOC_DATAPOINT'] > 10]

#### 2.3.2 Filtrage des valeurs pour le SoC_first, SoC_last, SoC_diff

- SOC_last < 99


In [None]:
processed_phase_charging_filtered['SOC_MEAN'] = (processed_phase_charging_filtered['SOC_FIRST'] + processed_phase_charging_filtered['SOC_LAST']) / 2

In [None]:
px.scatter(processed_phase_charging_filtered, x='SOC_FIRST', y='soh', )

In [None]:
px.scatter(processed_phase_charging_filtered, x='SOC_LAST', y='soh')

**Observation :** Les phases qui commencent ou finissent avec un SoC √©lev√© biaisent les r√©sultats. Il faut arr√™ter de prendre en compte les temps entre 99% et 100% pour le calcul.

In [None]:
px.scatter(processed_phase_charging_filtered, x='SOC_DIFF', y='soh')

In [None]:
processed_phase_charging_soc_filtered = processed_phase_charging_filtered[processed_phase_charging_filtered['SOC_LAST'] < 99].copy()

#### 2.3.3 filtre sur la dur√©e de charge 

- filtre sur la dur√©e des phases < 30h

In [None]:
px.scatter(processed_phase_charging_soc_filtered, x='phase_duration', y='soh')

In [None]:
processed_phase_charging_time_filtered = processed_phase_charging_soc_filtered[processed_phase_charging_soc_filtered['phase_duration'] < 10]

#### 2.3.4 Etude sur les outliers restant

- connaitre le nombre d'outliers par vin (modele/vin)
- Outliers li√©e au charging rate (proportion)

### 2.4 Analyse des d√©pendances du SoH - METHODE 1 : REGRESSION LINEAIRE


In [None]:
corr = processed_phase_charging_time_filtered.select_dtypes(include=['float', 'int']).corr()
px.imshow(corr[['soh']].sort_values(by='soh', ascending=False))


**Observation :** correlation avec la dur√©e de la phase

#### 2.4.1 corr√©lation avec la dur√©e de la phase

In [None]:
# Create the scatter plot
fig = px.scatter(
    processed_phase_charging_time_filtered[processed_phase_charging_time_filtered['phase_duration'] < 10], 
    x='phase_duration', 
    y='soh', 
    trendline='ols', 
    color='CHARGING_RATE_MEAN'
)

# Display the figure
fig.show()

# Extract and print trendline values
# The trendline is stored as the last trace in the figure
trendline_trace = fig.data[-1]
hovertemplate = trendline_trace.hovertemplate
print("Trendline equation from hovertemplate:")
print(hovertemplate)

In [None]:
f= lambda x, y: y / (0.0277742 * x + 1.01565)

In [None]:
processed_phase_charging_time_filtered["soh_corrected"] = processed_phase_charging_time_filtered[["phase_duration", "soh"]].apply(lambda x: f(x['phase_duration'], x['soh']), axis=1)

In [None]:
px.scatter(processed_phase_charging_time_filtered, x='phase_duration', y='soh_corrected', trendline='ols', color='CHARGING_RATE_MEAN')

In [None]:
corr = processed_phase_charging_time_filtered.select_dtypes(include=['float', 'int']).corr()
px.imshow(corr[['soh_corrected']].sort_values(by='soh_corrected', ascending=False))


#### 2.4.2 D√©pendance au  charging_rate_meean

-> Pas possible de corriger le charging_rate sans avoir d'avoir sur une plus grande corr√©lation sur la phase duration

In [None]:
px.scatter(processed_phase_charging_time_filtered, y='soh_corrected', x='CHARGING_RATE_MEAN', trendline='ols')

# Create the scatter plot
fig = px.scatter(
    processed_phase_charging_time_filtered, 
    x='CHARGING_RATE_MEAN', 
    y='soh_corrected', 
    trendline='ols', 
    color='CHARGING_RATE_MEAN'
)

# Display the figure
fig.show()

# Extract and print trendline values
# The trendline is stored as the last trace in the figure
trendline_trace = fig.data[-1]
hovertemplate = trendline_trace.hovertemplate
print("Trendline equation from hovertemplate:")
print(hovertemplate)

In [None]:
f = lambda x, y: y / (0.00121548 * x + 0.972648)


In [None]:
processed_phase_charging_time_filtered["CHARGING_RATE_MEAN"].dtype
processed_phase_charging_time_filtered["soh_corrected"].dtype

In [None]:
processed_phase_charging_time_filtered["soh_corrected_2"] = processed_phase_charging_time_filtered[["CHARGING_RATE_MEAN", "soh_corrected"]].apply(lambda x: f(x['CHARGING_RATE_MEAN'], x['soh_corrected']), axis=1).astype(float)

In [None]:
px.scatter(processed_phase_charging_time_filtered, x='phase_duration', y='soh_corrected_2', trendline='ols', color='CHARGING_RATE_MEAN')

In [None]:
corr = processed_phase_charging_time_filtered.select_dtypes(include=['float', 'int']).corr()
px.imshow(corr[['soh_corrected_2']].sort_values(by='soh_corrected_2', ascending=False))


### 2.5. Analyse des d√©pendances du SoH - MEHODE 2 : XGBOOST

Cette m√©thode utilise XGBoost (eXtreme Gradient Boosting) pour pr√©dire le SoH en apprenant automatiquement les d√©pendances complexes entre les diff√©rentes features, plut√¥t que d'appliquer des corrections manuelles.

**Avantages de XGBoost :**
- Apprend automatiquement les d√©pendances non-lin√©aires entre les features
- G√®re plusieurs features simultan√©ment
- Moins sensible aux outliers que les mod√®les lin√©aires
- Fournit l'importance des features pour l'interpr√©tabilit√©
- R√©gularisation int√©gr√©e pour √©viter le surapprentissage


#### 2.5.1 Import de XGBoost et pr√©paration des donn√©es


In [None]:
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import plotly.graph_objects as go
import warnings
warnings.filterwarnings('ignore')


##### 2.5.1.1 Pr√©paration des donn√©es pour l'entra√Ænement

Nous utilisons les donn√©es filtr√©es de la M√©thode 1 et s√©lectionnons les features pertinentes pour pr√©dire le SoH.


##### 2.5.2 Ajout de la contrainte : SoH = 1 quand odom√®tre = 0

Pour chaque VIN, nous ajoutons un point synth√©tique avec odom√®tre = 0 et SoH = 1, car un v√©hicule neuf devrait avoir un SoH de 100%.


In [None]:
# Ajout de la contrainte : SoH = 1 quand odom√®tre = 0 pour chaque VIN
# Cr√©ation de points synth√©tiques pour chaque VIN unique
print("Ajout de la contrainte : SoH = 1 quand odom√®tre = 0 pour chaque VIN...")

# S'assurer que VIN est dans le DataFrame
if 'VIN' not in df_xgb_clean.columns:
    df_xgb_clean = df_xgb.reset_index(drop=True)
    df_xgb_clean = pd.concat([df_xgb_clean, df_xgb[['VIN']]], axis=1)
    df_xgb_clean = df_xgb_clean[features + ['soh', 'VIN']].dropna()

unique_vins = df_xgb_clean['VIN'].unique()
synthetic_points = []

for vin in unique_vins:
    # R√©cup√©rer les valeurs moyennes/typiques pour ce VIN pour les autres features
    vin_data = df_xgb_clean[df_xgb_clean['VIN'] == vin]
    
    # Cr√©er un point synth√©tique avec odom√®tre = 0 et soh = 1
    synthetic_point = {
        'VIN': vin,
        'ODOMETER_FIRST': 0.0,
        'ODOMETER_LAST': 0.0,
        'soh': 1.0,
        # Utiliser des valeurs moyennes pour les autres features
        'phase_duration': vin_data['phase_duration'].median() if len(vin_data) > 0 else 2.0,
        'CHARGING_RATE_MEAN': vin_data['CHARGING_RATE_MEAN'].median() if len(vin_data) > 0 else 7.0,
        'SOC_DIFF': vin_data['SOC_DIFF'].median() if len(vin_data) > 0 else 50.0,
        'SOC_FIRST': 20.0,  # Valeur typique pour une charge
        'SOC_LAST': 70.0,  # Valeur typique pour une charge
        'NO_SOC_DATAPOINT': vin_data['NO_SOC_DATAPOINT'].median() if len(vin_data) > 0 else 20.0,
        'BATTERY_NET_CAPACITY': vin_data['BATTERY_NET_CAPACITY'].iloc[0] if len(vin_data) > 0 else 80.0
    }
    synthetic_points.append(synthetic_point)

# Convertir en DataFrame et ajouter aux donn√©es
df_synthetic = pd.DataFrame(synthetic_points)
df_xgb_clean = pd.concat([df_xgb_clean, df_synthetic], ignore_index=True)

print(f"‚úÖ {len(synthetic_points)} points synth√©tiques ajout√©s (odom√®tre=0, soh=1)")
print(f"Nombre d'observations disponibles (apr√®s ajout des contraintes) : {len(df_xgb_clean)}")


In [None]:
# Pr√©paration des donn√©es : utiliser les donn√©es filtr√©es de la M√©thode 1
df_xgb = processed_phase_charging_time_filtered.copy()

# S√©lection des features pour pr√©dire le SoH
features = [
    'phase_duration',
    'CHARGING_RATE_MEAN',
    'SOC_DIFF',
    'SOC_FIRST',
    'SOC_LAST',
    'ODOMETER_FIRST',
    'ODOMETER_LAST',
    'NO_SOC_DATAPOINT',
    'BATTERY_NET_CAPACITY'
]

# Filtrer les donn√©es avec les features disponibles et sans valeurs manquantes
df_xgb_clean = df_xgb[features + ['soh']].dropna()

print(f"Nombre d'observations disponibles : {len(df_xgb_clean)}")
print(f"Nombre de features : {len(features)}")
print(f"\nStatistiques du SoH cible :")
print(df_xgb_clean['soh'].describe())


#### 2.5.3 S√©paration train/test et entra√Ænement du mod√®le


In [None]:
# S√©paration des features et de la variable cible
X = df_xgb_clean[features]
y = df_xgb_clean['soh']

# Split train/test (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"Taille du dataset d'entra√Ænement : {len(X_train)}")
print(f"Taille du dataset de test : {len(X_test)}")


In [None]:
# Cr√©ation et entra√Ænement du mod√®le XGBoost
xgb_model = xgb.XGBRegressor(
    n_estimators=100,
    max_depth=6,
    learning_rate=0.1,
    subsample=0.8,
    colsample_bytree=0.8,
    random_state=42,
    n_jobs=-1,
    objective='reg:squarederror'
)

# Entra√Ænement
print("Entra√Ænement du mod√®le XGBoost...")
xgb_model.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√© avec succ√®s!")


#### 2.5.4 √âvaluation du mod√®le


In [None]:
# Pr√©dictions
y_train_pred = xgb_model.predict(X_train)
y_test_pred = xgb_model.predict(X_test)

# M√©triques sur le train
mae_train = mean_absolute_error(y_train, y_train_pred)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
r2_train = r2_score(y_train, y_train_pred)

# M√©triques sur le test
mae_test = mean_absolute_error(y_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test = r2_score(y_test, y_test_pred)

print("=" * 50)
print("M√âTRIQUES D'√âVALUATION")
print("=" * 50)
print(f"\nüìä Dataset d'entra√Ænement :")
print(f"   MAE  : {mae_train:.4f}")
print(f"   RMSE : {rmse_train:.4f}")
print(f"   R¬≤   : {r2_train:.4f}")

print(f"\nüìä Dataset de test :")
print(f"   MAE  : {mae_test:.4f}")
print(f"   RMSE : {rmse_test:.4f}")
print(f"   R¬≤   : {r2_test:.4f}")
print("=" * 50)


#### 2.5.5 Visualisation des pr√©dictions


In [None]:
# Cr√©ation d'un DataFrame pour la visualisation
results_df = pd.DataFrame({
    'y_true': y_test.values,
    'y_pred': y_test_pred,
    'error': y_test.values - y_test_pred
})

# Graphique : Pr√©dictions vs R√©alit√©
fig = px.scatter(
    results_df,
    x='y_true',
    y='y_pred',
    title='Pr√©dictions XGBoost vs SoH r√©el (Test set)',
    labels={'y_true': 'SoH r√©el', 'y_pred': 'SoH pr√©dit'},
    hover_data=['error']
)

# Ligne de r√©f√©rence (y=x)
min_val = results_df['y_true'].min()
max_val = results_df['y_true'].max()
fig.add_trace(go.Scatter(
    x=[min_val, max_val],
    y=[min_val, max_val],
    mode='lines',
    line=dict(color='red', dash='dash', width=2),
    name='Ligne parfaite (y=x)'
))

fig.show()


In [None]:
# Graphique : Distribution des erreurs
fig = px.histogram(
    results_df,
    x='error',
    nbins=50,
    title='Distribution des erreurs de pr√©diction (Test set)',
    labels={'error': 'Erreur (SoH r√©el - SoH pr√©dit)', 'count': 'Fr√©quence'}
)
fig.add_vline(x=0, line_dash="dash", line_color="red", annotation_text="Erreur = 0")
fig.show()


#### 2.5.6 Importance des features

XGBoost fournit l'importance de chaque feature, ce qui permet de comprendre quelles variables sont les plus importantes pour pr√©dire le SoH.


In [None]:
# R√©cup√©ration de l'importance des features
feature_importance = pd.DataFrame({
    'feature': features,
    'importance': xgb_model.feature_importances_
}).sort_values('importance', ascending=False)

print("Importance des features (du plus au moins important) :")
print("=" * 50)
for idx, row in feature_importance.iterrows():
    print(f"{row['feature']:30s} : {row['importance']:.4f}")
print("=" * 50)

# Visualisation
fig = px.bar(
    feature_importance,
    x='importance',
    y='feature',
    orientation='h',
    title='Importance des features pour la pr√©diction du SoH',
    labels={'importance': 'Importance', 'feature': 'Feature'}
)
fig.update_layout(yaxis={'categoryorder': 'total ascending'})
fig.show()


#### 2.5.7 Application du mod√®le aux donn√©es compl√®tes

Nous pouvons maintenant utiliser le mod√®le entra√Æn√© pour pr√©dire le SoH sur toutes les donn√©es filtr√©es.


#### 2.5.8 Application de la contrainte : SoH = 1 quand odom√®tre = 0

Pour chaque VIN, nous for√ßons le SoH √† 1.0 lorsque l'odom√®tre est √† 0, car un v√©hicule neuf devrait avoir un SoH de 100%.


In [None]:
# Application de la contrainte : SoH = 1 quand odom√®tre = 0
# Pour chaque VIN, si ODOMETER_FIRST = 0, alors soh_xgb = 1
mask_odometer_zero = df_xgb_all['ODOMETER_FIRST'] == 0
n_before = mask_odometer_zero.sum()

if n_before > 0:
    df_xgb_all.loc[mask_odometer_zero, 'soh_xgb'] = 1.0
    print(f"‚úÖ Contrainte appliqu√©e : {n_before} pr√©dictions forc√©es √† SoH=1 (odom√®tre=0)")
    print(f"\nStatistiques des pr√©dictions XGBoost (apr√®s contrainte) :")
    print(df_xgb_all['soh_xgb'].describe())
else:
    print("‚ÑπÔ∏è Aucun point avec odom√®tre=0 trouv√© dans les donn√©es")


In [None]:
# Pr√©diction sur toutes les donn√©es filtr√©es
df_xgb_all = processed_phase_charging_time_filtered.copy()
df_xgb_all_clean = df_xgb_all[features].dropna()

# Pr√©dictions
soh_xgb_predicted = xgb_model.predict(df_xgb_all_clean)

# Ajout des pr√©dictions au DataFrame
df_xgb_all.loc[df_xgb_all[features].dropna().index, 'soh_xgb'] = soh_xgb_predicted

print(f"Nombre de pr√©dictions effectu√©es : {len(soh_xgb_predicted)}")
print(f"\nStatistiques des pr√©dictions XGBoost :")
print(df_xgb_all['soh_xgb'].describe())


In [None]:
# Comparaison visuelle : SoH calcul√© vs SoH pr√©dit par XGBoost
df_compare = df_xgb_all.dropna(subset=['soh', 'soh_xgb'])
fig = px.scatter(
    df_compare,
    x='soh',
    y='soh_xgb',
    title='Comparaison : SoH calcul√© (M√©thode 1) vs SoH pr√©dit (XGBoost)',
    labels={'soh': 'SoH calcul√© (M√©thode 1)', 'soh_xgb': 'SoH pr√©dit (XGBoost)'},
    color='ODOMETER_FIRST',
    hover_data=['VIN', 'phase_duration', 'CHARGING_RATE_MEAN']
)

# Ligne de r√©f√©rence
min_val = min(df_compare['soh'].min(), df_compare['soh_xgb'].min())
max_val = max(df_compare['soh'].max(), df_compare['soh_xgb'].max())
fig.add_trace(go.Scatter(
    x=[min_val, max_val],
    y=[min_val, max_val],
    mode='lines',
    line=dict(color='red', dash='dash', width=2),
    name='Ligne parfaite (y=x)'
))

fig.show()


#### 2.5.9 Conclusion de la m√©thode XGBoost

**Avantages :**
- ‚úÖ Apprend automatiquement les d√©pendances complexes entre les features
- ‚úÖ Pas besoin de corrections manuelles comme dans la M√©thode 1
- ‚úÖ G√®re plusieurs features simultan√©ment
- ‚úÖ Fournit l'importance des features pour l'interpr√©tabilit√©
- ‚úÖ Moins sensible aux outliers que les mod√®les lin√©aires

**Points √† am√©liorer :**
- üîÑ Possibilit√© d'ajuster les hyperparam√®tres (grid search, random search)
- üîÑ Ajouter plus de features si disponibles (temp√©rature, historique du v√©hicule, etc.)
- üîÑ Validation crois√©e pour une meilleure √©valuation
- üîÑ Comparaison avec d'autres algorithmes (Random Forest, LightGBM, etc.)

**Utilisation :**
Le mod√®le peut √™tre utilis√© pour pr√©dire le SoH sur de nouvelles donn√©es de charge en utilisant les m√™mes features.


In [None]:
px.scatter(df_xgb_all, x='ODOMETER_LAST', y='soh_xgb', color='VIN')

In [None]:
# Fr√©quence de mise √† jour : agr√©gation par semaine
UPDATE_FREQUENCY = pd.Timedelta(days=7)

# Cr√©ation de la colonne WEEK pour l'agr√©gation hebdomadaire
df_xgb_all["WEEK"] = (
    pd.to_datetime(df_xgb_all["DATETIME_BEGIN"], format="mixed")
    .dt.floor(UPDATE_FREQUENCY)
    .dt.tz_localize(None)
    .dt.date.astype("datetime64[ns]")
)
# Agr√©gation hebdomadaire : m√©diane du SoH par VIN et par semaine
soh_week_median_xgb = df_xgb_all.groupby(["VIN", "WEEK"], as_index=False).agg({
    "soh_xgb": "median",
    "ODOMETER_LAST": "max",
})


soh_var_median_xgb = soh_week_median_xgb.groupby("VIN").agg(
    soh_median = ("soh_xgb", "median"),
    soh_mean = ("soh_xgb", "mean"),
    soh_std = ("soh_xgb", "std"),
    number_week = ("soh_xgb", "count"),
    min = ("soh_xgb", "min"),
    max = ("soh_xgb", "max"),
    
).eval("soh_diff_xgb=max-min")

px.scatter(soh_var_median_xgb, x="number_week", y="soh_diff_xgb", )


In [None]:
px.scatter(soh_week_median_xgb, x="ODOMETER_LAST", y="soh_xgb", trendline="ols")

## 3. M√©thode 2 : Calcul du SoH avec TOTAL_ENERGY_CHARGED

Cette troisi√®me m√©thode utilise directement la valeur **TOTAL_ENERGY_CHARGED** fournie par Mercedes.

Nous avons la valeur **TOTAL_ENERGY_CHARGED** pendant une charge, nous pouvons l'utiliser avec le **SOC_DIFF** pour estimer la capacit√© de la batterie.

**Formule :**

$$ Capacity_{estimated} = \frac{TOTAL\_ENERGY\_CHARGED}{\frac{SOC\_DIFF}{100}} $$

In [None]:
processed_phase_energy = processed_phase_charging.copy()

In [None]:
def calcul_soh(energie_kwh, delta_soc, capacite_nominale_kwh):
    if delta_soc == 0:
        return np.nan
    estimated_capacity = energie_kwh / (abs(delta_soc) / 100)
    soh = estimated_capacity / capacite_nominale_kwh
    return round(soh, 2) 


processed_phase_energy['soh'] = processed_phase_energy.apply(lambda x: calcul_soh(x['TOTAL_ENERGY_CHARGED'], x['SOC_DIFF'],  x['BATTERY_NET_CAPACITY']) ,axis=1).dropna()


In [None]:
px.scatter(processed_phase_energy, x='ODOMETER_LAST', y='soh', color='VIN')

#### 4.2 Analyse TOTAL_ENERGY_CHARGED

Le total TOTAL_ENERGY_CHARGED n'est pas logique, il est r√©cup√©rer a des moment diff√©rent de la phase a laquelle il est associ√© et difficilement associable a la bonne charge. De plus les valeurs ne sont pas logique pour le moment ce qui ne le rend pas utilisable.

In [None]:
px.scatter(processed_phase_energy[processed_phase_energy['SOC_DIFF'] > 0], x='SOC_DIFF', y='TOTAL_ENERGY_CHARGED', color='VIN')

In [None]:
px.histogram(processed_phase_energy[['TOTAL_ENERGY_CHARGED']].dropna(), x='TOTAL_ENERGY_CHARGED', nbins=100)

### Conclusion

**Probl√®mes identifi√©s :**

- La valeur **TOTAL_ENERGY_CHARGED** n'est pas enregistr√©e de mani√®re coh√©rente imm√©diatement apr√®s une session de charge. La p√©riode peut ne pas √™tre correcte.
- Les donn√©es **TOTAL_ENERGY_CHARGED** sont incoh√©rentes et contiennent des valeurs absurdes.

**Conclusion :** Cette m√©thode ne peut pas √™tre utilis√©e pour le moment.

### 5.2 Aggregation √† la semaine


In [None]:
# Fr√©quence de mise √† jour : agr√©gation par semaine
UPDATE_FREQUENCY = pd.Timedelta(days=7)


In [None]:
# Cr√©ation de la colonne WEEK pour l'agr√©gation hebdomadaire
processed_phase_charging_time_filtered["WEEK"] = (
    pd.to_datetime(processed_phase_charging_time_filtered["DATETIME_BEGIN"], format="mixed")
    .dt.floor(UPDATE_FREQUENCY)
    .dt.tz_localize(None)
    .dt.date.astype("datetime64[ns]")
)

In [None]:
# Agr√©gation hebdomadaire : m√©diane du SoH par VIN et par semaine
soh_week_median = processed_phase_charging_time_filtered.groupby(["VIN", "WEEK"], as_index=False).agg({
    "soh": "median",
    "ODOMETER_LAST": "max",
})



In [None]:
soh_var_median = soh_week_median.groupby("VIN").agg(
    soh_median = ("soh", "median"),
    soh_mean = ("soh", "mean"),
    soh_std = ("soh", "std"),
    number_week = ("soh", "count"),
    min = ("soh", "min"),
    max = ("soh", "max"),
    
).eval("soh_diff=max-min")

px.scatter(soh_var_median, x="number_week", y="soh_diff", )