1 - 
Importer pandas as pd

In [23]:
import pandas as pd
from datetime import datetime

### 📥 Fonction : `load_and_clean_csv(file_path)`

Cette fonction permet de **charger et nettoyer un fichier CSV** contenant des données sur les véhicules, notamment des informations liées à la consommation de carburant, aux émissions de CO2, à la puissance et à d'autres caractéristiques techniques.

#### 🔧 Étapes de traitement :
1. **Chargement des données**
   - Lit le fichier CSV en utilisant `;` comme séparateur et l'encodage `latin1`.

2. **Nettoyage des colonnes**
   - Standardise les noms de colonnes en les mettant en minuscules et en remplaçant les espaces par des underscores `_`.

3. **Conversion des champs numériques**
   - Convertit des colonnes clés comme `co2`, `conso_mixte`, `puiss_admin_98`, etc. en `float`, après remplacement des virgules par des points pour garantir la compatibilité.

4. **Conversion des dates**
   - Si elle existe, la colonne `date_maj` est convertie en format datetime avec gestion des erreurs.

5. **Suppression des doublons**
   - Élimine les lignes dupliquées dans le jeu de données.

#### 📤 Sortie :
- Retourne un **DataFrame Pandas** propre, prêt à être utilisé pour des analyses statistiques, visualisations ou entraînement de modèles de machine learning.

In [24]:
def load_and_clean_csv(file_path: str) -> pd.DataFrame:
    """
    Load and clean the vehicle CO2 dataset CSV file.

    Parameters:
    - file_path (str): Path to the CSV file.

    Returns:
    - pd.DataFrame: Cleaned and ready-to-use DataFrame.
    """
    # Load with appropriate encoding and separator
    df = pd.read_csv(file_path, sep=';', encoding='latin1')

    # Strip and standardize column names
    df.columns = [col.strip().lower().replace(" ", "_") for col in df.columns]

    # Convert numeric fields (e.g. consommation, CO2, puissances) to float
    numeric_cols = [
        'puiss_admin_98', 'puiss_max', 'conso_urb', 'conso_exurb', 'conso_mixte', 'co2',
        'hc', 'nox', 'hcnox', 'ptcl', 'masse_ordma_min', 'masse_ordma_max'
    ]
    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col].astype(str).str.replace(',', '.'), errors='coerce')

    # Optionally parse 'date_maj' if it’s a proper date column
    if 'date_maj' in df.columns:
        df['date_maj'] = pd.to_datetime(df['date_maj'], errors='coerce')

    # Drop duplicates if necessary
    df.drop_duplicates(inplace=True)

    # Return cleaned DataFrame
    return df
    

### 📥 Fonction : `load_and_clean_xls(file_path, sheet_name=0)`

Cette fonction permet de **charger et nettoyer un fichier Excel (XLS/XLSX)** contenant des données techniques et environnementales sur les véhicules.

Elle est utile dans le cadre d’un projet de data science ou machine learning traitant des émissions de CO2, de la consommation ou des caractéristiques techniques automobiles.

#### 🔧 Étapes de traitement :
1. **Chargement des données**
   - Lit le fichier Excel via `pandas.read_excel`, en prenant la première feuille par défaut (`sheet_name=0`), ou une feuille spécifique si un nom ou un index est fourni.

2. **Nettoyage des noms de colonnes**
   - Supprime les espaces inutiles
   - Met les noms en minuscules
   - Remplace les espaces par des underscores `_` pour faciliter la manipulation.

3. **Conversion des colonnes numériques**
   - Identifie et convertit des colonnes importantes (`co2`, `puiss_admin_98`, `conso_mixte`, etc.) en `float`, en remplaçant les virgules par des points.
   - Gère les erreurs de conversion (valeurs invalides deviennent `NaN`).

4. **Conversion de la date**
   - Si la colonne `date_maj` est présente, elle est convertie en format `datetime` avec gestion automatique des erreurs.

5. **Suppression des doublons**
   - Utilise `drop_duplicates()` pour supprimer les enregistrements identiques.

#### 📤 Sortie :
- Retourne un **DataFrame Pandas** propre et cohérent, prêt pour l’analyse, les visualisations ou l'entraînement de modèles prédictifs.


In [25]:
import locale
locale.setlocale(locale.LC_TIME, 'fr_FR.UTF-8')

def load_and_clean_xls(file_path: str, sheet_name: int | str = 0) -> pd.DataFrame:
    """
    Load and clean the vehicle CO2 dataset from an XLS file.

    Parameters:
    - file_path (str): Path to the XLS file.
    - sheet_name (int | str): Sheet index or name (default is 0 - first sheet).

    Returns:
    - pd.DataFrame: Cleaned and ready-to-use DataFrame.
    """
    # Load Excel sheet
    df = pd.read_excel(file_path, sheet_name=sheet_name)

    # Strip and standardize column names
    df.columns = [str(col).strip().lower().replace(" ", "_") for col in df.columns]

    # Convert numeric fields to float (if they exist)
    numeric_cols = [
        'puiss_admin_98', 'puiss_max', 'conso_urb', 'conso_exurb', 'conso_mixte', 'co2',
        'hc', 'nox', 'hcnox', 'ptcl', 'masse_ordma_min', 'masse_ordma_max'
    ]
    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col].astype(str).str.replace(',', '.'), errors='coerce')

    # Parse dates if applicable
    if 'date_maj' in df.columns:
        df['date_maj'] = pd.to_datetime(df['date_maj'], format='%B %Y', errors='coerce')

    # Drop duplicates
    df.drop_duplicates(inplace=True)

    return df

### ⚙️ Configuration du chemin PYTHONPATH

Ce bloc de code est utilisé pour **ajouter dynamiquement le répertoire racine du projet au PYTHONPATH**, afin de permettre l'import de modules personnalisés situés en dehors du répertoire courant.

#### 🧱 Détail du fonctionnement :
1. **Importation des modules système**
   - `sys` : pour manipuler les chemins d’accès utilisés par l'interpréteur Python.
   - `os` et `pathlib.Path` : pour manipuler les chemins de fichiers et répertoires de manière robuste et multiplateforme.

2. **Détection du répertoire racine du projet**
   - `Path(__file__).parent.parent` : part du fichier en cours d’exécution (`__file__`), remonte de deux niveaux pour atteindre le dossier racine du projet (ex : `mon_projet/`).

3. **Ajout au PYTHONPATH**
   - `sys.path.append(...)` : ajoute le chemin obtenu à la liste `sys.path` pour que Python puisse détecter les modules personnalisés même s’ils ne sont pas dans le dossier d'exécution.


## Les données de 2001

In [50]:
# Charger le fichier Excel
df_edition_2001 = load_and_clean_xls('fic_etiq_edition_2001.xls')
df_edition_2001.dropna(axis=1, how='all', inplace=True)
df_edition_2001.to_csv("fic_etiq_edition_2001_cleaned.csv", index=False)
df_edition_2001.head()

Unnamed: 0,marques,modele,typ._mines,cnit,carb,cv,puiss.,bv,urbain,ex.urb,mixte,co2
0,VOLKSWAGEN,LUPO 3L TDI,MVW70C1R4385,6ESCANYX01AGFD5850021N0H,GO,3,45.0,A 5,3.6,2.7,3.0,81
1,VOLKSWAGEN,LUPO 3L TDI,MVW70C1RX572,6ESCAYZX01AGFD5850021N0H,GO,3,45.0,A 5,3.6,2.7,3.0,81
2,VOLKSWAGEN,LUPO 3L TDI,MVW70C1R5386,6ESCANYX01AGFD5850021N0I,GO,3,45.0,A 5,3.8,2.8,3.2,86
3,VOLKSWAGEN,LUPO 3L TDI,MVW70C1R6387,6ESCANYX01AGFD5850021N1H,GO,3,45.0,A 5,4.0,2.7,3.2,86
4,VOLKSWAGEN,LUPO 3L TDI,MVW70C1RY573,6ESCAYZX01AGFD5850021N0I,GO,3,45.0,A 5,3.8,2.8,3.2,86


## Les données de 2002

In [51]:
df_edition_2002 = load_and_clean_xls('fic_etiq_edition_2002.xls')
df_edition_2002.dropna(axis=1, how='all', inplace=True)
df_edition_2002.to_csv("fic_etiq_edition_2002_cleaned.csv", index=False)
df_edition_2002.head()

Unnamed: 0,marque,modele_version,cnit,unnamed:_4,unnamed:_5,mine,energie,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2
0,ALFA-ROMEO,147 3P 1.6TS (105ch),MAL1301JL265,1301JL265,1301J265,937AXA1A00,ES,7,77.0,M 5,11.1,6.3,8.1,192.0
1,ALFA-ROMEO,147 3P 1.6TS (105ch),MAL1301JP330,1301JP330,1301J330,937AXA1A00B,ES,7,77.0,M 5,11.3,6.4,8.2,196.0
2,ALFA-ROMEO,147 5P 1.6TS (105ch),MAL1302JY276,1302JY276,1302J276,937BXA1A05,ES,7,77.0,M 5,11.1,6.3,8.1,192.0
3,ALFA-ROMEO,147 5P 1.6TS (105ch),MAL1302JU333,1302JU333,1302J333,937BXA1A05B,ES,7,77.0,M 5,11.3,6.4,8.2,196.0
4,ALFA-ROMEO,147 3P 1.6TS (120ch),MAL1401JW266,1401JW266,1401J266,937AXB1A01,ES,8,88.0,M 5,11.2,6.4,8.2,194.0


## Les données de 2003

In [52]:
df_edition_2003 = load_and_clean_xls('fic_etiq_edition_2003.xls')
df_edition_2003.dropna(axis=1, how='all', inplace=True)
df_edition_2003.to_csv("fic_etiq_edition_2003_cleaned.csv", index=False)
df_edition_2003.head()

Unnamed: 0,marque,modele_version,cnit,mine,energie,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,immat
0,ALFA-ROMEO,147 3P 1.6TS (105ch),MAL1301JL265,937AXA1A00,ES,7,77.0,M 5,11.1,6.3,8.1,192.0,2003-03-01
1,ALFA-ROMEO,147 3P 1.6TS (105ch),MAL1301JE355,937AXA1A00C,ES,7,77.0,M 5,11.1,6.3,8.1,192.0,2003-03-01
2,ALFA-ROMEO,147 3P 1.6TS (120ch),MAL1401JW266,937AXB1A01,ES,8,88.0,M 5,11.2,6.4,8.2,194.0,2003-03-01
3,ALFA-ROMEO,147 3P 1.6TS (120ch),MAL1401JQ357,937AXB1A01C,ES,8,88.0,M 5,11.2,6.4,8.2,194.0,2003-03-01
4,ALFA-ROMEO,147 3P 1.9JTD,MAL5401JG274,937AXD1A04,GO,7,85.0,M 5,7.8,4.7,5.8,155.0,2003-03-01


## Les données de 2004

In [53]:
df_edition_2004 = load_and_clean_xls('fic_etiq_edition_2004.xls')
df_edition_2004.dropna(axis=1, how='all', inplace=True)
df_edition_2004.to_csv("fic_etiq_edition_2004_cleaned.csv", index=False)
df_edition_2004.head()

Unnamed: 0,marques,"modèles,_versions",cnit,carburant,puiss_administrative,puissance_max,bv,conso_urb,conso_ex-urb,conso_mixte,co2,unnamed:_11
0,VOLKSWAGEN,LUPO 3L TDI (61ch) TIPTRONIC,MVW70K1RU464,GO,3,45.0,A 5,3.6,2.7,3.0,81,Décembre 2003
1,VOLKSWAGEN,LUPO 3L TDI (61ch) TIPTRONIC,MVW70K1RX467,GO,3,45.0,A 5,4.2,2.8,3.3,88,Décembre 2003
2,SMART,SMART CDI,MST5001A5074,GO,3,30.0,M 6,3.9,3.1,3.4,90,Décembre 2003
3,SMART,SMART CDI CABRIOLET,MST5005AL082,GO,3,30.0,M 6,3.9,3.1,3.4,90,Décembre 2003
4,SMART,SMART CDI,MST5001A6075,GO,3,30.0,M 6,4.0,3.3,3.6,95,Décembre 2003


## Les données de 2005

In [54]:
df_edition_2005 = load_and_clean_xls('fic_etiq_edition_2005.xls')
df_edition_2005.dropna(axis=1, how='all', inplace=True)
df_edition_2005.to_csv("fic_etiq_edition_2005_cleaned.csv", index=False)
df_edition_2005.head()

Unnamed: 0,marque,modele_version,cnit,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,energie
0,ALFA-ROMEO,147 3P 1.6 TS (105ch),MAL1301JY594,7,77.0,M 5,11.1,6.3,8.1,192,ES
1,ALFA-ROMEO,147 3P 1.6 TS (120ch),MAL1401JA596,8,88.0,M 5,11.2,6.4,8.2,194,ES
2,ALFA-ROMEO,147 3P 2.0 TS,MAL1601JY600,10,110.0,M 5,12.1,7.0,8.9,211,ES
3,ALFA-ROMEO,147 3P 2.0L SELESPEED,MAL1601JW598,10,110.0,M 5,12.1,7.0,8.9,211,ES
4,ALFA-ROMEO,147 5P 1.6 TS (105ch),MAL1302JC606,7,77.0,M 5,11.1,6.3,8.1,192,ES


## Les données de 2006

In [55]:
df_edition_2006 = load_and_clean_xls('fic_etiq_edition_2006.xls')
df_edition_2006.dropna(axis=1, how='all', inplace=True)
df_edition_2006.to_csv("fic_etiq_edition_2006_cleaned.csv", index=False)
df_edition_2006.head()

Unnamed: 0,alfa-romeo,147_3p_1.6l_ts_(105ch),mal1301jz595,937axa1a00h,es,7,77.0,m_5,11.3,6.4,8.2,196,janvier_2006
0,ALFA-ROMEO,147 3P 1.6L TS (120ch),MAL1401JB597,937AXB1A01H,ES,8,88.0,M 5,11.2,6.4,8.2,194.0,Janvier 2006
1,ALFA-ROMEO,147 3P 2.0L SELESPEED,MAL1601JX599,937AXC1102H,ES,10,110.0,M 5,12.1,7.0,8.9,211.0,Janvier 2006
2,ALFA-ROMEO,147 3P 2.0L TS,MAL1601JZ601,937AXC1A03H,ES,10,110.0,M 5,12.1,7.0,8.9,211.0,Janvier 2006
3,ALFA-ROMEO,147 3P JTD (120ch) M-JET,MAL5401JH627,937AXU1A32,GO,7,88.0,M 5,7.8,4.7,5.8,153.0,Janvier 2006
4,ALFA-ROMEO,147 3P JTD (150ch) M-JET,MAL5601J0626,937AXN1B30B,GO,9,110.0,M 6,8.0,4.7,5.9,157.0,Janvier 2006


## Les données de 2007

In [56]:
df_edition_2007 = load_and_clean_xls('fic_etiq_edition_2007.xls')
df_edition_2007.dropna(axis=1, how='all', inplace=True)
df_edition_2007.to_csv("fic_etiq_edition_2007_cleaned.csv", index=False)
df_edition_2007.head()

Unnamed: 0,marque,modele_version,cnit,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,carburant,etiquette_energie
0,ALFA-ROMEO,147 3P 1.6L TS (105ch),MAL1301JZ595,7,77.0,M 5,11.3,6.4,8.2,196,ES,E
1,ALFA-ROMEO,147 3P 1.6L TS (120ch),MAL1401JB597,8,88.0,M 5,11.2,6.4,8.2,194,ES,E
2,ALFA-ROMEO,147 3P 2.0L SELESPEED,MAL1601JX599,10,110.0,M 5,12.1,7.0,8.9,211,ES,F
3,ALFA-ROMEO,147 3P 2.0L TS,MAL1601JZ601,10,110.0,M 5,12.1,7.0,8.9,211,ES,F
4,ALFA-ROMEO,147 3P JTD (120ch) M-JET,MAL5401JH627,7,88.0,M 5,7.8,4.7,5.8,153,GO,D


## Les données de 2008

In [57]:
df_edition_2008 = load_and_clean_xls('fic_etiq_edition_2008.xls')
df_edition_2008.dropna(axis=1, how='all', inplace=True)
df_edition_2008.to_csv("fic_etiq_edition_2008_cleaned.csv", index=False)
df_edition_2008.head()

Unnamed: 0,marque,modele_version,cnit,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,carburant,etiquette_energie,bonus(-)/malus(_),type_2
0,DAIHATSU,CUORE II BVM5,MJD1102JU185,4.0,51.0,M 5,5.5,3.8,4.4,104.0,ES,B,-700,MJD1102J
1,TOYOTA,PRIUS (75ch) VVT-i,MJT9162TM872,4.0,57.0,V 0,5.0,4.2,4.3,104.0,ES,B,-2000,MJT9162T
2,TOYOTA,PRIUS (75ch) VVT-i,MJT9172TT515,4.0,57.0,V 0,5.0,4.2,4.3,104.0,ES,B,-2000,MJT9172T
3,CITROEN,C1 3P 1.0i,MCT1011TN299,4.0,50.0,M 5,5.5,4.1,4.6,108.0,ES,B,-700,MCT1011T
4,CITROEN,C1 3P 1.0i SensoDrive,MCT3011TU300,4.0,50.0,A 5,5.5,4.1,4.6,108.0,ES,B,-700,MCT3011T


## Les données de 2009

In [58]:
df_edition_2009 = load_and_clean_xls('fic_etiq_edition_2009.xls')
df_edition_2009.dropna(axis=1, how='all', inplace=True)
df_edition_2009.to_csv("fic_etiq_edition_2009_cleaned.csv", index=False)
df_edition_2009.head()

Unnamed: 0,marque,modele_version,cnit,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,carburant,etiquette_energie,bonus(-)/malus(+)
0,ALFA-ROMEO,MiTo 1.4 MPI (78ch),MAL1101P0804,5,58.0,M 6,7.7,4.8,5.9,138,ES,C,-
1,ALFA-ROMEO,MiTo 1.4 MPI (78ch),MAL1101PZ803,5,58.0,M 6,7.7,4.8,5.9,138,ES,C,-
2,ALFA-ROMEO,147 3P 1.6L TS (105ch),MAL1301JZ595,7,77.0,M 5,11.3,6.4,8.2,196,ES,E,+ 750
3,ALFA-ROMEO,147 5P 1.6TS (105ch),MAL1302JD607,7,77.0,M 5,11.3,6.4,8.2,196,ES,E,+ 750
4,ALFA-ROMEO,147 3P 1.6L TS (120ch),MAL1401JB597,8,88.0,M 5,11.2,6.4,8.2,194,ES,E,+ 750


## Les données de 2010

In [62]:
df_edition_2010 = load_and_clean_xls('fic_etiq_edition_2010.xls')
df_edition_2010.dropna(axis=1, how='all', inplace=True)
df_edition_2010.to_csv("fic_etiq_edition_2010_cleaned.csv", index=False)
df_edition_2010.head()

Unnamed: 0,marque,modele_version,cnit,puissance_fiscale,puissance_reelle,bv,urb,ex-urb,mixte,co2,carburant,etiquette_energie,bonus(-)/malus(+)
0,SMART,SMART FORTWO COUPE ELECTRIC,M10SMTVP000E039,5,,M 1,,,,,EL,A,-5000
1,SMART,SMART FORTWO Cabrio ELECTRIC,M10SMTVP000F040,5,,M 1,,,,,EL,A,-5000
2,ALFA-ROMEO,MiTo 1.4 MPI (105ch) MultiAir,M10ALFVP0002035,6,77.0,M 6,7.6,4.8,5.8,136.0,ES,C,-
3,ALFA-ROMEO,GT COUPE 2.0L JTS,M10ALFVP0002132,11,122.0,M 5,12.2,6.7,8.7,207.0,ES,F,+ 1600
4,ALFA-ROMEO,GT COUPE 2.0L JTS,M10ALFVP0003133,11,122.0,M 5,12.2,6.7,8.7,207.0,ES,F,+ 1600


## Les données de 2011

In [63]:
df_edition_2011 = load_and_clean_xls('fic_etiq_edition_2011.xls')
df_edition_2011.dropna(axis=1, how='all', inplace=True)
df_edition_2011.to_csv("fic_etiq_edition_2011_cleaned.csv", index=False)
df_edition_2011.head()

Unnamed: 0,lib_mrq,lib_mod_doss,lib_mod,dscom,cnit,tvv,typ_cbr,puiss_admin_98,puiss_max,typ_boite_nb_rapp,conso_urb,conso_exurb,conso_mixte,co2,champ_v9,date_maj
0,ALFA-ROMEO,147,ALFA 147,147 1.6 TS (105ch),M10ALFVP000M091,937BXA1A05L,ES,7,77.0,M 5,11.3,6.4,8.2,196.0,70/220*2003/76EURO4,2011-03-01
1,ALFA-ROMEO,147,ALFA 147,147 1.6 TS (120ch),M10ALFVP000P093,937BXB1A06L,ES,8,88.0,M 5,11.2,6.4,8.2,194.0,70/220*2003/76EURO4,2011-03-01
2,ALFA-ROMEO,147,ALFA 147,147 3P 1.6 TS (105ch),MAL1301JZ595,937AXA1A00H,ES,7,77.0,M 5,11.3,6.4,8.2,196.0,70/220*2003/76EURO4,2011-03-01
3,ALFA-ROMEO,147,ALFA 147,147 3P 1.6 TS (120ch),MAL1401JB597,937AXB1A01H,ES,8,88.0,M 5,11.2,6.4,8.2,194.0,70/220*2003/76EURO4,2011-03-01
4,ALFA-ROMEO,147,ALFA 147,147 3P 2.0 SELESPEED,MAL1601JX599,937AXC1102H,ES,10,110.0,M 5,12.1,7.0,8.9,211.0,70/220*2002/80EURO4,2011-03-01


## Les données de 2012

In [64]:
df_clean_2012 = load_and_clean_csv('fic_etiq_edition_2012.csv')
df_clean_2012.dropna(axis=1, how='all', inplace=True)
df_clean_2012.to_csv("fic_etiq_edition_2012_cleaned.csv", index=False)
df_clean_2012.head()

Unnamed: 0,lib_mrq,lib_mod_doss,lib_mod,dscom,cnit,tvv,typ_cbr,hybride,puiss_admin_98,puiss_max,...,co_typ_1,hc,nox,hcnox,ptcl,masse_ordma_min,masse_ordma_max,champ_v9,carrosserie,gamme
0,ALFA-ROMEO,GIULIETTA,GIULIETTA,GIULIETTA 1.4 T-jet (120ch) S/S,M10ALFVP0000324,940FXF1A05,ES,non,7,85,...,356,0.03,0.026,,,1355,1355,715/2007*692/2008EURO5,BERLINE,MOY-SUPER
1,ALFA-ROMEO,MITO,MITO,MITO 0.9 Twin Air (85ch) S/S,M10ALFVP0000360,955AXW1B17B,ES,non,4,62,...,528,0.049,0.037,,,1205,1205,715/2007*692/2008EURO5,BERLINE,INFERIEURE
2,ALFA-ROMEO,GIULIETTA,GIULIETTA,GIULIETTA 1.4 T-jet (120ch) S/S,M10ALFVP0001325,940FXF1A05B,ES,non,7,85,...,356,0.03,0.026,,,1355,1355,715/2007*692/2008EURO5,BERLINE,MOY-SUPER
3,ALFA-ROMEO,MITO,MITO,MITO 1.4 MPI (105ch) MultiAir,M10ALFVP0002035,955AXL1B08,ES,non,6,77,...,192,0.049,0.04,,,1185,1185,715/2007*692/2008EURO5,BERLINE,INFERIEURE
4,ALFA-ROMEO,GIULIETTA,GIULIETTA,GIULIETTA 1.4 TB MultiAir (170ch) S/S,M10ALFVP0002326,940FXG1A06,ES,non,9,120,...,276,0.048,0.029,,,1365,1365,715/2007*692/2008EURO5,BERLINE,MOY-SUPER


## Les données de 2013

In [66]:
df_clean_2013 = load_and_clean_csv('fic_etiq_edition_2013.csv')
df_clean_2013.dropna(axis=1, how='all', inplace=True)
df_clean_2013.to_csv("fic_etiq_edition_2013_cleaned.csv", index=False)
df_clean_2013.head()

Unnamed: 0,marque,modèle_dossier,modèle_utac,désignation_commerciale,cnit,type_variante_version_(tvv),carburant,hybride,puissance_administrative,puissance_maximale_(kw),...,hc_(g/km),nox_(g/km),hc+nox_(g/km),particules_(g/km),masse_vide_euro_min_(kg),masse_vide_euro_max_(kg),champ_v9,date_de_mise_à_jour,carrosserie,gamme
0,ALFA-ROMEO,159,159,159 1750 Tbi (200ch),M10ALFVP000G340,939AXN1B52C,ES,non,12,147.0,...,0.052,0.032,,0.002,1505,1505,715/2007*692/2008EURO5,juin-13,BREAK,MOY-SUPER
1,ALFA-ROMEO,159,159,159 2.0 JTDm (170ch) ECO,M10ALFVP000U221,939AXP1B54C,GO,non,9,125.0,...,,0.169,0.19,0.003,1565,1565,715/2007*692/2008EURO5,juin-13,BERLINE,MOY-SUPER
2,ALFA-ROMEO,159,159,159 2.0 JTDm (136ch),M10ALFVP000E302,939AXR1B64,GO,non,7,100.0,...,,0.149,0.175,0.001,1565,1565,715/2007*692/2008EURO5,juin-13,BERLINE,MOY-SUPER
3,ALFA-ROMEO,159,159,159 2.0 JTDm (136ch),M10ALFVP000F303,939AXR1B64B,GO,non,7,100.0,...,,0.149,0.175,0.001,1565,1565,715/2007*692/2008EURO5,juin-13,BERLINE,MOY-SUPER
4,ALFA-ROMEO,159,159,159 2.0 JTDm (170ch),M10ALFVP000G304,939AXS1B66,GO,non,9,125.0,...,,0.164,0.193,0.001,1565,1565,715/2007*692/2008EURO5,juin-13,BERLINE,MOY-SUPER


## Les données de 2014

In [68]:
# Étape 1 : Chargement du fichier
file_path = "fic_etiq_edition_2014.csv"
try:
    df_raw = pd.read_csv(file_path, encoding='utf-8', sep=None, engine='python')
except UnicodeDecodeError:
    df_raw = pd.read_csv(file_path, encoding='latin1', sep=None, engine='python')

# Suppression des colonnes entièrement vides et création d'une copie explicite
df_clean_2014 = df_raw.dropna(axis=1, how='all').copy()

# Conversion des formats de date (ex : mars-14)
mois_fr_to_num = {
    'janv': '01', 'févr': '02', 'mars': '03', 'avr': '04', 'mai': '05', 'juin': '06',
    'juil': '07', 'août': '08', 'sept': '09', 'oct': '10', 'nov': '11', 'déc': '12'
}

def convertir_date_maj(val):
    if isinstance(val, str):
        for mois, num in mois_fr_to_num.items():
            if val.startswith(mois):
                annee = val[-2:]
                return pd.to_datetime(f"01/{num}/20{annee}", dayfirst=True, errors='coerce')
    return pd.NaT

if 'date_maj' in df_clean_2014.columns:
    df_clean_2014.loc[:, 'date_maj'] = df_clean_2014['date_maj'].apply(convertir_date_maj)

# Suppression des lignes vides (si présentes)
df_clean_2014 = df_clean_2014.dropna(how='all')
df_clean_2014.to_csv("fic_etiq_edition_2014_cleaned.csv", index=False)
df_clean_2014.head()


Unnamed: 0,lib_mrq,lib_mod_doss,lib_mod,dscom,cnit,tvv,cod_cbr,hybride,puiss_admin_98,puiss_max,...,hc,nox,hcnox,ptcl,masse_ordma_min,masse_ordma_max,champ_v9,date_maj,Carrosserie,gamme
0,ALFA-ROMEO,159,159,159 1750 Tbi (200ch),M10ALFVP000G340,939AXN1B52C,ES,non,12,147,...,52000001.0,32000002,,2,1505,1505,715/2007*692/2008EURO5,2014-03-01 00:00:00,BERLINE,MOY-SUPER
1,ALFA-ROMEO,159,159,159 1750 Tbi (200ch),M10ALFVP000H341,939BXN1B53C,ES,non,12,147,...,52000001.0,32000002,,2,1555,1555,715/2007*692/2008EURO5,2014-03-01 00:00:00,BERLINE,MOY-SUPER
2,ALFA-ROMEO,159,159,159 2.0 JTDm (136ch),M10ALFVP000E302,939AXR1B64,GO,non,7,100,...,,149000004,174999997.0,1,1565,1565,715/2007*692/2008EURO5,2014-03-01 00:00:00,BERLINE,MOY-SUPER
3,ALFA-ROMEO,159,159,159 2.0 JTDm (136ch),M10ALFVP000F303,939AXR1B64B,GO,non,7,100,...,,149000004,174999997.0,1,1565,1565,715/2007*692/2008EURO5,2014-03-01 00:00:00,BERLINE,MOY-SUPER
4,ALFA-ROMEO,159,159,159 2.0 JTDm (170ch),M10ALFVP000G304,939AXS1B66,GO,non,9,125,...,,164000005,193000004.0,1,1565,1565,715/2007*692/2008EURO5,2014-03-01 00:00:00,BERLINE,MOY-SUPER


## Les données de 2015

In [70]:
from dateutil import parser

# Chargement avec encodage latin1
file_path = 'fic_etiq_edition_2015.csv'
df_raw = pd.read_csv(file_path, encoding='latin1', sep=None, engine='python')

# Suppression des colonnes entièrement vides
df_clean_2015 = df_raw.dropna(axis=1, how='all').copy()


# Nettoyage et conversion de la colonne de date `date_maj`
def parse_french_date(date_str):
    if pd.isna(date_str):
        return pd.NaT
    try:
        return pd.to_datetime(date_str, format='%B-%y', errors='coerce')  # essai "juin-14"
    except Exception:
        try:
            return parser.parse(date_str, dayfirst=True, fuzzy=True)
        except:
            return pd.NaT

if 'date_maj' in df_clean_2015.columns:
    df_clean_2015['date_maj'] = df_clean_2015['date_maj'].apply(parse_french_date)


df_clean_2015.to_csv("fic_etiq_edition_2015_cleaned.csv", index=False)
df_clean_2015.head()

Unnamed: 0,lib_mrq_doss,lib_mod_doss,mrq_utac,mod_utac,dscom,cnit,tvv,energ,hybride,puiss_admin,...,co2_mixte,co_typ_1,hc,nox,hcnox,ptcl,masse_ordma_min,masse_ordma_max,champ_v9,date_maj
0,ALFA ROMEO,159,ALFA ROMEO,159,159 1750 Tbi (200ch),M10ALFVP000G340,939AXN1B52C,ES,non,12,...,182.0,0.647,0.052,0.032,,0.002,1505,1505,715/2007*692/2008EURO5,2014-06-01
1,ALFA ROMEO,159,ALFA ROMEO,159,159 2.0 JTDm (170ch) ECO,M10ALFVP000U221,939AXP1B54C,GO,non,9,...,136.0,0.192,,0.169,0.19,0.003,1565,1565,715/2007*692/2008EURO5,2014-06-01
2,ALFA ROMEO,159,ALFA ROMEO,159,159 2.0 JTDm (136ch),M10ALFVP000E302,939AXR1B64,GO,non,7,...,134.0,0.066,,0.149,0.175,0.001,1565,1565,715/2007*692/2008EURO5,2014-06-01
3,ALFA ROMEO,159,ALFA ROMEO,159,159 2.0 JTDm (136ch),M10ALFVP000F303,939AXR1B64B,GO,non,7,...,134.0,0.066,,0.149,0.175,0.001,1565,1565,715/2007*692/2008EURO5,2014-06-01
4,ALFA ROMEO,159,ALFA ROMEO,159,159 2.0 JTDm (170ch),M10ALFVP000G304,939AXS1B66,GO,non,9,...,139.0,0.06,,0.164,0.193,0.001,1565,1565,715/2007*692/2008EURO5,2014-06-01


## Renommage des columns

### le fichier 2001

In [71]:
edition_2001_cleaned = pd.read_csv("fic_etiq_edition_2001_cleaned.csv")

# Renommage
edition_2001_cleaned.rename(columns={
    'marques': 'marque',
    'modele': 'modele_version',
    'carb': 'carburant',
    'cv': 'puissance_fiscale',
    'puiss.': 'puissance_reelle',
    'urbain': 'urb',
    'ex.urb': 'ex_urb',
    'mixte': 'mixte'
}, inplace=True)

# Sauvegarde
edition_2001_cleaned.to_csv("fic_etiq_edition_2001_renamed.csv", index=False)

### le fichier 2002

In [74]:
edition_2002_cleaned = pd.read_csv("fic_etiq_edition_2002_cleaned.csv")

# Renommage
edition_2002_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'energie': 'carburant',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte'
}, inplace=True)

# Sauvegarde
edition_2002_cleaned.to_csv("fic_etiq_edition_2002_renamed.csv", index=False)

### le fichier 2003

In [72]:
edition_2003_cleaned = pd.read_csv("fic_etiq_edition_2003_cleaned.csv")

# Renommage
edition_2003_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'energie': 'carburant',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte'
}, inplace=True)

# Sauvegarde
edition_2003_cleaned.to_csv("fic_etiq_edition_2003_renamed.csv", index=False)

### le fichier 2004

In [75]:
edition_2004_cleaned = pd.read_csv("fic_etiq_edition_2004_cleaned.csv")

# Renommage
edition_2004_cleaned.rename(columns={
    'marques': 'marque',
    'modèles,_versions': 'modele_version',
    'carburant': 'carburant',
    'puiss_administrative': 'puissance_fiscale',
    'puissance_max': 'puissance_reelle',
    'conso_urb': 'urb',
    'conso_ex-urb': 'ex_urb',
    'conso_mixte': 'mixte'
}, inplace=True)

# Sauvegarder
edition_2004_cleaned.to_csv("fic_etiq_edition_2004_renamed.csv", index=False)

### le fichier 2005

In [76]:
edition_2005_cleaned = pd.read_csv("fic_etiq_edition_2005_cleaned.csv")

# Renommage
edition_2005_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'bv': 'bv',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte',
    'energie': 'carburant'
}, inplace=True)

# Sauvegarde
edition_2005_cleaned.to_csv("fic_etiq_edition_2005_renamed.csv", index=False)


### le fichier 2006

In [78]:
edition_2006_cleaned = pd.read_csv("fic_etiq_edition_2006_cleaned.csv", header=None)

# Attribue
edition_2006_cleaned.columns = [
    "marque",              # ex: alfa-romeo
    "modele_version",      # ex: 147_3p_1.6l_ts_(105ch)
    "mine",                # ex: mal1301jz595
    "cnit",                # ex: 937axa1a00h
    "carburant",           # ex: es
    "puissance_fiscale",   # ex: 7
    "puissance_reelle",    # ex: 77.0
    "bv",                  # ex: m_5
    "urb",                 # ex: 11.3
    "ex_urb",              # ex: 6.4
    "mixte",               # ex: 8.2
    "co2",                 # ex: 196
    "mois_annee"           # ex: janvier_2006
]

# Sauvegarde
edition_2006_cleaned.to_csv("fic_etiq_edition_2006_renamed.csv", index=False)

### le ficher 2007

In [79]:
edition_2007_cleaned = pd.read_csv("fic_etiq_edition_2007_cleaned.csv")

# Renommage
edition_2007_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'bv': 'bv',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte',
    'carburant': 'carburant'
    # 'etiquette_energie' est déjà harmonisée
}, inplace=True)

# Sauvegarde
edition_2007_cleaned.to_csv("fic_etiq_edition_2007_renamed.csv", index=False)

### le ficher 2008

In [91]:
edition_2008_cleaned = pd.read_csv("fic_etiq_edition_2008_cleaned.csv")

# Renommage
edition_2008_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'bv': 'bv',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte',
    'carburant': 'carburant',
    'bonus(-)/malus(_)':'bonus_malus'
    # 'etiquette_energie','type_2' sont spécifiques et inchangés
}, inplace=True)

# Sauvegarder le fichier renommé
edition_2008_cleaned.to_csv("fic_etiq_edition_2008_renamed.csv", index=False)

### le ficher 2009

In [92]:
edition_2009_cleaned = pd.read_csv("fic_etiq_edition_2009_cleaned.csv")

# Renommage
edition_2009_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'bv': 'bv',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte',
    'carburant': 'carburant',
    'bonus(-)/malus(+)':'bonus_malus'
    # 'etiquette_energie' spécifique et conservée telle quelle
}, inplace=True)

# Sauvegarde
edition_2009_cleaned.to_csv("fic_etiq_edition_2009_renamed.csv", index=False)

### le ficher 2010

In [93]:
edition_2010_cleaned = pd.read_csv("fic_etiq_edition_2010_cleaned.csv")

# Renommage
edition_2010_cleaned.rename(columns={
    'marque': 'marque',
    'modele_version': 'modele_version',
    'puissance_fiscale': 'puissance_fiscale',
    'puissance_reelle': 'puissance_reelle',
    'bv': 'bv',
    'urb': 'urb',
    'ex-urb': 'ex_urb',
    'mixte': 'mixte',
    'carburant': 'carburant',
    'bonus(-)/malus(+)':'bonus_malus'
    # 'etiquette_energie' reste inchangé
}, inplace=True)

# Sauvegarder le fichier renommé
edition_2010_cleaned.to_csv("fic_etiq_edition_2010_renamed.csv", index=False)

### le ficher 2011

In [94]:
edition_2011_cleaned = pd.read_csv("fic_etiq_edition_2011_cleaned.csv")

# Renommage
edition_2011_cleaned.rename(columns={
    'lib_mrq': 'marque',
    'lib_mod_doss': 'modele_version',
    'typ_cbr': 'carburant',
    'puiss_admin_98': 'puissance_fiscale',
    'puiss_max': 'puissance_reelle',
    'typ_boite_nb_rapp': 'bv',
    'conso_urb': 'urb',
    'conso_exurb': 'ex_urb',
    'conso_mixte': 'mixte',
    'co2': 'co2'
}, inplace=True)

# Sauvegarde
edition_2011_cleaned.to_csv("fic_etiq_edition_2011_renamed.csv", index=False)

### le ficher 2012

In [95]:
edition_2012_cleaned = pd.read_csv("fic_etiq_edition_2012_cleaned.csv")

# Renommage
edition_2012_cleaned.rename(columns={
    'lib_mrq': 'marque',
    'lib_mod_doss': 'modele_version',
    'typ_cbr': 'carburant',
    'puiss_admin_98': 'puissance_fiscale',
    'puiss_max': 'puissance_reelle',
    'typ_boite_nb_rapp': 'bv',
    'conso_urb': 'urb',
    'conso_exurb': 'ex_urb',
    'conso_mixte': 'mixte',
    'co2': 'co2'
}, inplace=True)

# Sauvegarde
edition_2012_cleaned.to_csv("fic_etiq_edition_2012_renamed.csv", index=False)

### le ficher 2013

In [96]:
edition_2013_cleaned = pd.read_csv("fic_etiq_edition_2013_cleaned.csv")

# Renommage
edition_2013_cleaned.rename(columns={
    'marque': 'marque',
    'modèle_dossier': 'modele_version',
    'carburant': 'carburant',
    'puissance_administrative': 'puissance_fiscale',
    'puissance_maximale_(kw)': 'puissance_reelle',
    'boîte_de_vitesse': 'bv',
    'consommation_urbaine_(l/100km)': 'urb',
    'consommation_extra-urbaine_(l/100km)': 'ex_urb',
    'consommation_mixte_(l/100km)': 'mixte',
    'co2_(g/km)': 'co2'
}, inplace=True)

# Sauvegarde
edition_2013_cleaned.to_csv("fic_etiq_edition_2013_renamed.csv", index=False)

### le ficher 2014

In [97]:
edition_2014_cleaned = pd.read_csv("fic_etiq_edition_2014_cleaned.csv")

# Renommage
edition_2014_cleaned.rename(columns={
    'lib_mrq': 'marque',
    'lib_mod_doss': 'modele_version',
    'cod_cbr': 'carburant',
    'puiss_admin_98': 'puissance_fiscale',
    'puiss_max': 'puissance_reelle',
    'typ_boite_nb_rapp': 'bv',
    'conso_urb': 'urb',
    'conso_exurb': 'ex_urb',
    'conso_mixte': 'mixte',
    'co2': 'co2'
}, inplace=True)

# Sauvegarde
edition_2014_cleaned.to_csv("fic_etiq_edition_2014_renamed.csv", index=False)

### le ficher 2015

In [98]:
edition_2015_cleaned = pd.read_csv("fic_etiq_edition_2015_cleaned.csv")

# Renommage
edition_2015_cleaned.rename(columns={
    'lib_mrq_doss': 'marque',
    'lib_mod_doss': 'modele_version',
    'energ': 'carburant',
    'puiss_admin': 'puissance_fiscale',
    'puiss_max': 'puissance_reelle',
    'typ_boite_nb_rapp': 'bv',
    'conso_urb_93': 'urb',
    'conso_exurb': 'ex_urb',
    'conso_mixte': 'mixte',
    'co2_mixte': 'co2'
}, inplace=True)

# Sauvegarde
edition_2015_cleaned.to_csv("fic_etiq_edition_2015_renamed.csv", index=False)

## Harmonisation des noms de colonnes 
* Tous les fichiers CSV des éditions 2001 à 2015 ont été nettoyés et harmonisés.
Les noms de colonnes ont été standardisés pour garantir la cohérence des données sur l’ensemble des années.

### Liste des colonnes harmonisées :

```
marque
modele_version
cnit
carburant
puissance_fiscale
puissance_reelle
bv
urb
ex_urb
mixte
co2
```

#### Chaque fichier renommé est sauvegardé sous le nom :
`fic_etiq_edition_20XX_renamed.csv`

## Étape suivante — Fusion des fichiers
L’étape de renommage étant terminée, nous allons maintenant procéder à la fusion des fichiers harmonisés en un seul fichier consolidé.
Cela permettra d’effectuer des analyses globales sur la période 2001–2015 (ex. évolutions des émissions de CO2, des consommations, etc.).


In [99]:
fichiers = [
    "fic_etiq_edition_2001_renamed.csv",
    "fic_etiq_edition_2002_renamed.csv",
    "fic_etiq_edition_2003_renamed.csv",
    "fic_etiq_edition_2004_renamed.csv",
    "fic_etiq_edition_2005_renamed.csv",
    "fic_etiq_edition_2006_renamed.csv",
    "fic_etiq_edition_2007_renamed.csv",
    "fic_etiq_edition_2008_renamed.csv",
    "fic_etiq_edition_2009_renamed.csv",
    "fic_etiq_edition_2010_renamed.csv",
    "fic_etiq_edition_2011_renamed.csv",
    "fic_etiq_edition_2012_renamed.csv",
    "fic_etiq_edition_2013_renamed.csv",
    "fic_etiq_edition_2014_renamed.csv",
    "fic_etiq_edition_2015_renamed.csv"
]

# Colonnes harmonisées
colonnes_cibles = [
    "marque", "modele_version", "cnit", "carburant",
    "puissance_fiscale", "puissance_reelle", "bv",
    "urb", "ex_urb", "mixte", "co2"
]

# Liste pour accumuler les DataFrames
df_liste = []

for fichier in fichiers:
    df = pd.read_csv(fichier)
    annee = int(fichier.split("_")[3])
    df["annee"] = annee
    colonnes_disponibles = [col for col in colonnes_cibles if col in df.columns] + ["annee"]
    df_liste.append(df[colonnes_disponibles])

# Fusion de tous les fichiers (concaténation verticale)
df_merged = pd.concat(df_liste, ignore_index=True)

# Sauvegarde du fichier fusionné
df_merged.to_csv("fic_etiq_merged_2001_2015.csv", index=False)