<h1><b>Projet d'analyse et de prédiction des prix des carburants en france</b></h1>
<h3><u>Objectifs :</u></h3>
1- Extraction et néttoyage des données brutes pour les rendre exploitables <br>
2- Analyse des tendances et visualisation via des graphiques.<br>
3- Prédiction des prix moyens des carburants sur 5 ans.<br>

**Dans cette partie du projet, nous allons importer les données brutes au format xml et les néttoyer pour ensuite les transformer en document csv.**<br>
**NB:** Les données ont été récupérées depuis le site datagouv.fr

Importation des bibliothèques utiles

In [17]:
# Importation des bibliothèques utiles
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from lxml import etree
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt

Voir la structure du fichier xml

In [18]:
## Test de lecture des données avec ElementTree pour avoir un aperçu de la structure
# tree = ET.parse("../Donnees/brutes/PrixCarburants_annuel_2007.xml") # Charger le fichier
# root = tree.getroot()  # Récupérer la racine
# for child in root.iter():
#     print(child.tag, "---------", child.attrib) # Afficher les enfants

Méthode pour transformer les données xml en dataframes

In [19]:
# Méthode qui permet de construire les différents dataframes à partir des fichiers XML:
def create_dataframe_from_xml_files(lien_fichier):
    tree = ET.parse(lien_fichier) # Charger le fichier
    root = tree.getroot()  # Récupérer la racine
    df_rows = [] # Pour stocker les lignes de données qu'on va utiliser pour construire le df
    for pdv in root: # pdv = point de vente
        id_pdv = pdv.attrib.get('id')
        latitude = pdv.attrib.get('latitude')
        longitude = pdv.attrib.get('longitude')
        cp = pdv.attrib.get('cp')
        pop = pdv.attrib.get('pop')
        # On initialise les variables utiles pour chaque pdv
        adresse = None
        ville = None
        services = []
        # On parcourt les enfants de pdv pour récupérer les informations
        for sous_child in pdv:
            if sous_child.tag == "adresse":
                adresse = sous_child.text
            elif sous_child.tag == "ville":
                ville = sous_child.text
            elif sous_child.tag == "services":
                services = [s.text for s in sous_child.findall("service")]
            elif sous_child.tag == "prix":
                row = {
                    'id_pdv': id_pdv,
                    'latitude': latitude,
                    'longitude': longitude,
                    'code_postal': cp,
                    'pop': pop,
                    'adresse': adresse,
                    'ville': ville,
                    'services': services, # Liste de services
                    'type_carburant': sous_child.attrib.get('nom'),
                    'id_prix': sous_child.attrib.get('id'),
                    'date_vente': sous_child.attrib.get('maj'),
                    'prix': float(sous_child.attrib.get('valeur')) if sous_child.attrib.get('valeur') else None
                }
                df_rows.append(row)
    # Création du DataFrame final
    df_final = pd.DataFrame(df_rows)
    return(df_final)





Ici on va appliquer la méthode à tous les fichiers xml (par section car les fichiers sont très volumineux)

In [20]:
# Création de tous nos dataframmes de 2007 à 2011
df_2007 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2007.xml")
df_2008 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2008.xml")
df_2009 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2009.xml")
df_2010 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2010.xml")
df_2011 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2011.xml")


In [21]:
# Création de tous nos dataframmes de 2012 à 2016
df_2012 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2012.xml")
df_2013 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2013.xml")
df_2014 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2014.xml")
df_2015 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2015.xml")
df_2016 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2016.xml")

In [22]:
# Création de tous nos dataframmes de 2017 à 2022
df_2017 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2017.xml")
df_2018 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2018.xml")
df_2019 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2019.xml")
df_2020 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2020.xml")
df_2021 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2021.xml")

In [23]:
# Création de tous nos dataframmes de 2022 à 2025 + le flux instantané et quotidien pour 2025
df_2022 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2022.xml")
df_2023 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2023.xml")
df_2024 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2024.xml")
df_2025 = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_annuel_2025.xml")
df_instantane = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_instantane.xml")
# df_quotidient = create_dataframe_from_xml_files("../Donnees/brutes/PrixCarburants_quotidien.xml") # Structure différente des autres

In [24]:
df_instantane.head

<bound method NDFrame.head of          id_pdv latitude longitude code_postal pop                    adresse  \
0      44000009  4720393   -154657       44200   R  16 BD DES MARTYRS NANTAIS   
1      44000009  4720393   -154657       44200   R  16 BD DES MARTYRS NANTAIS   
2      44000009  4720393   -154657       44200   R  16 BD DES MARTYRS NANTAIS   
3      95350002  4900763    235163       95350   R  20 avenue robert schumann   
4      95350002  4900763    235163       95350   R  20 avenue robert schumann   
...         ...      ...       ...         ...  ..                        ...   
33537  79360001  4618400    -47200       79360   R      1 impasse des Acacias   
33538   2100020  4983400    330000       02100   R         BLD CAMILLE GUERIN   
33539   2100020  4983400    330000       02100   R         BLD CAMILLE GUERIN   
33540   2100020  4983400    330000       02100   R         BLD CAMILLE GUERIN   
33541   2100020  4983400    330000       02100   R         BLD CAMILLE GUERIN  

In [25]:
# On ramène les prix de 2022 à 2025 en dixièmes d'euros (car ils sont en euro)
df_2022['prix'] = df_2022['prix'] * 1000
df_2023['prix'] = df_2023['prix'] * 1000
df_2024['prix'] = df_2024['prix'] * 1000
df_2025['prix'] = df_2025['prix'] * 1000

On vérifie que tout s'est bien passsé

In [26]:
df_2025.tail(5) # Afficher quelques lignes du df de 2007 pour vérifier

Unnamed: 0,id_pdv,latitude,longitude,code_postal,pop,adresse,ville,services,type_carburant,id_prix,date_vente,prix
1243908,95870010,4893688.8607759,220698.30018219,95870,R,179 avenue Gabriel Péri,Bezons,"[Toilettes publiques, Boutique alimentaire, Bo...",SP98,6.0,2025-03-14T20:26:12,1904.0
1243909,95870010,4893688.8607759,220698.30018219,95870,R,179 avenue Gabriel Péri,Bezons,"[Toilettes publiques, Boutique alimentaire, Bo...",SP98,6.0,2025-03-21T20:15:53,1909.0
1243910,95870010,4893688.8607759,220698.30018219,95870,R,179 avenue Gabriel Péri,Bezons,"[Toilettes publiques, Boutique alimentaire, Bo...",SP98,6.0,2025-03-24T21:01:56,1919.0
1243911,95870010,4893688.8607759,220698.30018219,95870,R,179 avenue Gabriel Péri,Bezons,"[Toilettes publiques, Boutique alimentaire, Bo...",SP98,6.0,2025-03-26T21:06:48,1929.0
1243912,96600001,4875637.0,241048.0,94600,R,16 Avenue de Newburn,Choisy-le-Roi,"[Boutique non alimentaire, Carburant additivé,...",,,,


Exportation des dataframes au format csv pour les conserver en vu d'une analyse futur

In [27]:
# On exporte une partie de nos données au format csv (2007 - 2011)
df_2007.to_csv("../Donnees/nettoyees/prix_carburants_2007.csv", sep = ',', index=False)
df_2008.to_csv("../Donnees/nettoyees/prix_carburants_2008.csv", sep = ',', index=False)
df_2009.to_csv("../Donnees/nettoyees/prix_carburants_2009.csv", sep = ',', index=False)
df_2010.to_csv("../Donnees/nettoyees/prix_carburants_2010.csv", sep = ',', index=False)
df_2011.to_csv("../Donnees/nettoyees/prix_carburants_2011.csv", sep = ',', index=False)

In [28]:
# On exporte une partie de nos données au format csv (2012 - 2016)
df_2012.to_csv("../Donnees/nettoyees/prix_carburants_2012.csv", sep = ',', index=False)
df_2013.to_csv("../Donnees/nettoyees/prix_carburants_2013.csv", sep = ',', index=False)
df_2014.to_csv("../Donnees/nettoyees/prix_carburants_2014.csv", sep = ',', index=False)
df_2015.to_csv("../Donnees/nettoyees/prix_carburants_2015.csv", sep = ',', index=False)
df_2016.to_csv("../Donnees/nettoyees/prix_carburants_2016.csv", sep = ',', index=False)

In [29]:
# On exporte une partie de nos données au format csv (2017 - 2021)
df_2017.to_csv("../Donnees/nettoyees/prix_carburants_2017.csv", sep = ',', index=False)
df_2018.to_csv("../Donnees/nettoyees/prix_carburants_2018.csv", sep = ',', index=False)
df_2019.to_csv("../Donnees/nettoyees/prix_carburants_2019.csv", sep = ',', index=False)
df_2020.to_csv("../Donnees/nettoyees/prix_carburants_2020.csv", sep = ',', index=False)
df_2021.to_csv("../Donnees/nettoyees/prix_carburants_2021.csv", sep = ',', index=False)

In [30]:
# On exporte une partie de nos données au format csv (2022 - 2025 + flux instantane) 
df_2022.to_csv("../Donnees/nettoyees/prix_carburants_2022.csv", sep = ',', index=False)
df_2023.to_csv("../Donnees/nettoyees/prix_carburants_2023.csv", sep = ',', index=False)
df_2024.to_csv("../Donnees/nettoyees/prix_carburants_2024.csv", sep = ',', index=False)
df_2025.to_csv("../Donnees/nettoyees/prix_carburants_2025.csv", sep = ',', index=False)
df_instantane.to_csv("../Donnees/nettoyees/prix_carburants_instantane.csv", sep = ',', index=False)
# df_quotidient.to_csv("prix_carburants_quotidien.csv", sep = ',', index=False) # Structure différente des autres

La suite du projet a lieu dans le fichier analyse_tendances.ipynb.