In [None]:
# Importation des librairies :
import requests
import urllib.parse
import pandas as pd
import os
import sys
import json

In [None]:
# Importation de la fonction permettant la sauvegarde des fichiers de log :
sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..")))
from logging_script import setup_logging

In [None]:
# Importation de la configuration des chemins : 
sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "..")))
import config

In [None]:
# Initialisation du logger :
logger = setup_logging()

In [None]:
# D√©marrage des logs :
logger.info("‚úÖ Script de t√©l√©chargement des donn√©es d√©marr√© avec succ√®s (recup_raw_data.py).")

In [None]:
# Liste des tables disponibles sur le site de l'Agence Europ√©enne √† date : 
# NB : Il est possible de compl√©ter cette liste avec les ann√©es post√©rieures 
# (ann√©es ant√©rieures non compatibles avec le pre-processing actuel)
table_list = ['co2cars_2021Pv23', 'co2cars_2022Pv25', 'co2cars_2023Pv27']

In [None]:
# D√©finition de la requ√™te et boucle for pour l'appliquer √† tous les noms de table :
records = []

In [None]:
for table in table_list:

  logger.info(f"üì• D√©but de t√©l√©chargement pour la table : {table}")

  query = f"""
  SELECT DISTINCT [Year] AS Year, Mk, Cn, [M (kg)], [Ewltp (g/km)], Ft, [Ec (cm3)], [Ep (KW)], [Erwltp (g/km)], Fc
  FROM [CO2Emission].[latest].[{table}]
  WHERE Mk IS NOT NULL 
    AND Cn IS NOT NULL 
    AND [M (kg)] IS NOT NULL
    AND [Ewltp (g/km)] IS NOT NULL
    AND Ft IS NOT NULL
    AND [Ec (cm3)] IS NOT NULL
    AND [Ep (KW)] IS NOT NULL
    AND [Erwltp (g/km)] IS NOT NULL
    AND [Year] IS NOT NULL
    AND Fc IS NOT NULL
  """

In [None]:
# Encodage de la requ√™te pour l'inclure dans l'URL :
  encoded_query = urllib.parse.quote(query)

In [None]:
# Initialisation :
  page = 1

Boucle while pour parcourir toutes les pages de l'API : 
NB : Celle-ci s'arr√™te quand il n'y a plus de r√©ponse.

In [None]:
  while True:
    url = f"https://discodata.eea.europa.eu/sql?query={encoded_query}&p={page}&nrOfHits=100000"
    logger.info(f"üåê Requ√™te envoy√©e.")
    try:
      response = requests.get(url)
      if response.status_code != 200:
          logger.error(f"‚ùå Erreur de requ√™te : Status code {response.status_code}")
          break
      try:
          data = response.json()
      except json.JSONDecodeError as e:
          logger.error(f"‚ùå Erreur de d√©codage JSON : {e}")
          break
            
      new_records = data.get("results", [])
      if not new_records:
          logger.info(f"üìå Aucun enregistrement suppl√©mentaire trouv√© pour {table} (page {page}).")
          break

      records.extend(new_records)
      logger.info(f"‚úÖ Page {page} t√©l√©charg√©e - {len(new_records)} enregistrements r√©cup√©r√©s.")
            
      page += 1  # Passage √† la page suivante

    except requests.RequestException as e:
        logger.error(f"‚ùå Erreur lors de la requ√™te HTTP : {e}")
        break

In [None]:
# Transformation en DataFrame :
if records:
    df = pd.DataFrame(records)
    logger.info(f"‚úÖ DataFrame cr√©√© avec succ√®s - {len(df)} lignes t√©l√©charg√©es.")
else:
    logger.error("‚ùå Aucune donn√©e r√©cup√©r√©e. Impossible de cr√©er le DataFrame.")

In [None]:
# Enregistrement du fichier :
# D√©finition du chemins vers le dossier "raw" (pour exporter la base de donn√©es brute) :
raw_dir = config.RAW_DIR

In [None]:
# Cr√©ation du dossier s'il n'existe pas :
try:
    os.makedirs(raw_dir, exist_ok=True)
    logger.info("üóÇÔ∏è Dossier de sauvegarde des donn√©es brutes v√©rifi√© ou cr√©√© avec succ√®s.")
except Exception as e:
    logger.error(f'‚ùå Erreur lors de la cr√©ation du dossier "raw" : {e}')

In [None]:
# Cr√©ation de la variable contenant le nom du fichier .csv √† exporter : 
output_filename = "DF_Raw.csv"

In [None]:
# Construction du chemin complet vers le fichier dans le dossier "raw" existant : 
output_filepath = os.path.join(raw_dir, output_filename)

In [None]:
# Exportation du DataFrame en .csv : 
if not df.empty:
    try:
        df.to_csv(output_filepath, index=False)
        logger.info(f"üìÅ Fichier .csv enregistr√© avec succ√®s : {output_filepath}")
    except Exception as e:
        logger.error(f"‚ùå Erreur lors de l'enregistrement du fichier .csv : {e}")
else:
    logger.error("‚ùå Le DataFrame est vide. Aucune sauvegarde n'a √©t√© effectu√©e.")