# **Récupération et formatage des données**
---


## Introduction<a class="anchor" id="partie1"></a>

Ce notebook contient les codes nécessaires à la récupération et au formatage des données. Les données ont été récupéré sur le site de [l'OCDE](https://data-explorer.oecd.org/) et sur celui [d'Eurostat](https://ec.europa.eu/eurostat/fr/data/database). 

Nous récupérons les données en csv et les transformons en un unique csv contenant pour chacun des pays les valeurs trimestrielles (de Q1 en 1995 à Q3 de 2024 <span style="color:red ; font-size:20px;"> faire attention les working hours ne vont qu'au Q3 de 2024 </span>) de PIB, d'heure de travail, des taux d'intérêts à court et long terme et de l'indice à la consommation des prix. Pour l'instant il nous manque aussi les anticipations des taux et les rendements des marchés financiers. Le csv final de ce notebook servira de base de données par la suite. 

<span style="color:red ; font-size:20px;"> Compléter avec les variables manquantes et mettre une liste des pays (si on ne la met pas ailleurs) </span>

## Sommaire

* [Introduction](#partie1)
* [Récupération des données](#partie2)
    * [Données de PIB](#partie21)
    * [Données d'heures de travail](#partie22)

## Récupération des données <a class="anchor" id="partie2"></a>

In [1]:
!pip install -r requirements.txt



In [4]:
import numpy as np 
import pandas as pd

### Données de PIB <a class="anchor" id="partie21"></a>

Nous extrayons les données relatives au PIB depuis Eurostat


In [8]:
# Charge les données depuis le csv 
df_GDP = pd.read_csv("Données_extraites/GDP_trimestriel_eurostat.csv", encoding='utf-8')

# Sélectionne les colonnes nécessaires
df_GDP_selected = df_GDP[['geo', 'TIME_PERIOD', 'OBS_VALUE']]

# Change le format avec les périodes en index et les noms des pays en noms de colonnes
df_GDP_pivot = df_GDP_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')

# Transforme le nom des colonnes en PIB_Nom_du_pays
df_GDP_pivot.columns = [f'PIB_{col}' for col in df_GDP_pivot.columns]
df_GDP_pivot.columns = [col.replace(" ", "_") for col in df_GDP_pivot.columns]

In [9]:
print(df_GDP_pivot)

             PIB_Albania  PIB_Austria  PIB_Belgium  \
TIME_PERIOD                                          
1995-Q1              NaN      43186.6      53331.5   
1995-Q2              NaN      46786.8      56119.3   
1995-Q3              NaN      46335.5      53741.7   
1995-Q4              NaN      47362.4      57115.3   
1996-Q1              NaN      44641.2      54240.0   
...                  ...          ...          ...   
2023-Q4           6084.2     122280.3     158085.7   
2024-Q1           5428.8     117304.1     147812.8   
2024-Q2           6513.1     120746.2     154840.7   
2024-Q3           6462.9     118315.9     147978.8   
2024-Q4              NaN          NaN          NaN   

             PIB_Bosnia_and_Herzegovina  PIB_Bulgaria  PIB_Croatia  \
TIME_PERIOD                                                          
1995-Q1                             NaN        3175.8       3998.7   
1995-Q2                             NaN        3162.8       4481.5   
1995-Q3          

### Données de d'heure de travail <a class="anchor" id="partie22"></a>

Nous extrayons les données relatives aux heures de travail depuis Eurostat. Nous avons trois base de données pour les heures de travail. Une base annuelle de 1995 à 1997, et deux bases trimestrielles allant du Q1 de 1998 au Q4 de 2007 et du Q1 de 2008 au Q3 de 2024.

In [None]:
# Charge les données de 1995 à 1997
df_working_hours_95_97 = pd.read_csv("Données_extraites/Working_hours_eurostat_1995-1997.csv", encoding='utf-8')

# Sélectionne les colonnes nécessaires
df_working_hours_95_97_selected = df_working_hours_95_97[['geo', 'TIME_PERIOD', 'OBS_VALUE']]

