# **Récupération et formatage des données**
---


## Introduction<a class="anchor" id="partie1"></a>

Ce notebook contient les codes nécessaires à la récupération et au formatage des données. Les données ont été récupéré sur le site de [l'OCDE](https://data-explorer.oecd.org/) et sur celui [d'Eurostat](https://ec.europa.eu/eurostat/fr/data/database). 

Nous récupérons les données en csv et les transformons en un unique csv contenant pour chacun des pays les valeurs trimestrielles (de Q1 en 1995 à Q3 de 2024 <span style="color:red ; font-size:20px;"> faire attention les working hours ne vont qu'au Q3 de 2024 </span>) de PIB, d'heure de travail, des taux d'intérêts à court et long terme et de l'indice à la consommation des prix. Pour l'instant il nous manque aussi les anticipations des taux et les rendements des marchés financiers. Le csv final de ce notebook servira de base de données par la suite. 

Les pays retenus sont ceux pour lesquels on a réussi à collecter toutes les données relatives aux variables d'intérêt: Autriche (Austria) Belgique (Belgium) Bulgarie (Bulgaria) Tchéquie (Czechia) Danemark (Denmark) Estonie (Estonia) Finlande (Finland) France (France) Allemagne (Germany) Grèce (Greece) Hongrie (Hungary) Islande (Iceland) Irlande (Ireland) Italie (Italy) Lettonie (Latvia) Lituanie (Lithuania) Luxembourg (Luxembourg) Pays-Bas (Netherlands) Norvège (Norway) Pologne (Poland) Portugal (Portugal) Roumanie (Romania) Slovaquie (Slovakia) Slovénie (Slovenia) Espagne (Spain) Suède (Sweden) Suisse (Switzerland) Royaume-Uni (United Kingdom).


## Sommaire

* [Introduction](#partie1)
* [Récupération des données](#partie2)
    * [Données de PIB](#partie21)
    * [Données d'heures de travail](#partie22)
    * [Données des taux d'intérêts](#partie23)
    * [Données d'indice à la consommation des prix](#partie24)


## Récupération des données <a class="anchor" id="partie2"></a>

In [None]:
!pip install -r requirements.txt

In [72]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

Nous créons la liste qui contient les pays cités précédemment, à noter que la Slovaquie apparaît sous le nom Slovakia pour Eurostat et Slovak Republic pour l'OCDE, elle est donc sous deux noms dans notre liste de pays à sélectionner. 

In [73]:
#Liste comportant les pays choisis
countries_selected=[
    "Austria", "Belgium", "Bulgaria", "Czechia", "Denmark", "Estonia", 
    "Finland", "France", "Germany", "Greece", "Hungary", "Iceland", 
    "Ireland", "Italy", "Latvia", "Lithuania", "Luxembourg", "Netherlands", 
    "Norway", "Poland", "Portugal", "Romania", "Slovakia", "Slovak Republic",
    "Slovenia", "Spain", "Sweden", "Switzerland", "United Kingdom"
]

### Données de PIB <a class="anchor" id="partie21"></a>

Nous extrayons les données relatives au PIB depuis Eurostat


In [74]:
# Charge les données depuis le csv 
df_GDP = pd.read_csv("Données_extraites/GDP_trimestriel_eurostat.csv", encoding='utf-8')

# Sélectionne les colonnes nécessaires avec les pays sélectionnés
df_GDP_selected = df_GDP[df_GDP['geo'].isin(countries_selected)][['geo', 'TIME_PERIOD', 'OBS_VALUE']]

# Change le format avec les périodes en index et les noms des pays en noms de colonnes
df_GDP_pivot = df_GDP_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')

# Transforme le nom des colonnes en PIB_Nom_du_pays
df_GDP_pivot.columns = [f'PIB_{col}' for col in df_GDP_pivot.columns]
df_GDP_pivot.columns = [col.replace(" ", "_") for col in df_GDP_pivot.columns]

### Données de d'heure de travail <a class="anchor" id="partie22"></a>

Nous extrayons les données relatives aux heures de travail depuis Eurostat. Nous avons trois base de données pour les heures de travail. Une base annuelle de 1995 à 1997, et deux bases trimestrielles allant du Q1 de 1998 au Q4 de 2007 et du Q1 de 2008 au Q3 de 2024.

Nous voulons traiter les données dans l'ordre chronologique. Nous devons donc pour la première période récupérer les données annuelles et les transformer en trimestrielles, nous choisissons d'interpoler les données manquantes de manière linéaire en donnant la valeur annuelle au Q1. Pour cela nous avons besoin de traiter les données de 1998 à 2007 avant afin de pouvoir faire l'interpolation entre le Q1 de 1997 et celui de 1998.

Nous récupérons donc d'abord toutes les données


In [75]:
# Charge les données de 1995 à 1997 
df_working_hours_95_97 = pd.read_csv("Données_extraites/Working_hours_eurostat_1995-1997.csv", encoding='utf-8')

# Sélectionne les colonnes nécessaires avec les pays sélectionnés
df_working_hours_95_97_selected = df_working_hours_95_97[df_working_hours_95_97['geo'].isin(countries_selected)][['geo', 'TIME_PERIOD', 'OBS_VALUE']]

# Change le format avec les périodes en index et les noms des pays en noms de colonnes
df_working_hours_95_97_pivot = df_working_hours_95_97_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')

# Transforme le nom des colonnes en WH_Nom_du_pays
df_working_hours_95_97_pivot.columns = [f'WH_{col}' for col in df_working_hours_95_97_pivot.columns]
df_working_hours_95_97_pivot.columns = [col.replace(" ", "_") for col in df_working_hours_95_97_pivot.columns]

# Même processus pour celles de 1998 à 2007 et celles de 2008 à 2024
df_working_hours_98_07 = pd.read_csv("Données_extraites/Working_hours_eurostat_1998-2007.csv", encoding='utf-8')
df_working_hours_98_07_selected = df_working_hours_98_07[df_working_hours_98_07['geo'].isin(countries_selected)][['geo', 'TIME_PERIOD', 'OBS_VALUE']]
df_working_hours_98_07_pivot = df_working_hours_98_07_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')
df_working_hours_98_07_pivot.columns = [f'WH_{col}' for col in df_working_hours_98_07_pivot.columns]
df_working_hours_98_07_pivot.columns = [col.replace(" ", "_") for col in df_working_hours_98_07_pivot.columns]

df_working_hours_08_24 = pd.read_csv("Données_extraites/Working_hours_eurostat_2008-2024.csv", encoding='utf-8')
df_working_hours_08_24_selected = df_working_hours_08_24[df_working_hours_08_24['geo'].isin(countries_selected)][['geo', 'TIME_PERIOD', 'OBS_VALUE']]
df_working_hours_08_24_pivot = df_working_hours_08_24_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')
df_working_hours_08_24_pivot.columns = [f'WH_{col}' for col in df_working_hours_08_24_pivot.columns]
df_working_hours_08_24_pivot.columns = [col.replace(" ", "_") for col in df_working_hours_08_24_pivot.columns]



Et maintenant nous configurons l'interpolation. Pour clarifier le point précédent, l'interpolation est linéaire, donc va tracer une droite entre deux périodes avec une valeur présente et inférer une valeur aux périodes pour laquelle la valeur est manquante et qui se trouvent entre nos deux périodes. Comme nous faisons le choix de donner la valeur annuelle au Q1 il faut ajouter une valeur de 1998 pour pouvoir inférer les valeurs du Q2, Q3 et Q4 de 1997, ce que nous faisons donc en ajoutant le Q1 de 1998 à notre table

In [76]:
# Récupération du Q1 de 1998 et suppresion de la table pour éviter les doublons lors de la concaténation
Q1_1998 =  df_working_hours_98_07_pivot.loc[['1998-Q1']]
df_working_hours_98_07_pivot = df_working_hours_98_07_pivot.drop(index='1998-Q1', errors='ignore')

# On ajoute les trimestres vierges aux données de 1995 à 1998 pour ensuite les compléter par interpolation
new_index = []
values = []
for year in df_working_hours_95_97_pivot.index:
    # Ajouter Q1 pour chaque année (avec la valeur annuelle)
    new_index.append(f"{year}-Q1")
    values.append(df_working_hours_95_97_pivot.loc[year].values)
    
    # Ajouter Q2, Q3 et Q4 (lignes vides pour l'instant)
    for quarter in ['Q2', 'Q3', 'Q4']:
        new_index.append(f"{year}-{quarter}")
        values.append([None] * len(df_working_hours_95_97_pivot.columns))

# Création du dataframe avec les lignes vides
df_working_hours_95_97_pivot = pd.DataFrame(values, index=new_index, columns=df_working_hours_95_97_pivot.columns)
df_working_hours_95_97_pivot.index.name = 'TIME_PERIOD'

df_working_hours_95_97_pivot = pd.concat([df_working_hours_95_97_pivot, Q1_1998])

# Interpolation
df_working_hours_95_97_pivot = df_working_hours_95_97_pivot.interpolate(method='linear')

Maintenant nous procédons à la concaténation des données pour avoir un unique dataframe contenant les heures de travail trimestrielles de 1995 à 2024.

In [77]:
# Concaténation
df_working_hours = pd.concat(
    [df_working_hours_95_97_pivot, df_working_hours_98_07_pivot, df_working_hours_08_24_pivot], 
    axis=0
)

### Données des taux d'intérêts <a class="anchor" id="partie23"></a>

Pour les taux d'intérêts nous récupérons des taux de long-terme, à savoir des obligations d'Etat à 10 ans, et des taux de court-terme. Les taux à court terme sont généralement soit le taux interbancaire à trois mois lié aux prêts accordés et acceptés par les banques pour tout excès ou manque de liquidité sur plusieurs mois, soit le taux associé aux bons du Trésor, aux certificats de dépôt ou à des instruments comparables, chacun d'une durée de trois mois. Pour les pays de la zone euro, le « European Interbank Offered Rate » à trois mois est utilisé à partir de la date à laquelle le pays a rejoint l'euro.  

Nous commençons par récupérer les taux de long-terme puis ceux de court-terme

In [78]:
# Charger les données
df_LT_IR = pd.read_csv('Données_extraites/Long_term_IR_OCDE.csv', encoding='utf-8')

# Sélectionne les colonnes nécessaires avec les pays sélectionnés
df_LT_IR_selected = df_LT_IR[df_LT_IR['Reference area'].isin(countries_selected)][['Reference area', 'TIME_PERIOD', 'OBS_VALUE']]

# Change le format avec les périodes en index et les noms des pays en noms de colonnes
df_LT_IR_pivot = df_LT_IR_selected.pivot_table(index='TIME_PERIOD', columns='Reference area', values='OBS_VALUE')

# Renommer les colonnes pour inclure le préfixe LT_IR_ (=Long Term Interest Rate)
df_LT_IR_pivot.columns = [f'LT_IR_{col}' for col in df_LT_IR_pivot.columns]
df_LT_IR_pivot.columns = [col.replace(" ", "_") for col in df_LT_IR_pivot.columns]

# Même processus pour les taux de long-terme
df_ST_IR=pd.read_csv('Données_extraites/Short_term_IR_OCDE.csv', encoding='utf-8')
df_ST_IR_selected = df_ST_IR[df_ST_IR['Reference area'].isin(countries_selected)][['Reference area', 'TIME_PERIOD', 'OBS_VALUE']]
df_ST_IR_pivot = df_ST_IR_selected.pivot_table(index='TIME_PERIOD', columns='Reference area', values='OBS_VALUE')
df_ST_IR_pivot.columns = [f'ST_IR_{col}' for col in df_ST_IR_pivot.columns]
df_ST_IR_pivot.columns = [col.replace(" ", "_") for col in df_ST_IR_pivot.columns]

### Données d'indice à la consommation des prix <a class="anchor" id="partie24"></a>

Nous récupérons les données relatives à l'indice à la consommation des prix, qui nécessite des modifications car les données actuelles sont mensuelles et non trimestrielles. Nous faisons le choix de les transformer en trimestrielles en attribuant les moyennes mensuelles sur trois mois à notre valeur. 

In [91]:
# Charger les données
df_CPI=pd.read_csv('Données_extraites/CPI_annual_eurostat_1996-2024.csv', encoding='utf-8')

# Sélectionne les colonnes nécessaires avec les pays sélectionnés
df_CPI_selected = df_CPI[df_CPI['geo'].isin(countries_selected)][['geo', 'TIME_PERIOD', 'OBS_VALUE']]

# Change le format avec les périodes en index et les noms des pays en noms de colonnes
df_CPI_pivot = df_CPI_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE')

# Transforme le nom des colonnes en CPI_Nom_du_pays
df_CPI_pivot.columns = [f'CPI_{col}' for col in df_CPI_pivot.columns]
df_CPI_pivot.columns = [col.replace(" ", "_") for col in df_CPI_pivot.columns]

Nous transformons ici les données mensuelles en trimestrielles.

In [85]:
df_CPI_pivot

Unnamed: 0_level_0,CPI_Austria,CPI_Belgium,CPI_Bulgaria,CPI_Czechia,CPI_Denmark,CPI_Estonia,CPI_Finland,CPI_France,CPI_Germany,CPI_Greece,...,CPI_Norway,CPI_Poland,CPI_Portugal,CPI_Romania,CPI_Slovakia,CPI_Slovenia,CPI_Spain,CPI_Sweden,CPI_Switzerland,CPI_United_Kingdom
TIME_PERIOD,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1996Q1,71.34,69.91,,57.0,70.4,42.87,71.20,74.13,75.1,59.04,...,69.2,43.0,65.76,2.71,43.01,43.88,63.95,75.41,,67.8
1996Q1,71.55,69.98,,57.3,70.8,44.24,71.49,74.42,75.6,58.92,...,69.3,43.6,66.09,2.76,43.12,44.43,64.08,75.60,,68.1
1996Q1,71.77,70.12,,57.6,71.3,44.95,71.63,74.90,75.7,60.64,...,69.5,44.3,66.23,2.81,43.22,45.07,64.34,76.14,,68.4
1996Q2,71.69,70.47,,58.1,71.5,45.72,71.78,74.99,75.6,61.25,...,69.7,45.2,66.76,2.87,43.35,45.76,64.73,76.49,,68.7
1996Q2,71.62,70.61,,58.4,71.7,45.95,71.99,75.19,75.7,61.74,...,69.9,45.8,67.03,3.02,43.56,46.04,64.99,76.56,,68.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2024Q3,133.77,132.73,138.83,152.9,119.7,156.41,119.23,124.77,129.8,119.57,...,134.8,149.7,122.37,150.40,143.65,128.18,123.54,128.35,107.86,
2024Q3,134.13,132.21,137.25,152.2,119.2,155.95,119.79,123.15,129.7,121.71,...,135.1,149.8,124.28,151.01,143.73,128.44,123.42,128.76,107.50,
2024Q4,134.63,132.90,138.14,152.6,120.0,157.20,120.71,123.54,130.2,121.80,...,136.0,150.3,123.84,152.08,144.82,128.11,123.91,129.36,107.48,
2024Q4,135.00,133.13,138.53,152.7,119.5,156.15,120.37,123.36,129.3,120.32,...,136.6,150.8,122.58,152.57,145.18,128.98,123.95,130.11,106.92,


In [92]:
# Conversion des mois en trimestre
df_CPI_pivot.index = pd.PeriodIndex(df_CPI_pivot.index, freq='Q')

# Pour chaque trimestre on a donc 3 valeurs on fait donc la moyenne
df_CPI_pivot = df_CPI_pivot.groupby(df_CPI_pivot.index).mean()

# On modifie le format de l'index qui est YYYYQQ en YYYY-QQ pour l'accorder aux autres tables
df_CPI_pivot.index = df_CPI_pivot.index.astype(str).str.replace(r'(\d{4})Q(\d)', r'\1-Q\2', regex=True)
