In [3]:
import pandas as pd

Données sur le PIB


Nom du dataframe: df_GDP

Cette copie comporte des data frames similaires à ceux du premier document. Seule différence: les indices comportent les dates (apparemment c'est mieux pour une analyse en séries temporelles)

In [None]:
import pandas as pd

# Extraction des données relatives au GDP (Données Eurostat)
'''
Informations générales
Online data code:namq_10_gdp
Unit of measure: Current prices-million euro
'''

# Charger les données
df_GDP = pd.read_csv("Données_extraites/GDP_trimestriel_eurostat.csv", encoding='utf-8')
#print(df_GDP.head())

# Choix des colonnes rélévantes
df_GDP_selected = df_GDP[['geo', 'TIME_PERIOD', 'OBS_VALUE']]
#print(df_GDP_selected.head())

# Obtention des données de panel
df_GDP_pivot = df_GDP_selected.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure un préfixe "PIB_" suivi du nom du pays
df_GDP_pivot.columns = [f'PIB_{col}' for col in df_GDP_pivot.columns]

# Vérification
df_GDP=df_GDP_pivot
df_GDP



Dans ce qui suit: nous allons essayer de concatener trois datasets:
- 2 comportant des données trimestrielles (1998-2008 et 2008-2024)
- 1 comporatant des données annuelles (1995-1998)

Nous avons gardé la même source (Eurostat) afin d'avoir des estimations homogènes


In [None]:
import pandas as pd

# Extraction des données Working Hours per year (Données Eurostat: 1995-1997)
'''
Informations générales
Lien: https://doi.org/10.2908/LFSA_EWHANA
Code: lfsa_ewhana
'''

# Charger les données
df_working_hours_eurostat_an = pd.read_csv("Données_extraites/Working_hours_eurostat_1995-1998.csv", encoding='utf-8')
#print(df_working_hours_eurostat_an.head())

# Choix des colonnes rélévantes
df_working_hours_selected_eurostat_an = df_working_hours_eurostat_an[['geo', 'TIME_PERIOD', 'OBS_VALUE']]
#print(df_working_hours_selected_eurostat_an.head())

# Obtention des données de panel
df_working_hours_pivot_eurostat_an = df_working_hours_selected_eurostat_an.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure un préfixe "WorkingHours_" suivi du nom du pays
df_working_hours_pivot_eurostat_an.columns = [f'Working_Hours_{col}' for col in df_working_hours_pivot_eurostat_an.columns]

# Vérifier que les dates sont bien en index et les pays sont renommés
#print(df_working_hours_pivot_eurostat_an.head())
df_working_hours_pivot_eurostat_an


In [None]:
# transformation: données annuelles --> trimestrielles // Option 1: recopier les données annuelles 4 fois

# Création d'une copie du dataframe original
df_working_hours_quarterly_1 = df_working_hours_pivot_eurostat_an.copy()

# Répéter chaque année 4 fois
df_working_hours_quarterly_1 = df_working_hours_pivot_eurostat_an.loc[df_working_hours_pivot_eurostat_an.index.repeat(4)]

# Générer un nouvel index trimestriel sous le format 'YYYY-QX'
quarters = ['Q1', 'Q2', 'Q3', 'Q4']
df_working_hours_quarterly_1['TIME_PERIOD'] = [f"{year}-{quarter}" for year in df_working_hours_pivot_eurostat_an.index for quarter in quarters]

# Remettre 'TIME_PERIOD' comme index
df_working_hours_quarterly_1 = df_working_hours_quarterly_1.set_index('TIME_PERIOD')

# Renommer les colonnes pour éviter la duplication des préfixes dans les noms des colonnes
df_working_hours_quarterly_1.columns = [col.replace("Working_Hours_Working_Hours", "Working_Hours") for col in df_working_hours_quarterly_1.columns]

# Vérificatino
df_working_hours_quarterly_1






In [None]:
#transformation: données annuelles--> trimestrielles // Option 2: Interpolation
# Création d'une copie du dataframe original
df_working_hours_quarterly_2 = df_working_hours_pivot_eurostat_an.copy()


# Idée pour l'interpolation: recopier la valeur annuelle pour le premier trimestre et
# ajouter des lignes "vides" entre le premier trimestre des deux années consécutives, puis faire l'interpolation
new_index = []
values = []

for year in df_working_hours_quarterly_2.index:
    # Ajouter Q1 pour chaque année (avec la valeur annuelle)
    new_index.append(f"{year}-Q1")
    values.append(df_working_hours_quarterly_2.loc[year].values)
    
    # Ajouter Q2, Q3 et Q4 (lignes vides pour l'instant)
    for quarter in ['Q2', 'Q3', 'Q4']:
        new_index.append(f"{year}-{quarter}")
        values.append([None] * len(df_working_hours_quarterly_2.columns))

# Création d'un nouveau DataFrame trimestriel avec les mêmes colonnes
df_working_hours_quarterly_2 = pd.DataFrame(values, index=new_index, columns=df_working_hours_quarterly_2.columns)

#On met le nom de "TIME_PERIOD"
df_working_hours_quarterly_2.index.name = 'TIME_PERIOD'

# Interpolation linéaire
df_working_hours_quarterly_2 = df_working_hours_quarterly_2.interpolate(method='linear')


# Renommer les colonnes pour éviter la duplication des préfixes dans les noms des colonnes
df_working_hours_quarterly_2.columns = [col.replace("Working_Hours_Working_Hours", "Working_Hours") for col in df_working_hours_quarterly_1.columns]

#Vérification
df_working_hours_quarterly_2


In [None]:
# Extraction des données Working Hours trimestriels (Données Eurostat à partir de 2008)
'''
Informations générales: données trimestrielles à partir de 2008
Online data code: lfsq_ewhan2
Unit of measure: Hours per year per person
'''

# Charger les données
df_working_hours_eurostat_1 = pd.read_csv("Données_extraites/Working_hours_eurostat.csv", encoding='utf-8')
#print(df_working_hours_eurostat_1.head())

# Choix des colonnes rélévantes
df_working_hours_selected_eurostat_1 = df_working_hours_eurostat_1[['geo', 'TIME_PERIOD', 'OBS_VALUE']]
#print(df_working_hours_selected_eurostat_1.head())

# Obtention des données de panel
df_working_hours_pivot_eurostat_1 = df_working_hours_selected_eurostat_1.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure un préfixe "WorkingHours_" suivi du nom du pays
df_working_hours_pivot_eurostat_1.columns = [f'Working_Hours_{col}' for col in df_working_hours_pivot_eurostat_1.columns]

# Vérifier que les dates sont bien en index et les pays sont renommés
#print(df_working_hours_pivot_eurostat_1.head())
df_working_hours_pivot_eurostat_1

#On change le nom pour simplifier
df_working_hours_eurostat_1=df_working_hours_pivot_eurostat_1
df_working_hours_eurostat_1


In [None]:
# Extraction des données Working Hours per year (Données Eurostat à partir de 1998-2008)
'''
Informations générales: données trimestrielles 1998--> 2008
Online data code: lfsq_ewhana
Source: https://ec.europa.eu/eurostat/databrowser/view/lfsq_ewhana__custom_15382513/default/table?lang=en
Unit of measure: Hours per year per person
'''

# Charger les données
df_working_hours_eurostat_2 = pd.read_csv("Données_extraites/Working_hours_eurostat_2.csv", encoding='utf-8')
#print(df_GDP.head())

# Choix des colonnes rélévantes
df_working_hours_selected_eurostat_2 = df_working_hours_eurostat_2[['geo', 'TIME_PERIOD', 'OBS_VALUE']]
#print(df_GDP_selected.head())

# Obtention des données de panel
df_working_hours_pivot_eurostat_2 = df_working_hours_selected_eurostat_2.pivot_table(index='TIME_PERIOD', columns='geo', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure un préfixe (par exemple, "Working_Hours_")
df_working_hours_pivot_eurostat_2.columns = [f'Working_Hours_{col}' for col in df_working_hours_pivot_eurostat_2.columns]

# Supprimer les 4 dernières lignes (pour que l'année 2008 ne se répète pas 2 fois lors de la concaténation finale)
df_working_hours_pivot_eurostat_2 = df_working_hours_pivot_eurostat_2.iloc[:-4, :]

#On change le nom pour simplifier
df_working_hours_eurostat_2=df_working_hours_pivot_eurostat_2
df_working_hours_eurostat_2


Ainsi nous obtenons les données sur les Working Hours

Nom du data_frame: df_working_hours

In [None]:
# Concaténation verticale pour fusionner les trois jeux de données 
# Remarque: pour la période 1995-1997, nous avons pris la méthode par l'interpolation linéaire

df_working_hours = pd.concat(
    [df_working_hours_quarterly_2, df_working_hours_pivot_eurostat_2, df_working_hours_pivot_eurostat_1], 
    axis=0
)

df_working_hours

Données des taux d'intérêts

Taux court terme : "Les données se réfèrent aux bons acceptés par la banque/Certificats de dépôt négociables-3 mois."
Nom du dataframe: df_ST_IR


Taux long terme : "Les données se réfèrent au taux de rendement estimé en clôture des obligations du trésor à 10 ans."
Nom du dataframe: df_LT_IR

In [None]:
# Pour le long terme (une possibilité): Long term interest rates
'''
Source: https://data-explorer.oecd.org/vis?lc=en&pg=0&tm=LONG-TERM%20INTEREST
Unit of measure: Percent per annum
'''

# Charger les données
df_LT_IR = pd.read_csv('Données_extraites/Long_term_IR_OCDE.csv', encoding='utf-8')

# Choix des colonnes rélévantes
df_LT_IR_selected = df_LT_IR[['Reference area', 'TIME_PERIOD', 'OBS_VALUE']]

# Obtention des données de panel en format séries temporelles
df_LT_IR_pivot = df_LT_IR_selected.pivot_table(index='TIME_PERIOD', columns='Reference area', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure le préfixe LT_IR_ (=Long Term Interest Rate)
df_LT_IR_pivot.columns = [f'LT_IR_{col}' for col in df_LT_IR_pivot.columns]
df_LT_IR_pivot = df_LT_IR_pivot.rename(columns={'LT_IR_Slovak Republic': 'LT_IR_Slovakia'})

# On simplifie le nom, et on vérifie
df_LT_IR=df_LT_IR_pivot
df_LT_IR


In [None]:
# Pour le court terme (une possibilité): short term interest rates

'''
Informations générales 
source: https://data-explorer.oecd.org/vis?lc=en&pg=0&tm=LONG-TERM%20INTEREST&snb=21&vw=tb&df[ds]=dsDisseminateFinalDMZ&df[id]=DSD_STES%40DF_FINMARK&df[ag]=OECD.SDD.STES&df[vs]=4.0&dq=GBR%2BROU%2BHRV%2BBGR%2BESP%2BTUR%2BCHE%2BSWE%2BSVN%2BSVK%2BPRT%2BPOL%2BNOR%2BNLD%2BLUX%2BLTU%2BLVA%2BITA%2BIRL%2BISL%2BHUN%2BGRC%2BDEU%2BFRA%2BFIN%2BEST%2BDNK%2BCZE%2BBEL%2BAUT%2BAUS.Q.IRLT.PA.....&to[TIME_PERIOD]=false&pd=1995-Q1%2C
Unit of measure: Percent per annum
'''

df_ST_IR=pd.read_csv('Données_extraites/Short_term_IR_OCDE.csv', encoding='utf-8')

# Choix des colonnes rélévantes
df_ST_IR_selected = df_ST_IR[['Reference area', 'TIME_PERIOD', 'OBS_VALUE']]

# Obtention des données de panel en format séries temporelles
df_ST_IR_pivot = df_ST_IR_selected.pivot_table(index='TIME_PERIOD', columns='Reference area', values='OBS_VALUE', aggfunc='first')

# Renommer les colonnes pour inclure le préfixe ST_IR_ (=Short Term Interest Rate)
df_ST_IR_pivot.columns = [f'ST_IR_{col}' for col in df_ST_IR_pivot.columns]
df_ST_IR_pivot = df_ST_IR_pivot.rename(columns={'ST_IR_Slovak Republic': 'ST_IR_Slovakia'})


# On simplifie le nom, et on vérifie
df_ST_IR=df_ST_IR_pivot
df_ST_IR


In [None]:
print(df_GDP.columns)
print(df_working_hours.columns)
print(df_LT_IR.columns)
print(df_ST_IR.columns)




Import du CPI

In [None]:
# données téléchargées depuis le site de eurostat
# Décompresser le fichier qui était en .gz
df_cpi = pd.read_csv("estat_prc_hicp_midx_filtered_en.csv.gz", compression="gzip")
df_cpi




In [None]:
# données téléchargées depuis le site de eurostat

# décompresser le fichier qui était en .gz
df_cpi = pd.read_csv("estat_prc_hicp_midx_filtered_en.csv.gz", compression="gzip")


print(df_cpi['geo'].unique())

'''
# Sélectionner les variables utiles
df_cpi = df_cpi[['coicop','geo', 'TIME_PERIOD', 'OBS_VALUE']]
print(df_cpi.head())
print(df_cpi['coicop'].unique())

# mettre les deux variables de cpi différentes dans deux colonnes (car actuellement elles sont en ligne : voir la variable coicop))
df_cpi_pivot = df_cpi.pivot(index=['geo', 'TIME_PERIOD'], columns='coicop', values='OBS_VALUE')
print(df_cpi_pivot.head())
df_cpi_pivot = df_cpi_pivot.reset_index()
df_cpi_pivot
'''

In [None]:
#tables en format long à merger : 
set1 = set(df_working_hours_long_eurostat['geo'].unique())
set2 = set(df_cpi_pivot['geo'].unique())
set3 = set(df_ST_IR['Reference area'].unique())
set4 = set(df_LT_IR['Reference area'].unique())
set5 = set(df_GDP_selected['geo'].unique())

pays_communs = set1 & set2 & set3 & set4 & set5  # Intersection de tous les ensembles
print("Pays communs :", pays_communs)
print("Nombre de pays communs :", len(pays_communs))



In [None]:
tous_pays = set1 | set2 | set3 | set4 | set5  # Union de tous les ensembles
print("Tous les pays :", tous_pays)

for i, (name, dataset) in enumerate([
    ("df_working_hours_long_eurostat", set1),
    ("df_cpi_pivot", set2),
    ("df_ST_IR", set3),
    ("df_LT_IR", set4),
    ("df_GDP_selected", set5)
]):
    pays_absents = tous_pays - dataset  # Pays qui ne sont pas dans cet ensemble
    print(f"Pays absents dans {name} :", pays_absents)

#suppression des US dans df_cpi_pivot :
df_cpi_pivot = df_cpi_pivot[~df_cpi_pivot['geo'].isin(['United States'])]

In [None]:
# problème: les données sont mensuelles et elles n'existent pas en trimestriel sur eurostat : on va faire utiliser la moyenne pour chaque trimestre

# Convertir 'TIME_PERIOD' en datetime
df_cpi=df_cpi_pivot
df_cpi['TIME_PERIOD'] = pd.to_datetime(df_cpi['TIME_PERIOD'], format='%Y-%m')

# Ajouter une colonne 'quTIME_PERIODarter' en fonction de l'année et du mois
df_cpi['TIME_PERIOD'] = df_cpi['TIME_PERIOD'].dt.to_period('Q')

# Regrouper par pays et trimestre, puis prendre la moyenne
df_cpi_trimestriel = df_cpi.groupby(['geo', 'TIME_PERIOD'])[['All-items HICP','Overall index excluding energy, food, alcohol and tobacco']].mean().reset_index()
df_cpi_trimestriel['TIME_PERIOD'] = df_cpi_trimestriel['TIME_PERIOD'].astype(str).str.replace('Q', '-Q')

df_cpi_trimestriel


In [126]:
# renommer les variables de tous les df pour qu'elles soient uniformes 
df_working_hours_long_eurostat = df_working_hours_long_eurostat.rename(columns={'geo': 'country', 'OBS_VALUE': 'working_hours'})
df_cpi_trimestriel = df_cpi_trimestriel.rename(columns={'geo': 'country'})
df_ST_IR = df_ST_IR.rename(columns={'Reference area': 'country', 'OBS_VALUE': 'short term'})
df_LT_IR = df_LT_IR.rename(columns={'Reference area': 'country', 'OBS_VALUE': 'long term'})
df_GDP_selected = df_GDP_selected.rename(columns={'geo': 'country', 'OBS_VALUE': 'gdp'})




In [None]:
# Maintenant on merge

from functools import reduce


# Liste de DataFrames à merger
dfs = [df_GDP_selected, df_ST_IR, df_LT_IR, df_working_hours_long_eurostat,df_cpi_trimestriel ]  

# Fusionner tous les DataFrames de la liste
df_merged = reduce(lambda left, right: left.merge(right, on=['country', 'TIME_PERIOD'], how='outer'), dfs)
df_merged

