# Une mesure de l'inflation liée aux journaux - Projet Python pour la Data-science

### Auteurs : Lise Marchal, Raphaël Pereira et Raphaël Zambélli--Palacio

Ce notebook a pour objectif de présenter les travaux de recherche effectués dans le cadre du cours de Projet Python pour la data-science de la 2A ENSAE.

## Problématique :

Les périodes caractérisées par un taux d'inflation élevé coïcident-elles avec celles de traitement médiatique accru de cette thématique ?


# 1- Statistiques descriptives des mesures d'inflation sur la période

## 1.1- Récupération et nettoyage des données d'inflation de la FED de Saint-Louis

### 1.1.1- Utilisation de l'API de la FRED:

lien documentation pour obtenir les séries d'inflation: https://fred.stlouisfed.org/docs/api/fred/series_observations.html

In [82]:
# Création de l'URL permettant d'accéder à la série:  Consumer Price Index for All Urban Consumers: All Items in U.S. City Average

api_root="https://api.stlouisfed.org/fred/series/observations"
series_id="CPIAUCNS"
api_key="69c5f0ad2e33d8dac6297c8b3f25bb1f"
file_type="json"

url_api = (
    f"{api_root}?"
    + f"series_id={series_id}&"
    + f"api_key={api_key}&"
    + f"file_type={file_type}"
)

In [83]:
#Requête

import requests

req = requests.get(url_api)
wb = req.json()

In [84]:
#Première exploration des données
for observation in wb["observations"]:
    print(f"Date: {observation['date']}, Valeur: {observation['value']}")

Date: 1913-01-01, Valeur: 9.800
Date: 1913-02-01, Valeur: 9.800
Date: 1913-03-01, Valeur: 9.800
Date: 1913-04-01, Valeur: 9.800
Date: 1913-05-01, Valeur: 9.700
Date: 1913-06-01, Valeur: 9.800
Date: 1913-07-01, Valeur: 9.900
Date: 1913-08-01, Valeur: 9.900
Date: 1913-09-01, Valeur: 10.000
Date: 1913-10-01, Valeur: 10.000
Date: 1913-11-01, Valeur: 10.100
Date: 1913-12-01, Valeur: 10.000
Date: 1914-01-01, Valeur: 10.000
Date: 1914-02-01, Valeur: 9.900
Date: 1914-03-01, Valeur: 9.900
Date: 1914-04-01, Valeur: 9.800
Date: 1914-05-01, Valeur: 9.900
Date: 1914-06-01, Valeur: 9.900
Date: 1914-07-01, Valeur: 10.000
Date: 1914-08-01, Valeur: 10.200
Date: 1914-09-01, Valeur: 10.200
Date: 1914-10-01, Valeur: 10.100
Date: 1914-11-01, Valeur: 10.200
Date: 1914-12-01, Valeur: 10.100
Date: 1915-01-01, Valeur: 10.100
Date: 1915-02-01, Valeur: 10.000
Date: 1915-03-01, Valeur: 9.900
Date: 1915-04-01, Valeur: 10.000
Date: 1915-05-01, Valeur: 10.100
Date: 1915-06-01, Valeur: 10.100
Date: 1915-07-01, Valeur

In [85]:
#données imbriquées?
print(req.content[:1000])
# je dirais que oui, metadata


b'{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","observation_start":"1600-01-01","observation_end":"9999-12-31","units":"lin","output_type":1,"file_type":"json","order_by":"observation_date","sort_order":"asc","count":1343,"offset":0,"limit":100000,"observations":[{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-01-01","value":"9.800"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-02-01","value":"9.800"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-03-01","value":"9.800"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-04-01","value":"9.800"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-05-01","value":"9.700"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-06-01","value":"9.800"},{"realtime_start":"2024-12-12","realtime_end":"2024-12-12","date":"1913-07-01","value":"9.900"},{"realtime_start":"2024-12-12","realtime_end":"202

### 1.1.2- Nettoyage des données

#### Création et première exploration du dataframe

In [86]:
# Import des bibliothèques utiles: 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [87]:
# Création d'un dataframe à partir du fichier json

CPI_Urban=pd.json_normalize(wb["observations"]) #nested data?

In [88]:
CPI_Urban.head()

Unnamed: 0,realtime_start,realtime_end,date,value
0,2024-12-12,2024-12-12,1913-01-01,9.8
1,2024-12-12,2024-12-12,1913-02-01,9.8
2,2024-12-12,2024-12-12,1913-03-01,9.8
3,2024-12-12,2024-12-12,1913-04-01,9.8
4,2024-12-12,2024-12-12,1913-05-01,9.7


In [89]:
# On ne garde que les deux dernières colonnes
CPI_Urban = CPI_Urban[["date", "value"]]
CPI_Urban.head()


Unnamed: 0,date,value
0,1913-01-01,9.8
1,1913-02-01,9.8
2,1913-03-01,9.8
3,1913-04-01,9.8
4,1913-05-01,9.7


In [90]:
# Infos générales
CPI_Urban.axes

[RangeIndex(start=0, stop=1343, step=1),
 Index(['date', 'value'], dtype='object')]

In [91]:
# Infos générales: types
CPI_Urban.dtypes

date     object
value    object
dtype: object

#### Traitement des values

In [92]:
CPI_Urban['value'] = pd.to_numeric(CPI_Urban['value'], errors='coerce')


#### Traitement des dates

In [93]:
CPI_Urban['date'] = pd.to_datetime(CPI_Urban['date'])
CPI_Urban['year'] = CPI_Urban['date'].dt.year
CPI_Urban['month'] = CPI_Urban['date'].dt.month

CPI_Urban.head(15)

Unnamed: 0,date,value,year,month
0,1913-01-01,9.8,1913,1
1,1913-02-01,9.8,1913,2
2,1913-03-01,9.8,1913,3
3,1913-04-01,9.8,1913,4
4,1913-05-01,9.7,1913,5
5,1913-06-01,9.8,1913,6
6,1913-07-01,9.9,1913,7
7,1913-08-01,9.9,1913,8
8,1913-09-01,10.0,1913,9
9,1913-10-01,10.0,1913,10


#### Création de la variable pourcentage d'inflation annuelle: 

Le jeu de données se présente en effet sous la forme d'indices avec une base 100 en 1983. 
Limite: Il n'est pas idéal d'avoir la date de la base postérieure à la période étudiée.  

In [94]:
index_14=CPI_Urban.index[CPI_Urban['date'] == '1914-01-01'][0]
index_end=CPI_Urban.index[CPI_Urban['date'] == '1963-01-01'][0]

print(index_14, index_end)


12 600


In [95]:
#On ne calcule le taux d'inflation annuel que pour la période considérée
CPI_Urban['inf_an']=0.0

for i in range(index_14,index_end+1):
    b=CPI_Urban.loc[i,'value']
    a=CPI_Urban.loc[i-12,'value']
    CPI_Urban.at[i, 'inf_an']=((b-a)/a)*100

  
CPI_Urban.head(20)

Unnamed: 0,date,value,year,month,inf_an
0,1913-01-01,9.8,1913,1,0.0
1,1913-02-01,9.8,1913,2,0.0
2,1913-03-01,9.8,1913,3,0.0
3,1913-04-01,9.8,1913,4,0.0
4,1913-05-01,9.7,1913,5,0.0
5,1913-06-01,9.8,1913,6,0.0
6,1913-07-01,9.9,1913,7,0.0
7,1913-08-01,9.9,1913,8,0.0
8,1913-09-01,10.0,1913,9,0.0
9,1913-10-01,10.0,1913,10,0.0


#### Création d'un sous-tableau de la période considérée

In [96]:
CPI_sub = CPI_Urban[(CPI_Urban['year'] > 1913) & (CPI_Urban['year'] < 1963)]
CPI_sub.head(10)
CPI_sub.tail(10)

Unnamed: 0,date,value,year,month,inf_an
590,1962-03-01,30.1,1962,3,1.006711
591,1962-04-01,30.2,1962,4,1.342282
592,1962-05-01,30.2,1962,5,1.342282
593,1962-06-01,30.2,1962,6,1.342282
594,1962-07-01,30.3,1962,7,1.0
595,1962-08-01,30.3,1962,8,1.337793
596,1962-09-01,30.4,1962,9,1.333333
597,1962-10-01,30.4,1962,10,1.333333
598,1962-11-01,30.4,1962,11,1.333333
599,1962-12-01,30.4,1962,12,1.333333


## 1.2- Traitement des données

### 1.2.1- Premières statistiques descriptives sur l'inflation pendant la période

In [97]:
CPI_sub['inf_an'].describe()

count    588.000000
mean       2.517532
std        6.607607
min      -15.789474
25%       -0.578035
50%        1.449275
75%        3.764927
max       23.668639
Name: inf_an, dtype: float64

In [98]:
#import seaborn as sns
#sns.lineplot(x=CPI_sub["date"],y=CPI_sub["inf_an"], marker='o')
#plt.axhline(y=0, color='r', linestyle='--', label='Ligne à y=25')

In [99]:
import plotly
import plotly.express as px
import plotly.io as pio

In [100]:
#from plotly.offline import init_notebook_mode
#init_notebook_mode(connected=True)


In [101]:
# Création du graphique (informations en passant la souris) EN FAIRE UNE FONCTION SI ON FAIT PLUSIEURS GRAPHIQUES DU MEME TYPE
# Rajouter légende

graph = px.line(CPI_sub, x="date", y="inf_an", title="Pourcentage d'inflation annuelle de 1914 à 1962")

# Légende et format des axes
graph.update_xaxes(title="Date", tickformat="%m-%Y")
graph.update_yaxes(title="Inflation (%)")

# Style du graphique
graph.update_layout(template="plotly_dark")

# Commentaires: max, min, moyenne, médiane
max=CPI_sub["inf_an"].max() 
min=CPI_sub["inf_an"].min()
mean=CPI_sub["inf_an"].mean()
median=CPI_sub["inf_an"].median()

date_max=CPI_sub.loc[CPI_sub["inf_an"] == max, "date"].values[0]
date_min=CPI_sub.loc[CPI_sub["inf_an"] == min, "date"].values[0]

# Pour l'instant l'ajout d'anotations fige le côté interactif du graphique
#graph.add_annotation(x=date_max, y=max, text="Maximum", showarrow=True, xref="x", yref="y") 
#graph.add_annotation(x=date_min, y=min, text="Minimum", showarrow=True)

graph.add_hline(y=mean, line_dash="dot", line_color="yellow", annotation_text="Moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=median, line_dash="dot", line_color="white", annotation_text="Médiane", annotation_position="bottom right", annotation_font_color="white")
graph.add_hline(y=0, line_color="red")

# Afficher le graphique avec zoom possible et barre à outil
graph.show(renderer="browser",config={"scrollZoom": True, "displayModeBar": True}) #pour l'instant je n'ai pas réussi à résoudre le pb pour que ça s'affiche directement dans le notebook

### 1.2.2- Identification de périodes d'intérêt

#### Identification des périodes d'inflation négative

In [102]:
# Création d'une indicatrice inf_neg qui prend la valeur 1 si l'inflation est négative et 0 sinon
CPI_sub['inf_neg']=0
CPI_sub.loc[CPI_sub['inf_an'] < 0, 'inf_neg'] = 1
CPI_sub.head(30)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,date,value,year,month,inf_an,inf_neg
12,1914-01-01,10.0,1914,1,2.040816,0
13,1914-02-01,9.9,1914,2,1.020408,0
14,1914-03-01,9.9,1914,3,1.020408,0
15,1914-04-01,9.8,1914,4,0.0,0
16,1914-05-01,9.9,1914,5,2.061856,0
17,1914-06-01,9.9,1914,6,1.020408,0
18,1914-07-01,10.0,1914,7,1.010101,0
19,1914-08-01,10.2,1914,8,3.030303,0
20,1914-09-01,10.2,1914,9,2.0,0
21,1914-10-01,10.1,1914,10,1.0,0


In [103]:
"""
graph = px.line(CPI_sub, x="date", y="inf_an", title="Pourcentage d'inflation annuelle de 1914 à 1962",animation_frame="year", animation_group="inf_neg")
# Légende et format des axes
graph.update_xaxes(title="Date", tickformat="%m-%Y",range=[1914-01-1,1963-12-01])
graph.update_yaxes(title="Inflation (%)",range=[-25,25])

# Style du graphique
graph.update_layout(template="plotly_dark")

# Commentaires
graph.add_annotation(x="1920-06-01", text="Maximum d'inflation sur la période", showarrow=True)
graph.show(renderer="browser")
"""

'\ngraph = px.line(CPI_sub, x="date", y="inf_an", title="Pourcentage d\'inflation annuelle de 1914 à 1962",animation_frame="year", animation_group="inf_neg")\n# Légende et format des axes\ngraph.update_xaxes(title="Date", tickformat="%m-%Y",range=[1914-01-1,1963-12-01])\ngraph.update_yaxes(title="Inflation (%)",range=[-25,25])\n\n# Style du graphique\ngraph.update_layout(template="plotly_dark")\n\n# Commentaires\ngraph.add_annotation(x="1920-06-01", text="Maximum d\'inflation sur la période", showarrow=True)\ngraph.show(renderer="browser")\n'

In [104]:
# Premières informations sur les périodes d'inflation négatives: 
CPI_neg=CPI_sub[CPI_sub['inf_neg'] == 1]
CPI_neg['inf_an'].describe()




count    158.000000
mean      -4.149776
std        4.029451
min      -15.789474
25%       -7.680995
50%       -2.228430
75%       -0.980392
max       -0.371747
Name: inf_an, dtype: float64

#### Identification des périodes d'accélération et de descélération

Différence relative par rapport au pourcentage d'inflation d'il y a un an.
A discuter: je pense qu'il est plus intéressant de regarder la différence relative. Pb: des fois on a des pourcentages d'inflation nulle. Ce sont les valeurs infinies dans le tableau. Soit je les laisse telles quelles, soit je les remplace par une valeur (je propose le max de acceleration_12?)

In [105]:
#peut-être à utiliser dans la création du pourcentage d'inflation
# .loc permet de gérer le statut de copie de CPI_sub
#je voulais faire en relatif mais problème avec les pourcentages négatifs (ln) ou nuls(b-a/a)
CPI_sub.loc[:, 'acceleration_12'] = (CPI_sub['inf_an']/CPI_sub['inf_an'].shift(12) - 1)*100 # peut-être
CPI_sub.head(30)
#quand valeur il y a 12 mois=0 inf




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,date,value,year,month,inf_an,inf_neg,acceleration_12
12,1914-01-01,10.0,1914,1,2.040816,0,
13,1914-02-01,9.9,1914,2,1.020408,0,
14,1914-03-01,9.9,1914,3,1.020408,0,
15,1914-04-01,9.8,1914,4,0.0,0,
16,1914-05-01,9.9,1914,5,2.061856,0,
17,1914-06-01,9.9,1914,6,1.020408,0,
18,1914-07-01,10.0,1914,7,1.010101,0,
19,1914-08-01,10.2,1914,8,3.030303,0,
20,1914-09-01,10.2,1914,9,2.0,0,
21,1914-10-01,10.1,1914,10,1.0,0,


Graphique des pourcentages d'accélération (sans avoir remplacé les valeurs infinies)

In [106]:
# Création du graphique (sans avoir remplacé les valeurs infinies)
graph = px.line(CPI_sub, x="date", y="acceleration_12", title="Pourcentage d'accélération de l'inflation annuelle par rapport à sa valeur il y a un an de 1915 à 1962")

# Légende et format des axes
graph.update_xaxes(title="Date", tickformat="%m-%Y")
graph.update_yaxes(title="Accélération (%)")

# Style du graphique
graph.update_layout(template="plotly_dark")

# Commentaires: max, min, moyenne, médiane

meanp=CPI_sub.loc[CPI_sub["acceleration_12"] > 0, "acceleration_12"].mean()
meann=CPI_sub.loc[CPI_sub["acceleration_12"]<0,"acceleration_12"].mean()
medianp=CPI_sub.loc[CPI_sub["acceleration_12"]>0,"acceleration_12"].median()
mediann=CPI_sub.loc[CPI_sub["acceleration_12"]<0,"acceleration_12"].median()


# Pour l'instant l'ajout d'anotations fige le côté interactif du graphique
#graph.add_annotation(x=date_max, y=max, text="Maximum", showarrow=True, xref="x", yref="y") 
#graph.add_annotation(x=date_min, y=min, text="Minimum", showarrow=True)

graph.add_hline(y=meanp, line_dash="dot", line_color="yellow", annotation_text="Accélération moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=medianp, line_dash="dot", line_color="white", annotation_text="Accélération médiane", annotation_position="bottom right", annotation_font_color="white")
graph.add_hline(y=meann, line_dash="dot", line_color="yellow", annotation_text="Décélération moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=mediann, line_dash="dot", line_color="white", annotation_text="Décélération médiane", annotation_position="bottom right", annotation_font_color="white")
#graph.add_hline(y=0, line_color="red")

# Afficher le graphique avec zoom possible et barre à outil
graph.show(renderer="browser",config={"scrollZoom": True, "displayModeBar": True}) #pour l'instant je n'ai pas réussi à résoudre le pb pour que ça s'affiche directement dans le notebook

Graphiques en remplaçant les valeurs infinies par la moyenne de la valeur précédente et de la valeur suivante

In [107]:
# moyenne valeur d'avant et après

# On le fait un nb arbitraire de fois pour traiter les cas de 3,4,5,6 valeurs infinies se suivant. 
# On ne fait pas une boucle while par exemple sur la moyenne pour éviter les boucles infinies

for i in range(5):
    # traitement des valeurs infinies isolées: remplacement par la moyenne entre la valeur précédente et la valeur suivante
    CPI_sub.loc[
        abs(CPI_sub["acceleration_12"]) == np.inf,
        "acceleration_12"
    ] = (CPI_sub["acceleration_12"].shift(1) + CPI_sub["acceleration_12"].shift(-1)) / 2
    #traitement des valeurs infinies suivies de valeurs infinies: remplacement par la valeur précédente
    CPI_sub.loc[
        (abs(CPI_sub["acceleration_12"]) == np.inf) & (abs(CPI_sub["acceleration_12"].shift(-1)) == np.inf),
        "acceleration_12"
    ] = CPI_sub["acceleration_12"].shift(1)

    #traitement des valeurs infinies précédées de valeurs infinies: remplacement par la valeur suivante
    CPI_sub.loc[
        (abs(CPI_sub["acceleration_12"]) == np.inf) & (abs(CPI_sub["acceleration_12"].shift(1)) == np.inf),
        "acceleration_12"
    ] = CPI_sub["acceleration_12"].shift(-1)

CPI_sub.head(20)



Unnamed: 0,date,value,year,month,inf_an,inf_neg,acceleration_12
12,1914-01-01,10.0,1914,1,2.040816,0,
13,1914-02-01,9.9,1914,2,1.020408,0,
14,1914-03-01,9.9,1914,3,1.020408,0,
15,1914-04-01,9.8,1914,4,0.0,0,
16,1914-05-01,9.9,1914,5,2.061856,0,
17,1914-06-01,9.9,1914,6,1.020408,0,
18,1914-07-01,10.0,1914,7,1.010101,0,
19,1914-08-01,10.2,1914,8,3.030303,0,
20,1914-09-01,10.2,1914,9,2.0,0,
21,1914-10-01,10.1,1914,10,1.0,0,


In [108]:
CPI_sub["acceleration_12"].describe()

count     571.000000
mean      -34.855874
std       326.991413
min     -2309.282700
25%      -119.275362
50%       -41.016949
75%        31.073446
max      1587.943262
Name: acceleration_12, dtype: float64

In [109]:
# Création du graphique (sans avoir remplacé les valeurs infinies)
graph = px.line(CPI_sub, x="date", y="acceleration_12", title="Pourcentage d'accélération de l'inflation annuelle par rapport à sa valeur il y a un an de 1915 à 1962")

# Légende et format des axes
graph.update_xaxes(title="Date", tickformat="%m-%Y")
graph.update_yaxes(title="Accélération (%)")

# Style du graphique
graph.update_layout(template="plotly_dark")

# Commentaires: max, min, moyenne, médiane

meanp=CPI_sub.loc[CPI_sub["acceleration_12"] > 0, "acceleration_12"].mean()
meann=CPI_sub.loc[CPI_sub["acceleration_12"]<0,"acceleration_12"].mean()
medianp=CPI_sub.loc[CPI_sub["acceleration_12"]>0,"acceleration_12"].median()
mediann=CPI_sub.loc[CPI_sub["acceleration_12"]<0,"acceleration_12"].median()


# Pour l'instant l'ajout d'anotations fige le côté interactif du graphique
#graph.add_annotation(x=date_max, y=max, text="Maximum", showarrow=True, xref="x", yref="y") 
#graph.add_annotation(x=date_min, y=min, text="Minimum", showarrow=True)

graph.add_hline(y=meanp, line_dash="dot", line_color="yellow", annotation_text="Accélération moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=medianp, line_dash="dot", line_color="white", annotation_text="Accélération médiane", annotation_position="bottom right", annotation_font_color="white")
graph.add_hline(y=meann, line_dash="dot", line_color="yellow", annotation_text="Décélération moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=mediann, line_dash="dot", line_color="white", annotation_text="Décélération médiane", annotation_position="bottom right", annotation_font_color="white")
#graph.add_hline(y=0, line_color="red")

# Afficher le graphique avec zoom possible et barre à outil
graph.show(renderer="browser",config={"scrollZoom": True, "displayModeBar": True}) #pour l'instant je n'ai pas réussi à résoudre le pb pour que ça s'affiche directement dans le notebook

# 2- Analyse de fréquence sur le corpus de presse

## 2.1- Création des fichiers de fréquence

## 2.2- Statistiques descriptives sur les fréquences

In [110]:
# Récupération des données: voir si adaptation une fois les emrges effectués
dates=["1940_1949","1950_1959","1960_1963"]

df = {}

for date in dates: 
    url=(
        "frequences_data_"
        + f"{date}"
        +".csv"
    )
    
    df[f"freq_{date}"] = pd.read_csv(url)




Prise en main d'une table (une décennie)

In [111]:
df["freq_1940_1949"].head()

Unnamed: 0,key,nbre_articles,inflation,disinflation,inflationary,deflation,prices,cost,wages,currency,...,consumption basket,purchasing power,consumer price index,rise in prices,fall in prices,cost of living,inflation expectations,money supply growth,central bank policy,economic price adjustments
0,1940-01,40090,4,0,3,1,778,1557,184,81,...,0,27,0,1,0,11,0,0,0,0
1,1940-02,41579,3,0,2,1,760,1534,177,83,...,0,23,0,1,0,8,0,0,0,0
2,1940-03,47118,0,0,0,1,852,1769,198,75,...,0,18,0,1,0,7,0,0,0,0
3,1940-04,44607,2,0,1,0,802,1622,154,88,...,0,18,0,2,0,5,0,0,0,0
4,1940-05,43840,3,0,2,2,818,1879,216,53,...,0,10,0,1,0,15,0,0,0,0


In [112]:
df["freq_1940_1949"].dtypes

key                           object
nbre_articles                  int64
inflation                      int64
disinflation                   int64
inflationary                   int64
deflation                      int64
prices                         int64
cost                           int64
wages                          int64
currency                       int64
money                          int64
devaluation                    int64
recession                      int64
stagflation                    int64
economy                        int64
market                         int64
increase                       int64
decrease                       int64
cpi                            int64
price level                    int64
wage growth                    int64
economic downturn              int64
monetary policy                int64
cost increase                  int64
cost reduction                 int64
market prices                  int64
inflation rate                 int64
i

In [113]:
desc=df["freq_1940_1949"].describe()
print(desc['nbre_articles'])
desc

count      120.000000
mean     40231.050000
std       7455.826587
min      26207.000000
25%      34875.250000
50%      39018.000000
75%      46568.500000
max      55377.000000
Name: nbre_articles, dtype: float64


Unnamed: 0,nbre_articles,inflation,disinflation,inflationary,deflation,prices,cost,wages,currency,money,...,consumption basket,purchasing power,consumer price index,rise in prices,fall in prices,cost of living,inflation expectations,money supply growth,central bank policy,economic price adjustments
count,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0,...,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0,120.0
mean,40231.05,20.85,0.1,12.025,2.733333,881.791667,1624.791667,301.15,55.55,1162.775,...,0.0,18.241667,0.175,2.416667,0.016667,45.675,0.0,0.0,0.0,0.0
std,7455.826587,20.343128,0.491952,8.806474,2.420964,188.295311,254.656892,124.552486,18.47044,204.308527,...,0.0,9.20175,0.496416,2.136452,0.128556,25.77249,0.0,0.0,0.0,0.0
min,26207.0,0.0,0.0,0.0,0.0,530.0,943.0,97.0,19.0,631.0,...,0.0,2.0,0.0,0.0,0.0,4.0,0.0,0.0,0.0,0.0
25%,34875.25,8.0,0.0,6.0,1.0,738.75,1424.75,222.75,43.0,1009.5,...,0.0,12.75,0.0,1.0,0.0,26.0,0.0,0.0,0.0,0.0
50%,39018.0,16.0,0.0,11.0,2.0,874.0,1607.0,279.5,53.0,1153.0,...,0.0,17.0,0.0,2.0,0.0,45.0,0.0,0.0,0.0,0.0
75%,46568.5,27.0,0.0,16.25,4.0,998.0,1808.5,351.25,67.25,1292.75,...,0.0,22.0,0.0,3.25,0.0,60.0,0.0,0.0,0.0,0.0
max,55377.0,134.0,3.0,50.0,13.0,1416.0,2155.0,797.0,119.0,1646.0,...,0.0,55.0,3.0,13.0,1.0,143.0,0.0,0.0,0.0,0.0


Analyse via le total des articles

In [114]:

df["freq_1940_1949"]['total'] = df["freq_1940_1949"].drop(columns=['key', 'nbre_articles']).sum(axis=1)
df["freq_1940_1949"].head(1)

Unnamed: 0,key,nbre_articles,inflation,disinflation,inflationary,deflation,prices,cost,wages,currency,...,purchasing power,consumer price index,rise in prices,fall in prices,cost of living,inflation expectations,money supply growth,central bank policy,economic price adjustments,total
0,1940-01,40090,4,0,3,1,778,1557,184,81,...,27,0,1,0,11,0,0,0,0,6715


In [115]:
df["freq_1940_1949"]['perc'] = (df["freq_1940_1949"]["total"]/df["freq_1940_1949"]["nbre_articles"])*100
df["freq_1940_1949"].head(1)

Unnamed: 0,key,nbre_articles,inflation,disinflation,inflationary,deflation,prices,cost,wages,currency,...,consumer price index,rise in prices,fall in prices,cost of living,inflation expectations,money supply growth,central bank policy,economic price adjustments,total,perc
0,1940-01,40090,4,0,3,1,778,1557,184,81,...,0,1,0,11,0,0,0,0,6715,16.749813


In [116]:
graph = px.line(df["freq_1940_1949"], x="key", y="perc", title="Pourcentage d'articles mentionnant des termes liés à l'inflation par date pour les années 40")

# Légende et format des axes
graph.update_xaxes(title="Date", tickformat="%m-%Y")
graph.update_yaxes(title="Pourcentage d'articles")

# Style du graphique
graph.update_layout(template="plotly_dark")

mean=df["freq_1940_1949"]["perc"].mean()
median=df["freq_1940_1949"]["perc"].median()

graph.add_hline(y=mean, line_dash="dot", line_color="yellow", annotation_text="Moyenne", annotation_position="top left", annotation_font_color="yellow")
graph.add_hline(y=median, line_dash="dot", line_color="white", annotation_text="Médiane", annotation_position="bottom right", annotation_font_color="white")

# Afficher le graphique avec zoom possible et barre à outil
graph.show(renderer="browser",config={"scrollZoom": True, "displayModeBar": True})

Analyse plus précise selon les termes utilisés

In [125]:
sections = [col for col in df["freq_1940_1949"].columns if col not in ['key','nbre_articles','perc','total']]
print(sections)

# Transform DataFrame from Wide to Long Format
df_long = df["freq_1940_1949"].melt(
    id_vars='key',  
    value_vars=sections,  
    var_name='Section',
    value_name='Value'
)

graph = px.bar(
    df_long,
    x='key',  
    y='Value',    
    color='Section',  
    title='Termes dans le champ lexical de linflation',
    labels={'Value': 'nb articles', 'key': 'Dates'}
)

graph.update_layout(template="plotly_dark")

graph.show(config={"scrollZoom": True, "displayModeBar": True})

['inflation', 'disinflation', 'inflationary', 'deflation', 'prices', 'cost', 'wages', 'currency', 'money', 'devaluation', 'recession', 'stagflation', 'economy', 'market', 'increase', 'decrease', 'cpi', 'price level', 'wage growth', 'economic downturn', 'monetary policy', 'cost increase', 'cost reduction', 'market prices', 'inflation rate', 'interest rates', 'price stability', 'consumption basket', 'purchasing power', 'consumer price index', 'rise in prices', 'fall in prices', 'cost of living', 'inflation expectations', 'money supply growth', 'central bank policy', 'economic price adjustments']


Comparaison avec les pourcentages d'inflation

In [118]:
import plotly.graph_objects as go

In [126]:
#faire par dico aussi
CPI_40=CPI_sub[(CPI_sub['year']>1939) & (CPI_sub['year']<1950) ]

graph = go.Figure()

graph.add_trace(go.Scatter(
    x=CPI_40['date'], 
    y=CPI_40['inf_an'], 
    mode='lines', 
    name='Inflation annuelle',
    yaxis='y'  # Associate with the left y-axis
))

# Add the second trace (right y-axis)
graph.add_trace(go.Scatter(
    x=df["freq_1940_1949"]['key'], 
    y=df["freq_1940_1949"]['perc'], 
    mode='lines', 
    name='Fréquence',
    yaxis='y2'  # Associate with the right y-axis
))

# Update layout with dual y-axes
graph.update_layout(
    title='Comparaison pourcentage inflation annuelle et fréquence',
    xaxis=dict(title='Date'),
    yaxis=dict(title='Pourcentage inflation annuelle', side='left'),
    yaxis2=dict(
        title='Fréquence',
        side='right',
        overlaying='y'  # Overlay on the same plot area
    ),
    template="plotly_dark"
)

# Show the plot
graph.show(config={"scrollZoom": True, "displayModeBar": True})

Comparaison avec les pourcentages d'accélération de l'inflation

In [120]:
#faire la même chose avec accélération

## 3- Régression linéaire

In [127]:
import statsmodels.api as sm

Régression linéaire simple du pourcentage d'inflation sur les fréquences 

In [132]:
# Fusion des tables de fréquence et de pourcentage d'inflation (à faire avant potentiellement)

# Transformation des éléments de la colonne key en objet date
df["freq_1940_1949"]['key'] = pd.to_datetime(df["freq_1940_1949"]['key'])



Unnamed: 0,key,nbre_articles,inflation,disinflation,inflationary,deflation,prices,cost,wages,currency,...,rise in prices,fall in prices,cost of living,inflation expectations,money supply growth,central bank policy,economic price adjustments,total,perc,date
0,1940-01-01,40090,4,0,3,1,778,1557,184,81,...,1,0,11,0,0,0,0,6715,16.749813,1940-01-01
1,1940-02-01,41579,3,0,2,1,760,1534,177,83,...,1,0,8,0,0,0,0,6504,15.642512,1940-02-01
2,1940-03-01,47118,0,0,0,1,852,1769,198,75,...,1,0,7,0,0,0,0,7006,14.869052,1940-03-01
3,1940-04-01,44607,2,0,1,0,802,1622,154,88,...,2,0,5,0,0,0,0,6151,13.789316,1940-04-01
4,1940-05-01,43840,3,0,2,2,818,1879,216,53,...,1,0,15,0,0,0,0,6631,15.125456,1940-05-01
