In [80]:
import pandas as pd

In [81]:
df = pd.read_csv("mouvements-sociaux-depuis-2002.csv", sep=";")
df.head()

Unnamed: 0,Date,date_de_fin,Motif exprimé,Organisations syndicales,Métiers ciblés par le préavis,Population devant travailler ciblee par le préavis,Nombre de grévistes du préavis,Taux de grévistes au sein de la population concernée par le préavis
0,2002-03-13,2002-03-15,Journée de manifestation et d'action contre la...,"CGT,SUD Rail,CFDT,FO","conducteur,agent de manoeuvre,chef de bord,acc...",28760.0,1491.0,5.2
1,2003-02-10,2003-02-12,Journée d'action des agents du Matériel : moye...,"CGT,CFDT,CFTC","agent de manoeuvre,logistique,ingénierie et ma...",3935.0,694.0,17.6
2,2003-05-22,2003-05-22,Revendications suite au discussions sur le règ...,SUD Rail,"conducteur,agent de manoeuvre,chef de bord,acc...",126896.0,8.0,0.0
3,2003-05-25,,Retraites.,"CGT,SUD Rail,CFDT,FO","conducteur,agent de manoeuvre,chef de bord,acc...",557.0,23.0,4.1
4,2004-05-12,2004-05-14,Politique de l'emploi (besoins service public ...,"CGT,SUD Rail,CFDT,FO","conducteur,agent de manoeuvre,chef de bord,acc...",137739.0,30472.0,22.1


In [82]:
# Convertir la colonne 'Date' en type datetime
df['Date'] = pd.to_datetime(df['Date'])
df = df.sort_values(by='Date')

# Sélectionner les lignes où la colonne 'Date' est à partir de 2020
df = df[df['Date'] >= '2020-01-01']

df.head()

Unnamed: 0,Date,date_de_fin,Motif exprimé,Organisations syndicales,Métiers ciblés par le préavis,Population devant travailler ciblee par le préavis,Nombre de grévistes du préavis,Taux de grévistes au sein de la population concernée par le préavis
447,2020-01-01,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,16.8
255,2020-01-02,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,6.9
349,2020-01-03,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,6.2
448,2020-01-04,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,12.6
173,2020-01-05,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,12.6


In [83]:
print(df.isna().sum())

Date                                                                    0
date_de_fin                                                            85
Motif exprimé                                                           0
Organisations syndicales                                                0
Métiers ciblés par le préavis                                          85
Population devant travailler ciblee par le préavis                     85
Nombre de grévistes du préavis                                         85
Taux de grévistes au sein de la population concernée par le préavis     0
dtype: int64


On va conserver uniquement les manifestations qui ont des syndicats communs à la RATP et la SNCF

In [84]:
# Liste des syndicats à vérifier
syndicats = ['CGT', 'CFDT', 'SUD-Rail', 'UNSA', 'FO']

# Fonction pour vérifier si au moins un syndicat est présent dans la liste
def contains_syndicat(row, syndicats):
    return any(syndicat in row for syndicat in syndicats)

# Appliquer la fonction à la colonne 'Organisations'
df_filtered = df[df['Organisations syndicales'].apply(contains_syndicat, syndicats=syndicats)]

df_filtered.head()

Unnamed: 0,Date,date_de_fin,Motif exprimé,Organisations syndicales,Métiers ciblés par le préavis,Population devant travailler ciblee par le préavis,Nombre de grévistes du préavis,Taux de grévistes au sein de la population concernée par le préavis
447,2020-01-01,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,16.8
255,2020-01-02,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,6.9
349,2020-01-03,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,6.2
448,2020-01-04,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,12.6
173,2020-01-05,,Réforme des retraites,"CGT,SUD Rail,CFDT,FO,UNSA",,,,12.6


Je conserve uniquement l'info du taux de gréviste journalier car seul porteur d'information

In [85]:
df_filtered = df_filtered[['Date', 'Taux de grévistes au sein de la population concernée par le préavis']]
df_filtered = df_filtered.rename(columns={'Taux de grévistes au sein de la population concernée par le préavis': 'striker_ratio'})
df_filtered = df_filtered.rename(columns={'Date': 'date'})

In [86]:
df_filtered.head()

Unnamed: 0,date,striker_ratio
447,2020-01-01,16.8
255,2020-01-02,6.9
349,2020-01-03,6.2
448,2020-01-04,12.6
173,2020-01-05,12.6


For the dates with no strike, let's give them the value 0 

In [87]:
start_date = '2020-01-01'
end_date = '2021-12-31'

# Créer une série de toutes les dates de la période souhaitée
all_dates = pd.date_range(start=start_date, end=end_date)

# Convertir la série de dates en DataFrame
all_dates_df = pd.DataFrame(all_dates, columns=['date'])

# Fusionner les dates avec le DataFrame d'origine
df_completed = pd.merge(all_dates_df, df_filtered, on='date', how='left')

# Remplir les valeurs manquantes de striker_ratio avec 0
df_completed['striker_ratio'] = df_completed['striker_ratio'].fillna(0)

In [88]:
hours = pd.DataFrame({'hour': range(24)})

# Fusionner les heures avec le DataFrame d'origine
df_completed['key'] = 1
hours['key'] = 1
df_full = pd.merge(df_completed, hours, on='key').drop('key', axis=1)
df_full['striker_ratio'] = df_full.groupby('date')['striker_ratio'].ffill()

df_full['date'] = pd.to_datetime(df_full['date'].astype(str) + ' ' + df_full['hour'].astype(str) + ':00:00')
df_full = df_full.drop(columns='hour')

In [89]:
df_full.head()

Unnamed: 0,date,striker_ratio
0,2020-01-01 00:00:00,16.8
1,2020-01-01 01:00:00,16.8
2,2020-01-01 02:00:00,16.8
3,2020-01-01 03:00:00,16.8
4,2020-01-01 04:00:00,16.8


In [90]:
df_full['striker_ratio'].dtype

dtype('float64')

In [91]:
df_full.to_csv("Propre_strikes.csv", index=False)