# Media coverage and climate change: datasets creation

In [2]:
import pandas as pd
import numpy as np
import glob
import os

  from pandas.core.computation.check import NUMEXPR_INSTALLED


### Le Monde

In [15]:
# import data and concatenate into one dataframe

# write your own path
path = r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\Le Monde'
all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

lemonde_df = pd.concat(li, axis=0, ignore_index=True)

# convert dates to datetime type
lemonde_df['date'] = pd.to_datetime(lemonde_df['date'])

# sort by date
lemonde_df.sort_values(by='date', inplace = True) 

# list of dates
dates = list(lemonde_df.date)
dates = np.unique(dates)

# drop unuseful columns
del lemonde_df['Unnamed: 0']

In [16]:
lemonde_df.head(3)

Unnamed: 0,date,publication,words,author,title,intro
130,2013-01-02,Le Monde,786mots,Clément Lacombe et Audrey Tonnelier,2013 sous le signe de l'optimisme en Bourse,"... à appeler l'Europe à l'aide, prévient..."
306,2013-01-02,Le Monde,977mots,Isabelle Regnier,Avis de tempête sur le cinéma français,"... préachetés par France Télévisions, ce..."
205,2013-01-03,Le Monde,629mots,Michel Noblecourt,"2013, année charnière pour le syndicalisme fra...","Sur fond de climat social déprimé, où l'i..."


In [29]:
lemonde_df.to_csv('lemonde_df.csv', index=False)

### Total number of articles

In [9]:
lemonde_all = pd.read_csv(r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\Le Monde_All.csv', index_col=None, header=0)

In [12]:
del lemonde_all['Unnamed: 0']

In [28]:
lemonde_all['year'] = lemonde_all['year'].astype(str)
lemonde_all['month'] = lemonde_all['month'].astype(str)

In [37]:
lemonde_all['date'] = lemonde_all['year'].str.cat(lemonde_all['month'], sep='-')
lemonde_all['date'] = pd.to_datetime(lemonde_all['date']).dt.strftime('%Y-%m')
del lemonde_all['year']
del lemonde_all['month']

In [13]:
lemonde_all.head(3)

Unnamed: 0,year,month,number
0,2013,1,3120
1,2013,2,3145
2,2013,3,3512


In [39]:
lemonde_all.to_csv('lemonde_all.csv', index=False)

## Le monde, v2

In [4]:
# import data and concatenate into one dataframe

# write your own path
path = r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\data_raw_v2'
all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

lemonde_v2 = pd.concat(li, axis=0, ignore_index=True)

# convert dates to datetime type
lemonde_v2['date'] = pd.to_datetime(lemonde_v2['date'])

# sort by date
lemonde_v2.sort_values(by='date', inplace = True) 

# list of dates
dates = list(lemonde_v2.date)
dates = np.unique(dates)

# drop unuseful columns
del lemonde_v2['Unnamed: 0']

In [5]:
lemonde_v2.head(3)

Unnamed: 0,date,publication,words,author,title,intro
22,2013-01-05,Le Monde,401mots,Pierre Le Hir,"Avec le réchauffement, les tourbières se trans...",... pourraient se comporter non plus en pui...
11,2013-01-11,Le Monde,1066mots,"Propos recueillis par Marie-Béatrice Baudet, D...",Christophe de Margerie : « Le changement clima...,"... population mondiale, 2 % des énergies p..."
1,2013-01-16,Le Monde,324mots,P. L. H.,Transition énergétique : le clair-obscur de l'...,... la transition énergétique n'a de vrai s...


In [6]:
lemonde_v2.to_csv('lemonde_v2.csv', index=False)

### Libération

In [4]:
# import data and concatenate into one dataframe

# write your own path
path = r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\Libération'
all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

libé_df = pd.concat(li, axis=0, ignore_index=True)

# convert dates to datetime type
libé_df['date'] = pd.to_datetime(libé_df['date'])

# sort by date
libé_df.sort_values(by='date', inplace = True) 

# list of dates
dates = list(libé_df.date)
dates = np.unique(dates)

# drop unuseful columns
del libé_df['Unnamed: 0']

In [6]:
libé_df.head(3)

Unnamed: 0,date,publication,words,author,title,intro
164,2013-01-02,Libération,621mots,Samuel Lepastier,Evacuons le stress de la rentrée,"... de son mal : travail, chômage, retrai..."
66,2013-01-02,Libération,638mots,Yannick JADOT,Sidérurgie : engageons un bras de fer européen,"... ses profits, l'industriel a même béné..."
162,2013-01-03,Libération,590mots,Gérard Thomas|Corinne Bensimon|Eric Loret|Clai...,Livres. Vient de paraître...,"... dérives, pullulations ou raréfactions..."


In [19]:
libé_df.to_csv('libération_df.csv', index=False)

### Les Echos

In [9]:
# import data and concatenate into one dataframe

# write your own path
path = r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\Les Echos'
all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

echos_df = pd.concat(li, axis=0, ignore_index=True)

# convert dates to datetime type
echos_df['date'] = pd.to_datetime(echos_df['date'])

# sort by date
echos_df.sort_values(by='date', inplace = True) 

# list of dates
dates = list(echos_df.date)
dates = np.unique(dates)

# drop unuseful columns
del echos_df['Unnamed: 0']

In [10]:
echos_df.head(3)

Unnamed: 0,date,publication,words,author,title,intro
142,2013-01-02,Les Echos,380mots,,Le marché du minerai de fer fait le pari de la...,... qui a contribué à réduire l'offre...
180,2013-01-02,Les Echos,432mots,,Pour un choc d'efficacité énergétique,Impitoyable agenda médiatique : à pein...
194,2013-01-03,Les Echos,360mots,,La production de machines-outils allemande s'e...,"... avec une part portée à 9,4 %. Out..."


In [20]:
echos_df.to_csv('lesechos_df.csv', index=False)

### La Croix

In [11]:
# import data and concatenate into one dataframe

# write your own path
path = r'D:\Alexandrine\ENSAE\PDSSS\Projet-ENSAE-DSSS-main\Projet-ENSAE-DSSS-main\Data Collection\Result\La Croix'
all_files = glob.glob(os.path.join(path, "*.csv"))

li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

lacroix_df = pd.concat(li, axis=0, ignore_index=True)

# convert dates to datetime type
lacroix_df['date'] = pd.to_datetime(lacroix_df['date'])

# sort by date
lacroix_df.sort_values(by='date', inplace = True) 

# list of dates
dates = list(lacroix_df.date)
dates = np.unique(dates)

# drop unuseful columns
del lacroix_df['Unnamed: 0']

In [12]:
lacroix_df.head(3)

Unnamed: 0,date,publication,words,author,title,intro
70,2013-01-02,La Croix,779mots,GIULIANI Emmanuelle,"Entretien. Georges Prêtre, chef d'orchestre : ...",... de la précédente et il revient au che...
91,2013-01-02,La Croix,441mots,SCHLUMBERGER Laurent,Opinion. Pour une limite des rémunérations. La...,... L'action économique des dirigeants po...
142,2013-01-03,La Croix,366mots,BIASSETTE Gilles,Roman. Haïti en proie à ses démons,"... Canaan. Comme dans Saisons sauvages,..."


In [21]:
lacroix_df.to_csv('lacroix_df.csv', index=False)