# Media coverage and climate change: datasets creation

The raw datasets we import here can be found in the 'data collection/data_raw_final' folder of the github repository.

In [1]:
import pandas as pd
import numpy as np
import glob
import os

  from pandas.core.computation.check import NUMEXPR_INSTALLED


### Le Monde

In [6]:
# import data

lemonde = pd.read_csv('Le Monde.csv')

# convert dates to datetime type
lemonde['date'] = pd.to_datetime(lemonde['date'])

# sort by date
lemonde.sort_values(by='date', inplace = True) 

# drop unuseful columns
del lemonde['Unnamed: 0']

In [7]:
lemonde.head(3)

Unnamed: 0,date,publication,words,author,title,intro
0,2013-01-05,Le Monde,401mots,Pierre Le Hir,"Avec le réchauffement, les tourbières se trans...",... pourraient se comporter non plus en pui...
1,2013-01-11,Le Monde,1066mots,"Propos recueillis par Marie-Béatrice Baudet, D...",Christophe de Margerie : « Le changement clima...,"... population mondiale, 2 % des énergies p..."
2,2013-01-16,Le Monde,324mots,P. L. H.,Transition énergétique : le clair-obscur de l'...,... la transition énergétique n'a de vrai s...


In [8]:
lemonde.to_csv('lemonde.csv', index=False)

### Total number of articles

In [10]:
lemonde_all = pd.read_csv('Le Monde_All.csv', index_col=None)

In [11]:
del lemonde_all['Unnamed: 0']

In [13]:
lemonde_all['year'] = lemonde_all['year'].astype(str)
lemonde_all['month'] = lemonde_all['month'].astype(str)

In [14]:
lemonde_all['date'] = lemonde_all['year'].str.cat(lemonde_all['month'], sep='-')
lemonde_all['date'] = pd.to_datetime(lemonde_all['date']).dt.strftime('%Y-%m')
del lemonde_all['year']
del lemonde_all['month']

In [15]:
lemonde_all.head(3)

Unnamed: 0,number,date
0,3120,2013-01
1,3145,2013-02
2,3512,2013-03


In [16]:
lemonde_all.to_csv('lemonde_all.csv', index=False)

### Libération

In [18]:
# import data

libé = pd.read_csv('Libération.csv')

# convert dates to datetime type
libé['date'] = pd.to_datetime(libé['date'])

# sort by date
libé.sort_values(by='date', inplace = True) 

# drop unuseful columns
del libé['Unnamed: 0']

In [19]:
libé.head(3)

Unnamed: 0,date,publication,words,author,title,intro
0,2013-01-04,Libération,444mots,Eliane Patriarca|Recueilli par Éliane Patriarca,«Le Rhône devrait perdre 30 % de son débit d'i...,... cause : le quart sudest de la France es...
1,2013-01-19,Libération,705mots,Lilian Alemagna,«Je m'occupe de la lutte contre le changement ...,"... ministère du Développement, de continue..."
2,2013-01-23,Libération,561mots,Sylvestre Huet,"Consommation électrique, le jus 2012",... des objectifs de la transition énergéti...


In [41]:
libé.to_csv('libé.csv', index=False)

In [21]:
libé_all = pd.read_csv('Libération_All.csv', index_col=None)

del libé_all['Unnamed: 0']

libé_all['year'] = libé_all['year'].astype(str)
libé_all['month'] = libé_all['month'].astype(str)

libé_all['date'] = libé_all['year'].str.cat(libé_all['month'], sep='-')
libé_all['date'] = pd.to_datetime(libé_all['date']).dt.strftime('%Y-%m')
del libé_all['year']
del libé_all['month']

libé_all.head(3)

Unnamed: 0,number,date
0,2292,2013-01
1,2184,2013-02
2,2161,2013-03


In [22]:
libé_all.to_csv('libé_all.csv', index=False)

### Les Echos

In [23]:
# import data

lesechos = pd.read_csv('Les Echos.csv')

# convert dates to datetime type
lesechos['date'] = pd.to_datetime(lesechos['date'])

# sort by date
lesechos.sort_values(by='date', inplace = True) 

# drop unuseful columns
del lesechos['Unnamed: 0']

In [24]:
lesechos.head(3)

Unnamed: 0,date,publication,words,author,title,intro
0,2013-01-04,Les Echos,478mots,,Economie verte : méfions-nous des marchands de...,"... Leoni, que cite aussi M. Lecaussin, est u..."
1,2013-01-10,Les Echos,619mots,,Les crises de l'après-crise,... l'euro et le « mur budgétaire américain »...
2,2013-01-15,Les Echos,730mots,,Risques : les scénarios noirs de Davos,... large a le mérite de mêler des sujets qui...


In [25]:
lesechos.to_csv('lesechos.csv', index=False)

In [26]:
lesechos_all = pd.read_csv('Les Echos_All.csv', index_col=None)

del lesechos_all['Unnamed: 0']

lesechos_all['year'] = lesechos_all['year'].astype(str)
lesechos_all['month'] = lesechos_all['month'].astype(str)

lesechos_all['date'] = lesechos_all['year'].str.cat(lesechos_all['month'], sep='-')
lesechos_all['date'] = pd.to_datetime(lesechos_all['date']).dt.strftime('%Y-%m')
del lesechos_all['year']
del lesechos_all['month']

lesechos_all.head(3)

Unnamed: 0,number,date
0,3503,2013-01
1,3349,2013-02
2,3600,2013-03


In [31]:
lesechos_all.to_csv('lesechos_all.csv', index=False)

### La Croix

In [27]:
# import data

lacroix = pd.read_csv('La Croix.csv')

# convert dates to datetime type
lacroix['date'] = pd.to_datetime(lacroix['date'])

# sort by date
lacroix.sort_values(by='date', inplace = True) 

# drop unuseful columns
del lacroix['Unnamed: 0']

In [28]:
lacroix.head(3)

Unnamed: 0,date,publication,words,author,title,intro
0,2013-01-03,La Croix,552mots,PERRET Bernard,Forum. Une année perdue pour la planète. Berna...,Aborder la question du changement climatiq...
1,2013-01-09,La Croix,312mots,COMETTI Laure,Le sud-est de l'Australie en flammes,"... le climatologue Hervé Le Treut, il est ..."
2,2013-01-29,La Croix,139mots,,Les trois quarts des Français font confiance a...,... en 2011 sur les Français et leur connaiss...


In [29]:
lacroix.to_csv('lacroix.csv', index=False)

In [30]:
lacroix_all = pd.read_csv('La Croix_All.csv', index_col=None)

del lacroix_all['Unnamed: 0']

lacroix_all['year'] = lacroix_all['year'].astype(str)
lacroix_all['month'] = lacroix_all['month'].astype(str)

lacroix_all['date'] = lacroix_all['year'].str.cat(lacroix_all['month'], sep='-')
lacroix_all['date'] = pd.to_datetime(lacroix_all['date']).dt.strftime('%Y-%m')
del lacroix_all['year']
del lacroix_all['month']

lacroix_all.head(3)

Unnamed: 0,number,date
0,2266,2013-01
1,1821,2013-02
2,1838,2013-03


In [32]:
lacroix_all.to_csv('lacroix_all.csv', index=False)

### Le Figaro

In [36]:
# import data

lefigaro = pd.read_csv('Le Figaro.csv')

# convert dates to datetime type
lefigaro['date'] = pd.to_datetime(lefigaro['date'])

# sort by date
lefigaro.sort_values(by='date', inplace = True) 

# drop unuseful columns
del lefigaro['Unnamed: 0']

In [37]:
lefigaro.head(3)

Unnamed: 0,date,publication,words,author,title,intro
0,2013-01-12,Le Figaro,620mots,Joseph Nye,Ce que sera le monde en 2030,... pour résoudre les problèmes dus à la cr...
1,2013-01-15,Le Figaro,362mots,Adèle SmithÀ New York À New York,Tollé aux États-Unis face à l'arrivée d'al-Jaz...,... qualifiée de « terroriste » par certa...
2,2013-01-25,Le Figaro,110mots,,[hervé guiriec...],"... Bruno Julien, appelé à de nouvelles fonct..."


In [38]:
lefigaro.to_csv('lefigaro.csv', index=False)

In [39]:
lefigaro_all = pd.read_csv('Le Figaro_All.csv', index_col=None)

del lefigaro_all['Unnamed: 0']

lefigaro_all['year'] = lefigaro_all['year'].astype(str)
lefigaro_all['month'] = lefigaro_all['month'].astype(str)

lefigaro_all['date'] = lefigaro_all['year'].str.cat(lefigaro_all['month'], sep='-')
lefigaro_all['date'] = pd.to_datetime(lefigaro_all['date']).dt.strftime('%Y-%m')
del lefigaro_all['year']
del lefigaro_all['month']

lefigaro_all.head(3)

Unnamed: 0,number,date
0,5825,2013-01
1,5579,2013-02
2,5737,2013-03


In [40]:
lefigaro_all.to_csv('lefigaro_all.csv', index=False)