In [20]:
# Pour lire les données
from bs4 import BeautifulSoup
import pandas as pd

# analys sentiments
from textblob import TextBlob
import statistics

# Pour le prétraitement des données
# Token et filtre et lemma
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer


In [2]:
with open('../data/grexit.txt', 'r', encoding='utf-8') as file:
        brexit = file.read()

In [3]:
soup = BeautifulSoup(brexit, 'html.parser') 
texts = soup.find_all('text')

grexit_data = pd.DataFrame(columns=['id', 'title', 'author', 'year', 'date', 'section', 'sourcename', 'text'])

for text in texts:
    text_data = {
        'id': text.get('id'),
        'title': text.get('title'),
        'author': text.get('author'),
        'year': text.get('year'),
        'date': text.get('date'),
        'section': text.get('section'),
        'sourcename': text.get('sourcename'),
        'text': text.get_text(separator=" ", strip=True)
    }
    grexit_data = pd.concat([grexit_data, pd.DataFrame([text_data])], ignore_index=True)

In [4]:
grexit_data

Unnamed: 0,id,title,author,year,date,section,sourcename,text
0,1,La BCE avance sur le terrain des rachats d'act...,,2015,02/01/2015,,Les Echos,La BCE avance sur le terrain des rachats d'act...
1,2,"L'euro, atout stratégique pour les Baltes",CHRISTOPHE LUCET c.lucet@sudouest.fr,2015,02/01/2015,,Sud Ouest - Toutes éditions,"L'euro, atout stratégique pour les Baltes Al'h..."
2,3,Berlin fait pression sur Athènes avant les éle...,,2015,05/01/2015,,Les Echos,Berlin fait pression sur Athènes avant les éle...
3,4,grèce,Bruno Odent,2015,05/01/2015,,l'Humanité,grèce Merkel laisse « fuiter » qu'elle serait ...
4,5,Grèce,,2015,05/01/2015,,Le Figaro,Grèce Le débat sur le « grexit » relancé en Al...
...,...,...,...,...,...,...,...,...
1180,1181,Pierre Moscovici Commissaire européen,GUILLAUME MAUJEAN,2016,12/12/2016,,Les Echos,Pierre Moscovici Commissaire européen 2017 : «...
1181,1182,"Abandonner l'euro, c'est faire le lit des nati...",,2016,13/12/2016,,Libération,"Abandonner l'euro, c'est faire le lit des nati..."
1182,1183,Royaume-Uni,,2016,16/12/2016,,La Croix,Royaume-Uni Passé à la postérité avec le référ...
1183,1184,L'Europe face à la montée des populismes,"Malhère, Manon",2016,30/12/2016,,Le Figaro,L'Europe face à la montée des populismes Débou...


# Nettoie

In [24]:
nltk.download('punkt')   # Pour la tokenisation

nltk.download('stopwords')  # Pour els mots d'arrêts

nltk.download('wordnet')  # Pour Lemmatisaion
grexit_token = [word_tokenize(texte) for texte in grexit_data['text']]

mots_arret = set(stopwords.words('french'))
grexit_filtre = []
for article in grexit_token:
    article_filtre = [mot for mot in article if mot.lower() not in mots_arret]
    grexit_filtre.append(article_filtre)
    
lemma = WordNetLemmatizer()
grexit_lemma = []
for article in grexit_filtre:
    article_lemma = [lemma.lemmatize(mot) for mot in article]
    grexit_lemma.append(article_lemma)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mbrei\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mbrei\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mbrei\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [32]:
brexit_full=[]
for article in brexit_lemma:
    brexit_full.append(' '.join(article))

In [33]:
brexit_full

["BCE avance terrain rachats d'actifs 2015 Banque centrale européenne continue préparer terrain nouvelles mesures non conventionnelles lutter contre risque déflation . Peter Praet , chef économiste , a reconnu entretien journal allemand « Börsen Zeitung » mesures monétaires prises ( achat d'actifs titrisés , prêts préférentiels banques ... ) pourraient suffire , d'autant chute prix pétrole risque d'entraîner l'inflation territoire négatif « pendant bonne partie 2015 » . rappelle effet anticipation d'inflation « extrêmement fragiles » . baisse cours pétrole fait déjà sentir , comme Espagne , où prix consommation reculé 1,1 % mois décembre , plus forte baisse depuis juillet 2009 . Alors principal taux directeur BCE proche 0 , marge manoeuvre l'institution réduit . « Si analyse qu'il a besoin d'un nouveau soutien monétaire si disposé réduire taux cela n'est plus possible , alors doi être paralysé l'idée seule option reste l'achat d'obligations souveraines » , a insisté Peter Praet , avant

In [25]:
grexit_data.groupby('sourcename')
grexit_data['sourcename'].value_counts()

sourcename
Le Monde                                288
Le Figaro                               229
Les Echos                               188
Libération                              116
l'Humanité                               82
Sud Ouest - Toutes éditions              48
La Croix                                 45
Ouest-France - Toutes éditions           34
L'Est Républicain - Toutes               28
Le Parisien                              27
Midi Libre - CATALAN_ML                  23
L'Est Républicain                        19
La Voix du Nord - Toutes éditions        15
Le Progrès - Lyon                        10
Le Progrès - Lyon - VAC                   9
Le Progrès - Lyon - JUR                   7
Ouest-France                              3
L'Est Républicain - Franche-Comté         2
L'Est Républicain - Doubs-Haut Doubs      2
Le Parisien - Paris                       2
Ouest-France - Maine-et-Loire             1
Sud Ouest - Bordeaux Rive Gauche          1
Le Progrès - Lyon - L

In [30]:
journal = ['Les Echos', 'Le Monde', 'Le Figaro', 'Libération','La Croix']
subjectivite = []

for i in range(len(journal)):
    data = grexit_lemma.groupby('sourcename').get_group(journal[i])
    brexit_subj = []
    for article in data["text"]:
        article_subj = TextBlob(article).sentiment.subjectivity
        brexit_subj.append(article_subj)
    subj_mean = statistics.mean(brexit_subj)
    subjectivite.append(subj_mean)
    print(i)

AttributeError: 'list' object has no attribute 'groupby'

In [27]:
pd.DataFrame({'Journal':journal, 'Subjectivité moyenne':subjectivite})

Unnamed: 0,Journal,Subjectivité moyenne
0,Les Echos,0.486034
1,Le Monde,0.495041
2,Le Figaro,0.446185
3,Libération,0.560384
4,La Croix,0.494879


In [28]:
polarite = []

for i in range(len(journal)):
    data = grexit_data.groupby('sourcename').get_group(journal[i])
    grexit_pola = []
    for article in data["text"]:
        article_pola = TextBlob(article).sentiment.polarity
        grexit_pola.append(article_pola)
    pola_mean = statistics.mean(grexit_pola)
    polarite.append(pola_mean)
    print(i)

0
1
2
3
4


In [29]:
pd.DataFrame({'Journal':journal, 'Polarite moyenne':polarite})

Unnamed: 0,Journal,Polarite moyenne
0,Les Echos,0.038478
1,Le Monde,0.022104
2,Le Figaro,0.039861
3,Libération,0.056145
4,La Croix,0.040121
