# EDA

In [1]:
import os
from datetime import datetime

import pandas as pd
import requests
from bs4 import BeautifulSoup

PATH_SIGNING_PARTNERS = "../data_public/signataire_charte/"
COLUMN_NAME_MAPPING = {"Nom": "nom", "Prénom": "prenom", "Fonction": "fonction", "Média ou organisation": "media_organisation"}

def load_signing_partners_data(latest=True):
    latest_data_path = PATH_SIGNING_PARTNERS + sorted(os.listdir(PATH_SIGNING_PARTNERS))[0]
    df = pd.read_csv(latest_data_path +'/' + os.listdir(latest_data_path)[0])
    df.rename(columns=COLUMN_NAME_MAPPING, inplace=True)
    return df

In [2]:
df = load_signing_partners_data()

In [3]:
df

Unnamed: 0,nom,prenom,fonction,media_organisation
0,Aballain,Olivier,Directeur des formations au journalisme,ESJ Lille
1,Abalo,André,JRI,France Télévision
2,Abbiateci,Jean,Journaliste,
3,Aboudou,Djamiou,Journaliste,L’Emissaire
4,Acar,Anne-Lucie,Journaliste,Free-lance
...,...,...,...,...
1542,Zbinden,Wendy,Journaliste,Pigiste
1543,Zeimet,Stéphanie,Journaliste-éditrice digitale,L’Echo Républicain-Centre France
1544,Zine,Ghita,Journaliste,
1545,Zucchet,Romy,Directrice de publication,Brillante Magazine


In [4]:
fonction_group = df.groupby(by="fonction")
pd.set_option('display.max_rows', None)
fonction_group.count().sort_values("nom", ascending=False)

Unnamed: 0_level_0,nom,prenom,media_organisation
fonction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Journaliste,529,529,510
journaliste,54,54,50
Rédacteur en chef,38,38,38
Rédactrice en chef,36,36,36
Journaliste indépendante,25,25,21
Journaliste pigiste,20,20,17
Journaliste indépendant,11,11,8
Pigiste,11,11,10
Reporter,11,11,11
Journaliste reporter,10,10,10


In [5]:
media_group = df.groupby(by="media_organisation")
media_group.count().sort_values("nom", ascending=False)

Unnamed: 0_level_0,nom,prenom,fonction
media_organisation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Indépendante,56,56,56
Pigiste,53,53,53
Indépendant,40,40,40
France Télévisions,29,29,29
France 3,14,14,14
indépendante,13,13,13
Freelance,13,13,13
Libération,13,13,13
pigiste,11,11,11
France 24,10,10,10


In [6]:
df["media_organisation"].sort_values()

280                                           (freelance)
625                                   (à titre personnel)
1307                                         , Libération
1424                                                    .
424                                                     /
124                                                     /
500            180 Sports / Canal+ / Sud Radio / L’Equipe
875                                         1RCF Belgique
1214                                           20 Minutes
1175                                           20 Minutes
813                                            20 Minutes
431                                            20 Minutes
1271                                           20 Minutes
928                                            20 Minutes
1503                                      2030 Glorieuses
924                                   28 minutes sur Arte
657                                                  2ACR
1077          

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1547 entries, 0 to 1546
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   nom                 1547 non-null   object
 1   prenom              1547 non-null   object
 2   fonction            1540 non-null   object
 3   media_organisation  1484 non-null   object
dtypes: object(4)
memory usage: 48.5+ KB


In [8]:
pd.set_option('display.max_rows', 10)
df[df["fonction"].isna()]

Unnamed: 0,nom,prenom,fonction,media_organisation
540,Ecole De Journalisme De Grenoble,Ejdg,,Université Grenoble Alpes / Institut d’Etudes ...
781,Horizon(s),Nan,,"Horizon(s), le mag local écologique et social"
897,Le Coz,Clothilde,,Journalisme et Citoyenneté (Les Assises intern...
1126,Novethic,Nan,,Novethic
1228,Profession : Pigiste,Nan,,
1380,Sdj De Geo (prisma Media),Nan,,
1419,Syndicat national des journalistes cgt (snj-Cgt),Nan,,


In [9]:
df["fonction"].fillna("NR", inplace=True)

In [10]:
df[df["fonction"] == "NR"]

Unnamed: 0,nom,prenom,fonction,media_organisation
540,Ecole De Journalisme De Grenoble,Ejdg,NR,Université Grenoble Alpes / Institut d’Etudes ...
781,Horizon(s),Nan,NR,"Horizon(s), le mag local écologique et social"
897,Le Coz,Clothilde,NR,Journalisme et Citoyenneté (Les Assises intern...
1126,Novethic,Nan,NR,Novethic
1228,Profession : Pigiste,Nan,NR,
1380,Sdj De Geo (prisma Media),Nan,NR,
1419,Syndicat national des journalistes cgt (snj-Cgt),Nan,NR,


In [11]:
df[df["media_organisation"].isna()]

Unnamed: 0,nom,prenom,fonction,media_organisation
2,Abbiateci,Jean,Journaliste,
62,Bachelot,Manon,Journaliste réalisatrice,
69,Balcaen,Colombine,Etudiante en M2 Climat et Médias,
70,Baldos,Raphaël,Journaliste,
127,Berni,Victoria,Journaliste indépendante,
...,...,...,...,...
1465,Tyrakowski,Maxime,Etudiant en journalisme,
1475,Valentin,Anne-Sophie,Journaliste,
1496,Vergne,Charline,Journaliste web,
1511,Vinchon,Timothée,Journaliste indépendant,


In [12]:
df["media_organisation"].fillna("NR", inplace=True)

In [13]:
df[df["media_organisation"].isna()]

Unnamed: 0,nom,prenom,fonction,media_organisation


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1547 entries, 0 to 1546
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   nom                 1547 non-null   object
 1   prenom              1547 non-null   object
 2   fonction            1547 non-null   object
 3   media_organisation  1547 non-null   object
dtypes: object(4)
memory usage: 48.5+ KB


# Text processing

In [15]:
%load_ext autoreload
%autoreload 2

In [16]:
from nltk.stem.snowball import SnowballStemmer
from nltk import word_tokenize

In [17]:
stemmer = SnowballStemmer(language='french')

In [18]:
sent = "pommes, noisettes dorées & moelleuses, la boîte de 350g"
word_tokenize(sent)

['pommes',
 ',',
 'noisettes',
 'dorées',
 '&',
 'moelleuses',
 ',',
 'la',
 'boîte',
 'de',
 '350g']

In [19]:
[stemmer.stem(word) for word in word_tokenize(sent)]

['pomm',
 ',',
 'noiset',
 'dor',
 '&',
 'moelleux',
 ',',
 'la',
 'boît',
 'de',
 '350g']

In [20]:
' '.join([stemmer.stem(word) for word in word_tokenize(sent)])

'pomm , noiset dor & moelleux , la boît de 350g'

In [21]:
import spacy

In [22]:
nlp = spacy.load('fr_core_news_sm')

In [23]:
df.sample(10)

Unnamed: 0,nom,prenom,fonction,media_organisation
392,Cuxac,Anna,Rédactrice en chef de Causette.fr,Causette
1318,Ropert,Pierre,Journaliste,France Culture
1515,Vire,Emmanuel,Journaliste et secrétaire général du SNJ-CGT,GEO / SNJ-CGT
894,Le Bot,Julien,"Journaliste, auteur-réalisateur et responsable...",Samsa.fr + Indépendant
1077,Montfort,Clement,Realisateur,42 Production – NEXT
236,Brunet,Stella,Journaliste,Le Réveil du Vivarais
1267,Raynaud,Olivier,Dessinateur d’actualité,OLIVIER RAYNAUD
486,Diebold,Jean-Baptiste,Cofondateur,Ginkio
745,Haltz,Adele,Journaliste réalisatrice,Variable
1435,Thiollier,Fred,Secrétaire de rédaction,Bayard Presse


In [24]:
pd.set_option('display.max_rows', None)
fonction_group.count().sort_values("nom", ascending=False)

Unnamed: 0_level_0,nom,prenom,media_organisation
fonction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Journaliste,529,529,529
journaliste,54,54,54
Rédacteur en chef,38,38,38
Rédactrice en chef,36,36,36
Journaliste indépendante,25,25,25
Journaliste pigiste,20,20,20
Journaliste indépendant,11,11,11
Pigiste,11,11,11
Reporter,11,11,11
Journaliste reporter,10,10,10


In [37]:
import unidecode

def process_text_signing_journalists(df):
    #process_text_job_title(df)
    df = process_text_media_organization_name(df)
    return df

def process_text_media_organization_name(df):
    #name = unidecode.unidecode(name)
    df["lowered_media_organisation"] = df["media_organisation"].str.lower()
    df["lowered_media_organisation"] = df["lowered_media_organisation"].apply(remove_accent)
    #df["tokenized_media_organisation"] = ""
    df["stemmed_media_organisation"] = ""
    #df["lemmatized_media_organisation"] = ""
    
    for index, row in df.iterrows():
        text = nlp(row["lowered_media_organisation"])
        #df.loc[index, "tokenized_media_organisation"] = [word.text for word in text]
        df.loc[index, "stemmed_media_organisation"] = ' '.join([stemmer.stem(word.text) for word in text])
        #df.loc[index, "lemmatized_media_organisation"] = [word.lemma_ for word in text]
        
    return df

def remove_accent(text):
    return unidecode.unidecode(text)

In [38]:
df = process_text_media_organization_name(df)

In [27]:
df

Unnamed: 0,nom,prenom,fonction,media_organisation,lowered_media_organisation,stemmed_media_organisation
0,Aballain,Olivier,Directeur des formations au journalisme,ESJ Lille,esj lille,esj lill
1,Abalo,André,JRI,France Télévision,france télévision,franc télévis
2,Abbiateci,Jean,Journaliste,NR,nr,nr
3,Aboudou,Djamiou,Journaliste,L’Emissaire,l’emissaire,l’ emissair
4,Acar,Anne-Lucie,Journaliste,Free-lance,free-lance,fre - lanc
5,Ackermann,Pierre,COPIL,Demain en mains,demain en mains,demain en main
6,Adaoust,Camille,Journaliste spécialisée climat-environnement,Franceinfo.fr,franceinfo.fr,franceinfo.fr
7,Advocat,Raoul,journaliste,France 3,france 3,franc 3
8,Aeschimann,Pierre-Eric,Journaliste,L’Obs,l’obs,l’ ob
9,Agorram,Laïla,Journaliste,France 3,france 3,franc 3


In [28]:
pd.set_option('display.max_rows', None)
media_group.count().sort_values("nom", ascending=False)

Unnamed: 0_level_0,nom,prenom,fonction
media_organisation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Indépendante,56,56,56
Pigiste,53,53,53
Indépendant,40,40,40
France Télévisions,29,29,29
France 3,14,14,14
indépendante,13,13,13
Freelance,13,13,13
Libération,13,13,13
pigiste,11,11,11
France 24,10,10,10


In [39]:
media_group = df.groupby(by="stemmed_media_organisation")
media_group.count().sort_values("nom", ascending=False)

Unnamed: 0_level_0,nom,prenom,fonction,media_organisation,lowered_media_organisation
stemmed_media_organisation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
independ,118,118,118,118,118
pigist,64,64,64,64,64
nr,63,63,63,63,63
franc televis,38,38,38,38,38
freelanc,16,16,16,16,16
franceinfo.fr,15,15,15,15,15
liber,14,14,14,14,14
franc 3,14,14,14,14,14
esj lill,12,12,12,12,12
ecol de journal de cann,12,12,12,12,12


Questions :
- faut-il retirer la ponctuation ?
- comment gérer les personnes travaillant pour plusieurs médias ? Par exemple : "180 sport / canal+ / sud radio / l' equip".
    - En sachant que la séparation varie d'une personne à l'autre, ici on a "/" alors que pour d'autres on a ",".
    - Comment identifier et normaliser leurs médias dans ce cas ?
- comment et quand normaliser les noms des médias quand ils sont écrits différemment ? Par exemple : "France Télévisions" et "France TV"

In [40]:
df["stemmed_media_organisation"].sort_values()

625                                  ( a titr personnel )
280                                          ( freelanc )
1307                                              , liber
1155                                                    -
1424                                                    .
424                                                     /
124                                                     /
500             180 sport / canal+ / sud radio / l' equip
875                                          1rcf belgiqu
813                                              20 minut
1214                                             20 minut
1271                                             20 minut
1175                                             20 minut
928                                              20 minut
431                                              20 minut
1503                                        2030 glorieux
924                                     28 minut sur arte
657           

In [41]:
from sklearn.feature_extraction.text import CountVectorizer

In [46]:
import numpy as np

vectorizer = CountVectorizer(ngram_range=(1,3))
text_cv_sparse = vectorizer.fit_transform(df["stemmed_media_organisation"])
df_X = pd.DataFrame(text_cv_sparse.todense())
df_X.columns = vectorizer.get_feature_names()

df_word_frequency = pd.DataFrame(np.asarray(text_cv_sparse.sum(axis=0).T), 
                                 index=vectorizer.get_feature_names(), columns=['frequency'])



In [47]:
df_word_frequency.sort_values(by='frequency')

Unnamed: 0,frequency
la gastronom vegetal,1
medisit,1
medtronic,1
membr de,1
membr de jne,1
membr desjn,1
membr du,1
membr du collect,1
memento,1
memento product,1


In [47]:
doc = nlp("180 Sports / Canal+ / Sud Radio / L’Equipe")

In [56]:
[mot.lemma_ for mot in doc]

['180', 'sport', '/', 'canal+', '/', 'Sud', 'Radio', '/', 'L’', 'Equipe']

In [15]:
for mot in doc:
    print(mot.text)

180
Sports
/
Canal+
/
Sud
Radio
/
L’
Equipe


In [17]:
for mot in doc:
    print(mot.text, mot.pos_, mot.dep_)

180 NUM nummod
Sports NOUN ROOT
/ CCONJ cc
Canal+ NOUN conj
/ CCONJ cc
Sud PROPN nmod
Radio PROPN ROOT
/ CCONJ cc
L’ PROPN conj
Equipe PROPN ROOT


In [12]:
import sys
sys.path.append("..")

import pandas as pd
import numpy as np

from quotaclimat.data_processing.read_format_deduplicate import read_and_format_all_data_dump, deduplicate_extracts
import nltk
# pre trained sentiment analysis
from nltk.sentiment.vader import SentimentIntensityAnalyzer
from textblob import Blobber
from textblob_fr import PatternTagger, PatternAnalyzer

# text processing
from collections import Counter
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
nltk.download('punkt')

from nltk.stem.snowball import FrenchStemmer
import spacy
spacy_stemmer = spacy.load('fr_core_news_md')
# topic modeling
import gensim

# vizuals
import plotly.graph_objects as go
from wordcloud import WordCloud

nltk.download("stopwords")
stopwords = nltk.corpus.stopwords.words('french')
stopwords.append('<unk>')


def stemming_lemma_tokenize_with_scapy(df):
    """the Scapy stemmer has a lot to offer, but is greddy
    23minutes for 38K extracts
    """
    df['stemmed_text'] = np.NaN
    df['sentiment'] = np.NaN
    df['stemmed_words_token'] = np.NaN

    for i in range(len(df)):
        doc = spacy_stemmer(df.loc[i, 'text_without_stopwords'])
        stemmed_extract = ''
        sentiment_total = 0
        for entity in doc:
            stemmed_extract += ' ' + entity.lemma_
            sentiment_total += entity.sentiment

        df.loc[i, 'stemmed_text'] = stemmed_extract
        df.loc[i, 'sentiment'] = sentiment_total/len(doc)
        #df.loc[i, 'stemmed_words_token'] = stemmed_text
    return df

ModuleNotFoundError: No module named 'pandera'