In [1]:
import pandas as pd
import twint
import nest_asyncio
from unidecode import unidecode
import re

import spacy
from spacy.matcher import PhraseMatcher

from collections import Counter

nest_asyncio.apply()

# Téléchargement des données à partir du module Twint

In [None]:
config = twint.Config()
config.Search = "#superleague superleague"
config.Lang = "fr"
config.Since = "2021-04-16 00:00:00"
config.Until = "2021-04-22 00:00:00"
config.Store_json = True
config.Output = "raw_tweets.json"

# La derniere ligne lance la recherche
#twint.run.Search(config)

### Pre-Processing

Malgré que l'option *Lang = 'fr'* ait été choisie, de nombreux tweets ne sont pas en français. Il convient donc des les filtrer.\
Du fait de la taille du data frame, on procède par *chunk* de 10000 lignes, on séléctionne les tweets en français puis nous créons un nouveau fichier csv.

In [None]:
def preprocess_tweets():
    chunks = pd.read_json('../Data_raw/raw_tweets.json', lines=True, chunksize = 10000)
    for chunk in chunks:
        result = chunk[chunk['language'] == 'fr']
        result.to_csv('../Data_clean/tweets_fr.csv', index=False, header=True, mode='a')

preprocess_tweets()

In [2]:
df = pd.read_csv('../Data_clean/tweets_fr.csv')
df.shape

(148969, 36)

Le nombre de tweets a été diviser par un peu plus de 6.\
Ensuite, il convient de s'assurer de l'absence de doublons et de données nulles.

### Suppression des NaN et des doublons

In [3]:
# La fonction preprocess_tweets ajoute un header pour chaque chunk, il convient donc de le retirer
df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True, errors='coerce')
# Supprime les observations qui n'ont pas de date
df = df[~df['date'].isnull()] 

print(f"La table fait {df.shape[0]} lignes et {df.shape[1]} colonnes" )
print()
df.info()

La table fait 148872 lignes et 36 colonnes

<class 'pandas.core.frame.DataFrame'>
Int64Index: 148872 entries, 0 to 148968
Data columns (total 36 columns):
 #   Column           Non-Null Count   Dtype         
---  ------           --------------   -----         
 0   id               148872 non-null  object        
 1   conversation_id  148872 non-null  object        
 2   created_at       148872 non-null  object        
 3   date             148872 non-null  datetime64[ns]
 4   time             148872 non-null  object        
 5   timezone         148872 non-null  object        
 6   user_id          148872 non-null  object        
 7   username         148872 non-null  object        
 8   name             148864 non-null  object        
 9   place            16 non-null      object        
 10  tweet            148872 non-null  object        
 11  language         148872 non-null  object        
 12  mentions         148872 non-null  object        
 13  urls             148872 non-nu

In [4]:
# Supprime les colonnes qui ne sont composées que de NaN.
df.dropna(axis=1, how='all',  inplace=True)

df.shape

(148872, 26)

In [5]:
# On supprime les tweets en double
df = df[~df.duplicated()]
df = df[~df['id'].duplicated()]
df.shape

(37349, 26)

#### Data Cleaning

In [6]:
df_spacy = df[['id', 'tweet', 'likes_count']]
df_spacy

Unnamed: 0,id,tweet,likes_count
0,1384967611738464259,Jean Michel incisif face aux 12 frondeurs de l...,5
1,1384967429261041671,Beppe #Marotta (AD Inter) lance un cri d’alarm...,56
2,1384966964708265994,"Avec l'échec du projet de #SuperLeague, la mor...",6
3,1384966670670864390,Jean Michel trop heureux de la mort de la #Sup...,7
4,1384966622834839567,3-1 pour la Juve contre Parme (2 Coupes UEFA) ...,2
...,...,...,...
74479,1383813698096009227,@Arsenal_FRA Je ne comprends même pas comment ...,0
74480,1383813515559923724,🔴 Dingue ! Des groupes de supporters de Chelse...,4
74481,1383813473537171460,La #SuperLeague est clairement un projet néfas...,1
74482,1383813436321132544,@Co_Ultras_Paris Non à la #superLeague 👊 Bravo...,1


### Comptage du nombre d'occurence des personnes / pdt cités dans les tweets

In [9]:
nlp = spacy.load("fr_core_news_md")


In [12]:
def tweet_cleaner_bis(pandasSeries):
    
    print("#### Nettoyage en cours ####") # Mettre des print vous permet de comprendre où votre code rencontre des problèmes en cas de bug
    
    # confirmation que chaque article est bien de type str
    pandasSeries = pandasSeries.apply(lambda x : str(x))
    
    # Passage en minuscule
    print("... Passage en minuscule") 
    pandasSeries = pandasSeries.apply(lambda x : x.lower())
    
    # Suppression des accents
    print("... Suppression des accents") 
    pandasSeries = pandasSeries.apply(lambda x : unidecode(x))
    
    # Suppression des mentions hashtags #
    print("... Suppression des hashtags") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"#", '', x))
    
    print("#### Nettoyage OK! ####")

    return pandasSeries


In [14]:
df_spacy['tweet_clean'] = tweet_cleaner_bis(df_spacy.tweet)
df_spacy.head(10)

#### Nettoyage en cours ####
... Passage en minuscule
... Suppression des accents
... Suppression des hashtags
#### Nettoyage OK! ####


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._set_item(key, value)


Unnamed: 0,id,tweet,likes_count,tweet_clean
0,1384967611738464259,Jean Michel incisif face aux 12 frondeurs de l...,5,jean michel incisif face aux 12 frondeurs de l...
1,1384967429261041671,Beppe #Marotta (AD Inter) lance un cri d’alarm...,56,beppe marotta (ad inter) lance un cri d'alarme...
2,1384966964708265994,"Avec l'échec du projet de #SuperLeague, la mor...",6,"avec l'echec du projet de superleague, la mort..."
3,1384966670670864390,Jean Michel trop heureux de la mort de la #Sup...,7,jean michel trop heureux de la mort de la supe...
4,1384966622834839567,3-1 pour la Juve contre Parme (2 Coupes UEFA) ...,2,3-1 pour la juve contre parme (2 coupes uefa) ...
5,1384966005911392261,48 heures pour monter un restaurant n'a rien d...,4,48 heures pour monter un restaurant n'a rien d...
6,1384965872406704128,Alors l’@UEFAcom_fr vous voulez sanctionner le...,1,alors l'@uefacom_fr vous voulez sanctionner le...
7,1384965542797316104,Aulas salue le travail de Nasser al-Khelaifi c...,59,aulas salue le travail de nasser al-khelaifi c...
8,1384965072099893248,"Les présidents du Bayern, de l'Ajax, de Porto ...",0,"les presidents du bayern, de l'ajax, de porto ..."
9,1384964617047322624,@alexandreruiz Tous les clubs #SuperLeague son...,1,@alexandreruiz tous les clubs superleague sont...


### Combien de fois Florentino Perez, ou un de ses alias est cité ?

In [15]:
nlp = spacy.load("fr_core_news_md")

In [19]:
def match_many_patterns(many_patterns):
    
    matcher = PhraseMatcher(nlp.vocab)
    
    for pattern in many_patterns:
        name = pattern[0]
        name_alias = [nlp.make_doc(i) for i in pattern]

        matcher.add(name.upper(), None, *name_alias)

    dico = {}
    for tweet in nlp.pipe(df_spacy['tweet_clean'][:10000], disable=["tok2vec", "tagger", "parser", "attribute_ruler", "lemmatizer"]):# Iterate over the matches
        matches = matcher(tweet)
        # Utilise un dictionnaire pour supprimer les doubles match (ex : "florentino perez" --> 1 seul match)
        unique_match =  {i[0]:[i[1], i[2]] for i in matches}
        unique_match = [(key, value[0], value[1])  for key, value in unique_match.items()]
        for match_id, start, end in unique_match:
            # Get the matched span
            matched_span = tweet[start:end]
            if nlp.vocab.strings[match_id] not in dico:
                dico[nlp.vocab.strings[match_id]] = 1
            else:
                dico[nlp.vocab.strings[match_id]] += 1
            #print(tweet)
            #print(nlp.vocab.strings[match_id])
            #print()
    
    return dico

In [22]:
PATTERN = [('perez', 'florentino', 'florentinoperez'), ('agnelli', 'andrea', 'andreaagnelli'),
          ('maldini', 'paolo'), ('zidane', 'zinedine', 'zinedinezidane', 'zizou'),
           ('nasser', 'khelaifi', 'al-khelaifi', 'alkhelaifi', 'elkhalaifi')
          ]
match_many_patterns(PATTERN)


{'NASSER': 168, 'PEREZ': 1236, 'AGNELLI': 241, 'MALDINI': 10, 'ZIDANE': 102}

### Identification des clubs

In [20]:
non_signataires = ['paris saint germain', 'psg', 'bayern munich', 'bayern', 'fcbayern',
                   'munich', 'borussia', 'dortmund']


PATTERN = [('arsenal', 'gunners', 'gunner'),  ('chelsea', 'chelseafc', 'chelseer'), ('liverpool', 'fcliverpool'),
                ('city', 'manchestercity', 'mancity'), ('manchester', 'manchesterunited', 'manutd', 'mufc','united'),
               ('tottenham', 'spur', 'spurs'),('inter', 'intermilan'),
                ('juventus', 'juventu', 'juventusfc', 'juv', 'juve', 'turin'),
               ('acmilan',  'milan','milanac'), ('atletico', 'atleti', 'athletico'),
               ('barca','barcelona', 'barcelone',  'fcbarca', 'fcbarcelone', 'fcbarcelona'),
                ('real', 'realmadrid', 'realmadridfrer', 'madrid'),
          
          ('psg', 'paris'), ('bayern', 'munich', 'fcbayern'), ('borussia', 'dortmund')]
match_many_patterns(PATTERN)


{'INTER': 117,
 'JUVENTUS': 307,
 'PSG': 379,
 'BAYERN': 113,
 'REAL': 630,
 'LIVERPOOL': 156,
 'CITY': 405,
 'ACMILAN': 158,
 'MANCHESTER': 324,
 'BARCA': 315,
 'CHELSEA': 392,
 'TOTTENHAM': 86,
 'BORUSSIA': 18,
 'ATLETICO': 173,
 'ARSENAL': 153}

In [23]:
nlp = spacy.load("fr_core_news_md")

In [None]:
from spacy.lang.fr.stop_words import STOP_WORDS
print(len(STOP_WORDS))

# Exclure 12 ? 12 rapport au 12 clubs fondateurs je crois
#STOP_WORDS

Mot à updater dans le lemmatizer:
- perez -- > per
- superleague --> superleagu mais en fait, on va le rajouter à la liste des stop_words 
- ca --> a ajouter
- pas --> à rajouter ?
- al-khelaifi --> al - khelaifi
- privees --> priveer

In [24]:
# Sans cleaning préalable

tweet_process = list(nlp.pipe(df_spacy['tweet'][:100]))
for tweet in tweet_process:
    print('Raw')
    print(tweet)
    print()
    print('Lemma + Stop word remove')
    # Remove URL + stop words + get only lemma
    TWEETS_clean = ' '.join([token.lemma_ for token in tweet if (token.is_stop != True) and (token.like_url != True)])
    print(TWEETS_clean)
    print()

Raw
Jean Michel incisif face aux 12 frondeurs de la #SuperLeague @EtienneLantier2 @MalikaKwiatko13 #teamOm ça sera jamais plus comme avant...  https://t.co/J0aGaWcvMi

Lemma + Stop word remove
Jean Michel incisif face 12 frondeur # SuperLeague @etiennelantier2 @MalikaKwiatko13 # teamOm jamais ...  

Raw
Beppe #Marotta (AD Inter) lance un cri d’alarme : “Faire des excuses pour la #SuperLeague ? La bonté de cette action vient du fait que les propriétaires veulent le bien des clubs. Le football risque la faillite. Si pas d’intervention des institutions, on ne pourra pas continuer”

Lemma + Stop word remove
Beppe # Marotta ( AD Inter ) lancer cri alarme : “ faire excuse # SuperLeague ? bonté action venir propriétaire vouloir bien club . football risque faillite . intervention institution , pouvoir continuer ”

Raw
Avec l'échec du projet de #SuperLeague, la mort du football a un nouveau visage. #OLASM  https://t.co/Y2pgfs0F1m

Lemma + Stop word remove
échec projet # SuperLeague , mort footb

- vénère --> vénérer (pb ici hehe), connait pas venere

### Identifications des clubs fondateurs
2 étapes :
- identifier chaque club, selon ses differents alias et lui attribuer un identifiant unique
- remplacer le nom de chaque club par "CLUB_signataire" (pour faciliter le topic modelling)

In [25]:
PATTERN = [('arsenal', 'gunners', 'gunner'),  ('chelsea', 'chelseafc', 'chelseer'), ('liverpool', 'fcliverpool'),
                ('city', 'manchestercity', 'mancity'), ('manchester', 'manchesterunited', 'manutd', 'mufc','united'),
               ('tottenham', 'spur', 'spurs'),('inter', 'intermilan'),
                ('juventus', 'juventu', 'juventusfc', 'juv', 'juve', 'turin'),
               ('acmilan',  'milan','milanac'), ('atletico', 'atleti', 'athletico'),
               ('barca','barcelona', 'barcelone',  'fcbarca', 'fcbarcelone', 'fcbarcelona'),
                ('real', 'realmadrid', 'realmadridfrer', 'madrid')
          ]

In [26]:
matcher = PhraseMatcher(nlp.vocab)

for pattern in PATTERN:
    name = pattern[0]
    name_alias = [nlp.make_doc(i) for i in pattern]

    matcher.add(name.upper(), None, *name_alias)


clubs_signataires = [i[0].upper() for i in PATTERN]
signataires_alias = [nlp.make_doc(i) for i in clubs_signataires]
matcher.add('CLUB_Signataire', None, *signataires_alias)

In [27]:
# Fonction un peu compliqué, cela est au fait que remplacer un terme par un autre
# modifie également la place des mots dans le tweet, dès lors il faut corriger cela
def replace_word(orig_text):
    tok = orig_text
    text = ''
    buffer_start = 0
    for match_id, match_start, _ in matcher(tok):
        replacement = nlp.vocab.strings[match_id]
        if match_start > buffer_start:  # If we've skipped over some tokens, let's add those in (with trailing whitespace if available)
            text += tok[buffer_start: match_start].text + tok[match_start - 1].whitespace_
        text += replacement + tok[match_start].whitespace_  # Replace token, with trailing whitespace if available
        buffer_start = match_start + 1
    text += tok[buffer_start:].text
    return text

In [28]:
for tweet in nlp.pipe(df_spacy['tweet_clean'][:100], disable=["tok2vec", "tagger", "parser", "attribute_ruler", "lemmatizer"]):# Iterate over the matches
    matches = matcher(tweet)
    # Utilise un dictionnaire pour supprimer les doubles match (ex : "florentino perez" --> 1 seul match)
    unique_match =  {i[0]:[i[1], i[2]] for i in matches}
    unique_match = [(key, value[0], value[1])  for key, value in unique_match.items()]
    
    
    print(tweet) # Tweet original
    replace_tweets = replace_word(tweet)
    print(replace_tweets) # Tweet apres remplacement des différents alias d'un club par un identifiant unique
    print(replace_word(nlp(replace_tweets))) # Tous les clubs signataires ont maintenant un identifiant unique
    print()

jean michel incisif face aux 12 frondeurs de la superleague @etiennelantier2 @malikakwiatko13 teamom ca sera jamais plus comme avant...  https://t.co/j0agawcvmi
jean michel incisif face aux 12 frondeurs de la superleague @etiennelantier2 @malikakwiatko13 teamom ca sera jamais plus comme avant...  https://t.co/j0agawcvmi
jean michel incisif face aux 12 frondeurs de la superleague @etiennelantier2 @malikakwiatko13 teamom ca sera jamais plus comme avant...  https://t.co/j0agawcvmi

beppe marotta (ad inter) lance un cri d'alarme : "faire des excuses pour la superleague ? la bonte de cette action vient du fait que les proprietaires veulent le bien des clubs. le football risque la faillite. si pas d'intervention des institutions, on ne pourra pas continuer"
beppe marotta (ad INTER) lance un cri d'alarme : "faire des excuses pour la superleague ? la bonte de cette action vient du fait que les proprietaires veulent le bien des clubs. le football risque la faillite. si pas d'intervention des in

encore une fois je ne suis pas pour la superleague mais je suis bien content de l'effet provoque. il y a trop de choses que vous ne voulez pas voir concernant la ldc ; et avec la reforme c'encore pire .. je prie pour que tonton perez fasse pression

il y a un truc que j'ai du rater. mais franchement a un moment donne il faut arreter avec ce role virtuel que nasser aurait joue. deja le gars n'a pas ete invite de plus il n'avait aucun interet a soutenir cette aberration de superleague.
il y a un truc que j'ai du rater. mais franchement a un moment donne il faut arreter avec ce role virtuel que nasser aurait joue. deja le gars n'a pas ete invite de plus il n'avait aucun interet a soutenir cette aberration de superleague.
il y a un truc que j'ai du rater. mais franchement a un moment donne il faut arreter avec ce role virtuel que nasser aurait joue. deja le gars n'a pas ete invite de plus il n'avait aucun interet a soutenir cette aberration de superleague.

hahaha le meilleur tweet sur la 

superleague : florentino perez  et agnelli  suscitent la colere et la haine chez certains presidents europeens, qui ont demande des sacntions aupres de l'uefa.  humainement, la trahison d'andrea agnelli a aleksander ceferin ne passe pas non plus.  (rmc sport)  https://t.co/tziycq24da

membres fondateurs  superleague superleagueout  https://t.co/v29fji5ron
membres fondateurs  superleague superleagueout  https://t.co/v29fji5ron
membres fondateurs  superleague superleagueout  https://t.co/v29fji5ron

la lutte contre la superleague m'a fait penser a la lutte contre ca :  superleagueout  https://t.co/mxunhucptr
la lutte contre la superleague m'a fait penser a la lutte contre ca :  superleagueout  https://t.co/mxunhucptr
la lutte contre la superleague m'a fait penser a la lutte contre ca :  superleagueout  https://t.co/mxunhucptr

boycott florentino perez acs group!!!! superleagueout superleague superleaguemyarse
boycott florentino perez acs group!!!! superleagueout superleague superleaguemy

c'est ca vos club de la superligue ???   superleagueout notoeuropeansuperleague notosuperleague superleague  https://t.co/6w9x9kzvsd

on file a manchester city sur le coup d'envoi  ces equipes superleague sont magiques !  https://t.co/8rdsgv07k5
on file a MANCHESTER CITY sur le coup d'envoi  ces equipes superleague sont magiques !  https://t.co/8rdsgv07k5
on file a CLUB_Signataire CLUB_Signataire sur le coup d'envoi  ces equipes superleague sont magiques !  https://t.co/8rdsgv07k5

seriea superleague   l'entraineur de sassuolo, roberto de zerbi, etait pret a ne pas jouer contre milan ce soir !   la super league, c'est "comme le fils d'un ouvrier qui ne peut pas rever de devenir medecin, chirurgien ou avocat"
seriea superleague   l'entraineur de sassuolo, roberto de zerbi, etait pret a ne pas jouer contre ACMILAN ce soir !   la super league, c'est "comme le fils d'un ouvrier qui ne peut pas rever de devenir medecin, chirurgien ou avocat"
seriea superleague   l'entraineur de sassuolo, ro

il est vraiment venere florentino.. superleague



In [None]:
import spacy
from spacy.matcher import Matcher
from spacy.tokens import Span

nlp = spacy.blank("en")
matcher = Matcher(nlp.vocab)
matcher.add("PERSON", [[{"lower": "barack"}, {"lower": "obama"}]])
doc = nlp("Barack Obama was the 44th president of the United States")

# 1. Return (match_id, start, end) tuples
matches = matcher(doc)
for match_id, start, end in matches:
    # Create the matched span and assign the match_id as a label
    span = Span(doc, start, end, label=match_id)
    print(span.text, span.label_)

# 2. Return Span objects directly
matches = matcher(doc, as_spans=True)
for span in matches:
    print(span.text, span.label_)

In [None]:
# Adding my own stop words
stoplist = STOP_WORDS.add("lol")
# To check if a word is a stop word
# Lol Has been Added as A Stop Word
nlp.vocab["lol"].is_stop 
#Removing Stop Words
STOP_WORDS.remove("lol")

In [None]:
nlp = spacy.load("fr_core_news_md")


In [None]:
from spacy.matcher import Matcher
patterns = {'HelloWorld': [{'LOWER': 'hello'}, {'LOWER': 'world'}]}
matcher = Matcher(nlp.vocab)

pattern = [{'LOWER': "hello"}, {'LOWER': "world"}]
matcher.add("HelloWorld", None, pattern)

In [None]:
pd.set_option('max_colwidth', 1000)

In [None]:
for tweet in df_spacy['tweet']:
    tweet = nlp(tweet)
    for token in tweet:
        print((token.text, token.lemma_, token.is_stop))
    print(" ".join([str(t.lemma_) for t in tweet if t.is_stop == False]))
    print()

Idées à developper :
   - identifier les personnes à travers les labels scapy
   - sur l'app, permettre de rechercher les personnes qui sont les + cités, les clubs les + cité (par jour également ?), avec quel sentiment généralement qui lui est associé ?
   - analyser aussi les verbes les plus utilisés, les noms également
   - use displacy pour afficher les tweets, nottament les organisations (clubs et autres) et les personnes 
   - voir https://github.com/explosion/spacy-streamlit

In [None]:
non_stopwords = [token.text for token in docx if token.is_stop != True]

In [None]:
# Most common verbs
verbs = [ token.text for token in docx if token.is_punct !=True and token.pos_ == 'VERB']
print(Counter(verbs).most_common(10))

verbs_with_stopword = [ token.text for token in docx if token.is_stop != True and token.is_punct !=True and token.pos_ == 'VERB']
print(Counter(verbs_with_stopword).most_common(10))

In [None]:
#!python -m spacy download fr_core_news_md


In [None]:
# Définition de la liste de stop words considérés (celle de spacy + lettres)
stopWords = ['superleague', 'a', 'abord', 'absolument', 'afin', 'ah', 'ai', 'aie', 'ailleurs', 'ainsi', 'ait', 'allaient', 'allo', 'allons', 
             'allô', 'alors', 'annee', 'anterieur', 'anterieure', 'anterieures', 'apres', 'après', 'as', 'attendu', 'au', 
             'aucun', 'aucune',  'aupres', 'auquel', 'aura', 'auraient', 'aurait', 'auront', 'aussi', 
             'autre', 'autrefois', 'autrement', 'autres', 'autrui', 'aux', 'auxquelles', 'auxquels', 'avaient', 'avais', 'avait', 
             'avant', 'avec', 'avoir', 'avons', 'ayant', 'bah', 'bas', 'basee', 'bat', 'beau', 'beaucoup', 'bien', 'bigre', 'boum', 
             'bravo', 'brrr', "c'", 'car', 'ce', 'ceci', 'cela', 'celle', 'celle-ci', 'celle-là', 'celles', 'celles-ci', 'celles-là', 
             'celui', 'celui-ci', 'celui-là', 'cent', 'cependant', 'certain', 'certaine', 'certaines', 'certains', 'certes', 'ces', 
             'cet', 'cette', 'ceux', 'ceux-ci', 'ceux-là', 'chacun', 'chacune', 'chaque', 'cher', 'chers', 'chez', 'chiche', 'chut', 
             'chère', 'chères', 'ci', 'cinq', 'cinquantaine', 'cinquante', 'cinquantième', 'cinquième', 'clac', 'clic', 'club', 'combien', 
             'comme', 'comment', 'comparable', 'comparables', 'compris', 'concernant', 'contre', 'couic', 'crac', 'c’', "d'", 'da', 
             'dans', 'de', 'debout', 'dedans', 'dehors', 'deja', 'delà', 'depuis', 'dernier', 'derniere', 'derriere', 'derrière', 
             'des', 'desormais', 'desquelles', 'desquels', 'dessous', 'dessus', 'deux', 'deuxième', 'deuxièmement', 'devant', 'devers', 
             'devra', 'different', 'differentes', 'differents', 'différent', 'différente', 'différentes', 'différents', 'dire', 
             'directe', 'directement', 'dit', 'dite', 'dits', 'divers', 'diverse', 'diverses', 'dix', 'dix-huit', 'dix-neuf', 
             'dix-sept', 'dixième', 'doit', 'doivent', 'donc', 'dont', 'douze', 'douzième', 'dring', 'du', 'duquel', 'durant', 'dès', 
             'désormais', 'd’', 'effet', 'egale', 'egalement', 'egales', 'eh', 'elle', 'elle-même', 'elles', 'elles-mêmes', 'en', 
             'encore', 'enfin', 'entre', 'envers', 'environ', 'es', 'est', 'et', 'etaient', 'etais', 'etait', 'etant', 'etc', 'etre', 
             'eu', 'euh', 'eux', 'eux-mêmes', 'exactement', 'excepté', 'extenso',  'fais', 'faisaient', 'faisant', 'fait', 'faire',
             'façon', 'feront', 'fi', 'flac', 'floc', 'font', 'gens', 'ha', 'hein', 'hem', 'hep', 'hi', 'ho', 'holà', 'hop', 'hormis', 
             'hors', 'hou', 'houp', 'hue', 'hui', 'huit', 'huitième', 'hum', 'hurrah', 'hé', 'i', 'il', 'ils', 
             "j'", 'je', 'jusqu', 'jusque', 'juste', 'j’', "l'", 'la',  'laquelle', 'las', 'le', 'lequel', 'les', 
             'lesquelles', 'lesquels', 'leur', 'leurs',  'lors', 'lorsque', 'lui', 'lui-meme', 'lui-même', 'là', 'lès', 'l’', 
             "m'", 'ma', 'maint', 'maintenant', 'mais', 'malgre', 'malgré', 'maximale', 'me', 'meme', 'memes', 'mes', 'mien', 'mienne', 
             'miennes', 'miens', 'mille', 'mince', 'minimale', 'moi', 'moi-meme', 'moi-même', 'moindres', 'moins', 'mon', 
             'm’', "n'", 'na',  'ne', 'neanmoins',  
              'neuf', 'neuvième', 'ni', 'nombreuses', 'nombreux', 'non', 'nos', 'notamment', 'notre', 'nous', 'nous-mêmes', 
             'nouveau', 'nul', 'néanmoins', 'nôtre', 'nôtres', 'n’', 'o', 'oh', 'ohé', 'ollé', 'olé', 'on', 'ont', 'onze', 'onzième', 'ore', 
             'ou', 'ouf', 'ouias', 'oust', 'ouste', 'outre', 'ouvert', 'ouverte', 'ouverts', 'où', 'paf', 'pan', 'par', 'parce', 'parfois', 
             'parle', 'parlent', 'parler', 'parmi', 'parseme', 'partant', 'particulier', 'particulière', 'particulièrement', 'pas', 'passé', 
             'pendant', 'pense', 'permet', 'personne', 'peu', 'peut', 'peuvent', 'peux', 'pff', 'pfft', 'pfut', 'pif',  'plein', 'plouf', 
             'plus', 'plusieurs', 'plutôt', 'possessif', 'possessifs',  'pouah', 'pour', 'pourquoi', 'pourrais', 'pourrait', 
             'pouvait', 'prealable', 'precisement', 'premier', 'première', 'premièrement', 'pres', 'probante', 'procedant', 'proche', 
             'près', 'psitt', 'pu', 'puis', 'puisque', 'pur', 'pure', "qu'", 'quand', 'quant', 'quant-à-soi', 'quanta', 'quarante', 'quatorze', 
             'quatre', 'quatre-vingt', 'quatrième', 'quatrièmement', 'que', 'quel', 'quelconque', 'quelle', 'quelles', "quelqu'un", 'quelque', 
             'quelques', 'quels', 'qui', 'quiconque', 'quinze', 'quoi', 'quoique', 'qu’',  'relative', 'relativement', 
             'remarquable', 'rend', 'rendre', 'restrictif', 'retour', 'revoici', 'revoilà', 'rien', "s'", 'sa', 
             'sacrebleu', 'sait', 'sans', 'sapristi', 'sauf', 'se', 'sein', 'seize', 'selon', 'semblable', 'semblaient', 'semble', 'semblent', 
             'sent', 'sept', 'septième', 'sera', 'seraient', 'serait', 'seront', 'ses', 'seul', 'seule', 'seulement', 'si', 'sien', 'sienne', 
             'siennes', 'siens', 'sinon', 'six', 'sixième', 'soi', 'soi-même', 'soit', 'soixante', 'son', 'sont', 'sous', 'souvent', 'specifique', 
             'specifiques', 'subtiles', 'suffisant', 'suffisante', 'suffit', 'suis', 'suit', 'suivant', 
             'suivante', 'suivantes', 'suivants', 'suivre', 'superpose', 'sur', 'surtout', 's’', "t'", 'ta', 'tac', 'tant', 'tardive', 'te', 
             'tel', 'telle', 'tellement', 'telles', 'tels', 'tenant', 'tend', 'tenir', 'tente', 'tes', 'tic', 'tien', 'tienne', 'tiennes', 
             'tiens', 'toc', 'toi', 'toi-même', 'ton', 'touchant', 'toujours', 'tous', 'tout', 'toute', 'toutefois', 'toutes', 'treize', 'trente', 
             'tres', 'trois', 'troisième', 'troisièmement', 'trop', 'très', 'tsoin', 'tsouin', 'tu', 'té', 't’', 'un', 'une', 'unes', 
             'uniformement', 'unique', 'uniques', 'uns', 'vais', 'vas', 'vers', 'voir', 'via', 'vif', 'vifs', 'vingt', 'vivat', 'vive', 'vives', 
             'vlan', 'voici', 'voilà', 'vont', 'vos', 'votre', 'vous', 'vouloir','vous-mêmes', 'vu', 'vé', 'vôtre', 'vôtres', 'zut', 'à', 'â', 'ça', 'ès', 
             'étaient', 'étais', 'était', 'étant', 'été', 'être', 'ô','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 
             'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'qu']

stopWords = [unidecode(sw) for sw in stopWords]

# lemmer
#nlp = spacy.load("fr_core_news_sm")
nlp = spacy.load("fr_core_news_md")

# Création d'une fonction pour supprimer les sw
def no_stop_word(string, stopWords):

    """
    Supprime les stop words d'un texte.
    ----------

    string : chaine de caractère.

    stopWords : liste de mots à exclure. 
    """
    
    string = ' '.join([word for word in string.split() if word not in stopWords])
    return string


def lemmatise_text(text, lemmer):

    """
    Lemmatise un texte : Ramène les mots d'un texte à leur racine (peut créer des mots qui n'existe pas).

    Paramètres
    ----------

    text : Chaine de caractères.

    Utilise spacy
    """
    #nlp = spacy.load("fr_core_news_sm")
    
    return ' '.join([word.lemma_ for word in lemmer(text)])


def clubs_non_signataires(x, clubs):
    string = ' '.join(['clubs_non_signataire' if word  in clubs else word for word in x.split() ])
    return string


def clubs_signataires(x, clubs):
    string = ' '.join(['clubs_signataire' if word  in clubs else word for word in x.split() ])
    return string

signataires = ['arsenal', 'chelsea', 'chelseafc', 'chelseer', 'liverpool',
                'manchestercity', 'mancity','manchester', 'manchesterunited', 'manutd', 'mufc',
               'tottenham hotspur', 'tottenham', 'spur', 'spurs',
                     'intermilan', 'juventus', 'juventu', 'juventusfc', 'juv', 'juve', 'turin', 
               'milan',  'acmilan','milanac', 'madrid', 'atletico', 'atleti',
               'barcelona', 'barcelone', 'barca', 'fcbarca', 'fcbarcelone', 'fcbarcelona',
                'real', 'realmadrid', 'realmadridfrer'
              ]

non_signataires = ['paris saint germain', 'psg', 'bayern munich', 'bayern', 'fcbayern',
                   'munich', 'borussia', 'dortmund']

def florentino(x, alias):
    string = ' '.join(['florentino_perez' if word  in alias else word for word in x.split() ])
    return string

def agnelli(x, alias):
    string = ' '.join(['andrea_agnelli' if word  in alias else word for word in x.split() ])
    return string

florentino_alias = ['florentino perez', 'perez', 'florentino', 'florentin', 'florentino_perer',
                    'florentinoperer', 'florentinoperez', 'per']

agnelli_alias = ['andrea agnelli', 'andrea agneli', 'andrea', 'agnelli', 'agneli', 'andreer']


def superleague_out(x, alias):
    string = ' '.join(['superleague_out' if word  in alias else word for word in x.split() ])
    return string

slogans_out = ['superleagueout', 'saynotoeuropeansuperleagu', 'saynotosuperleagu', 'saynotosuperleague',
      'notoeuropeansuperleagu','notoeuropeansuperleague', 'notosuperleagu', 'notosuperleague',
      'nonalasuperleagu', 'boycottsuperleagu', 'boycottsuperleague',]

def add_e(x, alias):
    string = ' '.join([word + 'e' if word  in alias else word for word in x.split() ])
    return string

ajoute_e = ['allemagn', 'banqu', 'boycottsuperleagu', 'championsleagu', 
 'coup', 'economiqu', 'europeansuperleagu', 'homm', 'marseill', 'merd',
 'nonalasuperleagu', 'nosuperleagu', 'notoeuropeansuperleagu', 'premierleagu', 'problem',
'proprietair', 'racism',  'reform', 'superligu', 'typ', 'vi']

In [None]:
def tweet_cleaner(pandasSeries, stopWords):
    
    print("#### Nettoyage en cours ####") # Mettre des print vous permet de comprendre où votre code rencontre des problèmes en cas de bug
    
    # confirmation que chaque article est bien de type str
    pandasSeries = pandasSeries.apply(lambda x : str(x))
    
    ### COMMENCEZ A CODER ICI! remplacer les 'None' par votre code ###
    
    # Passage en minuscule
    print("... Passage en minuscule") 
    pandasSeries = pandasSeries.apply(lambda x : x.lower())
    
    # Suppression des accents
    print("... Suppression des accents") 
    pandasSeries = pandasSeries.apply(lambda x : unidecode(x))
    
    # Détection du champs année, c'est pour l'exmple, dans les articles de sports les années peuvent avoir leur importance
    # Encore une fois ça se test, tout comme toutes les transformations envisageables
    print("... Détection du champs année") 
    pandasSeries = pandasSeries.apply(lambda x : re.sub(r'[0-9]{4}', 'annee', x))
    
    ## Suppression des caractères spéciaux et numériques
    print("... Suppression des caractères spéciaux et numériques") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"[^a-z]+", ' ', x))
    
    # Suppression des mentions @
    print("... Suppression des mentions") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"@[A-Za-z0-9]+", '', x))
    
    # Suppression des mentions hashtags #
    print("... Suppression des hashtags") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"#", '', x))
    
    # Suppression des retweets
    print("... Suppression des retweets") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"RT[\s]+", '', x))
    
    # Suppression des caractères spéciaux et numériques
    #print("... Suppression des adresses internet") 
    #pandasSeries = pandasSeries.apply(lambda x :re.sub(r"https?:\/\/\$+", '', x))
    
    # Suppression des caractères spéciaux et numériques
    print("... Suppression des adresses internet") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"https", '', x))
    
    # Suppression des caractères spéciaux et numériques
    #print("... Suppression des adresses internet") 
    #pandasSeries = pandasSeries.apply(lambda x :re.sub(r"http?:\/\/\$+", '', x))
    
    ## Suppression des caractères spéciaux et numériques
    print("... Suppression des adresses internet") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"http", '', x))
    
    # Suppression des caractères spéciaux et numériques
    print("... Suppression des adresses internet") 
    pandasSeries = pandasSeries.apply(lambda x :re.sub(r"(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)", '', x))

    
    # Suppression des stop words
    print("... Suppression des stop words") 
    pandasSeries = pandasSeries.apply(lambda x : no_stop_word(x, stopWords))
    
    # Lemmatisation
    print("... Lemmatisation")
    pandasSeries = pandasSeries.apply(lambda x : lemmatise_text(x, nlp))
    
    
    
    pandasSeries = pandasSeries.apply(lambda x : clubs_non_signataires(x, non_signataires))    
    pandasSeries = pandasSeries.apply(lambda x : clubs_signataires(x, signataires))
    pandasSeries = pandasSeries.apply(lambda x : florentino(x, florentino_alias))
    pandasSeries = pandasSeries.apply(lambda x : agnelli(x, agnelli_alias))
    pandasSeries = pandasSeries.apply(lambda x : superleague_out(x, slogans_out))
    pandasSeries = pandasSeries.apply(lambda x : add_e(x, ajoute_e))

    # Suppression des stop words
    print("... Suppression des stop words") 
    
    
    pandasSeries = pandasSeries.apply(lambda x : no_stop_word(x, stopWords))
    
    
    print("#### Nettoyage OK! ####")

    return pandasSeries


In [None]:
%%time 

df['tweet_clean'] = tweet_cleaner(df['tweet'], stopWords)

In [None]:
# Attention UEFA devient UEFER

In [None]:
pat1 = r"(?<![\w\d])co(?![\w\d])"
df['tweet_clean'] = df['tweet_clean'].apply(lambda x : re.sub(pat1, '', x))

#pat2 = r"(?<![\w\d])superleague(?![\w\d])|(?<![\w\d])superligue(?![\w\d])"
#df['tweet_clean'] = df['tweet_clean'].apply(lambda x : re.sub(pat2, 'superleague', x))

#pat3 = r"(?<![\w\d])co(?![\w\d])"
#df['tweet_clean'] = df['tweet_clean'].apply(lambda x : re.sub(pat3, '', x))

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(max_df=0.9, min_df=25, 
                                 ngram_range=(1,1), token_pattern='\w+|\$[\d\.]+|\S+')
    
# apply transformation
tf = vectorizer.fit_transform(df['tweet_clean']).toarray()

# tf_feature_names tells us what word each column in the matric represents
tf_feature_names = vectorizer.get_feature_names()
tf_feature_names



In [None]:
# Create columns for day and months
df['day'] = df['date'].dt.day

In [None]:
cols_to_keep = ['date', 'time', 'tweet', 'tweet_clean', 'hashtags', 'likes_count', 'retweets_count', 'day']

tweets = df[cols_to_keep]
tweets

### Création du Fichier Csv Final

In [None]:
# Création d'un nouveau fichier csv qu'on utilisera par la suite
tweets.to_csv('tweets_fr_clean.csv', index=False, header=True)