In [46]:
#%reset
import pandas as pd
import re
import string
import unicodedata
import tweepy
import sqlalchemy
import spacy

import nltk
from nltk.corpus import stopwords
from pathlib import Path
from textblob import TextBlob
from unidecode import unidecode

nltk.download('stopwords')
nlp = spacy.load("fr_core_news_sm", disable=["parser", "ner"])
pd.options.mode.chained_assignment = None 

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Utilisateur\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Récolter les données via l'API.

In [None]:
client = tweepy.Client(bearer_token="")

CAC40 = ['Air liquide', 
         'Airbus',
         'Alstom',
         'ArcelorMittal',
         'Axa',
         'BNP Paribas',
         'Bouygues',
         'Capgemini',
         'Carrefour',
         'Crédit agricole',
         'Danone',
         'Dassault Systèmes',
         'Engie',
         'EssilorLuxotica',
         'Eurofins Scientific',
         'Hermès International',
         'Kering',
         'Legrand',
         "L'Oréal",
         "LVMH",
         'Michelin',
         'Orange',
         'Pernod Ricard',
         'Publicis Groupe',
         'Renault',
         'Safran',
         'Saint-Gobain',
         'Sanofi',
         'Schneider Electric',
         'Société générale',
         'Stellantis',
         'STMicroelectronics',
         'Teleperformance',
         'Thales',
         'TotalEnergies',
         'Unibail-Rodamco-Westfield',
         'Veolia',
         'Vinci',
         'Vivendi',
         'Worldline']


for entreprise in CAC40 :
    query = entreprise + ' -is:retweet lang:fr'

    tweets= tweepy.Paginator(client.search_recent_tweets, query=query,
                              tweet_fields=['context_annotations', 'created_at'], max_results=100).flatten(limit=5000)

    df_id = []
    df_tweet = []
    df_date = []
    df_entreprise = []
    for tweet in tweets:
       df_id.append(tweet.id)
       df_tweet.append(tweet.text)
       df_date.append(tweet.created_at)
       df_entreprise.append(entreprise)
    list_of_tuples = list(zip(df_id , df_date, df_tweet, df_entreprise))
    df = pd.DataFrame(list_of_tuples, columns=['id', 'date', 'text', 'entreprise'])
# Sauvegarder les données dans la base des données 
    URI = "mysql://root:master2@localhost/textmining"
    con= sqlalchemy.create_engine(URI)
    df["date"] = pd.to_datetime(df["date"], infer_datetime_format=True)
    df.to_sql(name="tweet", con=con, if_exists='append', index=False)

In [None]:
#connexion a la BDD
URI = "mysql://root:master2@localhost/textmining"
con = sqlalchemy.create_engine(URI)

data = pd.read_sql("SELECT * FROM  tweet", con=con)
path_input = Path.cwd().parent.joinpath('data')

# Sauvegarder les données sous forme parquet 
path_data_input = path_input.joinpath('data_init.parquet')
data.to_parquet(path_data_output)

### Class pour nettoyer les données et analyse de sentiments

In [32]:
class DataProcessor:
    def __init__(self, data):
        self.data = data
        self.entreprises = ["LVMH", "L'Oréal", "Hermès", "TotalEnergies", 
                            "Sanofi", "Airbus", "Schneider Electric", "Capgemini", 
                            "Air liquide", "BNP Paribas"]
 
    def conservation_top_10(self):
        """
            Conservation des 10 plus grosses entreprises du CAC40
        """
        self.data = self.data[self.data.entreprise.isin(self.entreprises)]
        self.n_tweet = len(self.data)

    def supprime_urls_hashtags_mentions_ponctuations_nombres(self):
        """
        Supprime les liens https jusqu'à l'espace suivant
        Supprime toutes les mentions (@) ainsi que la suite jusqu'à l'espace suivant
        Supprime tous les Hashtags (#) ainsi que la suite jusqu'à l'espace suivant 
        Supprime tous les nombres
        Supprime tous les pontuations
        Supprime tous les accents
        """
        url_regex = r'(http[s]?:\/\/\S+)'
        pattern = r'(@\w+|#\w+|http[s]?:\/\/\S+)'
        num_regex = r'\d+'
        
        def clean(text):
            items = re.findall(pattern, text)
            mentions = [item for item in items if item.startswith('@')]
            hashtags = [item for item in items if item.startswith('#')]
            urls = [item for item in items if re.match(url_regex, item)]         
            n_mentions = len(mentions)
            n_hashtags = len(hashtags)
            n_urls = len(urls)    
            text = re.sub(pattern, '', text)
            text = re.sub(num_regex, '', text)
            punctuations = re.findall(r'[^\w\s]', text)  
            n_pontuations = len(punctuations)
            # Ice, faut remplace par l'espace 
            text = re.sub(r'[^\w\s]', ' ', text)
                
            return text, mentions, hashtags, urls, punctuations

        self.data['text'], self.data['mentions'], self.data['hashtags'], self.data['urls'], self.data['punctuations']= zip(*self.data['text'].apply(clean))
        self.data['text'] = self.data['text'].str.lower()

        def remove_accents(text):
            return unidecode(text)
        self.data['text'] = self.data['text'].apply(remove_accents)

    def supprime_les_stopwords(self):
        nltk.download('stopwords')
        stop_words = set(stopwords.words('french'))
        liste_mot_non_voulu = ["lvmh", "oreal","oréal","L’Oréal", "sanofi", "airbus", "totalenergie", "totalenergies", "total", "energie", "energies", "air", "liquide", "bnp", "paribas", "pariba", "airliquide", "ça", "ca", "faire", "moi", "deja"]
        list_sw = stop_words_txt["vides"].to_list()
        stop_words.update(liste_mot_non_voulu)
        stop_words.update(list_sw)
        
        def supprime_stopwords(text):
            words = re.split(r"[ ’'\-]", text)
            filtered_words = [word for word in words if word.lower() not in stop_words]
            filtered_stop_words = [word for word in words if word.lower() in stop_words]
            return ' '.join(filtered_words),filtered_stop_words

        self.data['text'],self.data["stopword"]= zip(*self.data['text'].apply(supprime_stopwords))
    
    def transform_normal(self):
        """       
            Supprime tous les accents     
            Supprime les tweets n'ayant plus de texte. 
        """
        self.data['text'] = self.data['text'].str.strip()
        self.data = self.data[self.data['text'] != '']
        self.data['date'] = pd.to_datetime(self.data['date']).dt.date
        
    def supprime_doublons(self):
        """
            Supprime tous les doublons avec le même texte
        """
        self.data = self.data.drop_duplicates(["text"])
    
    def lemmatize(self, allowed_postags=["NOUN", "ADJ", "VERB", "ADV"]):
        self.data['text'] = self.data['text'].apply(lambda x: " ".join([token.lemma_ for token in nlp(x) if token.pos_ in allowed_postags]))
        
    def sentiment_analysis(self):
        def getSubjectivity(text):
            """ 
                La propriété sentiment d'un objet TextBlob renvoie un tuple nommé de la 
                forme (subjectivité), où la subjectivité est un flottant compris entre 0,0 
                et 1,0, indiquant la subjectivité du texte. Une subjectivité de 0,0 signifie 
                que le texte est très objectif et factuel, tandis qu'une subjectivité de 
                1,0 signifie que le texte est très subjectif et opiniâtre.
            """
            return TextBlob(text).sentiment.subjectivity


        def getPolarity(text):
            """
                La propriété sentiment d'un objet TextBlob renvoie un tuple nommé de la forme 
                (polarity ), où polarity est un flottant compris entre -1.0 et 1.0, indiquant
                la polarité de sentiment du texte. Une polarité de -1,0 est très négative,
                0 est neutre et 1,0 est très positive.
            """
            return TextBlob(text).sentiment.polarity

        self.data["Subjectivité"] = self.data["text"].apply(getSubjectivity)
        self.data["Polarité"] = self.data["text"].apply(getPolarity)


        def getAnalysis_polarity(score):
            if score < 0:
                return "Negative"
            elif score == 0:
                return "Neutral"
            else:
                return "Positive"
        def getAnalysis_subjectivity(score):
            if score < 0.5:
                return "Très objectif et factuel"
            else:
                return "Très subjectif et opiniâtre"
        self.data["Subjectivité"] = self.data["Subjectivité"].apply(getAnalysis_subjectivity)
        self.data["Polarité"] = self.data["Polarité"].apply(getAnalysis_polarity)

In [33]:
def transform(data):  
    data_processor = DataProcessor(data)
    data_processor.conservation_top_10()
    data_processor.supprime_urls_hashtags_mentions_ponctuations_nombres()
    data_processor.lemmatize() 
    data_processor.supprime_les_stopwords()
    data_processor.transform_normal()
    data_processor.supprime_doublons()
    data_processor.sentiment_analysis()
    return data_processor.data

Lire les fichiers

In [44]:
path_input = Path.cwd().parent.joinpath('data')

path_data_input = path_input.joinpath('data_init.parquet')
path_stopwords = path_input.joinpath('stop_words_french.txt')

stop_words_txt = pd.read_table(path_stopwords, header = 0)
data_init = pd.read_parquet(path_data_input) 

data_fin = transform(data_init)

NameError: name 'transform' is not defined

In [37]:
path_input = Path.cwd().parent.joinpath('data')

path_data_input = path_input.joinpath('data_init.parquet')
path_stopwords = path_input.joinpath('stop_words_french.txt')

stop_words_txt = pd.read_table(path_stopwords, header = 0)
data_init = pd.read_parquet(path_data_input) 

Sauvegarder les fichiers

In [None]:
path_output = Path.cwd().parent.joinpath('outputs')

path_data_output = path_output.joinpath('data_fin.parquet')

data_fin.to_parquet(path_data_output)