In [None]:
import pandas as pd
import json
import nltk
import numpy as np
import re

# 1. Importation des donn√©es

In [None]:
tweet = pd.read_json("datasetProjet2022.json")
seisme = pd.read_csv('Liste_seismes_2017-2022.csv', sep = ';')

In [None]:
tweet

In [None]:
seisme

In [None]:
seisme.isna().sum()
# Aucun champs n'est null pour les seismes

In [None]:
tweet.columns

In [None]:
# On ne garde que quelques features qui vont nous interesser pour la suite
tweet=tweet[['hashtags','tweet_text','tweet_created_at']]

In [None]:
tweet

In [None]:
# On trie les lignes de tweet par date croissante
tweet=tweet.sort_values('tweet_created_at').reset_index()
tweet=tweet.drop('index',axis=1)

In [None]:
# on d√©fini la date comme le nouvel index
tweet=tweet.set_index(tweet['tweet_created_at'])
tweet=tweet.drop('tweet_created_at',axis=1)

In [None]:
tweet

In [None]:
#Pr√©l√®vement des dates et heure des seismes
seisme=seisme['Date Heure']

In [None]:
seisme

In [None]:
#Arrondissement des dates de s√©isme √† la seconde pr√®s
seisme=seisme.map(lambda x: x[:-3])

In [None]:
# Conversion de la date en datetime
seisme=pd.to_datetime(seisme)

In [None]:
# Test du format datetime
seisme[0]-pd.Timedelta('5h')


Les op√©rations sur les dates fonctionnement, c'est valid√© !!!

# 2. Etiquetage des tweets

Id√©alement, il faudrait des tweets labellis√©s √† la main. Ce n'est pas le cas ici !!

# 2.1 Les fenetres de s√©ismes

Pour labelliser les tweets, on fera l'hypoth√®se qu'un s√©isme a un impact sur tweeter pendant les 12h qui suivent son apparition. Ce pas de temps m√©riterait d'√™tre √©tudier pour trouver la valeur qui optimise les pr√©dictions de notre algorithme de ML.

In [None]:
# Cr√©er la fonction construisant les fenetres de tremblement de terre

def get_window(seisme,window_hour):
    windows=[]
    string=str(window_hour)+'h'
    for elem in seisme:
        windows.append((elem,elem+pd.Timedelta(string)))
    return windows

# Hypoth√®se : si un s√©isme survient, les 12 heures suivantes font partie de la fenetre temporelle de ce tremblement de terre
windows=get_window(seisme,12)

In [None]:
windows

# 2.2 Etiquetage binaire des tweets : 

On utilise les fenetres de tremblement de terre ci-dessus

Lab√©llis√©s √† 1 s'ils appartiennent √† une fenetre de tremblement de terre, 0 sinon

In [None]:
# Initialisation de la feature seism_association
tweet['seism_association']=np.zeros(len(tweet))

In [None]:
# Les tweets sont lab√©llis√©s
for elem in tweet.index:
    for elem2 in windows:
        if elem > elem2[0] and elem < elem2[1]:
            tweet.loc[elem,'seism_association']=1  # Si le tweet est dans une fenetre de tremblement de terre, il est positif
            pass
        

In [None]:
# Nombre de tweets √©tiquet√©s √† 1
tweet['seism_association'].sum()

31 423 tweets sont positifs. Cela repr√©sente une faible part des 500 000 tweets. Il faut r√©√©quilibrer le dataset !

In [None]:
# Visualiser les tweets positifs
tweet[tweet['seism_association']==1]

Certains tweets sont labellis√©s positifs alors qu'ils ne parlent pas d'un vrai s√©isme. On devra le prendre en compte dans l'√©tude des r√©sultats

In [None]:
# Exemple de tremblement de terre mal labellis√©
tweet_positif = tweet[tweet['seism_association']==1]
tweet_positif.iloc[13].tweet_text

# 3. R√©√©quilibrer le dataset de tweet

In [None]:
# Supprimer une bonne part des tweets n√©gatifs
list_suppr=[]  # liste de tweets √† supprimer
i=0
while i<len(tweet):
    if tweet.seism_association[i]==0:  # si le tweet est labelis√© "negatif"
        alea = random.random()
        if alea>=0.20: # On jette au hazard 80% des tweets
            list_suppr.append(tweet.index[i])
    i=i+1        
tweet.drop(list_suppr,0,inplace=True)
len(tweet)

Il reste environ 125 000 tweets dont 32 000 lab√©llis√©s positifs. Jetter de fa√ßon al√©atoire des tweets pourrait causer des probl√®mes de fr√©quences de tweets dans notre mod√®le de ML. On garde cela en t√™te.

# 4. Nettoyer le texte

In [None]:
# Remplacer les caract√®res avec accents par les lettres correspondantes
import re
from datetime import datetime
from thefuzz import fuzz


def de_accentize(text):
    """
    Remove usual latin language accentuation from letters (uppercase as well as lowercase)
    """
    accentedChars =    '√†√Ä√£√É√©√â√®√à√´√ã√≠√ç√Æ√é√≥√ì√µ√ï√¥√î√∫√ö√ª√õ√π√ô√±√ë√á√ß'
    de_accentedChars = 'aaaaeeeeeeiiiioooooouuuuuunncc'
    transTable = str.maketrans(accentedChars,de_accentedChars)
    return text.translate(transTable)

In [None]:
# Nettoyer la feature texte (tout en minuscule, pas de caract√®re sp√©cial,...)
texte_list=[]
for i in range(len(tweet)):
    texte = tweet['tweet_text'][i]
    texte=de_accentize(texte)
    texte = texte.lower()
    texte = re.sub('((www\.[\s]+)|(https?://[^s]+))','', texte)
    texte = re.sub("@[A-Za-z0-9_]+","", texte)
    texte = re.sub("#[A-Za-z0-9_]+","", texte)
    texte = re.sub('[()!?]', ' ', texte)
    texte = re.sub('\[.*?\]',' ', texte)
    texte = re.sub("[^a-z0-9]"," ", texte)
    texte_list.append(texte)
tweet['texte_nettoye'] = texte_list
tweet['texte_nettoye']

# 5. Cr√©er de nouvelles features √† partir du texte

# 5.1 Feature nombre de mots par tweet

In [None]:
# Cr√©ation de la feature nombre de mot par tweet
nb_mot_list=[]
for phrase in tweet['texte_nettoye']:
    nb_mot_list.append(len(phrase.split()))
# Mettre √† jour la feature avec le nombre de mots
tweet['nb_mot']=nb_mot_list

# 5.2 Features mots relatifs au champs lexical du s√©isme

In [None]:
# Fonction concat√©nant le texte d'un vecteur
def unpack(L):
    unpacked=''
    for i in range (len(L)):
        unpacked+=L[i]
    return unpacked
        

In [None]:
# Concat√©nation du texte des tweets positifs
unpack(text_valid)

In [None]:
# Cr√©ation du dictionnaire de tokens et fr√©quence
from nltk.tokenize import TweetTokenizer, RegexpTokenizer
from nltk.corpus import stopwords

tokenizer=TweetTokenizer()
tokens=tokenizer.tokenize(unpack(text_valid))
freq=nltk.FreqDist(tokens)
for w in sorted(freq, key=freq.get, reverse=True):
  print (w, freq[w])

Dans ce dictionnaire de tokens, on peut retrouver des mots du champs lexical du s√©isme tel que "seisme", "magnitude", "tremblements" et "terre" avec des occurences importantes. On peut donc cr√©er des features pour chacun de ces mots cl√©s

In [None]:
# Features du champs l√©xical du s√©isme
mot_seisme=np.zeros(len(tweet))
mot_tremblement=np.zeros(len(tweet))
mot_terre=np.zeros(len(tweet))
mot_magnitude=np.zeros(len(tweet))
for i in range(len(tweet)):
    tok=tokenizer.tokenize(tweet.texte_nettoye[i])
    if "seisme" in tok or "seismes" in tok:
        mot_seisme[i]=1
    if "tremblement" in tok or "tremblements" in tok:
        mot_tremblement[i]=1
    if "terre" in tok:
        mot_terre[i]=1
    if "magnitude" in tok:
        mot_magnitude[i]=1
tweet['mot_seisme']=mot_seisme
tweet['mot_tremblement']=mot_tremblement
tweet['mot_terre']=mot_terre
tweet['mot_magnitude']=mot_magnitude
tweet

In [None]:
# Affichage du texte du 11eme tweet du dataframe
tweet.iloc[11].tweet_text

In [None]:
# Affichage du 11eme tweet
tweet.iloc[11]

On observe que le texte du tweet et les features "mot_..." sont en ad√©quation.

# 5.3 Feature sentiment

In [None]:
# Test de l'analyse de sentiment
from textblob import TextBlob
from textblob_fr import PatternTagger, PatternAnalyzer
texte_nettoye = "C'est incroyable j'ai r√©ussi √† relever le plus gros d√©fi de ma vie je suis tellement heureux"
sentiment = TextBlob(texte_nettoye,pos_tagger=PatternTagger(),analyzer=PatternAnalyzer()).sentiment[0]
sentiment

In [None]:
# Initialisation de la feature sentiment
tweet['sentiment']=np.zeros(len(tweet))

In [None]:
#Cr√©er la feature sentiment

from textblob import TextBlob
from textblob_fr import PatternTagger, PatternAnalyzer

emotion = np.zeros(len(tweet))
for i in range(len(tweet)):
    emotion[i] = TextBlob(tweet.texte_nettoye[i],pos_tagger=PatternTagger(),analyzer=PatternAnalyzer()).sentiment[0]
tweet.sentiment = emotion

# 5.4 Feature fr√©quence

Attention : La cellule ci dessous met 6H √† tourner (sur mon PC...)

En effet cette feature a une complexit√© en 2n¬≤, il y a environ 125 000 tweets ce qui implique un temps de calcul tr√®s long

In [None]:
#La fr√©quence locale d'un tweet, c'est le nombre de tweets publi√©s dans un "rayon" de 12h autour de la date du tweet

# Initialiser la feature frequence
tweet['frequence']=np.zeros(len(tweet))
# initialiser la liste des fr√©quences
freq_list=np.zeros(len(tweet))
delta= '12h'  
for i in range(len(tweet)):
    time_tweet=tweet.index[i] #Date de publication du tweet
    debut_window=time_tweet-pd.Timedelta(delta) # Date de d√©but de la fenetre locale du tweet
    fin_window=time_tweet+pd.Timedelta(delta) # Date de fin de la fenetre locale du tweet
    df1=tweet[tweet.index>=debut_window] # Pr√©l√®vement des tweets dont la date est sup√©rieure √† la date de d√©but
    df2=tweet[tweet.index<fin_window]  # Pr√©l√®vement des tweets dont la date est inf√®rieure √† la date de fin
    df3=pd.merge(df1,df2) # Intersection des 2 tableaux ci-dessus
    freq=len(df3) # frequence locale calcul√©e pour le tweet en question
    freq_list[i]=freq
    print("i="+str(i)) # Cet affichage permet de v√©rifier que le programme tourne toujours apr√®s quelques heures....
    print(freq)
    
tweet['frequence']=freq_list
tweet['frequence']

In [None]:
# Affichage de la frequence locale d'un tweet
tweet['frequence'][50]

In [None]:
# Courbe de frequence locale en fonction du temps
import matplotlib.pyplot as plt
plt.plot(tweet.index, tweet.frequence)
plt.ylabel('Fr√©quence des tweets en fonction du temps')
plt.show()

Globalement, on observe une √©trange gaussienne pour la r√©partition des tweets au cours des ann√©es. On peut supposer que le covid a entrain√© une augmentation des tweets. Les diff√©rents pics peuvent √™tre du √† la suppression al√©atoire des tweets n√©gatifs op√©r√©e plus haut ou alors √† l'apparition d'un tremblement de terre.

In [None]:

plt.plot(tweet.index[47000:72000], tweet.frequence[47000:72000])
plt.ylabel('Fr√©quence des tweets en fonction du temps')
plt.show()

En regardant la liste des s√©ismes, on retrouve bien un s√©isme en fin juin 2019 et en novembre 2019 ce qui correspond √† nos pics de tweets sur la courbe.

Il serait interessant de d√©finir une nouvelle feature : la variation de la fr√©quence qui permettrait de mettre en valeur les augmentations soudaines 

# 5.5 Feature √©cart entre fr√©quence locale et la fr√©quence au loin

Id√©alement, on devrait calculer un taux d'accroissement pour la frequence pour approximer la d√©riv√©e.

Faute de temps, on fera une approximation grossi√®re en ne s'interessant qu'√† l'√©cart entre la fr√©quence locale et la fr√©quence au loin.

hypoth√®se : la fr√©quence au loin pour le tweet i, c'est la moyenne entre la fr√©quence de tweet[i-pas] et tweet[i+pas]. Apr√®s plusieurs tests, pas=550 semble etre le parametre optimal pour cette feature

In [None]:
variation_freq=np.zeros(len(tweet))
pas = 550
for i in range(len(tweet)):
    if i<pas:
        moy_freq = (tweet.frequence[i-pas]+tweet.frequence[i+pas])/2
    else:
        moy_freq = (tweet.frequence[i-pas]+tweet.frequence[i+pas-len(tweet)])/2
    variation_freq[i]=abs(tweet.frequence[i]-moy_freq)
tweet['variation_freq']=derive_freq

In [None]:
# Courbe de frequence locale en fonction du temps
import matplotlib.pyplot as plt
plt.plot(tweet.index, tweet.variation_freq)
plt.ylabel('Variation de la frequence des tweets en fonction du temps')
plt.show()

# 5.6 Feature nombre d √©mojis par tweet

In [None]:
# Test pour compter les emojis
import advertools as adv
text_list = ['I feel like playing basketball üèÄ',
             'I like playing football ‚öΩ‚öΩ',
             'Not feeling like sports today']

emoji_summary = adv.extract_emoji(text_list)
print(emoji_summary)

In [None]:
# Cr√©ation de la feature repr√©sentant le nombre d'√©moji de chaque tweet
nb_emoj=np.zeros(len(tweet))
tweet['nb_emoji']=np.zeros(len(tweet))
for i in range(len(tweet)):
    emoji_summary = adv.extract_emoji(tweet.tweet_text[i])
    nb_emoj[i] = emoji_summary['overview']['num_emoji']
    print(i)
tweet['nb_emoji'] = nb_emoj

In [None]:
tweet[tweet.mot_magnitude==1]

# 6 Visualisation

In [None]:
# Visualisation de chaque variable sous forme d'un histogramme
import matplotlib.pyplot as plt

tweet_clean=tweet[['nb_mot', 'frequence', 'nb_emoji', 'variation_freq', 'sentiment','mot_seisme','mot_tremblement', 'mot_terre', 'mot_magnitude', 'seism_association']]
tweet_clean.hist(bins=50,figsize=(20,15))
plt.show()

La feature sentiment reste majoritairement aux alentours de 0 avec beaucoup de valeures nulles

L'√©quilibre relatif entre les 1 et les 0 des features de mots est r√©jouissant.

On peut voir que le nombre de tweets positifs repr√©sente 1/5 des tweets via la feature seism_association, et on se f√©licite d'avoir tent√© d'√©quilibrer le jeu de donn√©s.

On peut voir √©galement que le nombre de mots suit une distribution de gauss.

La fr√©quence est r√©partie de fa√ßon homog√®ne tandis que la variation de la fr√©quence est une demi gaussienne (du √† la valeur absolue).

Les donn√©es nous conviennent on peut maintenant passer √† l'√©tude des corr√©lations.

In [None]:
# Calcul de la matrice des coefficients de Pearson 
corr_matrix=tweet_clean.corr()

In [None]:
# Visualisation de la matrice des coefficients de Pearson
import seaborn as sns
heat_map = sns.heatmap(corr_matrix, center=0, annot=True)

La fr√©quence est la feature qui pr√©sente le plus de cor√©lation avec les labels (seism_association) avec corr=0,5. Ca sera donc une feature tr√®s interressante pour pr√©dire les tremblements de terre et on pouvait s'y attendre.

Les features concernant le champs lexical du s√©isme sont corr√©l√©s entre elles et √ßa aussi c'est coh√©rent. La pr√©sence des mots "tremblements" et "terre" est fortement corr√©l√© aux labels. Pour les mots magnitude et s√©isme, on retrouve peu de corr√©lation ce qui s'explique par le fait que sur tweeter, le langage soutenu est moins utilis√©. D'un autre cot√©, les tweets √©tant mal √©tiquet√©s, on pourrait s'attendre √† voir les scores de corr√©lation augmenter pour beaucoup des features ci dessus.

# 7 Normalisation des donn√©es

In [None]:
# Initialisation des features √† normaliser
X = tweet_clean.drop('seism_association', axis=1)
y = tweet_clean['seism_association']

In [None]:
# Normalisation des features
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()  # normalisation
scaler.fit(X)
X_stand = scaler.transform(X)

# 8. METHODE RANDOMFOREST

Initialisation :

In [None]:
# Initialisation des entr√©es du mod√®le
X_train, X_test, y_train, y_test = X_stand[:100000], X_stand[100001:], y[:100000] , y[100001:]
y_test.sum()

Entrainement :

In [None]:
# Entrainement du mod√®le
from sklearn.ensemble import RandomForestClassifier

clf=RandomForestClassifier(n_estimators= 40) # choix de l'hyper param√®tre : 40 = Nombre d'arbres de la foret
clf.fit(X_train, y_train) # entrainement

Pr√©diction :

In [None]:
# Pr√©diction sur les X_test √† partir de notre mod√®le entrain√©
y_predict=clf.predict(X_test)

In [None]:
# Affichage du nombre de tweets correspondant √† un tremblement de terre selon notre mod√®le
y_predict.sum()

La pr√©diction donne 1 259 tweets positifs contre 3 977 pour les y_test

Evaluation :

In [None]:
# Evaluation des m√©triques pour notre mod√®le entrain√©
from sklearn.metrics import precision_score, recall_score
print(precision_score(y_test, y_predict))
print(recall_score(y_test, y_predict))

25% de pr√©cision c'est clairement un score pourris. On peut supposer que si les tweets √©taient lab√©llis√©s √† la main le r√©sultat serait meilleur.

In [None]:
y_test[2000]

In [None]:
y_predict[2000]

On observe que le tweet 2 000 a √©t√© mal classifi√© par notre mod√®le. C'est tout √† fait normal vu la faible pr√©cision de notre mod√®le.

# Pour synth√©tiser

On a r√©ussi a labelliser les tweets de fa√ßon grossi√®re mais les r√©sultats ne seront pas bon tant que les tweets ne seront pas labellis√©s de fa√ßon plus precise. On pourrait imaginer classifier √† la main les 32 000 tweets labellis√©s positifs par exemple. Sinon, lab√©lliser 32 000 tweets √ßa coute environ 1 300‚Ç¨ donc c'est abordable.

La labellisation des tweets fait apparaitre un param√®tre : le temps d'impact d'un s√©isme sur tweeter. Il vaut 12h dans ce mod√®le mais cette valeure n'est pas forc√©ment celle optimale.

Un r√©√©quilibrage du dataset a permit de travailler avec un dataset pr√©sentant 20% de tweets positifs.

La feature fr√©quence fait apparaitre un autre param√®tre : la dur√©e autour du tweet pour le calcul de sa fr√©quence. Elle vaut 12h √©galement et ce param√®tre peut √™tre optimis√©. Malheureusement, cette feature a un temps de calcul tr√®s long mais doit pouvoir s'optimiser facilement. Nous n'avons pas r√©ussi √† diminuer le temps de calcul en dessous de 6h de notre cot√©.

La feature variation de fr√©quence est calcul√©e par une approximation grossi√®re qui ferait peur √† un mat√©maticien. Cependant elle nous a permis, une fois impl√©ment√©, de passer de 7% d'accuracy √† 30% pour certains entrainements de randomforest. Elle fait apparaitre un nouveau param√®tre : le pas de calcul pour la variation de fr√©quence. Il vaut 550 actuellement. Il serait encore plus interessant de remplacer cette feature par un taux d'accroissement. 

Les features les plus interressantes sont la fr√©quence, la variation de la fr√©quence, la pr√©sence de mots du champs l√©xical du s√©isme. On pourrait √©tudier d'avantage le texte pour en extraire d'autres features interessantes. Cependant, on remarque que les features telles que le nombre de mots, le nombre d'√©mojis ou l'analyse de sentiment n'apporte pas vraiment de r√©sultat concluant. En effet, la correlation entre ces features et la pr√©sence d'un s√©isme est tr√®s proche de 0.

Notre mod√®le ne nous permet pas de classifier les tweets de fa√ßon concluante et nous obtenons au mieux 30% de pr√©dictions justes mais on peut esp√©rer qu'avec une lab√©llisation plus juste on pourrait obtenir de meilleures pr√©dictions.

La piste de recherche la plus prommeteuse serait de passer en Deep Learning en utilisant un r√©seau de neurones r√©curent tel que un r√©seau LSTM : Chaque tweet poss√®de un texte. Une fois nettoy√©, ce texte est transform√© en un vecteur via de l'embedding. On a donc une s√©quence de mots transform√©s en une s√©quence de nombres. Ainsi, on peut fournir en entr√©e du r√©seau LSTM les vecteurs qui sont des s√©quences correspondant au texte des tweets. Au bout du r√©seau LSTM, on met une couche de neuronnes dense permettant de classifier de facon binaire le tweets. 

Cette solution permettrait de traduire tout le texte de chaque tweet en tenant compte de l'ordre des mots des phrases qui est tr√®s important pour leur compr√©hension.

