In [1]:
%load_ext autoreload
%autoreload 2


import pandas as pd
import spacy
nlp = spacy.load("fr_core_news_lg")

from os import getcwd, listdir
from os.path import join, dirname, isfile

PATH_REPO = dirname(getcwd())
PATH_UTILS = join(PATH_REPO, 'utils')
PATH_DATA = join(PATH_REPO, 'data')
PATH_CONFIG = join(PATH_REPO, 'config')
PATH_RESULTS = join(PATH_REPO, 'results')

import sys
sys.path.append(PATH_UTILS)


from baseline import load_t_matcher, run_baseline_fr
from metrics import pipeline_report

from sklearn.metrics import precision_recall_fscore_support as score

import numpy as np

pd.set_option('max_colwidth', None)

In [13]:
data = pd.read_csv(join(PATH_DATA, "test_set_fr.csv"), names = ['text', 'label'], engine="python",skiprows=1)
data['label'] = np.where(data['label']=="Gratitude", 1, 0)
data['text'] = data['text'].astype(str)
texts = data['text'].values.tolist()
data

291

In [3]:
docs = list(nlp.pipe(texts))

In [4]:
t_mat = load_t_matcher(PATH_CONFIG, 't_patterns_fr.json', nlp)

In [5]:
predictions = []
patterns = []
sequences = []

for doc in docs:
  appre, pat, seq = run_baseline_fr(nlp, doc, t_mat)
  predictions.append(appre)
  patterns.append(pat)
  sequences.append(seq)


data['prediction'] = np.where(predictions, 1, 0)
data['patterns'] = patterns
data['matching sequences'] = sequences


In [6]:
data.head()

Unnamed: 0,text,label,prediction,patterns,matching sequences
0,"USER USER USER USER Merci, connaissant la g√©n√©rosit√© de transmission du savoir et outils de USER j ai peu de doutes üëèüòâ",1,1,[merci],[Merci]
1,"Si jamais on vous propose une assurance via USER , surtout ne le faites pas. Je ne vous remercie pas USER USER",0,0,[],[]
2,USER ??? Je donne et c‚Äôest comme √ßa qu‚Äôon me remercie,0,0,[],[]
3,USER USER USER soutient la r√©alisation d'un √©cocide en Gironde. Dommage que USER n'ait pas suivi les conseils de USER et r√©form√© pour la reconnaissance de l'√©cocide dans notre droit p√©nal... USER m√©rite la prison.,0,0,[],[]
4,P√©docriminalit√© : l‚Äô√âglise va cr√©er une commission de reconnaissance et de r√©paration Agression sexuelle Violence sexuelle Religions USER,0,0,[],[]


In [7]:
precision, recall, fscore, support = score(data['label'] ,data['prediction'], average='macro')
print("Precision:\t", precision, "\n", "Recall:\t", recall, "\n", "F1:\t", fscore)

Precision:	 0.809375 
 Recall:	 0.8131443298969072 
 F1:	 0.8112010246259533


## Check the false positives:

In [8]:
print(len(data[(data['label']==0) & (data['prediction']==1)]))
data[(data['label']==0) & (data['prediction']==1)][0:68]

36


Unnamed: 0,text,label,prediction,patterns,matching sequences
28,je vis mon r√™ve tous les jours c‚Äôest incroyable je suis tellement reconnaissante,0,1,[je/nous/on - √É¬™tre - super/... - reconnaissant],[je suis tellement reconnaissante]
40,Mais quel soir√©e incroyable ! Trop d'√©motions d'un coup je n'√©tais pas pr√™te ü§© Un immense merci √† USER et USER pour vos host du turfu !! üôèüò≠‚ù§Ô∏è √áa m'a fait grave plaisir ‚ò∫Ô∏è Et une mention sp√©ciale √† PLS Man qui a l√¢ch√© 5000 bits ! üò± Trop de g√©n√©rosit√© ‚ù§Ô∏è,0,1,[merci],[merci]
57,USER USER On te baise (merci mon reuf),0,1,[merci],[merci]
64,USER tro mims merci bcp !!! son iud 713639267,0,1,[merci],[merci]
69,USER USER USER Je la remercie,0,1,[je/nous/on - vous/te/les/le/la - remercier],[Je la remercie]
79,USER Le corbeau p√©tainiste doit √™tre vir√© de tous les lieux publics qu'il pollue. Merci.,0,1,[merci],[Merci]
106,USER Bonjour de nouveau! Merci de partager ce grand fou! üòò,0,1,[merci],[Merci]
146,"One piece est tellement incroyable, je remercie Ô∑ªÿßŸÑŸÑŸá d‚Äôavoir commenc√© cette oeuvre aussi profonde et qui n‚Äôest pas seulement un groupe de pote qui vont √† l‚Äôaventure pout aller chercher un tr√©sor, nan c‚Äôest beaucoup plus que √ßa c√®de juste incroyable quand j‚Äôen parle je suis",0,1,[je/nous/on - remercier],[je remercie Ô∑ªÿßŸÑŸÑŸá]
161,Chaque jour qui passe je suis reconnaissante de ne pas √™tre un homme blanc qui porte un sac √† dos Decathlon avec son costume Celio,0,1,[je/nous/on - √É¬™tre - reconnaissant],[je suis reconnaissante]
171,"üõë ATTENTION üõë Initialement pr√©vues du 22 novembre au 1er d√©cembre, toutes les repr√©sentations de la pi√®ce de th√©√¢tre ""Le coup de gr√¢ce"" sont annul√©es en raison de cas de Covid-19 d√©tect√©s au sein de la troupe. Nous vous remercions pour votre compr√©hension.",0,1,[je/nous/on - vous/te/les/le/la - remercier],[Nous vous remercions]


## Check the false negatives:

In [9]:
print(len(data[(data['label']==1) & (data['prediction']==0)]))
data[(data['label']==1) & (data['prediction']==0)]

33


Unnamed: 0,text,label,prediction,patterns,matching sequences
6,"Remerciements adress√©s √† USER , USER et USER par tous ceux qui ont pris la parole, du repr√©sentant du site Kinyinya II au Conseiller du Gouverneur de USER , en passant par le d√©l√©gu√© de l‚Äôadministrateur de Mutimbuzi et le m√©decin provincial",1,0,[],[]
21,Je crois que l‚Äôont peut remercier M Barnier candidats LR √† la pr√©sidentielle pour la qualit√© des accords sur la p√™che avec les anglais! accord b√¢cl√© honteux les p√™cheurs doivent demander des comptes √† BARNIER,1,0,[],[]
41,"En cette belle journ√©e pass√©e au royaume magique, je tiens √† remercier mille fois Broc√©liande-Nausicaa et C√©dric de la Tour de la Terreur et Lionel de Pirates des Cara√Øbes pour leur accueil, leur gentillesse et leur sens inou√Ø du spectacle üíñ castcompliment USER",1,0,[],[]
46,USER C‚Äôest a nous de te remercier c‚Äôest toi la meilleure et qui nous font rire tout les jours !! On t‚Äôaime fort et on sera toujours la pour toi tu m√©rite tout le bonheur du monde ily &lt;33,1,0,[],[]
49,(Remerciements √©ternels √† USER qui a trouv√© le titre),1,0,[],[]
53,"Nous tenons √† remercier USER pour sa contribution. Sans son soutien, nous ne pourrions pas garantir que le Canada dispose d'une strat√©gie de d√©pistage et de sensibilisation par et pour la communaut√©. USER SID21 DepisterCestLaCle VIH d√©pistage ITSS",1,0,[],[]
72,USER USER USER USER USER USER C‚Äôest que j‚Äôai une ligne √©ditoriale grand public √† respecter üôÉ mais j‚Äôappr√©cie ta g√©n√©rosit√© ;),1,0,[],[]
94,"Vous souvenez-vous quand vous avez rejoint Twitter ? Moi, oui ! MonAnniversaireTwitter Que le temps passe vite. üò≠üò≠ je tiens √† vous remercier pour le soutien.",1,0,[],[]
118,"Le g√©n√©ral BOURILLON, commandant la r√©gion de gendarmerie d‚ÄôOccitanie, a remis l‚Äôinsigne ainsi que le dipl√¥me de la r√©serve citoyenne √† Christine DUPATY, Thierry DEBREUX et Didier LAUROUA. Nos sinc√®res remerciements pour leur engagement √† nos c√¥t√©s üá´üá∑ FortsDeNosReservistes",1,0,[],[]
122,"Sincere gratitude to Swicon OC, keynote speakers, Authors, Co-Authors, Presenters, Sponsors &amp; session chairs of Swicon2021: Rupesh Rajhans, L &amp; T Electrical and Automation. USER USER USER USER USER USER USER USER",1,0,[],[]


## Check the True Positives

In [10]:
print(len(data[(data['label']==1) & (data['prediction']==1)]))
data[(data['label']==1) & (data['prediction']==1)]

99


Unnamed: 0,text,label,prediction,patterns,matching sequences
0,"USER USER USER USER Merci, connaissant la g√©n√©rosit√© de transmission du savoir et outils de USER j ai peu de doutes üëèüòâ",1,1,[merci],[Merci]
9,Un grand merci √† Mme Garcia (directrice de la USER √† Paris) et aux r√©sidents √©tudiants de cette m√™me Fondation pour avoir organis√© une course nocturne dans le cadre de No Finish Line Monaco. monaco g√©n√©rosit√© NoFinishLine,1,1,"[grand - merci, merci]","[grand merci, merci]"
10,on remercie orelsan pour ce super album,1,1,[je/nous/on - remercier],[on remercie orelsan]
13,"J'exprime ma reconnaissance aux bienfaiteurs des vuln√©rables au Tchad et je les remercie de tjrs penser √† eux. Il serait bien que les autorit√©s tchadiennes S'investissent √† produire aussi suffisamment de sorgho, afin d'√©viter de toujours attendre des autres. Allahlekou",1,1,[je/nous/on - vous/te/les/le/la - remercier],[je les remercie]
19,USER Salut Jean Pierre üëã je te remercie et te souhaite √©galement une tr√®s bonne journ√©e üòâüîµ‚ö™üëäüí™üí™,1,1,[je/nous/on - vous/te/les/le/la - remercier],[je te remercie]
...,...,...,...,...,...
377,USER Oui oui merci. üò≠ Du moment que √ßa m‚Äô√©vite d‚Äôaller en route.,1,1,[merci],[merci]
394,"USER How_to_demystify_gamer_girls.jpeg merci pour l'humour, j'adore rire",1,1,[merci],[merci]
396,"USER USER USER USER USER USER USER USER Merci Monique, √† mon tour de vous souhaiter un Shabbat plein de douceur et de s√©r√©nit√© Je vous remercie de tout c≈ìur pour les messages que vous m'envoyez Shabbat Shalom √† vous Monique",1,1,"[merci, je/nous/on - vous/te/les/le/la - remercier]","[Merci, Je vous remercie]"
400,"Tr√®s ravi d'avoir sillonn√© les r√©gions de St-Louis et Matam avec l'Equipe USER üá∫üá≥et √©chang√© avec les autorit√©s locales que nous remercions,mais surtout d'avoir constat√© l'impact de notre action sur les populations, les d√©fis et opportunit√©s d'interventions unisdanslaction",1,1,[je/nous/on - remercier],"[nous remercions,]"


## Check the True Negatives

In [11]:
print(len(data[(data['label']==0) & (data['prediction']==0)]))
data[(data['label']==0) & (data['prediction']==0)]

255


Unnamed: 0,text,label,prediction,patterns,matching sequences
1,"Si jamais on vous propose une assurance via USER , surtout ne le faites pas. Je ne vous remercie pas USER USER",0,0,[],[]
2,USER ??? Je donne et c‚Äôest comme √ßa qu‚Äôon me remercie,0,0,[],[]
3,USER USER USER soutient la r√©alisation d'un √©cocide en Gironde. Dommage que USER n'ait pas suivi les conseils de USER et r√©form√© pour la reconnaissance de l'√©cocide dans notre droit p√©nal... USER m√©rite la prison.,0,0,[],[]
4,P√©docriminalit√© : l‚Äô√âglise va cr√©er une commission de reconnaissance et de r√©paration Agression sexuelle Violence sexuelle Religions USER,0,0,[],[]
5,Remercie Dieu tu lui dois tout,0,0,[],[]
...,...,...,...,...,...
418,"USER Ne pas mettre Vladdy Jr trop t√¥t √† Cooperstown üòú Je suis d'accord. La route est encore longue mais √ßa serait cool d'avoir le p√®re et le fils. En tout cas, s'il vise cette reconnaissance, fallait qu'il se bouge et il a commenc√© √† le faire. Le plus dur sera de durer.",0,0,[],[]
419,"Il dit : ¬´ Pas m√™me moi, √† moins qu‚ÄôAllah ne me couvre du voile de Sa mis√©ricorde et de Sa g√©n√©rosit√© ¬ª. [Muslim, riyad as-salihin n¬∞86]",0,0,[],[]
420,"""Soyez reconnaissant pour la vie que vous avez et oubliez votre vain et pr√©somptueux d√©sir d'en avoir une seconde."" Richard Dawkins (Biologiste) Parce que les promesses n'engagent que ceux qui y croient..... Coran Islam arnaque Mohammed",0,0,[],[]
421,"Ne change rien mon √âdouard üòÖü§£üòÖ‚Ä¶faut remercier God heiin, tu as peut √™tre six vies!!!",0,0,[],[]
