## Imports

In [8]:
import pandas as pd
import numpy as np

import nltk

import re

import spacy

import matplotlib.pyplot as plt

#### Reading the File

In [9]:
df = pd.read_csv('clean_masks.csv')
df.head()

Unnamed: 0,natural_key,id,author_id,body,country,publishing_date,coordinates,place,user_country,retweet_count,...,name,favourites_count,friends_count,location,extracted_country,created_at,listed_count,project_tweet_count,rtt_author_ids,retweet_dates
0,1326183672739983362,703645d2-242b-11eb-9b3e-02420a000016,2995705253,Je suis allée faire quelques courses chez Carr...,,2020-11-10 15:23:21,,,FR,3,...,(((Viviane Bchnn))) 🇫🇷 🇪🇺 🇮🇱,85758,1531,Marseille au bord de la mer,FR,2015-01-24 11:59:26,132,4,"[1073646674030018560, 2937667860]",['7944 2020-11-10 18:15:45\nName: retweet_d...
1,1326224675731550208,1717c796-242b-11eb-9b3e-02420a000016,495846843,Suis en colère ! Sans être une démarche scient...,,2020-11-10 18:06:17,,,FR,2,...,A.Levy-Mozziconacci,4575,1073,"Marseille, PACA",FR,2012-02-18 11:13:11,71,2,"[882287298309763073, 10125142]",['3213 2020-11-10 18:29:35\nName: retweet_d...
2,1326417031441342465,5b9204f0-242a-11eb-9b3e-02420a000016,38634848,#Masques chirurgicaux : il est possible de les...,,2020-11-11 06:50:38,,,FR,6,...,Dominique Lang,65467,6949,"Saint-Avold, France",FR,2009-05-08 09:11:16,443,1,"[745923049292201985, 797332709504937984, 38634...",['3215 2020-11-11 07:39:41\nName: retweet_d...
3,1326398902568955910,65704270-242a-11eb-9b3e-02420a000016,15339119,Le masque chirurgical est bel et bien lavable ...,,2020-11-11 05:38:36,,,FR,51,...,Fred Softway,27391,5002,France paris,FR,2008-07-07 05:25:55,114,1,"[1257051098, 252070564, 947585901340905472, 92...",['1442 2020-11-11 05:41:07\nName: retweet_d...
4,1326434827420258304,47adc3c0-242a-11eb-9b3e-02420a000016,36383320,"Attestations, port du masque, circulation limi...",,2020-11-11 08:01:21,,,FR,8,...,France Culture,2205,1806,93.5 à Parispp,FR,2009-04-29 15:23:52,5637,1,"[933354198, 1243597919925735429, 1279274995429...",['10679 2020-11-11 08:03:36\nName: retweet_...


## Preprocessing

In [10]:
def get_hyperlinks(text):
    ## finds all hyperlinks in the text
    return re.findall(r"http\S+", text)

def rmv_hyperlink(text):
    ## removes all hyperlinks of the text
    return re.sub(r"http\S+", "", text)

def get_hashtags(text):
    ## finds all hashtags of the text
    return re.findall(r"#\S+", text)

def rmv_hashtags(text):
    ## removes all hashtags of the text
    return re.sub(r"#\S+", "", text)

def get_users(text):
    return re.findall(r"@\S+", text)

def scrap_tweets(df):
    df['hyperlinks'] = df['body'].map(
        get_hyperlinks
    )
    df['Title'] = df['body'].map(
        rmv_hyperlink
    )
    df['hashtags'] = df['body'].map(
        get_hashtags
    )
    df['Title'] = df['body'].map(
        rmv_hashtags
    )
    df['referenced_users'] = df['body'].map(
        get_users
    )

In [11]:
def clean_tweets(df):
    res = df[df['user_country'] == 'FR']
    P = (len(df) - len(res)) / len(df)
    print('{}% of tweets were removed'.format(P))
    return res
    
only_FR_df = clean_tweets(df)

0.0% of tweets were removed


#### tokenizing in sentences and PoS

In [12]:
## french PoS:
## https://github.com/cmchurch/nltk_french/blob/master/french-nltk.py

## https://nlp.stanford.edu/software/CRF-NER.html

nlp = spacy.load('fr_core_news_sm')

only_FR_df['body'].map(
    nltk.sent_tokenize
)

0      [Je suis allée faire quelques courses chez Car...
1      [Suis en colère !, Sans être une démarche scie...
2      [#Masques chirurgicaux : il est possible de le...
3      [Le masque chirurgical est bel et bien lavable...
4      [Attestations, port du masque, circulation lim...
                             ...                        
302    [En mars tout le monde voulait des masques et ...
303    [Dans 15 jours fermeture des collèges ?, A cro...
304    [La faible mobilisation, mardi, masque, pour l...
305    [Absence de RIO et masques par timidité,  pas ...
306    [L’ESS, c’est être utile socialement Exemple d...
Name: body, Length: 307, dtype: object

### Creating vocabulary

#### Lemmatize

In [13]:
from spacy_lefff import LefffLemmatizer, POSTagger

pos = POSTagger()

french_lemmatizer = LefffLemmatizer(after_melt = True)

nlp.add_pipe(pos, name='pos', after='parser')
nlp.add_pipe(french_lemmatizer, name='lefff', after='pos')

2020-11-15 12:49:08,198 - spacy_lefff.downloader - INFO - data already set up
2020-11-15 12:49:08,198 - spacy_lefff.melt_tagger - INFO -   TAGGER: Loading lexicon...
2020-11-15 12:49:08,561 - spacy_lefff.melt_tagger - INFO -   TAGGER: Loading tags...
2020-11-15 12:49:08,580 - spacy_lefff.melt_tagger - INFO -   TAGGER: Loading model from c:\users\artorias_doge\appdata\local\programs\python\python37\lib\site-packages\spacy_lefff\data\tagger\models/fr...
2020-11-15 12:49:08,891 - spacy_lefff.melt_tagger - INFO -   TAGGER: Loading model from c:\users\artorias_doge\appdata\local\programs\python\python37\lib\site-packages\spacy_lefff\data\tagger\models/fr: done
2020-11-15 12:49:08,892 - spacy_lefff.lefff - INFO - New LefffLemmatizer instantiated.
2020-11-15 12:49:08,892 - spacy_lefff.lefff - INFO - Reading lefff data...
2020-11-15 12:49:09,253 - spacy_lefff.lefff - INFO - Successfully loaded lefff lemmatizer


In [22]:
def lemmatize(text):
    return [doc.lemma_ for doc in nlp(text)]
    

lemmatized = only_FR_df['body'].map(
    lemmatize
)

2020-11-15 12:49:33,534 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,557 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,575 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,590 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,600 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,617 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,638 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,653 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,675 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,692 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,708 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:33,732 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tag

2020-11-15 12:49:35,446 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,470 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,488 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,509 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,530 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,553 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,576 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,598 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,616 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,631 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,647 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:35,671 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tag

2020-11-15 12:49:37,234 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,245 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,259 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,273 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,297 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,310 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,331 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,343 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,355 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,378 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,405 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:37,419 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tag

2020-11-15 12:49:39,023 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,034 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,046 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,069 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,095 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,125 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,152 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,172 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,185 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,206 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,237 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tagging...
2020-11-15 12:49:39,258 - spacy_lefff.melt_tagger - INFO -   TAGGER: POS Tag

In [23]:
for l in lemmatized[:20]:
    print(l)

['je', 'être', 'aller', 'faire', 'quelque', 'course', 'chez', 'Carrefour', '.', 'en', 'arriver', 'à', 'le', 'caisse', 'je', 'me', 'apercevoir', 'que', 'je', 'avoir', 'oublier', 'de', 'mettre', 'mon', 'masqu', '.....', 'ni', 'le', 'vigil', 'à', 'le', 'entrée', 'ni', 'le', '5', 'ou', '6', 'salarier', 'de', 'magasin', 'ni', 'même', 'un', 'client', 'ne', 'me', "l'", 'avoir', 'faire', 'remarquer', '.']
['être', 'en', 'colère', '!', 'sans', 'être', 'un', 'démarche', 'scientifique', ',', 'je', 'me', 'rendre', 'compte', 'que', 'seulement', '30', 'pourcent', 'de', 'marseillais', 'porter', 'le', 'masque', 'correctement', 'et', 'cela', 'quelque', 'soit', 'le', 'quartier', 'de', '#', 'marseill', '!', 'ressaisissez', 'vous', 'svp', '!']
['#', 'masques', 'chirurgical', ':', 'il', 'être', 'possible', 'de', 'le', 'laver', 'et', 'de', 'le', 'réutiliser', '10', 'fois', ',', 'selon', '@UFC', '-', 'quechoisir', '🤔', '🤔', '🤔', 'https://t.co/pPMPcWXyBF']
['le', 'masque', 'chirurgical', 'être', 'bel', 'et', 

In [24]:
lemmatized = lemmatized.map(
    lambda x : " ".join(x)
)

#### Removing unwanted characters

In [25]:
def rmv_char(text):
    ## removes all unwanted characters of the text
    text = re.sub("""[\n´]""", " ", text)
    text = re.sub("""["'+"*%&/()"=¦@#°§¬|¢\[\]\-\_\—‘’“”•`\^{}~¥©?.,:!$;«»<>]""", "", text)
    return re.sub("""\d""", " ", text)

In [26]:
filtered = lemmatized.map(
    lambda r: r.lower()
).map(
    rmv_char
)
filtered

0      je être aller faire quelque course chez carref...
1      être en colère  sans être un démarche scientif...
2       masques chirurgical  il être possible de le l...
3      le masque chirurgical être bel et bien lavable...
4      attestation  port de masque  circulation limit...
                             ...                        
302    en mars tout le monde vouloir de masque et un ...
303    dans    jour fermeture de collège  avoir croir...
304    le faible mobilisation  mardi  masqu  pour le ...
305    absence de rio et masque par timidité    pas p...
306    l ess  c être être utile socialement exemple d...
Name: body, Length: 307, dtype: object

#### Tokenizing and Removing stopwords

In [27]:
from nltk.corpus import stopwords

stopwords = stopwords.words('french')

def rmv_stop_word(tokens):
    return [x for x in tokens if x not in stopwords]

def filter_characters(tokens):
    return [x for x in tokens if x.isalpha()]

tokens = filtered.map(
    nltk.word_tokenize
).map(
    rmv_stop_word
).map(
    filter_characters
)

tokens

0      [être, aller, faire, quelque, course, chez, ca...
1      [être, colère, sans, être, démarche, scientifi...
2      [masques, chirurgical, être, possible, laver, ...
3      [masque, chirurgical, être, bel, bien, lavable...
4      [attestation, port, masque, circulation, limit...
                             ...                        
302    [mars, tout, monde, vouloir, masque, vaccin, a...
303    [jour, fermeture, collège, avoir, croire, ça, ...
304    [faible, mobilisation, mardi, masqu, syndicat,...
305    [absence, rio, masque, timidité, parce, avoir,...
306    [ess, être, être, utile, socialement, exemple,...
Name: body, Length: 307, dtype: object

## Trying out gensim

In [31]:
from gensim.models import Word2Vec
model = Word2Vec(tokens, min_count = 1)

2020-11-11 14:35:21,872 - gensim.models.word2vec - INFO - collecting all words and their counts
2020-11-11 14:35:21,872 - gensim.models.word2vec - INFO - PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2020-11-11 14:35:21,913 - gensim.models.word2vec - INFO - PROGRESS: at sentence #10000, processed 183459 words, keeping 29751 word types
2020-11-11 14:35:21,956 - gensim.models.word2vec - INFO - PROGRESS: at sentence #20000, processed 357153 words, keeping 50145 word types
2020-11-11 14:35:21,985 - gensim.models.word2vec - INFO - collected 62733 word types from a corpus of 485281 raw words and 27314 sentences
2020-11-11 14:35:21,986 - gensim.models.word2vec - INFO - Loading a fresh vocabulary
2020-11-11 14:35:22,058 - gensim.models.word2vec - INFO - effective_min_count=1 retains 62733 unique words (100% of original 62733, drops 0)
2020-11-11 14:35:22,058 - gensim.models.word2vec - INFO - effective_min_count=1 leaves 485281 word corpus (100% of original 485281, drops 0)


In [32]:
for w in np.sort(list(model.wv.vocab.keys())):
    print(w)

a
aa
aaa
aaaaaaaahhhhh
aaaah
aaah
aaamiiraaa
aaavocat
aaccliv
aacuh
aafrench
aah
aahoult
aahyim
aajfma
aajjaax
aajxq
aamaryilis
aamquee
aan
aanwww
aaon
aaoqiz
aap
aapresidglobalfarmernet
aarbitre
aarjmjuof
aaron
aaronderfel
aarongr
aaronjonesraven
aaronvells
aatea
aau
aax
aaxrfyev
aazzazzeell
ab
aba
abacan
abadal
abamako
abandon
abandonne
abandonner
abandonnera
abarader
abarleduc
abaslesmasque
abasourdi
abasourdie
abasourdir
abat
abattage
abattoir
abattre
abattu
abb
abba
abbad
abbas
abbasside
abbatage
abbater
abbeamar
abbegrosjean
abbeyhartmann
abbicyclettew
abbotasher
abbott
abbythelast
abc
abcarto
abcxc
abd
abdalaye
abde
abdel
abdelcheref
abdeldjalil
abdeldz
abdelenvrai
abdelenvrer
abdelkarim
abdelkrimdehimi
abdellakhal
abdellalihajjat
abdellatif
abdelmalik
abdelmehdi
abdelmrc
abdelzedz
abdia
abdlim
abdoul
abdoulayek
abdoulkamkam
abdoushc
abdulelrazad
abdulquira
abdusselamzahmer
abdxcym
abec
abeille
abelamundala
abenayvanna
aberotusiruk
aberrant
aberration
aberut
abgah
abhgmjqq
abidj

amidon
amie
amiens
amies
amiinamarante
amikriou
amilhat
amimarsupial
aminata
amincissante
amine
amineeeblk
aminejendnba
aminek
aminelabrech
aminematu
aminematue
aminevilani
aminfumi
amins
aminsx
amiot
amiral
amirami
amirkhadir
amis
amisdelaterre
amish
amissamya
amissi
amisumr
amitie
amitier
amitié
amivert
amk
amkvf
aml
amlil
amm
ammartns
ammljpqyj
amnddu
amnesty
amnestyfrance
amnestyhk
amo
amocz
amoin
amoindrie
amoindrissement
amondechene
among
amont
amorce
amorcer
amorouayechemo
amortir
amorçage
amour
amouracamille
amoureusement
amoureux
amovible
amp
ampbilel
amphechantenay
amphi
amphibie
amplement
ampleur
amplification
amplifier
amputer
ampélographiqu
amqrkl
amsskho
amsterdam
amsterkham
amtarox
amu
amufzfb
amugnier
amuh
amundifr
amus
amusant
amusauchocolat
amuse
amusent
amuser
amuseur
amvcle
amvcler
amvej
amvz
amwalvin
amxnataee
amyaevc
amylawrence
amypeng
amyway
amène
amélie
amélioration
améliore
améliorentc
améliorer
amélioré
aménagement
aménagemer
aménager
américain
américaine
amé

bannissant
bannissement
bannièr
bannière
bannon
banqu
banque
banquemondial
banquet
banquier
banquise
bantou
bantous
bantu
banuhmomo
banzaï
bao
baobab
baolong
baomix
baoo
baozi
bapan
bapoecu
baptiser
baptistemmt
baptisteteddy
baptisteth
baptistperrault
baptisé
bar
barackcalva
barackobama
baragouine
baraka
barakacity
barakatuh
barakzibith
baraque
baraquement
baratin
baratine
baratineur
barbara
barbarapayotte
barbarapompili
barbare
barbarelou
barbarie
barbatruc
barbe
barbecue
barbenoirrr
barberis
barberousse
barbeuzfr
barbiana
barbieux
barbikubrick
barboe
barbotte
barbouze
barbraig
barbu
barbès
barca
barcelone
bard
bardamuacab
barder
bardock
bardockamazighi
bardouville
bargxh
bari
baric
barisanjujur
barjo
barkettedelu
barkhane
barks
barnb
barnum
baron
baroudlkhayl
barquette
barr
barrage
barragebouygue
barrais
barrakiaxonn
barralsenior
barre
barrer
barriamorgan
barrièr
barrière
barriére
barré
bars
bart
barthes
barthruzza
barthès
barthélémy
bartjetweet
bartlebybye
bartlet
bartomeu
barwell
b

boycotton
boycottproduitschinois
boycotts
boycottzz
boyer
boykaa
boyquam
boys
boyslovefrance
boystory
boz
bozclayj
bozokra
boîte
boîtedesauvegarde
boîtier
bp
bpbfa
bpbxymisk
bpci
bpcoom
bpctr
bpemxfr
bpf
bpfywmerci
bpi
bpifranc
bpifrance
bpl
bpmnfp
bpolitic
bpompili
bprycqc
bpshu
bptnd
bpze
bq
bqad
bqc
bqcvysar
bqe
bqeroz
bqj
bqjkt
bqjplsu
bqkux
bqrm
bqtaq
bquestel
bquzg
bqvd
bqvt
bqxrelko
br
bra
brabet
bracelet
bracket
braconnage
braconnier
brad
bradbelek
braderie
brahim
brahmapoutre
brahmsachelhi
brahosdias
braid
brainelalleud
brainois
brainstim
brainz
brair
brais
braise
braisé
bramavie
brambiye
bramsgue
bramsi
branaajean
branche
brancher
branchouillerie
branchu
branché
brand
brander
brandir
brandonlks
brankomilan
branle
branler
branlette
branlettecolie
branleur
branquignol
branquignols
braq
braquet
bras
brasegalijuli
brasier
brasil
brassage
brassant
brasser
brassicacée
brassicanigra
bratislava
braudel
brauliojcz
braun
brave
bravenewchina
bravitude
bravo
bravos
braxoul
brazza
brazzav

claradumez
clarapergola
clarence
clarifier
clarin
clarté
clash
clasher
clashtinder
classaction
classe
classement
classer
classeur
classification
classifier
classique
classé
classée
clattenburg
claude
claudeambomo
claudecamille
claudecologne
claudedanthony
claudedj
claudeelkhal
claudemery
claudemoniquet
claudeposternak
clauder
claudesteffen
claudetoken
claudetower
clause
claustration
clavicul
clavier
clavieraverti
claviesophie
clc
cldoooo
cle
clean
cleaner
cleans
clear
clearchannelfr
clearfield
clecourtier
clef
clefs
cleliemathia
clelievg
clemardele
clemautain
clemenceau
clemencebnrn
clemenceji
clemencetstr
clementbt
clementfabre
clementgdre
clementgrv
clementlanot
clementn
clementuchiha
clemfcr
clemjess
clemmauclair
clemstreetcity
cleopvtrvvll
clep
cler
clerc
clergeay
clergé
clermont
clermontferrand
cleum
clevy
clf
clgmalrauxcsm
clhebdo
clhoroquine
clic
clicher
clichy
cliché
clicli
clics
client
clientèle
clientéle
clignez
cliic
climat
climateaction
climatechange
climatefr
climatique
cl

couple
coupler
coupole
coupon
coupé
cour
courage
courageusement
courageux
couramment
courant
courante
courbature
courbe
courcol
courdescomptes
coureur
coureurdeptipon
courier
courir
courmontsylvie
couronn
couronne
couronnement
couronner
courpenaleint
courriel
courrier
courrierinter
courrierpicard
courrierrussie
courrir
courru
cours
coursbanane
course
coursquot
court
courte
courteheuser
courtier
courtiser
courtmétrage
courtoi
courtois
courtoisie
courtoisix
courts
couscous
cousin
cousinjacob
cousins
couskouss
coussinet
cousu
cousue
cout
coute
couteal
couteau
couteaukriss
coutellerie
couter
couterer
coutibabe
coutu
coutume
couture
couté
couvelaire
couvercle
couvert
couverte
couverture
couveuse
couvre
couvrechef
couvrefeu
couvrent
couvrir
couyon
couzin
couzine
cov
cova
covaflorian
covance
covax
covd
cover
covi
covid
covidair
covidbusines
covidcaughttrump
covidecole
covider
covidhoax
covidien
covidienne
covidiot
covidiots
covidlong
covidmafia
covidschtroumpf
covidscience
covidweed
covidémen

drcjosephkabila
drcmdz
drddupuy
drdenis
drdjamilaf
dre
dread
dreadjuge
dream
dreamcast
dreamdlp
dreamdrum
dreamerkesael
dreany
drecorinne
dreffxiii
dreirsje
dreli
drepaction
drepanocytose
drericding
dresetton
dresser
dresseur
dreuz
drevetcyril
drf
drg
drgolani
drgomi
drgu
drhdp
drhz
dri
drian
dribbleur
dridri
driej
drien
drig
drilzxx
drinhausen
drirah
driss
drive
driver
drj
drjcbreton
drjhuzxtl
drkleinphilippe
drknock
drl
drlalexandr
drlalexandre
drldellamonicer
drlemoine
drlimengyan
drlwyix
drm
drmanaouda
drmartinehebert
drmartyufml
drmdauphine
drmfoudi
drmoji
drnemb
drnozman
drobble
drogber
drogue
droguer
drogues
droguesblanchiments
droidach
droit
droitard
droitc
droite
droiteil
droitier
droitisation
droits
droitsdelhomme
droitstv
drolatique
drole
dromadairejunio
drome
drone
droné
drootsdreet
drop
dropshipping
drouate
drouinda
drouot
drovitzddk
droxinuos
drphddefrance
drpoujade
drrdp
drrlqhk
drrsrau
drsbergeron
drseudri
drsquoouverture
drstefool
drtedros
drtilt
drtoudou
dru
druk
drus

elizealrem
eljefetaylor
eljfw
eljugaador
ella
ellaklh
ellefrance
ellen
eller
ellevantino
elliadd
elliott
ellle
ellr
ellwood
ellxpsism
elmanuboy
elmaraboubou
elmarwann
elmaximm
elmenir
elmpppa
elmrpedro
elnhd
elnobleebula
elnoucho
elnye
elodie
elodielepage
elogemavungu
elogemwandwe
eloisecarini
eloisekrld
eloka
elon
elonmusk
elotmaniabdel
elouariaghli
elouariyoussef
eloundouann
eloundouanne
elownknb
elparadisio
elpetrichioooo
elqqqabpu
elsafaucillon
elsatrujillo
elschterns
elscm
elsdb
elsepticien
elshaarawyy
eltahar
eltereurope
eltulhzt
elu
elue
eluseelvnvleaqu
eluyma
elveiderfdv
elvimsk
elvincentee
elvirusse
elvis
elwalidinho
elyas
elyhdrf
elysee
elyseeodia
elyssfr
elysé
elysée
elzv
elzzear
elément
em
ema
emacron
email
emakrusi
emandat
emanuelle
emarge
emballage
emballer
embargo
embarque
embarquement
embarquer
embarqué
embarras
embarrasser
embauche
embaucher
embellir
emblème
emblématique
embouche
embouteillage
embrace
embraser
embrasser
embrigade
embrigader
embrouille
embrouiller
embru

esperer
esperon
espinosaromain
espion
espionage
espionnage
espionne
espionner
esplanadeav
espoir
espoirs
esport
esportdevil
esportmarketing
esports
esprit
espritsorcier
espèce
espère
espérance
espérant
espérer
espérez
espéron
espérons
espéré
esql
esquerdaexposta
esquimau
esquive
esquiver
esr
esrf
essai
essaie
essaim
essais
essay
essaye
essayer
essayez
essayiste
esscaecole
esse
essec
esseer
essefere
essence
essentialiser
essentialisme
essentiel
essentielle
essentiellement
essentiels
esser
essereferrari
essianenelson
essilor
essonne
essor
essouffle
essouffler
essuyer
essétérer
establishment
estadao
estager
estampiller
estasieocéanie
estcepam
estdifferer
estell
estelle
estelleegni
ester
estherbenbassa
estherkonza
estherkonzer
estherngalula
esthetiqu
esthétique
esthétiquemer
esti
estil
estim
estimation
estime
estiment
estimer
estimé
estimée
estival
esto
estomac
estompe
eston
estonie
estrer
estropier
estsur
estuaire
estudios
esu
esvctpj
esvidalo
esxqkj
esz
eszgldn
eszw
etabli
etac
etace
eta

fonctionnement
fonctionnent
fonctionner
fonctionné
fonctionpubliqu
fond
fondamental
fondamentalement
fondamentales
fondamentalisme
fondamentaliste
fondamentau
fondapol
fondateur
fondation
fondationabeona
fondationaphp
fondationarc
fondationmaeght
fondationnh
fonde
fondement
fondemer
fonder
fondre
fonds
fondu
fondzjah
fonfonstephane
fonljjbj
fonsdé
font
fontaine
fontainebleau
fontanet
fonterra
food
foodeu
foodfraud
foodprofessor
foooteus
foot
football
footballeur
footballmanager
footballogue
footen
footeux
footgrec
footi
footiranien
footix
footmercato
footyeoff
footyheadline
for
forbid
forblerw
forc
force
forcedelordre
forcement
forcené
forceouvriére
forcer
forcesla
forcez
forcing
forcé
forcée
forcément
forcémer
ford
fordnation
foreignpolicy
forestier
foret
forex
forey
forfait
forfaiture
forger
forget
forhongkong
fork
form
format
formatage
formater
formateur
formation
formationcrapcexpertisespa
forme
formel
formellement
forment
former
formez
formidable
formisanorobert
formon
formose
for

gigaoctet
gigembre
giger
giggs
gigi
gigwnnvvk
gihead
gij
gilaed
gilbert
gilbertbrisbois
gilbertcollard
gilbertderay
gilbertsansou
gilbousquet
gilcomp
gildascras
gildenice
gilead
gilet
gilets
giletsfrance
giletsjaune
giletsjaunes
gilford
gilgilphoto
gilgit
gilguy
gillaps
gillegilles
gillesbruno
gillesclavreul
gillesdegra
gilleslaurent
gilleslebreton
gillesragot
gilleswalou
gillooz
gilson
giltink
gimdav
gimmekitthe
ginabat
ginagrimont
gingembre
ginger
gini
ginseng
gio
giodnl
giom
giomosby
giovanni
gip
girafe
giraffe
giragosian
giraph
girard
giraud
giressbaggothy
giribot
girl
girlpower
girlz
giro
girolata
giron
girondi
girondins
girondinsjohn
girouette
girpa
girrbach
girw
giryjohan
gisaloo
gisement
gisors
gitan
gitega
giugium
giuliani
giuseppe
givri
givrix
gizele
gj
gjawtt
gjcjean
gjklxhcu
gjkxw
gjlv
gjlxnrtw
gjn
gjo
gjpvernant
gjr
gjsju
gjuozqgj
gjw
gjx
gjz
gjzxa
gk
gkb
gkefta
gkfjmvgd
gkhs
gkierzek
gkikango
gkimflrz
gkk
gklt
gkshn
gkt
gktbgjby
gktiwwj
gky
gl
glac
glace
glacer
glacial
gl

httpstcobmlb
httpstcobmlymxosjh
httpstcobmmffontm
httpstcobmph
httpstcobmpipszzeb
httpstcobmurhbfrax
httpstcobmuwqrcy
httpstcobmyaju
httpstcobmz
httpstcobmzr
httpstcobn
httpstcobngtkzmezb
httpstcobngyplsopa
httpstcobnhg
httpstcobnosbck
httpstcobnvdw
httpstcobnvonllsb
httpstcobnx
httpstcobo
httpstcoboa
httpstcobohyx
httpstcobojc
httpstcobokolrguo
httpstcoboo
httpstcobopadfv
httpstcoboqn
httpstcobous
httpstcoboybfnvlmx
httpstcoboywv
httpstcobp
httpstcobpaxo
httpstcobpeetfh
httpstcobpia
httpstcobpufmxaoeg
httpstcobpwl
httpstcobpxdma
httpstcobpxlof
httpstcobqdew
httpstcobqgsducvw
httpstcobqh
httpstcobqhbacd
httpstcobqhrhv
httpstcobqitrhawau
httpstcobqk
httpstcobqlfutclv
httpstcobqmosw
httpstcobqmylarwtz
httpstcobqox
httpstcobqrtdvxcdv
httpstcobqsbrpzeed
httpstcobqtouuy
httpstcobqwlpeqvv
httpstcobqyyc
httpstcobqzoku
httpstcobr
httpstcobraflq
httpstcobrdztrhnzv
httpstcobrenjifeew
httpstcobrep
httpstcobrnaygcma
httpstcobrq
httpstcobrtzsqptb
httpstcobs
httpstcobshgdaiicr
httpstcobshsnog
httpst

httpstcohxi
httpstcohxodwyfo
httpstcohxop
httpstcohxpezyifwa
httpstcohxs
httpstcohy
httpstcohycplhla
httpstcohyeruor
httpstcohyh
httpstcohykkc
httpstcohym
httpstcohymov
httpstcohyqywvbep
httpstcohyrqnmchli
httpstcohyz
httpstcohzdwl
httpstcohzqau
httpstcohzrchseul
httpstcohzrndhdvhm
httpstcohzwnii
httpstcohzxbhw
httpstcohzytc
httpstcoi
httpstcoia
httpstcoiaepycvowa
httpstcoiafhizl
httpstcoiahxn
httpstcoiajrkradiy
httpstcoiam
httpstcoianhkvc
httpstcoiao
httpstcoiars
httpstcoiaspfdwzi
httpstcoiatem
httpstcoiatgtwosrq
httpstcoiaufglocam
httpstcoiaush
httpstcoiaxaxapvfx
httpstcoiaxkxwsgyg
httpstcoib
httpstcoibbb
httpstcoibbxb
httpstcoibc
httpstcoibeptsw
httpstcoibg
httpstcoibihvylhxo
httpstcoiblsuxjkke
httpstcoiboixwgwof
httpstcoibolohytg
httpstcoibsa
httpstcoibsgfftex
httpstcoibsqple
httpstcoibt
httpstcoibvhkqvjff
httpstcoibw
httpstcoibxfakt
httpstcoibym
httpstcoibzipmjadb
httpstcoic
httpstcoicajq
httpstcoicb
httpstcoicgl
httpstcoickmeiplha
httpstcoicngrrb
httpstcoico
httpstcoicvqtshkdr
ht

httpstcoqgcddoyltp
httpstcoqgclpp
httpstcoqgf
httpstcoqggohezwpc
httpstcoqgpahdsujq
httpstcoqgqpbb
httpstcoqgr
httpstcoqgubcjibi
httpstcoqgukotrki
httpstcoqgxun
httpstcoqgzmdsvaf
httpstcoqh
httpstcoqhackpkl
httpstcoqhb
httpstcoqhbcqrdiyw
httpstcoqhbin
httpstcoqhde
httpstcoqhgblmx
httpstcoqhh
httpstcoqhihi
httpstcoqhjaagoh
httpstcoqhmtqd
httpstcoqhphivv
httpstcoqhrmfve
httpstcoqhrthffikz
httpstcoqhvvipnqxm
httpstcoqi
httpstcoqicd
httpstcoqiejxatmnb
httpstcoqifnxnidxi
httpstcoqihoq
httpstcoqij
httpstcoqiozcb
httpstcoqir
httpstcoqishoorkmr
httpstcoqivh
httpstcoqivnn
httpstcoqiw
httpstcoqj
httpstcoqjaswogwtc
httpstcoqjdzmnndwq
httpstcoqjeflmmpvz
httpstcoqjgpj
httpstcoqjlzg
httpstcoqjo
httpstcoqjofa
httpstcoqjoqjaheoa
httpstcoqjoymdcxk
httpstcoqjt
httpstcoqjuf
httpstcoqjv
httpstcoqk
httpstcoqkbahoff
httpstcoqkelbll
httpstcoqkodfnaex
httpstcoqktrzh
httpstcoqkwmg
httpstcoqkxz
httpstcoqkyuthwvxp
httpstcoql
httpstcoqlbzbfgxqf
httpstcoqlekb
httpstcoqlniqaynyv
httpstcoqlp
httpstcoqlwmwbe
httpstco

httpstcovjg
httpstcovjnwu
httpstcovjritms
httpstcovjtolszmrg
httpstcovjvvinpi
httpstcovjyfxaumz
httpstcovk
httpstcovka
httpstcovkhhll
httpstcovkhxznwitm
httpstcovkituhpcp
httpstcovkixpguiru
httpstcovkjd
httpstcovkn
httpstcovkrqyeajnp
httpstcovkuoht
httpstcovkvfkdkybj
httpstcovkvkcaobxx
httpstcovkxtgecsg
httpstcovl
httpstcovlb
httpstcovlga
httpstcovljyzjou
httpstcovlkfbncrb
httpstcovlljwezker
httpstcovlo
httpstcovlwjxbbiw
httpstcovlwpadc
httpstcovm
httpstcovmbjj
httpstcovmcyv
httpstcovmdaib
httpstcovmllvslntl
httpstcovmon
httpstcovmovpke
httpstcovmqsmqg
httpstcovmr
httpstcovmrwzjhwoe
httpstcovms
httpstcovmssimztt
httpstcovmueuls
httpstcovmwcqpwthz
httpstcovn
httpstcovna
httpstcovnazt
httpstcovnbdwtyxf
httpstcovnf
httpstcovnj
httpstcovnm
httpstcovnmmibjcay
httpstcovnniylpudh
httpstcovnnsuxag
httpstcovnquupylee
httpstcovntbi
httpstcovo
httpstcovoabouqrk
httpstcovobl
httpstcovodxpxjuiq
httpstcovoekmbmitj
httpstcovop
httpstcovoqw
httpstcovovd
httpstcovovj
httpstcovoxujfy
httpstcovpc
httpstc

httpstcoyroupspsks
httpstcoyrp
httpstcoyrqqofkknv
httpstcoyrwv
httpstcoyrzzcxkfah
httpstcoys
httpstcoysao
httpstcoysnxkeowmf
httpstcoysotgqnalf
httpstcoyspdufwran
httpstcoysqzi
httpstcoysuirqkpax
httpstcoysujrwpv
httpstcoytdh
httpstcoytetvnca
httpstcoytewerabrl
httpstcoythfj
httpstcoytmv
httpstcoytocgx
httpstcoytovje
httpstcoytpnkdpjfv
httpstcoytteyrk
httpstcoytu
httpstcoytwwx
httpstcoyu
httpstcoyubajd
httpstcoyugivq
httpstcoyuhgdehvxw
httpstcoyuhucw
httpstcoyujpyfdlu
httpstcoyul
httpstcoyunnkt
httpstcoyuqy
httpstcoyuwscsbr
httpstcoyuz
httpstcoyv
httpstcoyvcpq
httpstcoyvgfu
httpstcoyvikx
httpstcoyvisty
httpstcoyviz
httpstcoyvldjkmfga
httpstcoyvln
httpstcoyvrslmcb
httpstcoyvrtxmkikb
httpstcoyvvkgyhwhs
httpstcoyvwk
httpstcoyvxkxzcule
httpstcoyw
httpstcoywavvf
httpstcoywcxq
httpstcoywihqesgy
httpstcoywtdupcvjh
httpstcoywvn
httpstcoywvt
httpstcoywzpfuwmqi
httpstcoyxat
httpstcoyxi
httpstcoyxjxr
httpstcoyxsuorluba
httpstcoyxsvuxwimq
httpstcoyy
httpstcoyyegtwp
httpstcoyyesya
httpstcoyyezknyjg

inaudible
inaugural
inauguration
inaugure
inaugurer
inazuma
inc
inca
incalculable
incantation
incapable
incapacité
incarne
incarnent
incarner
inccnr
inccnrs
incel
incendie
incendier
inceptionmn
incertain
incertaine
incertitude
incessammer
inceste
inch
inchaallah
inchallah
inchanger
incidence
incident
incinération
incit
incitation
incite
inciter
incivisme
inclu
inclue
incluent
inclure
inclus
inclusif
inclusion
incognito
incoherent
incohérence
incohérent
incomber
incommensurable
incommonlabsils
incomparable
incompatibilite
incompatible
incompetent
incompetentd
incomplet
incomprii
incompris
incompréhensible
incompréhension
incompétence
incompétent
incompéter
inconcevable
inconditionnel
inconfortable
incongru
incongrus
inconnu
inconnue
inconnueastrazeneca
inconsciemment
inconscient
inconsidéré
inconséquent
incontestable
incontestablemer
incontournable
incontrôlable
incontrôlé
inconvénient
incorporation
incorporer
incorrect
incorrigible
incorruptible
incovénient
incoyabl
incr
increased
incr

jinning
jinnywicked
jinping
jintao
jinton
jinwoo
jiotdbl
jip
jipette
jiping
jipk
jipzq
jirai
jirayalecochon
jirayer
jirenpv
jisoiggl
jisoomyworld
jiswrlds
jiu
jiulong
jiuzhaigou
jiw
jiwe
jiwei
jixsq
jiyan
jiyata
jiyul
jiz
jj
jja
jjapuchae
jjaricot
jjarnieu
jjdj
jjhjlsokm
jjhublin
jjj
jjjyysse
jjk
jjl
jjlemans
jjlr
jjo
jjog
jjol
jjox
jjpeh
jjq
jjr
jjsaldat
jjtjcyi
jjusurq
jjuteux
jjvcdxte
jjwinazz
jjzpkf
jk
jkamitatu
jkazadi
jke
jkerpont
jkey
jkf
jkfl
jkk
jkl
jkp
jkqt
jkrv
jkuxqgj
jkwwk
jkxnia
jl
jlapostat
jlattrape
jlcr
jld
jlducastel
jle
jlechanteux
jles
jlfcdc
jlfemto
jlgervaise
jlgvoh
jli
jlidiguerrero
jlinier
jlkblackburn
jll
jllambert
jlm
jlmelenchon
jlmoha
jlmoudencmaire
jlnsgr
jlpc
jlproulx
jlq
jltomy
jlucqlxcb
jlui
jlukphoto
jlvj
jlvr
jm
jmalric
jmaphatie
jmauler
jmb
jmbigard
jmblanquer
jmboiron
jmcourty
jme
jmen
jmenfouhein
jmet
jmflb
jmgqcvo
jmgy
jmh
jmilunga
jmity
jmj
jmjancovici
jmjaval
jmkxl
jml
jmlaf
jmleguen
jmlnay
jmlrt
jmlwkpc
jmm
jmnfou
jmnnr
jmoz
jms
jmsadhafi
jmsj
j

karibou
karim
karimabdh
karimadelli
karimbitar
karimeh
karimfr
karimjvousnik
karimkrl
karimzeribi
karin
karinaf
karine
karinemartel
karineparent
karinhann
karité
karkouch
karl
karlbelanger
karlpeterabel
karlspookbuster
karltelo
karma
karmaismybxtch
karnagemvp
karok
karstique
karstiques
kart
kartelisme
karther
kartuzb
kasai
kasaien
kasaiils
kasaioo
kasaioriental
kasanzajeff
kasaï
kasaïen
kasaïens
kaseki
kashgar
kashmris
kaslq
kasmwapalek
kasperky
kassos
katanga
katangai
katar
katara
katdevlinmusic
katembo
katepichot
kathaelen
kathmandu
kathokapuya
kathrin
katiabrahimi
katialekarski
katiembaker
katizgod
katja
katm
katmandou
katnaillec
katnissc
katonmrd
katopukzerto
katswaw
katumbi
kau
kaunas
kavuncuromain
kawa
kawaelda
kawakarpo
kawayaatia
kawayaatier
kawele
kawun
kay
kayaggylu
kayak
kayane
kayar
kaydeenfk
kayemelize
kayen
kayn
kaynouky
kayssimhl
kaz
kazahkstan
kazakh
kazakhstan
kazeeer
kazekagarance
kazewalol
kazhakstan
kaï
kağan
kb
kbaca
kbbkcm
kbc
kbcadwr
kbd
kbg
kbgstone
kbgu
kbheh
k

leborgnemickael
lebou
leboubou
leboycotteur
leboyer
lebrabantwallon
lebron
lebrouteur
lebrunclment
lebsniu
lebuk
lebuurjoie
lec
lecactus
lecamarguais
lecamusc
lecapricieux
lecasrendash
lecat
lecatalex
lecedebxl
lecentseptlyon
lechatdulivre
lechatpitre
lechegue
lecher
lecho
lechypre
leclerc
lecnam
lecoindeslgbt
lecoindigital
lecointrevianne
lecoledespont
lecoleduturfu
lecoleurbaine
lecologie
lecommandantm
lecommerce
lecookie
lecoridon
lecosanstabou
lecouragedagir
lecran
lecrif
lecrise
lecteur
lectra
lectue
lectur
lecture
lecume
lecun
led
ledaaif
ledauphinadn
ledauphine
ledawa
ledecrassage
ledemeter
ledevoir
ledignois
lediplomat
ledit
leditiondusoir
ledoc
ledome
ledoumbe
ledrian
lee
leec
leefloo
leen
leeroy
leers
leetchi
leevver
leexrgr
lef
lefabinfo
lefabuleuxorientexpress
lefatshiste
lefetichedz
leffet
lefigaro
lefigarosante
leflambeau
lefleau
leflochjerome
leforgeron
lefrereel
lefthanded
leftnatmulatto
lefébure
legalker
legangneux
legault
legend
legendaryicarus
legende
legendofdeifica

lzcv
lzhzf
lzjopm
lzkw
lzm
lzoghak
lzt
lzykkz
lzymg
lzzha
lzzu
lzzyfer
là
làba
lá
lâche
lâcher
lâcheté
lèch
lèche
lève
lèvre
lé
lécher
lécoloprogressisme
léconomie
léconomiecirculaire
légal
légalement
légendaire
légende
léger
légiférer
légionnaire
législatif
législation
légisme
légitime
légitimement
légitimer
légitimité
léguer
légume
légumineuse
légère
légèrement
légèreté
léna
lénergie
léniniste
léonard
léonin
léopard
lépidémie
léro
léser
lésine
lésion
létal
létalité
léthargie
lévine
lévy
lòu
lópez
lœss
maa
maaaal
maaaalade
maadinhoo
maagentz
maajyc
maalado
maalich
maaloula
maame
maams
maanicore
maanjek
maanoc
maapass
maatredondo
mac
macabre
macao
macarena
macarthur
maccarthysme
macdo
macedonien
maceici
macglandiere
macheloup
machette
machiavel
machiavélique
machiavéliste
machin
machinbidulchou
machine
machinelearning
machinerie
machiniste
machins
machivel
macinsid
mackbba
mackencee
macky
mackysall
macleansamuel
maclesggy
macmoussu
macrelle
macro
macroandfinance
macrocytose
macromolécu

mattsm
mattthaieau
matudicharo
maturateur
maturation
mature
maturité
matérial
matérialiser
matérialisme
matérialité
matériau
matériaux
matériel
mauadrien
maubeuge
maubeugoi
maublanc
maud
maudire
maudit
maudquessard
mauduitf
maudwonderland
mauguio
maurasdavid
maure
mauretanien
maurice
mauricecibuabua
mauricemartin
mauricetowa
mauricien
maurinemonaco
maurisque
mauritanie
mauritanien
mauropoggia
maus
mauvais
mauvaiscoter
mauvaisdiez
mauvaise
mauvaisecie
mauvaisenouvel
mauvaisesp
mauver
mauviette
mavachou
maverick
mavicpaul
mawathilde
mawetrgis
mawu
max
maxallica
maxb
maxbergeron
maxcmp
maxcordier
maxcordiez
maxcwaza
maxdevil
maxfoot
maxhinist
maxhrau
maxhunky
maxidrol
maximal
maximax
maxime
maximeb
maximebernier
maximebourdeau
maximecochard
maximegauin
maximelbmartin
maximelledo
maximeolivo
maximesmx
maximeswitek
maximethiebaut
maximewa
maximilien
maximinho
maximiser
maximjai
maximlarrivee
maximum
maxlib
maxlpp
maxocesar
maxol
maxsaada
maxwell
may
maya
mayaa
maybe
maycsoo
mayel
mayenda
ma

monaalsehli
monaco
monaconowfr
monarche
monarchie
monarchique
monartfrance
monashuni
monastère
monavisamoi
monbazonde
moncanard
moncef
moncoachwebmarketingnc
mond
mondaymotivation
monde
mondededemain
mondededingue
mondediplo
mondeeee
mondeinfo
monder
mondes
mondial
mondiale
mondialebon
mondialement
mondialisa
mondialisation
mondialise
mondialiser
mondialiste
mondialister
mondialisée
mondialisés
mondiau
mondstadt
monet
money
mongol
mongolarslan
mongole
mongolia
mongolie
mongoliedusud
mongolien
mongoliens
mongols
mongroscrane
monicalova
monicamaill
moniquemukuner
monisme
monkeyaxel
monkeydchwan
monkeys
monkeyseat
monkeysofshaolin
monkeyv
monkwithskull
monnai
monnaie
monnayer
monniauxd
monoculture
monod
monogamie
monolect
mononcle
mononoa
mononokehim
monoplace
monopole
monopolis
monopolisent
monopoliser
monosourcil
monothéisme
monothéiste
monotrème
monox
monoxyde
monozygote
monparnal
monpeep
monpotag
monpékinexpress
monsanto
monsieur
monsieurbidule
monsieurdream
monsieurgypaete
monsieurki

nielsen
niemann
niemesia
nier
niera
niez
nif
nigc
nigelcapitalist
nigelv
niger
nigeria
nigerian
night
nightcallbx
nightmarestorm
nightreplay
nigéria
nigérian
nigérien
nihadwithanote
nihfzsq
nihiliste
nihon
nijn
nijv
nik
nikaadww
nikageo
nikaia
nikalecge
nike
nikeesport
nikela
nikitakarachoi
nikkei
nikkey
nikkwuvu
niklamerafabian
nikmartineau
nikom
nikop
nikopol
nillo
nilma
nilote
nimbusdamour
nimec
nimesmaville
nimh
nimp
nimportn
nimposimato
nims
nina
ninarfiori
ninasky
nindk
ningde
ningxia
nini
niniosaure
ninisynn
ninja
ninjableu
ninjaomniscient
nintendalert
nintendofranc
niok
niosh
niou
niouzesfr
nipah
niplumalin
nippon
niqu
nique
niquel
niquer
niquez
niquido
niromantik
nis
nisb
nishizumi
nissalabela
nisszac
nisyaxx
nitahell
nite
nitnerocp
nitrous
niusmarco
niv
nivaquine
niveau
niveler
niwx
nixieramone
nixon
niya
niz
nizaramamou
nizartf
nizarveintiuno
niziu
nièce
nième
nié
nj
nja
nje
njee
njg
nji
njikemax
njkrm
njnh
njomborb
njon
njte
njvk
njwm
njyx
nk
nkaee
nkasma
nkb
nke
nkeelem
nk

occihk
occitan
occitanie
occitanum
occodental
occultation
occulte
occupant
occupation
occupe
occuper
occupon
occupé
occurence
occurrence
ocdbcmdr
ocde
ocdmir
ocdnn
oce
ocean
oceaneardt
oceanedeido
oceanejlo
oceanie
oceanien
oceanologie
oceanopolis
ocfbvl
ochobah
ocienfr
ocipalc
ocj
ocjvcfyc
ockaaaz
ockham
ockrent
ocoquelin
ocot
ocotbre
ocotobre
ocpa
ocpmontreal
ocroa
ocshg
oct
octave
octaveskiel
octavink
october
octoberfest
octobre
octobreporte
octobrerose
octobrevotesanction
octroi
octroyer
ocujypu
oculaire
ocuppez
ocx
oczeuqg
océan
océanie
océanien
océanindien
océanique
océanographie
océanographiques
océans
od
odclef
odd
odda
oddammm
oddiafaz
ode
odecner
odemg
odeur
odff
odgy
odienné
odieuse
odieux
odieuxp
odilemojon
odilevignal
odjino
odjw
odlbfh
odorat
odouacle
odreynalyne
odroh
ods
odup
odwczltn
odxkxt
odyseion
odyssée
odysséeduvirus
odz
oe
oeaog
oearserdc
oecd
oee
oeesayna
oef
oefficient
oeg
oeil
oeilsurlepasnet
oejys
oelrec
oen
oeowf
oer
oes
oesb
oeuf
oeufsbio
oeuvre
oeuvrer
oeu

pariscyberweek
parisdauphinepsluniv
parishabiter
parisianocentré
parisien
parisjecoute
parismatch
parisnord
parisonalain
parispeaceforum
pariswiler
parisyfc
parité
park
parker
parking
parkinson
parl
parla
parlai
parlant
parlch
parle
parlement
parlementaire
parlementer
parlent
parler
parlera
parleron
parleur
parlez
parlon
parlonsystoir
parlonsystoire
parlwallonie
parly
parlydemission
parlé
parlée
parmentier
parmesan
parmi
parmis
paroccident
parodie
parol
parole
paroleaupeuple
parolin
paroxysme
parque
parquer
parquet
parrain
parrainage
parreseux
parsqu
part
partage
partageable
partagent
partageon
partager
partagercsympa
partagez
partagé
partaient
partant
partenair
partenaire
partenarial
partenariat
parternel
partey
partez
parti
partial
partianimaliste
participant
participatif
participation
participativelaboratoir
participe
participent
participer
participez
particommunistechinois
particularisme
particularismes
particularité
particule
particuler
particulier
particulierement
particulière
pa

potinsdelyon
potion
poto
potsdevin
potter
potu
potus
pou
pouaah
pouah
pouaichh
poubelle
poubellelounet
pouce
pouchkinet
poudre
poudreux
poudrière
pouette
pouettruc
pouff
pouffe
poufvagabond
pouhahahahahaha
pouhahahhaah
pouilleux
poule
poulet
pouletbraiserr
pouletisation
poulie
poulin
pouliot
poulpe
poumon
poupetteandco
poupipoupa
poupits
poupée
pouquoi
pouragirensembl
pourais
pource
pourcent
pourcentage
pourcer
pourer
pourfendeur
pourparler
pourquo
pourquoi
pourquoifaire
pourquoipastoi
pourra
pourrai
pourrais
pourri
pourriez
pourrir
pourriture
pourront
poursuite
poursuiviaccuser
poursuivon
poursuivre
pourtant
pourter
pourtour
pouruoi
pourvoir
pourvoyeur
pouslrsuite
pouss
pousse
poussent
pousser
pousseur
poussif
poussinpiouuuu
poussins
poussière
pout
poutin
poutine
poutinesenpai
poutinexavier
poutre
pouvaient
pouvoir
pouvoirs
pouvon
pouvont
pouxyj
pouxytebz
pov
powa
powecom
power
powerful
powertolgbtqia
powertolgbtqier
powervassily
powerzordan
powlo
poyodemagloire
pozettemag
poèm
poème


pspp
psq
psqe
psql
pss
psspecial
pssuiss
pstgkd
psu
psullivann
psv
psvr
pswpl
psxq
psy
psychiatrie
psychiatrique
psychique
psycho
psychoacoustique
psycholinguistique
psychologie
psychologique
psychologiquement
psychologue
psychology
psychomoteur
psychopate
psychopathe
psychopathie
psychorigidité
psychose
psychosomatique
pt
ptac
ptain
ptarissi
ptatiquent
ptb
ptbbelgiqu
ptbu
ptdddddddddddr
ptdddddrrrrrrr
ptddddr
ptdddr
ptdddrrrr
ptdddrrrrr
ptddr
ptddrr
ptddrrrrrrr
ptdfrrrrttrrr
ptdr
ptdrr
ptdrrr
ptdrrrr
ptdrrrre
ptdrrrrr
ptdrrrrrr
ptdrrrrrrr
ptdrrrrrrrr
ptdrrrrrrrrr
ptdrrrrrrrrrr
ptdrrrrrrrrrrr
ptdrrrrrrrrrrrrrrrrr
ptdrsrrrrrrrrrr
ptef
ptet
ptete
ptetr
ptetre
pthhue
pthjylh
ptiberry
ptibiotech
ptin
ptit
ptite
ptitniko
ptkcl
ptn
ptnn
ptrlzyzmd
ptruq
ptttdrrrr
ptyqwlcq
ptzlp
ptzo
ptètre
ptêtre
pu
puaminfo
puante
puanteur
pub
pubien
publ
publi
public
publication
publiciser
publicitaire
publicité
publicsenat
publie
publier
publique
publiquement
published
pubny
pubère
pucage
puce
puceau
pucer

realisateur
realise
realite
realize
reallennieclrd
really
realm
realmaks
realme
realmechine
realpcy
realpolitik
realstdsz
realtrecento
realx
ream
reaouar
reaper
rebaptise
rebaptiser
rebaptisé
rebattre
rebeccamakonnen
rebeccarambar
rebelle
rebeller
rebelmayhem
rebelnewsonline
rebeublanco
rebeudeter
rebeutimide
rebkoum
rebond
rebondir
rebondissement
rebouffer
rebours
rebut
rebute
recadree
recadrer
recalage
recaler
recas
reccollectif
recconer
receipt
recense
recensement
recenser
recension
recensée
recensés
recent
recente
recentrer
recepteur
reception
receptors
recession
recette
recevable
recevoir
recevrai
recharge
rechargeable
rechargée
rechauffement
rechauffementclimatiqu
recherche
rechercheagricole
recherchepartenarial
rechercher
recherchez
recherchist
recherchthon
rechute
reciprocite
reciproque
recit
reclame
reco
recognizeartsakh
recois
recoit
recoivent
recoloniser
recolte
recomander
recombinaison
recommand
recommandation
recommande
recommander
recommence
recommencer
recommença
recompe

réformiste
réfractaire
réfrigérateur
réfrigérateurindustriel
réfugier
réfugié
réfut
réfutation
réfute
réfuter
référe
référence
référencer
référendum
référendums
référent
référer
référundum
régale
régaler
régalien
réger
régie
régim
régime
régine
région
régional
régionaliser
régionalisme
régionaliste
régir
régle
réglement
réglementaire
réglementation
réglementer
régler
réglo
régner
régresse
régresser
régression
régul
régularité
régulation
réguler
régulier
régulière
régulièrement
régulièremer
régénératif
régénération
régénératrice
régénérer
régénéron
réhabilité
réime
réimporter
réincarnation
réindustrialisation
réindustrialiser
réinfection
réinjecte
réinsertion
réinstallation
réinstaller
réinterpréter
réintroduction
réintroduire
réinvent
réinventer
réinventé
réinvestir
réitèr
réjouir
réjouis
réjouissant
réjouisson
réligion
rémi
rémigrer
réminiscence
rémission
rémunération
rémunérer
rémy
rénal
rénovation
rénover
réorganiser
réorienter
réouverte
réouverture
réouvre
réouvrir
rép
répandre
rép

schuste
schwarzenegger
schwarzye
schwentzel
schwep
schéma
sci
sciaaqet
sciatique
scichefcan
sciecle
sciemment
science
scienceag
scienceanim
scienceclic
scienceencler
scienceendirect
scienceenlivre
scienceetavenir
scienceetvie
sciences
sciencesavenir
sciencesdulangage
sciencesenplateau
sciencesenvue
sciencesettechnos
scienceshumaines
sciencespo
sciencespoulet
sciencessanté
scienespo
sciensano
scientifique
scientifiquement
scientiste
scier
scintigraphiste
sciseau
scission
scjgf
scjxa
sclavis
sclérose
scm
scmarco
scmp
scmpnew
scmpnews
scnatch
scolaire
scolarisation
scolariser
scolariter
scoop
scoopit
scooter
scope
score
scornde
scornder
scorndes
scorpion
scorpiovenus
scotcher
scotpaul
scottmorrisonmp
scoumoune
scpncommissair
scpoexeced
scpoforever
scpolyonavenir
scrap
scream
screen
screener
screenteamfr
scribe
scrimer
script
scripté
scrowlzz
scrupule
scrupuleusement
scrutateur
scruter
scrutin
sct
sctu
scudetto
scully
scullydana
sculpter
sculpteur
sculpture
sculture
scylla
scyllajmi
scythe

sonycslparis
sonyfrance
soo
soolking
soon
soonniml
sop
sopavib
sopemeagroupe
sophie
sophiebussiere
sophiechapelle
sophiedrgm
sophiedurocher
sophiehrw
sophien
sophiepetronin
sophieprimas
sophiereynal
sophieserbini
sophiewilme
sophiewilmes
sophisme
sophistiquer
sophocle
sophparm
soral
soraziz
sorbonneuniv
sorcellerie
sorcier
sorciere
sorcière
sordaria
sordide
sorelcamille
sorenegadev
sorge
soro
sorokguillaume
soros
sorry
sors
sort
sortant
sorte
sortent
sorter
sortez
sorti
sortie
sortir
sortira
sortiront
sortirpoubelles
soruyk
sos
sosa
sosaaa
sosabonbada
soscrat
soseemefalling
sosgrossophobie
soshomophobie
sosie
sosjustice
sosmediasbdi
sosmedpari
sosolazonee
sosolevrai
sososelmi
sosracisme
sosroy
soss
sossalemaire
sosslv
sostanke
sosvo
sosvox
sotch
sothar
sotheby
sotho
sotn
sotra
sottise
sotto
sotu
sotyjsl
sou
souape
soubhanallah
soubremarieann
soubremarieanne
soubresaut
souch
souche
souchong
souci
soucie
soucier
soucieux
soucis
soucoupe
soudain
soudainement
soudan
soudanais
souder
soudoy

tendance
tendancerouge
tendances
tendancieux
tendent
tendooo
tendraient
tendre
tendu
tenet
teneur
tenez
tenfishy
tengchong
tengger
tengjia
tenir
tennesseem
tennis
tennishallofame
tenon
tenser
tensibai
tension
tensions
tent
tentation
tentativ
tentative
tente
tentent
tenter
tentez
tention
tenu
tenue
tenvois
teo
tepco
ter
tera
teram
terana
teraofr
terence
terencechu
terencedesclain
terenceleungsf
terencestrick
tergiverser
term
terme
terminal
terminale
terminator
termine
termineeeee
terminer
terminologie
terminus
terminé
termite
termitière
terne
terr
terracid
terraformation
terrain
terrasse
terrasser
terre
terreatom
terreau
terredasie
terreest
terreetpeuple
terreetpeuples
terrell
terrencestr
terrenetfr
terrerares
terres
terresrare
terrestre
terrestrer
terreterre
terreur
terrible
terriblement
terrien
terrienne
terrier
terrifiant
terrifiante
terrifier
territoir
territoire
territoires
territoiresdesavoirs
territorial
territoriale
territorialement
territorialité
terro
terroir
terrorise
terrori

tours
tous
tousart
touscontremacron
touscontremacronjour
tousensembl
toussa
toussaint
tousse
toussecnum
toussent
tousser
tousseur
tousssssaaaaaa
tout
toutalimentation
toute
toutefois
touteleurope
toutenkamion
toutes
toutl
toutogm
toutou
toutpourlamuzik
toutpuissant
touttrump
touuuut
touuuute
toux
tovarichlama
towersight
towintou
toxic
toxiciter
toxicité
toxico
toxine
toxique
toxiquegratuit
toxiquer
toxylizumab
toyette
toz
tozo
tp
tpasmnkho
tpd
tpdach
tpdxtbnc
tpdzu
tpe
tpei
tpi
tpijot
tpk
tplpndp
tpmnkgvkx
tpmp
tpmpahck
tpnju
tpo
tpoexx
tpq
tprincedelamour
tps
tpujour
tpwe
tpwhqeke
tpwx
tpx
tqa
tqdm
tqe
tqecfwq
tql
tqlfpod
tqmt
tqnhe
tqoahsj
tqpf
tqqowfhu
tqs
tqt
tqvbusl
tr
trabailler
trabouye
tracabilite
tracage
tracasser
trace
tracent
tracer
traces
traceur
traceybthierry
tracing
track
tracker
tracking
tract
tractation
tracte
tracteur
traction
tracé
trad
trade
tradefutur
traderform
tradi
tradifourchette
trading
tradition
traditionelle
traditionfr
traditionnal
traditionnalisme
traditio

uruguayen
urugwirovillage
urumqi
uruy
urwu
urx
urz
us
usa
usachine
usadepuis
usaenfrancais
usaeu
usage
usager
usages
usain
usainbolt
usaindeaustralietaiwanjapon
usambdrc
usason
usb
usbeketrica
uscqi
usd
usda
usdcny
use
used
uselessmeteor
usen
user
usherbrooke
ushiwa
ushtrija
usin
usine
usinedigital
usinenouvelle
usiner
using
usjliban
usm
usmca
usmyxn
usnavy
usoytn
usp
uspix
uspqgyxg
usrm
uss
ussss
ustellar
usual
usuelle
usuldufutur
usurpateur
usvdu
usw
usxh
usy
ut
uta
utalyon
utbgyib
utbufnyyz
utdf
utero
utf
utile
utilis
utilisable
utilisateur
utilisation
utilise
utilisent
utiliser
utilitariste
utilité
utjeanjaure
utk
utmc
utmqlv
utn
utoirt
utopie
utopique
utopiste
utsuls
utt
uttj
uttroyes
utuxem
utygge
utérus
uu
uub
uud
uudg
uujxkf
uukbyi
uunxkg
uuoleug
uurto
uuvxjtv
uux
uuy
uuzrj
uv
uvbkt
uvcnn
uve
uvi
uvic
uvl
uvm
uvntsxvmcw
uvo
uvsqresearch
uvt
uvvltkem
uvwqu
uvwx
uvyd
uvzk
uvzqeaytw
uw
uwgs
uwhhxf
uwjuq
uwk
uwka
uwm
uwtca
uwvlijp
uwvqelno
uww
ux
uxaj
uxfdvud
uxh
uxlqq
uxpc
uxtbybk

whoacademy
whoisbrianlol
whoisekid
whoopi
whoracioa
whp
whqhqlrt
whqsdbcd
wht
whuoqf
whwkar
why
whyalwaysmanu
whydoc
whzxoi
wi
wibtxbta
wicca
widadebouthim
widadk
widely
widow
wiedenkennedy
wifi
wifyc
wig
wigc
wighx
wih
wiir
wiki
wikipedia
wikipédia
wiko
wil
wild
wildcard
wilfridcoby
wilfriedtabe
will
willdepam
william
williamrar
williamreymond
willoudu
willounet
willow
willowwisp
willyhuncho
wilohiei
wilson
wilwarin
win
winamaxsport
winatlab
windows
windson
windsor
windzesport
wine
wing
wingloong
wingofnight
winnie
winnipeg
wionew
wiqat
wir
wireles
wiri
wirok
wisethugtv
wish
wishlist
wisibility
wisionv
wissembarki
wissner
wistar
wistily
wisziv
witch
witcharle
witchknits
with
withjude
without
witness
witsel
wittersheim
wittmann
wiv
wix
wixafhyci
wixpuum
wizored
wizsl
wj
wjcozgshz
wjcrv
wjhynkbpd
wjlm
wjpykur
wjw
wjx
wjxp
wjyh
wjzgspa
wk
wkd
wkk
wkl
wklyxoa
wklzkctwo
wkn
wkqfd
wkqsb
wksllegy
wktnlr
wl
wla
wlad
wladtepes
wlb
wldnhd
wlfcmv
wlgat
wlgr
wlh
wlhkecmuss
wlidou
wlk
wll
wlle
wlm

émission
émissionsco
émittrice
émoticône
émotif
émotion
émotionnel
émouvant
émouvante
émouvoir
ému
énarque
énemi
énemis
énergie
énergiedupassé
énergique
énergivore
énergétique
énerv
énervait
énerve
énerver
énervé
énigme
énième
énoncer
énorme
énormes
énormité
énormément
énumèrer
énumérer
éolien
éolienne
éon
épais
épaisse
épaisseur
épancher
épanoui
épanouir
épanouissant
épargne
épargner
épars
éparses
épaul
épaule
éperdument
épervier
éphémère
épi
épice
épicentr
épicentre
épicer
épicéa
épicéas
épidemie
épidemiologiqu
épidémi
épidémie
épidémiologie
épidémiologique
épidémiologiquemer
épidémiologist
épidémiologiste
épidémique
épie
épier
épigenetique
épigrammes
épigénétique
épilepsie
épine
épineux
épingle
épingler
épiphanie
épiphénomène
épique
épisod
épisode
épissétou
épistémologie
épistémologique
épizootie
éplucher
éponge
éponger
époper
épopé
épopée
époqu
époque
épouse
épouser
époustouflant
époustoufler
épouvantable
épouvantail
époux
éprendre
épreuve
éprouve
éprouvette
épuisement
épuiser
épur

In [36]:
model.wv.most_similar(positive = ['trump'], negative = [], topn = 5)

[('meurt', 0.987456202507019),
 ('rapport', 0.9822913408279419),
 ('survivre', 0.9815309047698975),
 ('économie', 0.9801642894744873),
 ('perdre', 0.978381872177124)]

In [41]:
from nltk.cluster import KMeansClusterer

NUM_CLUSTERS = 21

kclusterer = KMeansClusterer(
    NUM_CLUSTERS,
    distance = nltk.cluster.util.cosine_distance,
    repeats = 3
)
assigned_clusters = kclusterer.cluster(
    model[model.wv.vocab],
    assign_clusters = True
)

  # This is added back by InteractiveShellApp.init_path()


In [42]:
V = np.array(list(model.wv.vocab.keys()))
K = np.array(assigned_clusters)

In [43]:
for i in range(NUM_CLUSTERS):
    print(V[K == i])

['mediavenir' 'recoloniser' 'ci' ... 'regulation' 'joestj' 'droiteil']
['ça' 'passer' 'chinois' ... 'foudroyant' 'httpstcodwygqoaexh'
 'virtuellement']
['raid' 'ultra' 'surpasser' ... 'maso' 'incompéter' 'httpstcofrxappfmnq']
['possiblement' 'dommage' 'rapide' ... 'merveilleusement' 'carriere' 'kvy']
['chine' 'merovingien' 'chrétien' ... 'httpstcowtcwupvru' 'originellement'
 'musulmanie']
['ouïgours' 'region' 'asie' ... 'uunxkg' 'cureathee' 'poltron']
['pardonne' 'charlychin' 'iqhzg' ... 'httpstcouzp' 'xuaneszv' 'terrerares']
['quartier' 'thème' 'stv' ... 'rbi' '𝗛' 'devdetp']
['u' 'xnxbipx' 'kipithrill' ... 'shawn' 'fareshas' 'alyx']
['mort' 'wuhan' 'covid' ... 'boummm' 'bécasse' 'httpstcolrvioruikc']
['génétique' 'chercheur' 'voeu' ... 'jeangalano' 'spécifiquement'
 'expliquerait']
['httpstco' 'frappe' 'ptdrrrr' ... 'danielb' 'zdedededex' 'bruceduvic']
['gilford' 'information' 'disposer' ... 'jimcameron' 'clandestino' 'aisha']
['h' 'extraodinair' 'nuit' ... 'cuve' 'maure' 'departement

## Keras Pipeline

In [30]:
import tensorflow
from tensorflow.keras import layers

from tensorflow.keras.layers.experimental.preprocessing import TextVectorization

tokens = tokens.map(
    lambda l : ' '.join(l)
)

In [32]:
training_data = tokens.to_numpy(dtype = str)

In [33]:
## Note: can add ngrams if needed
vectorizer = TextVectorization(output_mode = 'int')
## will learn vocab
vectorizer.adapt(training_data)
integer_data = vectorizer(training_data)

print(integer_data[0])

tf.Tensor(
[   3   12    8  120  245   43 2334  382 2346  707    4  312   28    6
  215  836  622  215 1042  545  215  668    4    8 1118    0    0    0
    0    0    0    0    0    0    0], shape=(35,), dtype=int64)


In [34]:
vectorizer.get_vocabulary()

['',
 '[UNK]',
 'masque',
 'être',
 'avoir',
 'httpstco',
 'masqu',
 'sans',
 'faire',
 'chirurgical',
 'covid',
 'port',
 'aller',
 'pouvoir',
 'fois',
 'plus',
 'tout',
 'cela',
 'dire',
 'laver',
 'selon',
 'non',
 'enfant',
 'ufc',
 'quand',
 'porter',
 'choisir',
 'réutilisable',
 'mettre',
 'lavable',
 'voir',
 'bien',
 'autre',
 'an',
 'réutiliser',
 'celui',
 'vaccin',
 'geste',
 'devoir',
 'bon',
 'vouloir',
 'falloir',
 'comme',
 'chez',
 'école',
 'via',
 'possible',
 'passer',
 'gens',
 'étude',
 'sanitaire',
 'quoi',
 'où',
 'mois',
 'masquer',
 'confinement',
 'après',
 'si',
 'policier',
 'novembre',
 'mort',
 'jour',
 'grand',
 'france',
 'rien',
 'public',
 'peu',
 'parent',
 'oui',
 'monde',
 'fait',
 'degré',
 'obligatoire',
 'lavage',
 'h',
 'famille',
 'contre',
 'virus',
 'venir',
 'sous',
 'r',
 'puis',
 'nouveau',
 'nez',
 'mesure',
 'k',
 'car',
 'barrière',
 'alors',
 'v',
 'servir',
 'rendre',
 'raison',
 'premier',
 'parce',
 'merci',
 'main',
 'gouvernement

In [68]:
vectorizer(['fois', 'port']).numpy().ravel()

array([14, 11], dtype=int64)

In [35]:
vocab_size = len(vectorizer.get_vocabulary())
vocab_size

2575

In [36]:
vocab = vectorizer.get_vocabulary()
reverse_mapping = {}
for i in range(vocab_size):
    reverse_mapping[i] = vocab[i]

In [37]:
sampling_table = tensorflow.keras.preprocessing.sequence.make_sampling_table(vocab_size)
# Should add some 0 padding such that the largest tweet doesn't get skipgramed with the next
(data_tuples, labels) = tensorflow.keras.preprocessing.sequence.skipgrams(
    integer_data.numpy().ravel(),
    vocab_size,
    window_size = 2,
    shuffle = True,
    sampling_table = sampling_table
)

# data_tuples = np.array(data_tuples)
# labels = np.array(labels)

In [38]:
d = [[int(x[0]), int(x[1])] for x in data_tuples]
labels = np.array([int(x) for x in labels])

target_words = np.array(d)[:,0]
context_words = np.array(d)[:,1]

In [62]:
len(labels)

6996

In [63]:
len(target_words)

6996

In [46]:
M = np.sum(sampling_table)
np.random.choice(vocab, 5, replace = False, p = sampling_table / M)

array(['enseignant', 'rhône', 'solde', 'attia', 'identité'], dtype='<U25')

## Model
### Implementation

In [51]:
embed_dim = 300

In [52]:
in_1 = tensorflow.keras.Input(1)
in_2 = tensorflow.keras.Input(1)


E = layers.Embedding(
    vocab_size,
    embed_dim,
    input_length = 1,
    name = 'embeddings'
)

E_1 = E(in_1)
E_2 = E(in_2)


D = tensorflow.keras.backend.sum(E_1 * E_2, axis = -1)

S = layers.Activation(activation = 'sigmoid')(D)

In [53]:
model = tensorflow.keras.Model(
    inputs = [in_1, in_2],
    outputs = [S]
)

model.compile(loss='binary_crossentropy', optimizer='rmsprop')

model.summary()

Model: "functional_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_3 (InputLayer)            [(None, 1)]          0                                            
__________________________________________________________________________________________________
input_4 (InputLayer)            [(None, 1)]          0                                            
__________________________________________________________________________________________________
embeddings (Embedding)          (None, 1, 300)       772500      input_3[0][0]                    
                                                                 input_4[0][0]                    
__________________________________________________________________________________________________
tf_op_layer_Mul (TensorFlowOpLa [(None, 1, 300)]     0           embeddings[0][0]      

### Validation callback

In [54]:
vectorizer.get_vocabulary()

['',
 '[UNK]',
 'masque',
 'être',
 'avoir',
 'httpstco',
 'masqu',
 'sans',
 'faire',
 'chirurgical',
 'covid',
 'port',
 'aller',
 'pouvoir',
 'fois',
 'plus',
 'tout',
 'cela',
 'dire',
 'laver',
 'selon',
 'non',
 'enfant',
 'ufc',
 'quand',
 'porter',
 'choisir',
 'réutilisable',
 'mettre',
 'lavable',
 'voir',
 'bien',
 'autre',
 'an',
 'réutiliser',
 'celui',
 'vaccin',
 'geste',
 'devoir',
 'bon',
 'vouloir',
 'falloir',
 'comme',
 'chez',
 'école',
 'via',
 'possible',
 'passer',
 'gens',
 'étude',
 'sanitaire',
 'quoi',
 'où',
 'mois',
 'masquer',
 'confinement',
 'après',
 'si',
 'policier',
 'novembre',
 'mort',
 'jour',
 'grand',
 'france',
 'rien',
 'public',
 'peu',
 'parent',
 'oui',
 'monde',
 'fait',
 'degré',
 'obligatoire',
 'lavage',
 'h',
 'famille',
 'contre',
 'virus',
 'venir',
 'sous',
 'r',
 'puis',
 'nouveau',
 'nez',
 'mesure',
 'k',
 'car',
 'barrière',
 'alors',
 'v',
 'servir',
 'rendre',
 'raison',
 'premier',
 'parce',
 'merci',
 'main',
 'gouvernement

In [56]:
validation_set = ['président', 'positif','hydroxychloroquine']
validation_set = [vectorizer.get_vocabulary().index(w) for w in validation_set]
validation_set

[300, 302, 573]

In [57]:
num_words = 7

class ValidationCallback(tensorflow.keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs=None):
        M = model.get_layer('embeddings').weights[0].numpy()
        M = M / np.linalg.norm(M, axis = 1)[:, np.newaxis]
        val_vects = M[validation_set]
        
        closest = np.argsort(np.cos(M @ val_vects.T), axis = 0)
        
        top = closest[:num_words, :]
        for (i,e) in enumerate(validation_set):
            print('word: {}'.format(reverse_mapping[e]))
            print('closest words: ')
            for c in top[:,i]:
                print('--')
                print(reverse_mapping[c])
            print('----------------')

In [58]:
model.fit(
    [target_words, context_words],
    labels,
    batch_size = 64,
    epochs = 30,
    callbacks = [ValidationCallback()],
    shuffle = True
)

Epoch 1/30
closest words: 
--
président
--
rencontre
--
entre
--
confirme
--
regarder
--
artefr
--
effectuer
----------------
word: positif
closest words: 
--
positif
--
chose
--
cousin
--
également
--
accoucher
--
flic
--
vwwco
----------------
word: hydroxychloroquine
closest words: 
--
hydroxychloroquine
--
raoult
--
pgqmebj
--
mobiliser
--
masquesobligatoire
--
ph
--
employeur
----------------
Epoch 2/30
closest words: 
--
président
--
rencontre
--
entre
--
syndicat
--
martelle
--
normal
--
regarder
----------------
word: positif
closest words: 
--
positif
--
chose
--
cousin
--
ensuite
--
partie
--
montélimar
--
faire
----------------
word: hydroxychloroquine
closest words: 
--
hydroxychloroquine
--
raoult
--
défense
--
évoquer
--
pgqmebj
--
mobiliser
--
foutre
----------------
Epoch 3/30
closest words: 
--
président
--
rencontre
--
entre
--
martelle
--
syndicat
--
normal
--
regarder
----------------
word: positif
closest words: 
--
positif
--
chose
--
ensuite
--
cousin
--
partie
-

Epoch 16/30
closest words: 
--
président
--
entre
--
rencontre
--
chancelier
--
martelle
--
syndicat
--
httpstcogl
----------------
word: positif
closest words: 
--
positif
--
ensuite
--
cousin
--
partie
--
chose
--
beau
--
montélimar
----------------
word: hydroxychloroquine
closest words: 
--
hydroxychloroquine
--
raoult
--
défense
--
évoquer
--
remettre
--
moitié
--
mobiliser
----------------
Epoch 17/30
closest words: 
--
président
--
entre
--
rencontre
--
chancelier
--
martelle
--
httpstcogl
--
syndicat
----------------
word: positif
closest words: 
--
positif
--
ensuite
--
cousin
--
partie
--
chose
--
beau
--
montélimar
----------------
word: hydroxychloroquine
closest words: 
--
hydroxychloroquine
--
raoult
--
défense
--
évoquer
--
remettre
--
moitié
--
mobiliser
----------------
Epoch 18/30
closest words: 
--
président
--
entre
--
rencontre
--
chancelier
--
martelle
--
httpstcogl
--
syndicat
----------------
word: positif
closest words: 
--
positif
--
ensuite
--
partie
--
cousi

<tensorflow.python.keras.callbacks.History at 0x1d48fb6e188>

#### Code for stemming

In [32]:
## https://stackoverflow.com/questions/13131139/lemmatize-french-text

# from nltk.stem.snowball import FrenchStemmer

# stemmer = FrenchStemmer()

# def stem(tokens):
#     return [stemmer.stem(x) for x in tokens]

# df['Title'] = df['Title'].map(
#     stem
# )