# Word Embeddings : le modèle Word2Vec

## Imports

In [2]:
import sys

from gensim.models.phrases import Phrases, Phraser
from gensim.models import Word2Vec

import nltk
from nltk.tokenize import wordpunct_tokenize
from unidecode import unidecode

## Entrainement d'un modèle Word2Vec sur ce corpus (modèle 2)

In [16]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 19min 5s, sys: 47.3 s, total: 19min 52s
Wall time: 7min 21s


## Explorer le modèle

In [3]:
model = Word2Vec.load("../data/bulletins_2.model")

### Calculer la similarité entre deux termes

In [4]:
model.wv.similarity("boucher", "boulanger")

0.86908996

In [5]:
model.wv.similarity("homme", "femme")

0.57215464

In [6]:
model.wv.similarity("voiture", "carrosse")

0.25176507

### Chercher les mots les plus proches d'un terme donné

In [7]:
model.wv.most_similar("bruxelles", topn=10)

[('laeken', 0.8239486217498779),
 ('considere_comme_officiel', 0.7925914525985718),
 ('liege', 0.7702558040618896),
 ('paris', 0.7679300308227539),
 ('nivelles', 0.7521665096282959),
 ('gand', 0.7397889494895935),
 ('lille', 0.7102484703063965),
 ('differents_quartiers', 0.6752375960350037),
 ('lille_1860', 0.6710933446884155),
 ('louvain', 0.6700588464736938)]

In [8]:
model.wv.most_similar("boucher", topn=10)

[('menuisier', 0.8918721675872803),
 ('tailleur', 0.886002779006958),
 ('boulanger', 0.8690900206565857),
 ('peintre', 0.8476589322090149),
 ('batelier', 0.8473291397094727),
 ('pharmacien', 0.8445296287536621),
 ('macon', 0.8412162661552429),
 ('paquet', 0.8395796418190002),
 ('chauffeur', 0.8390061855316162),
 ('cordonnier', 0.8384380340576172)]

### Faire des recherches complexes à travers l'espace vectoriel

In [9]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('lille', 0.8239251375198364), ('ostende', 0.8021267056465149), ('gand', 0.7774108052253723), ('manchester', 0.7756398320198059), ('londres', 0.7693049311637878), ('tournai', 0.7622190117835999), ('verviers', 0.7603538036346436), ('paris', 0.7556376457214355), ('louvain', 0.7518820762634277), ('prague', 0.7503906488418579)]


In [10]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('famille_royale', 0.7178614139556885), ('foire_internationale', 0.6762996315956116), ('federation_bruxelloise', 0.6685231328010559), ('societe_royale', 0.6651954650878906), ('reine_elisabeth', 0.6612678170204163), ('societe_agricole', 0.6599237322807312), ('tonlieux', 0.6589363217353821), ('defunte', 0.6518613696098328), ('vdle', 0.6502331495285034), ('conference_monetaire', 0.6493478417396545)]


### Modèle 3: Taille du vecteur = 100 (vs 32)

In [33]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=100, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 26min 12s, sys: 1min 6s, total: 27min 19s
Wall time: 9min 32s


In [11]:
model = Word2Vec.load("../data/bulletins_3.model")

In [12]:
model.wv.similarity("boucher", "boulanger")

0.7806577

In [13]:
model.wv.similarity("homme", "femme")

0.458158

In [14]:
model.wv.similarity("voiture", "carrosse")

0.24719398

In [15]:
model.wv.most_similar("bruxelles", topn=10)

[('rruxelles', 0.6470252275466919),
 ('paris', 0.6332045793533325),
 ('liege', 0.631273090839386),
 ('nivelles', 0.6280113458633423),
 ('gand', 0.6024729013442993),
 ('laeken', 0.5872405767440796),
 ('lille', 0.5851026773452759),
 ('bruxelle', 0.5699034929275513),
 ('jumeaux_naissances', 0.5477592945098877),
 ('malines', 0.5462380647659302)]

In [16]:
model.wv.most_similar("boucher", topn=10)

[('menuisier', 0.8123616576194763),
 ('tailleur', 0.7844225764274597),
 ('cabaretier', 0.7809526920318604),
 ('boulanger', 0.7806577682495117),
 ('serrurier', 0.7745551466941833),
 ('batelier', 0.7686945199966431),
 ('commissionnaire', 0.7609583139419556),
 ('tapissier', 0.7564194202423096),
 ('cordonnier', 0.7540456652641296),
 ('charcutier', 0.7517278790473938)]

In [17]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('lille', 0.6613479256629944), ('paris', 0.6434320211410522), ('verviers', 0.6389840841293335), ('londres', 0.6370319724082947), ('hambourg', 0.6282646059989929), ('prague', 0.6222774386405945), ('gand', 0.6142219305038452), ('tournai', 0.6134740114212036), ('liege', 0.6133009791374207), ('ostende', 0.6108174920082092)]


In [18]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('famille_royale', 0.5245283842086792), ('brabanl', 0.5164665579795837), ('gouvernement_provincial', 0.51008540391922), ('sentence', 0.503664493560791), ('conjointe', 0.4915069341659546), ('fille', 0.4884658455848694), ('breteche', 0.4859635829925537), ('societe_dramatique', 0.477094441652298), ('sa_majeste', 0.4749825596809387), ('mere', 0.46748998761177063)]


### Modèle 4: Vecteur 100 + élargissement de la fenêtre à 20 (vs 5)

In [40]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=100, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=20, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 31min 2s, sys: 1min 10s, total: 32min 12s
Wall time: 10min 3s


In [19]:
model = Word2Vec.load("../data/bulletins_4.model")

In [20]:
model.wv.similarity("boucher", "boulanger")

0.69779754

In [21]:
model.wv.similarity("homme", "femme")

0.5052658

In [22]:
model.wv.most_similar("bruxelles", topn=10)

[('xelles', 0.6508788466453552),
 ('dette_active', 0.6217373609542847),
 ('bruxelle', 0.5955502390861511),
 ('liege', 0.586171567440033),
 ('laeken', 0.5658113956451416),
 ('nivelles', 0.559372067451477),
 ('hutel', 0.5444490909576416),
 ('vhotel', 0.5254800915718079),
 ('manufacturiere', 0.5184491276741028),
 ('bruxel', 0.5167596340179443)]

In [23]:
model.wv.most_similar("boucher", topn=10)

[('serrurier', 0.7097224593162537),
 ('tailleur', 0.6998642683029175),
 ('boulanger', 0.6977975964546204),
 ('cordonnier', 0.6963316798210144),
 ('marchand', 0.6912728548049927),
 ('charcutier', 0.6884583830833435),
 ('chauffeur', 0.6843959093093872),
 ('batelier', 0.6827089190483093),
 ('meunier', 0.6808363795280457),
 ('menuisier', 0.6694628000259399)]

In [24]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('liege', 0.6075229048728943), ('manchester', 0.6038661599159241), ('hambourg', 0.5692122578620911), ('ostende', 0.5674587488174438), ('paris', 0.5573484897613525), ('lille', 0.5570899844169617), ('cologne', 0.5560243129730225), ('gand', 0.5556208491325378), ('amsterdam', 0.5449244976043701), ('tournai', 0.5420806407928467)]


In [25]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('gouvernement_provincial', 0.5381535291671753), ('mere', 0.49159741401672363), ('fille', 0.48856496810913086), ('famille_royale', 0.4770187437534332), ('brabanl', 0.4739866256713867), ('eoi', 0.45528626441955566), ('defunt', 0.4513433873653412), ('cure', 0.450153648853302), ('famille', 0.4496782422065735), ('salut', 0.4463140368461609)]


### Modèle 5: Taille fenêtre 20 (vs 5) et vecteur 32 (vs 100)

In [47]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=32, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=20, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 26min 43s, sys: 1min 14s, total: 27min 58s
Wall time: 9min 51s


In [26]:
model = Word2Vec.load("../data/bulletins_5.model")

In [27]:
model.wv.similarity("boucher", "boulanger")

0.8505966

In [28]:
model.wv.similarity("homme", "femme")

0.63833547

In [29]:
model.wv.most_similar("bruxelles", topn=10)

[('laeken', 0.8055386543273926),
 ('liege', 0.7914955615997314),
 ('gand', 0.7288044095039368),
 ('bruxelloise', 0.7005123496055603),
 ('aux_confins', 0.6939319372177124),
 ('nivelles', 0.6921486854553223),
 ('obbgations_tramways', 0.6838479042053223),
 ('ostende', 0.6827777624130249),
 ('paris', 0.6722395420074463),
 ('louvain', 0.6675084829330444)]

In [30]:
model.wv.most_similar("boucher", topn=10)

[('tailleur', 0.8740054368972778),
 ('fabricant', 0.8670328259468079),
 ('macon', 0.8638089895248413),
 ('boulanger', 0.85059654712677),
 ('menuisier', 0.8399893045425415),
 ('marchand', 0.8263698220252991),
 ('charcutier', 0.8248714208602905),
 ('claque', 0.8217513561248779),
 ('batelier', 0.8198434114456177),
 ('cordonnier', 0.8194296956062317)]

In [31]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('liege', 0.8014519214630127), ('huy', 0.7924149632453918), ('gand', 0.7921144962310791), ('ostende', 0.7839378714561462), ('hambourg', 0.7556935548782349), ('manchester', 0.7534753680229187), ('lille', 0.7480643391609192), ('verviers', 0.7413298487663269), ('jadis', 0.7364925146102905), ('berlin', 0.735415518283844)]


In [32]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('artaud', 0.6932552456855774), ('famille', 0.6841073632240295), ('se_termina', 0.6750019788742065), ('demoiselle', 0.6663828492164612), ('testatrice', 0.6630717515945435), ('messe', 0.6577361226081848), ('sentence', 0.6527579426765442), ('vendemiaire_an', 0.6525988578796387), ('messe_solennelle', 0.6490771174430847), ('mere', 0.6460321545600891)]


### Modèle 6 : Vecteur 300 et fenêtre 10

In [54]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=300, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=10, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 52min 11s, sys: 2min 14s, total: 54min 25s
Wall time: 16min 7s


In [33]:
model = Word2Vec.load("../data/bulletins_6.model")

In [34]:
model.wv.similarity("boucher", "boulanger")

0.656065

In [35]:
model.wv.similarity("homme", "femme")

0.45766762

In [36]:
model.wv.similarity("voiture", "carrosse")

0.24132355

In [37]:
model.wv.most_similar("bruxelles", topn=10)

[('liege', 0.5313161611557007),
 ('nivelles', 0.5022386312484741),
 ('rruxelles', 0.4815557897090912),
 ('bruxelle', 0.4783809781074524),
 ('gand', 0.46692484617233276),
 ('verviers', 0.4568324089050293),
 ('xelles', 0.44438785314559937),
 ('lille', 0.44190651178359985),
 ('ostende', 0.43931329250335693),
 ('zurich', 0.4336327910423279)]

In [38]:
model.wv.most_similar("boucher", topn=10)

[('tailleur', 0.6623472571372986),
 ('boulanger', 0.6560649275779724),
 ('cabaretier', 0.6487619280815125),
 ('menuisier', 0.6416441798210144),
 ('serrurier', 0.6407414078712463),
 ('charcutier', 0.6258613467216492),
 ('tapissier', 0.614556074142456),
 ('terrassier', 0.6109156012535095),
 ('cordonnier', 0.6100437641143799),
 ('fabricant', 0.6039721965789795)]

In [39]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('liege', 0.5228609442710876), ('londres', 0.5168629288673401), ('lille', 0.4982934296131134), ('ostende', 0.49134114384651184), ('huy', 0.4872831106185913), ('verviers', 0.4857730269432068), ('gand', 0.47825315594673157), ('nivelles', 0.4655275046825409), ('prague', 0.46198827028274536), ('paris', 0.4602052569389343)]


In [40]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('mere', 0.4869615137577057), ('saintnicolas', 0.45106202363967896), ('fille', 0.43626630306243896), ('famille_royale', 0.4289011061191559), ('boi', 0.4266379177570343), ('princesse_marie', 0.42238539457321167), ('prince_charles', 0.4197143316268921), ('prostituee', 0.4179203510284424), ('royale_monseigneur', 0.4123711585998535), ('eoi', 0.4102765619754791)]


### Modèle 7 : 300 dimensions et élargissement de la fenêtre à 40

In [140]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=300, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=40, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 1h 18min 26s, sys: 3min 23s, total: 1h 21min 49s
Wall time: 23min 12s


In [41]:
model = Word2Vec.load("../data/bulletins_7.model")

In [42]:
model.wv.similarity("boucher", "boulanger")

0.59319586

In [43]:
model.wv.similarity("homme", "femme")

0.42459562

In [44]:
model.wv.similarity("voiture", "carrosse")

0.1269484

In [45]:
model.wv.most_similar("bruxelles", topn=10)

[('liege', 0.5068586468696594),
 ('nivelles', 0.49116843938827515),
 ('bruxelle', 0.4783177375793457),
 ('xelles', 0.4692355692386627),
 ('tournai', 0.4536599814891815),
 ('lille', 0.44403088092803955),
 ('ostende', 0.44255688786506653),
 ('liruxelles', 0.4339611530303955),
 ('verviers', 0.43019574880599976),
 ('dette_active', 0.4301547706127167)]

In [46]:
model.wv.most_similar("boucher", topn=10)

[('boulanger', 0.5931957364082336),
 ('marchand', 0.579157829284668),
 ('coiffeur', 0.5705497860908508),
 ('etre_abattus', 0.5697841644287109),
 ('fabricant', 0.5636791586875916),
 ('mecanicien', 0.5634440779685974),
 ('menuisier', 0.5607987642288208),
 ('cordonnier', 0.5579670071601868),
 ('serrurier', 0.5513495802879333),
 ('cabaretier', 0.5434521436691284)]

In [47]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('liege', 0.5512763261795044), ('lille', 0.5193424820899963), ('tournai', 0.5141823291778564), ('ostende', 0.5015013217926025), ('huy', 0.48177802562713623), ('prague', 0.4748130738735199), ('gand', 0.47399699687957764), ('lyon', 0.46861395239830017), ('rotterdam', 0.4614550471305847), ('geneve', 0.45686960220336914)]


In [48]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('mere', 0.40946024656295776), ('fille', 0.39160653948783875), ('sa_majeste', 0.38965699076652527), ('cure', 0.3707215487957001), ('salut', 0.36865630745887756), ('famille_royale', 0.3587110936641693), ('mgr', 0.35762953758239746), ('gouvernement_italien', 0.3532502353191376), ('boi', 0.3500106930732727), ('sa_femme', 0.3495160937309265)]


### Modèle 8 : Vecteur 300, fenêtre 5

In [153]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=300, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=5, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 52min 31s, sys: 2min 45s, total: 55min 16s
Wall time: 17min 52s


In [55]:
model = Word2Vec.load("../data/bulletins_8.model")

In [56]:
model.wv.similarity("boucher", "boulanger")

0.6921761

In [57]:
model.wv.similarity("homme", "femme")

0.43447563

In [58]:
model.wv.similarity("voiture", "carrosse")

0.20062777

In [59]:
model.wv.most_similar("bruxelles", topn=10)

[('nivelles', 0.5794664025306702),
 ('rruxelles', 0.5737338662147522),
 ('liege', 0.5225680470466614),
 ('gand', 0.5023678541183472),
 ('paris', 0.48170360922813416),
 ('xelles', 0.4629574120044708),
 ('malines', 0.4540492296218872),
 ('londres', 0.450400710105896),
 ('lille', 0.449739545583725),
 ('verviers', 0.44773247838020325)]

In [60]:
model.wv.most_similar("boucher", topn=10)

[('menuisier', 0.705475926399231),
 ('tailleur', 0.7049712538719177),
 ('cordonnier', 0.6925906538963318),
 ('boulanger', 0.6921761631965637),
 ('charcutier', 0.6875828504562378),
 ('tapissier', 0.6866316795349121),
 ('serrurier', 0.67592453956604),
 ('marbrier', 0.657673180103302),
 ('cabaretier', 0.6564407348632812),
 ('batelier', 0.6554194092750549)]

In [61]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('verviers', 0.534920334815979), ('londres', 0.5326730608940125), ('liege', 0.5236067175865173), ('tournai', 0.5141814947128296), ('gand', 0.5092669129371643), ('hambourg', 0.4946388006210327), ('nivelles', 0.4940313696861267), ('paris', 0.4934212565422058), ('prague', 0.4888829290866852), ('lille', 0.4820585250854492)]


In [62]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('mere', 0.4770440459251404), ('boi', 0.4506196677684784), ('famille_royale', 0.43852856755256653), ('eoi', 0.435182124376297), ('fille', 0.423622190952301), ('vatican', 0.4044855237007141), ('conseil_provincial', 0.4043630063533783), ('louve', 0.40189051628112793), ('reine_elisabeth', 0.3999864161014557), ('ceremonie', 0.39197254180908203)]


### Modèle 9 : Vecteur 100, fenêtre 40

In [166]:
%%time
model = Word2Vec(
    corpus, # On passe le corpus de ngrams que nous venons de créer
    vector_size=100, # Le nombre de dimensions dans lesquelles le contexte des mots devra être réduit, aka. vector_size
    window=40, # La taille du "contexte", ici 5 mots avant et après le mot observé
    min_count=5, # On ignore les mots qui n'apparaissent pas au moins 5 fois dans le corpus
    workers=4, # Permet de paralléliser l'entraînement du modèle en 4 threads
    epochs=5 # Nombre d'itérations du réseau de neurones sur le jeu de données pour ajuster les paramètres avec la descende de gradient, aka. epochs.
)

CPU times: user 42min 18s, sys: 2min 4s, total: 44min 23s
Wall time: 14min 49s


In [63]:
model = Word2Vec.load("../data/bulletins_9.model")

In [64]:
model.wv.similarity("boucher", "boulanger")

0.68535304

In [65]:
model.wv.similarity("homme", "femme")

0.5342898

In [66]:
model.wv.similarity("voiture", "carrosse")

0.12812918

In [67]:
model.wv.most_similar("bruxelles", topn=10)

[('xelles', 0.6651670336723328),
 ('liege', 0.5861473083496094),
 ('nivelles', 0.5695111155509949),
 ('laeken', 0.563617467880249),
 ('dette_active', 0.5545754432678223),
 ('bruxelle', 0.5514754056930542),
 ('bruxe', 0.540813148021698),
 ('manufacturiere', 0.5400780439376831),
 ('huy', 0.5379692316055298),
 ('ostende', 0.5323569774627686)]

In [68]:
model.wv.most_similar("boucher", topn=10)

[('cordonnier', 0.7136046290397644),
 ('fabricant', 0.695364773273468),
 ('boulanger', 0.6853529810905457),
 ('charpentier', 0.6758134365081787),
 ('marchand', 0.6743961572647095),
 ('serrurier', 0.6743265390396118),
 ('menuisier', 0.6717424988746643),
 ('charcutier', 0.6633214950561523),
 ('tailleur', 0.656404435634613),
 ('meunier', 0.6544731855392456)]

In [69]:
print(model.wv.most_similar(positive=['bruxelles', 'france'], negative=['belgique']))

[('huy', 0.6195623278617859), ('hambourg', 0.5991153717041016), ('manchester', 0.5982712507247925), ('liege', 0.5854235887527466), ('londres', 0.5793405175209045), ('ostende', 0.5688986778259277), ('paris', 0.5649790167808533), ('lille', 0.5636627674102783), ('amsterdam', 0.5562283992767334), ('gand', 0.5400305390357971)]


In [70]:
print(model.wv.most_similar(positive=['roi', 'femme'], negative=['homme']))

[('gouvernement_provincial', 0.5142708420753479), ('cure', 0.5019464492797852), ('sa_majeste', 0.49719640612602234), ('fille', 0.49146270751953125), ('princesse_marie', 0.4878172278404236), ('mere', 0.4822624921798706), ('famille_royale', 0.47475555539131165), ('communaute_religieuse', 0.4651243984699249), ('collecte_faite', 0.45364588499069214), ('salut', 0.44956475496292114)]
