**Code pour étudier la stabilité des modèles.** \
Pour des paramètres fixés, 10 modèles sont entraînés qui diffèrent seulement par un shuffle de corpus d'entraînement. Pour chacun de ces modèles, on regarde l'ensemble des 10 mots les plus proches de femmes. On fait ensuite l'intersection de ces 10 modèles. Plus le nombre de mots dans l'intersection est proche de 10, plus le modèle avec les paramètres fixés est stable. 

**Première étude :** _corpus neutre_

In [1]:
#!/usr/bin/env python3
# coding=utf-8
import sys
from gensim.models import KeyedVectors
from copy import copy
from itertools import product
import os

window_size = [5,10,15,20]
dim_vecteur = [2,4,8,16,32,64,100]
epochs = [5,10,20,30,40,50]
for i, j, k in product(window_size, dim_vecteur, epochs):
    femmes = []
    hommes = []
    for g in range(10):
        ifilename = f"models-trained-003/model_G{g:03d}W{i:03d}V{j:03d}E{k:03d}.wordvec"
        if not os.path.exists(ifilename):
            continue
        wv = KeyedVectors.load(ifilename)
        femmes.append({x[0] for x in wv.most_similar("femme", topn=10)})
        hommes.append({x[0] for x in wv.most_similar("homme", topn=10)})



    if len(femmes) > 0:
        #print(f"W{i:03d}V{j:03d}E{k:03d} "+"="*20+"femme similarity"+"="*20)
        c = copy(femmes[0])
        for x in femmes:
            #print(x)
            c &= x
        print(f"W{i:03d}V{j:03d}E{k:03d} femme={c}")

        

     #print()
    if len(hommes) > 0:
        #print(f"W{i:03d}V{j:03d}E{k:03d} "+"="*20+"homme similarity"+"="*20)

        c = copy(hommes[0])
        for x in hommes:
            #print(x)
            c &= x
        print(f"W{i:03d}V{j:03d}E{k:03d} homme={c}")

W005V002E005 homme=set()
W005V002E010 homme=set()
W005V002E020 homme=set()
W005V002E030 homme=set()
W005V002E040 homme=set()
W005V002E050 homme=set()
W005V004E005 homme=set()
W005V004E010 homme=set()
W005V004E020 homme=set()
W005V004E030 homme=set()
W005V004E040 homme=set()
W005V004E050 homme=set()
W005V008E005 homme=set()
W005V008E010 homme=set()
W005V008E020 homme=set()
W005V008E030 homme=set()
W005V008E040 homme=set()
W005V008E050 homme=set()
W005V016E005 homme={'mal'}
W005V016E010 homme=set()
W005V016E020 homme={'vieillard'}
W005V016E030 homme=set()
W005V016E040 homme=set()
W005V016E050 homme=set()
W005V032E005 homme={'orateur', 'ecolier'}
W005V032E010 homme={'malade'}
W005V032E020 homme=set()
W005V032E030 homme={'vieillard'}
W005V032E040 homme={'vieillard'}
W005V032E050 homme=set()
W005V064E005 homme={'acteur', 'orateur', 'malade'}
W005V064E010 homme=set()
W005V064E020 homme={'avare', 'quelqu'}
W005V064E030 homme={'quelqu'}
W005V064E040 homme={'vieillard', 'acteur', 'quelqu'}
W005

Le modèle entraîné sur corpus neutre le plus stable est donné par la ligne suivante : W010V100E030 femme={'fille', 'semme', 'nourrice', 'princesse', 'veuve', 'coquette', 'maitresse'}. Donc le max est un set de 7 mots et le meilleur modèle a une window_size de 10, des vecteurs de dimension 100 et 30 epochs. 

Le modèle entraîné sur corpus neutre + bible le plus stable est donné par la ligne suivante : W005V100E020 femme={'maitresse', 'veuve', 'concubine', 'princesse', 'servante', 'soeur', 'fille', 'nourrice', 'epouse'}. Donc le max est un set de 9 mots et le meilleur modèle a une window_size de 5, des vecteurs de dimension 100 et 20 epochs. 

_Question_ : c'est quoi le mot 'semme' ??

In [None]:
def chercher_mot_dans_corpus(mot_a_chercher, corpus):
    occurrences = []

    for i, phrase in enumerate(corpus):
        for j, mot in enumerate(phrase):
            if mot.lower() == mot_a_chercher.lower():
                occurrences.append((i, j))  # Enregistrer l'indice de la phrase et l'indice du mot

    return occurrences

In [None]:
def afficher_phrases_occurrences(corpus, occurrences):
    for occurrence in occurrences:
        i, j = occurrence
        print(f"Phrase {i + 1}, Mot {j + 1}: {' '.join(corpus[i])}")

In [None]:
# # Utiliser la fonction chercher_mot_dans_corpus
# mot_a_chercher = 'semme'
# occurrences = chercher_mot_dans_corpus(mot_a_chercher, corpus_neutre)

# # Afficher les phrases correspondantes
# afficher_phrases_occurrences(corpus_neutre, occurrences)

- Phrase 70241, Mot 3: est une semme tres aimable
- Phrase 75420, Mot 7: soupirer pour les appas une belle semme
- Phrase 75944, Mot 2: cette semme est qu une apprentie en intrigue
- Phrase 87529, Mot 2: cette semme de beaux bijoux
- Phrase 116710, Mot 13: il plus un an que ce mari ne couche plus avec sa semme
- Phrase 127281, Mot 12: on dit aussi dans un sens un peu different qu une semme est accouchee mais qu elle est pas entierement delivree pour dire que arriere faix est pas encore venu delivrer signifie aussi livrer mettre entre les mains

**'Semme' est donc une faute de frappe pour 'femme' ! Ne remet pas en cause la stabilité, mais à changer pour la suite de l'étude.** 

**Deuxième étude** : _corpus neutre ET bible_ 