In [1]:
import numpy as np
import pandas as pd
import multiprocessing
from time import time 
import logging
from gensim.models import Word2Vec
from collections import defaultdict
from gensim.models import KeyedVectors
from gensim.test.utils import get_tmpfile
from gensim.models.phrases import Phrases, Phraser
!pip install --upgrade gensim
logging.basicConfig(format="%(levelname)s - %(asctime)s: %(message)s", datefmt= '%H:%M:%S', level=logging.INFO)

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
def read_all_cleaned_data(taille=11):
  dfs=[]
  for i in range(taille):
    dfs.append(pd.read_csv("../../Nettoyage/df_clean{}.csv".format(i+1)).squeeze())
  return dfs

In [25]:
def modelisation(dfs):
  Mois=['Janvier','Février','Mars','Avril','Mai','Juin','Juillet','Aout','Septembre','Octobre','Novembre']
  for i in range(11):
    tweets=[tweet.encode('utf-8').decode() for tweet in dfs[i].astype('str')]
    sent=[tweet.split() for tweet in tweets]
    w2v_model = Word2Vec(min_count=3,
                     window=4,
                     vector_size=300,
                     sample=1e-5, 
                     alpha=0.03, 
                     min_alpha=0.0007, 
                     negative=20,
                     workers=multiprocessing.cpu_count()-1)
    start=time()
    w2v_model.build_vocab(sent, progress_per=50000)
    print(w2v_model.wv.index_to_key)
    print('Temps pour construire le vocabulaire du mois de {}: {} minutes'.format(Mois[i],round((time() - start) / 60, 2)))
    start=time()
    w2v_model.train(sent, total_examples=w2v_model.corpus_count, epochs=30, report_delay=1)
    print('Temps pour entraîner le modèle: {} mins'.format(round((time() - start) / 60, 2)))
    w2v_model.init_sims(replace=True)
    w2v_model.save("word2vec{}.model".format(i+1))

In [26]:
modelisation(read_all_cleaned_data())

['fair', 'le', 'vaccin', 'tout', 'plus', 'aller', 'franc', 'vous', 'visag', 'pr', 'pouvoir', 'sident', 'fran', 'et', 'macron', 'ce', 'dir', 'il', 'bien', 'pour', 'tre', 'non', 'comm', 'pass', 'vouloir', 'pay', 'ai', 'si', 'on', 'rien', 'je', 'voir', 'falloir', 'emmerd', 'europ', 'un', 'an', 'larm', 'sol', 'quand', 're', 'mond', 'parl', 'merc', 'r', 'san', 'bon', 'devoir', 'auss', 'en', 'droit', 'alor', 'tu', 'vrai', 'autr', 'encor', 'arr', 'prendr', 'savoir', 'monsieur', 'quel', 'pens', 'contr', 'mettr', 'person', 'fin', 'mais', 'avoir', 'quoi', 'tr', 'celui', 'sort', 'part', 'pet', 'seul', 'grand', 'jam', 'oui', 'peupl', 'tat', 'joievisag', 'ver', 'covid', 'depuis', 'ter', 'cel', 'temp', 'nous', 'de', 'public', 'dos', 'polit', 'vi', 'manu', 'car', 'jour', 'toujour', 'ais', 'donc', 'mr', 'pourquoi', 'don', 'cr', 'riantroul', 'roul', 'vot', 'gen', 'fait', 'hont', 'apr', 'cris', 'ferm', 'jeun', 'gag', 'oeil', 'mois', 'ven', 'gouvern', 'comment', 'joi', 'croir', 'avant', 'malad', 'laiss',

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.24 mins
['fair', 'aller', 'guerr', 'russ', 'tout', 'le', 'ukrain', 'poutin', 'franc', 'europ', 'sident', 'pr', 'vous', 'vouloir', 'plus', 'pouvoir', 'fran', 'il', 'macron', 'falloir', 'ce', 'pour', 'si', 'dir', 'rien', 'comm', 'pay', 'tre', 'et', 'bien', 'visag', 'ai', 'arr', 'peupl', 'on', 'seul', 'otan', 'parl', 'sol', 'devoir', 'ukrainien', 'en', 'non', 'voir', 'quand', 'monsieur', 'tu', 'contr', 'quoi', 'je', 'mettr', 'prendr', 'autr', 're', 'merc', 'laiss', 'ter', 'mond', 'larm', 'r', 'pass', 'envoi', 'pens', 'alor', 'bon', 'nous', 'san', 'auss', 'demand', 'vrai', 'mr', 'part', 'savoir', 'paix', 'mais', 'depuis', 'encor', 'un', 'pourquoi', 'avoir', 'aid', 'person', 'an', 'grand', 'quel', 'mainten', 'arme', 'mal', 'donc', 'temp', 'militair', 'rest', 'arm', 'afriqu', 'occup', 'manu', 'tat', 'cel', 'sanction', 'fait', 'fin', 'ven', 'merd', 'avant', 'tr', 'agir', 'jam', 'don', 'apr', 'trop', 'celui', 'con', 'pet', 'forc', 'joievisag', 'de', 'int', 'ch

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.23 mins
['fair', 'le', 'tout', 'franc', 'plus', 'aller', 'vous', 'fran', 'guerr', 'macron', 'pouvoir', 'pr', 'sident', 'et', 'ce', 'russ', 'pour', 'ai', 'visag', 'dir', 'comm', 'tre', 'il', 'bien', 'europ', 'ukrain', 'rien', 'si', 'vouloir', 'san', 'pay', 'parl', 'falloir', 'an', 'voir', 'on', 'poutin', 'non', 'quand', 'devoir', 'autr', 'main', 'un', 'arr', 'pens', 'prendr', 'je', 'en', 'sol', 'auss', 'vrai', 'contr', 're', 'tu', 'encor', 'alor', 'peupl', 'quel', 'mettr', 'larm', 'ter', 'bon', 'mond', 'monsieur', 'arme', 'savoir', 'r', 'celui', 'ukrainien', 'quoi', 'avoir', 'part', 'cel', 'person', 'depuis', 'mais', 'temp', 'pass', 'mckinsey', 'tr', 'otan', 'hont', 'vot', 'merc', 'jam', 'pourquoi', 'grand', 'libert', 'fin', 'seul', 'droit', 'terror', 'donc', 'comment', 'jour', 'mr', 'apr', 'ais', 'aucun', 'fratern', 'gen', 'oui', 'don', 'ver', 'mckinseygat', 'nous', 'enfant', 'toujour', 'car', 'aid', 'fait', 'joievisag', 'tat', 'am', 'pet', 'de', 'vi',

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.26 mins
['sident', 'fair', 'tout', 'pr', 'le', 'franc', 'aller', 'fran', 'pour', 'plus', 'vot', 'vous', 'macron', 'licit', 'ai', 'an', 'pouvoir', 'visag', 'tre', 'monsieur', 'bien', 'je', 'et', 'comm', 'ce', 'si', 'dir', 'vouloir', 'il', 'non', 'merc', 'bon', 'guerr', 'on', 'falloir', 'rien', 're', 'voir', 'r', 'lir', 'droit', 'encor', 'pay', 'contr', 'san', 'celui', 'devoir', 'jam', 'europ', 'prendr', 'lection', 'peupl', 'russ', 'un', 'auss', 'tr', 'tu', 'quand', 'sol', 'autr', 'mr', 'savoir', 'mettr', 'avoir', 'pens', 'pass', 'vrai', 'ukrain', 'ver', 'person', 'alor', 'larm', 'grand', 'arr', 'part', 'public', 'en', 'esp', 'extr', 'parl', 'ais', 'bravo', 'car', 'mais', 'quel', 'depuis', 'nous', 'cel', 'ter', 'ven', 'mond', 'seul', 'poutin', 'vif', 'projet', 'mainten', 'arme', 'quoi', 'victoir', 'pend', 'donc', 'coeur', 'gen', 'ann', 'compt', 'oui', 'polit', 'continu', 'aid', 'just', 'rest', 'don', 'confianc', 'nouveau', 'aim', 'gagn', 'toujour', 'fin'

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.24 mins
['fair', 'le', 'franc', 'tout', 'aller', 'plus', 'fran', 'vous', 'tre', 'visag', 'sident', 'pouvoir', 'pr', 'et', 'ce', 'ai', 'macron', 'russ', 'pour', 'comm', 'il', 'bien', 'dir', 'pay', 'ukrain', 'guerr', 'vouloir', 'si', 'non', 'poutin', 'rien', 'on', 'europ', 'voir', 'un', 'quand', 'je', 'falloir', 'auss', 'larm', 'devoir', 'sol', 'monsieur', 'parl', 'bon', 'autr', 'contr', 're', 'merc', 'san', 'en', 'encor', 'mettr', 'arme', 'quel', 'peupl', 'mond', 'vrai', 'prendr', 'pens', 'quoi', 'r', 'person', 'arr', 'savoir', 'celui', 'droit', 'hont', 'ministr', 'an', 'alor', 'pass', 'don', 'libr', 'tu', 'tr', 'mais', 'pourquoi', 'ter', 'part', 'continu', 'avoir', 'aim', 'donc', 'cel', 'fin', 'ukrainien', 'mr', 'gouvern', 'ais', 'ver', 'joievisag', 'temp', 'grand', 'sanction', 'respect', 'nouveau', 'aid', 'toujour', 'occup', 'enfant', 'riantroul', 'nous', 'depuis', 'demand', 'jour', 'chacun', 'polit', 'int', 'oui', 'roul', 'gal', 'libert', 'souten', '

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.27 mins
['fair', 'le', 'tout', 'franc', 'plus', 'aller', 'vous', 'russ', 'guerr', 'fran', 'pouvoir', 'et', 'ce', 'europ', 'pr', 'sident', 'pay', 'visag', 'ai', 'dir', 'droit', 'comm', 'ukrain', 'tre', 'pour', 'macron', 'bien', 'il', 'vouloir', 'si', 'rien', 'peupl', 'falloir', 'en', 'non', 'voir', 'on', 'devoir', 'quand', 'contr', 'parl', 'mond', 'autr', 'arr', 'sol', 'prendr', 'merc', 're', 'tu', 'bon', 'mettr', 'occup', 'san', 'auss', 'monsieur', 'un', 'encor', 'quoi', 'larm', 'alor', 'savoir', 'je', 'femm', 'pens', 'depuis', 'vrai', 'avort', 'an', 'poutin', 'part', 'pass', 'ter', 'r', 'quel', 'int', 'cel', 'person', 'tr', 'pourquoi', 'celui', 'donc', 'tat', 'gagn', 'toujour', 'mais', 'seul', 'respect', 'avoir', 'ukrainien', 'temp', 'agir', 'otan', 'libert', 'con', 'ver', 'gouvern', 'vi', 'fait', 'don', 'grand', 'polit', 'ue', 'de', 'aucun', 'paix', 'charbon', 'arme', 'fin', 'oui', 'nous', 'jam', 'avant', 'riantroul', 'am', 'sanction', 'mr', 'ais', '

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.26 mins
['fair', 'le', 'franc', 'tout', 'plus', 'aller', 'pr', 'fran', 'sident', 'visag', 'pouvoir', 'vous', 'macron', 'pay', 'ce', 'pour', 'il', 'et', 'tre', 'comm', 'russ', 'bien', 'dir', 'guerr', 'ai', 'afriqu', 'si', 'vouloir', 'san', 'voir', 'rien', 'falloir', 'on', 'larm', 'quand', 'sol', 'parl', 'non', 're', 'un', 'bon', 'je', 'autr', 'devoir', 'europ', 'monsieur', 'quoi', 'contr', 'merc', 'prendr', 'encor', 'auss', 'r', 'mettr', 'pens', 'vrai', 'africain', 'en', 'arriv', 'an', 'tu', 'savoir', 'peupl', 'alor', 'quel', 'mond', 'oui', 'avoir', 'tr', 'pompi', 'de', 'arr', 'grand', 'mais', 'toujour', 'part', 'ven', 'pass', 'person', 'temp', 'ver', 'celui', 'jour', 'joievisag', 'depuis', 'cel', 'int', 'hont', 'ukrain', 'don', 'nous', 'pet', 'pourquoi', 'mr', 'ter', 'seul', 'droit', 'ais', 'polit', 'rest', 'gen', 'jam', 'riantroul', 'comment', 'public', 'mal', 'pend', 'fait', 'cr', 'fort', 'roul', 'bas', 'main', 'homm', 'apr', 'fin', 'aid', 'con', 'ta

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.27 mins
['franc', 'fair', 'le', 'tout', 'fran', 'plus', 'pompi', 'aller', 'vous', 'pr', 'ai', 'pay', 'visag', 'sident', 'rien', 'macron', 'pouvoir', 'et', 'il', 'alg', 'ce', 'non', 'tre', 'dir', 'pour', 'bien', 'comm', 'merc', 'si', 'europ', 'aid', 'vouloir', 'vaccin', 'quand', 'on', 'devoir', 'rir', 'voir', 'falloir', 'parl', 'mond', 'guerr', 'contr', 'autr', 'sol', 'hont', 'un', 'int', 'peupl', 'monsieur', 're', 'ven', 'quel', 'russ', 'bon', 'je', 'larm', 'en', 'vrai', 'san', 'alor', 'auss', 'pens', 'r', 'tu', 'suspendr', 'mettr', 'fin', 'pass', 'celui', 'gaz', 'arr', 'avoir', 'savoir', 'prendr', 'quoi', 'de', 'encor', 'an', 'grand', 'person', 'islam', 'mais', 'temp', 'cel', 'libert', 'part', 'ter', 'ais', 'depuis', 'toujour', 'seul', 'demand', 'tr', 'jam', 'ukrain', 'ver', 'leur', 'nous', 'jour', 'don', 'fait', 'pourquoi', 'mal', 'mr', 'car', 'paix', 'aucun', 'pet', 'insult', 'apr', 'riantroul', 'histoir', 'rest', 'aim', 'chos', 'laiss', 'joievisag'

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.26 mins
['fair', 'le', 'franc', 'tout', 'plus', 'et', 'aller', 'vous', 'fran', 'condamn', 'guerr', 'pr', 'visag', 'sident', 'ce', 'pouvoir', 'il', 'tre', 'macron', 'paix', 'dir', 'russ', 'ai', 'bien', 'comm', 'vouloir', 'pour', 'pay', 'si', 'parl', 'peupl', 'devoir', 'je', 'falloir', 'rien', 'quand', 'on', 'europ', 'san', 'non', 'ukrain', 'arm', 'voir', 'ni', 'tu', 'un', 'monsieur', 'mond', 'auss', 'sol', 'autr', 'merc', 'grand', 'quoi', 'quel', 'droit', 'en', 'contr', 'larm', 'poutin', 're', 'savoir', 'pens', 'occup', 'alor', 'vrai', 'mettr', 'avoir', 'ais', 'arr', 'an', 'prendr', 'pass', 'encor', 'ferm', 'bon', 'justic', 'r', 'tr', 'depuis', 'mais', 'air', 'arme', 'cel', 'hont', 'pourquoi', 'ver', 'part', 'seul', 'person', 'olien', 'donc', 'toujour', 'celui', 'nous', 'temp', 'pet', 'de', 'nerg', 'nucl', 'afriqu', 'leur', 'public', 'ter', 'mal', 'don', 'avant', 'ukrainien', 'fait', 'mr', 'oui', 'jam', 'laiss', 'comment', 'fin', 'jour', 'riantroul', 't

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.25 mins
['fair', 'le', 'plus', 'tout', 'franc', 'aller', 'fran', 'visag', 'sident', 'macron', 'pr', 'vous', 'et', 'il', 'pouvoir', 'pour', 'ai', 'merc', 'dir', 'tre', 'bien', 'comm', 'ce', 'pay', 'non', 'un', 'europ', 'an', 'parl', 'sol', 'si', 'falloir', 'voir', 'peupl', 'larm', 'vouloir', 'quand', 'rien', 'guerr', 'arbre', 'on', 'autr', 'je', 'en', 'tr', 'bon', 'monsieur', 'devoir', 'pens', 're', 'san', 'tu', 'encor', 'mond', 'quel', 'r', 'part', 'savoir', 'paix', 'vrai', 'auss', 'mettr', 'arr', 'alor', 'prendr', 'avoir', 'oui', 'mais', 'contr', 'celui', 'depuis', 'quoi', 'br', 'toujour', 'droit', 'riantroul', 'ukrain', 'jour', 'joievisag', 'de', 'pass', 'retrait', 'int', 'cel', 'donc', 'temp', 'ter', 'grand', 'person', 'pourquoi', 'jam', 'pet', 'ver', 'coeur', 'roul', 'polit', 'seul', 'fort', 'vi', 'plant', 'fait', 'just', 'don', 'russ', 'mr', 'croir', 'fin', 'gouvern', 'ven', 'nous', 'ni', 'ais', 'manu', 'apr', 'aucun', 'milliard', 'entre', 'occup'

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.24 mins
['fair', 'le', 'franc', 'tout', 'fran', 'aller', 'plus', 'et', 'sident', 'guerr', 'visag', 'vous', 'ai', 'pouvoir', 'pr', 'ce', 'pay', 'macron', 'pour', 'il', 'comm', 'dir', 'tre', 'bien', 'falloir', 'si', 'ukrain', 'quand', 'on', 'parl', 'rien', 'vouloir', 'non', 'voir', 'russ', 'tu', 'un', 'quoi', 'devoir', 'auss', 'larm', 'bon', 'san', 'je', 'alor', 'contr', 're', 'mond', 'peupl', 'autr', 'sol', 'arr', 'monsieur', 'crim', 'vrai', 'merc', 'r', 'pens', 'de', 'encor', 'mettr', 'quel', 'en', 'savoir', 'pourquoi', 'occup', 'prendr', 'mais', 'polit', 'femm', 'ais', 'pet', 'ter', 'temp', 'baguet', 'avoir', 'donc', 'pass', 'person', 'jour', 'depuis', 'part', 'cel', 'tr', 'rest', 'celui', 'don', 'an', 'toujour', 'oui', 'bombard', 'hont', 'argent', 'pai', 'violenc', 'grand', 'europ', 'enfant', 'mr', 'manu', 'ver', 'fait', 'coup', 'int', 'comment', 'aid', 'seul', 'sport', 'joievisag', 'prix', 'gouvern', 'tair', 'jam', 'avant', 'fin', 'nerg', 'car', 'la

  w2v_model.init_sims(replace=True)


Temps pour entraîner le modèle: 0.24 mins
