In [1]:
import warnings
warnings.filterwarnings('ignore')

import os
from glob import glob
import pickle

import numpy as np
import pandas as pd

#TEXT PROCESSING
import nltk
import re
import codecs
import unidecode
#pip install unidecode
import mpld3
# pip install mpld3
import stop_words
# pip install stop-words
from nltk import SnowballStemmer, pos_tag, word_tokenize, wordpunct_tokenize
from nltk.corpus import stopwords

#SKLEARN
from sklearn.utils import shuffle
from sklearn.pipeline import make_pipeline
from sklearn.feature_extraction.text import HashingVectorizer,TfidfTransformer,TfidfVectorizer, CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.decomposition import TruncatedSVD, NMF
from sklearn.preprocessing import Normalizer
from sklearn.metrics.pairwise import *
from sklearn.linear_model import LogisticRegression
from sklearn.svm import *
from sklearn.semi_supervised import *

** Lecture des données **

In [1]:
#download cv in a list
def load_cv_list(nombre):
    path = '../data_indeed/Txt/'
    liste_paths = [path+directory for directory in os.listdir(path)]
    liste_cv = []
    for path in liste_paths :
        if "informaticien" and "dba" and "chef_de_projet_informatique" not in path:
            filenames = sorted(glob(os.path.join(path,"*.txt")))
            for file in filenames[:nombre]:
                liste_cv.append(open(file).read())
    return liste_cv

In [3]:
liste_cv_indeed = load_cv_list(200)
print(len(liste_cv_indeed), "cvs")

2000 cvs


In [4]:
liste_cv_indeed[0]

"INFORMATICIEN DÉVELOPPEMENT ET\nRÉSEAUX\n\nDéveloppeur Intégrateur Web\n\nÉragny (95) - Email me on Indeed: indeed.com/r/d7e8913ed00d0384\n\nAujourd’hui, je suis en recherche d'une opportunité sur un poste de développeur ou d’intégrateur web afin de\nmonter toujours plus en compétence et d’approfondir les bases solide que j’ai acquis en formation.\n\nEXPÉRIENCE\n\nINFORMATICIEN DÉVELOPPEMENT ET RÉSEAUX\n\nLeGrandCercle95  -  Éragny (95) -\n\nnovembre 2016 - juin 2017\n\nInformaticien de l'entreprise, mes missions était de gérer les différent problème dans l'entreprise. Mise en\nplace d'un antivirus serveur, sauvegarde Nas... Créé et gérer les droits sur l'Active Directory. Paramétrer des\nclients léger ainsi que du matériel informatique comme des imprimantes ou des étiqueteuse en IP fixe.\n\nRéajustement du code html et css sur le site grand public selon les normes w3c.\nCréation d'une source ODBC\nCréation d'un code en php - sql afin de récupéré des données librairie sur un site four

### Cleaning fonctions

#### Suppression des sauts de ligne

In [5]:
import string,re

In [6]:
regex = re.compile('[%s]' % '(\\n)*(\\x0c)*')
def del_line_feed(s):  
    """Delete \n in the text"""
    return regex.sub(' ', s)

In [7]:
liste_cv_indeed = [del_line_feed(text).lower() for text in liste_cv_indeed]
liste_cv_indeed[0]

"informaticien développement et réseaux  développeur intégrateur web  éragny  95  - email me on indeed: indeed.com/r/d7e8913ed00d0384  aujourd’hui, je suis en recherche d'une opportunité sur un poste de développeur ou d’intégrateur web afin de monter toujours plus en compétence et d’approfondir les bases solide que j’ai acquis en formation.  expérience  informaticien développement et réseaux  legrandcercle95  -  éragny  95  -  novembre 2016 - juin 2017  informaticien de l'entreprise, mes missions était de gérer les différent problème dans l'entreprise. mise en place d'un antivirus serveur, sauvegarde nas... créé et gérer les droits sur l'active directory. paramétrer des clients léger ainsi que du matériel informatique comme des imprimantes ou des étiqueteuse en ip fixe.  réajustement du code html et css sur le site grand public selon les normes w3c. création d'une source odbc création d'un code en php - sql afin de récupéré des données librairie sur un site fournisseur pour les enregis

#### Suppression ponctuation

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
#le maintient de la ponctuation pertube le stop words, apostrophe gérée dans text_treatment
regex = re.compile('[%s]' % re.escape('!"#$%&\()*+,-./:;<=>?@[\\]^_{|}~')) 

def del_punct(s):  
    """Delete punctuation in the text"""
    return regex.sub('', s)

In [10]:
#test 
liste_cv_indeed_no_punc = [del_punct(text) for text in liste_cv_indeed]
liste_cv_indeed_no_punc[0]

"informaticien développement et réseaux  développeur intégrateur web  éragny  95   email me on indeed indeedcomrd7e8913ed00d0384  aujourd’hui je suis en recherche d'une opportunité sur un poste de développeur ou d’intégrateur web afin de monter toujours plus en compétence et d’approfondir les bases solide que j’ai acquis en formation  expérience  informaticien développement et réseaux  legrandcercle95    éragny  95    novembre 2016  juin 2017  informaticien de l'entreprise mes missions était de gérer les différent problème dans l'entreprise mise en place d'un antivirus serveur sauvegarde nas créé et gérer les droits sur l'active directory paramétrer des clients léger ainsi que du matériel informatique comme des imprimantes ou des étiqueteuse en ip fixe  réajustement du code html et css sur le site grand public selon les normes w3c création d'une source odbc création d'un code en php  sql afin de récupéré des données librairie sur un site fournisseur pour les enregistré en fiche xml cré

** Reconnaissance du langage du CV**

In [11]:
def _calculate_languages_ratios(text):
    """
    Calculate probability of given text to be written in several languages and
    return a dictionary that looks like {'french': 2, 'spanish': 4, 'english': 0}
    """

    languages_ratios = {}

    '''
    nltk.wordpunct_tokenize() splits all punctuations into separate tokens
    
    >>> wordpunct_tokenize("That's thirty minutes away. I'll be there in ten.")
    ['That', "'", 's', 'thirty', 'minutes', 'away', '.', 'I', "'", 'll', 'be', 'there', 'in', 'ten', '.']
    '''

    tokens = wordpunct_tokenize(text)
    words = [word.lower() for word in tokens] #from text get list of word in minuscule

    
    for language in stopwords.fileids(): # pour chaque langue
        stopwords_set = set(stopwords.words(language)) #je mets les stop words du langage dans un set
        words_set = set(words) #je mets les mots de mon texte dans un set
        #je prends l'intersection entre les mots de mon texte et les mots du stopwords dans le langage donné
        common_elements = words_set & stopwords_set
        
        #je compute mon score comme le nombre d'éléments en communs dictionnaire [langage : score]
        languages_ratios[language] = len(common_elements) # language "score"

    return languages_ratios

In [12]:
import nltk
nltk.download('stopwords')
stopwords.fileids()

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mehdiregina/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [13]:
def get_cv_langue(liste_cv, language) :
    """Return resume witten in the specified language in parameter"""
    liste_2 = []
    for cv in liste_cv:
        if max(_calculate_languages_ratios(cv),key =_calculate_languages_ratios(cv).get)=='french':
            liste_2.append(cv)
    return liste_2

In [14]:
liste_cv_indeed_fr = get_cv_langue(liste_cv_indeed_no_punc,'french')

In [15]:
nb_cv = len(liste_cv_indeed_no_punc)
nb_cv_fr = len(liste_cv_indeed_fr)

print("proportion cv french :",1- ((nb_cv-nb_cv_fr)/nb_cv))


proportion cv french : 0.704


** Preprocessing du text **

In [16]:
def text_treatment (text):
    text = text.lower()
    text = text.replace("\x00", '').replace("\x01", '').replace("\x02", '').replace("\x03", '') \
    .replace("\x04", '').replace("\x05", '').replace("\x06", '').replace("\x07", '').replace("\x08", '') \
    .replace("\x0e", '').replace("\x11", '').replace("\x12", '').replace("\x10", '').replace("\x19", '') \
    .replace("\x1b", '').replace("\x14", '').replace("\x15", '').replace('/', '').replace('=', '').replace("〓", "") \
    .replace("»", "").replace("«", "").replace("¬", "").replace('`', '').replace (" -", "").replace("•", "")\
    .replace("l'", "").replace("l’", "").replace("l´", "").replace("d’", "").replace("d'", "").replace("d´","")\
    .replace("j’", "").replace("j'", "").replace("j´","").replace("n’", "").replace("n'", "").replace("n´","")\
    .replace("”", "").replace("~", "").replace("§", "").replace("¨", "").replace("©", "").replace("›", "")\
    .replace("₋", "").replace("→", "").replace("⇨", "").replace("∎", "").replace("√", "").replace("□", "")\
    .replace("*", "").replace("&", "").replace("►", "").replace("◊", "").replace("☞", "").replace("#", "")\
    .replace("%", "").replace("❖", "").replace("➠", "").replace("➢", "").replace("", "").replace("✓", "") \
    .replace("√", "").replace("✔", "").replace("♦", "").replace("◦", "").replace("●", "").replace("▫", "")\
    .replace("▪", "").replace("…", "").replace("þ", "").replace("®", "").replace('', '').replace("...", "")
    text = unidecode.unidecode(text) # remove accent
    return text

In [17]:
#On supprime les caractères étranges, accents et stop words
liste_cv_indeed_treated = [text_treatment(text) for text in liste_cv_indeed_fr]
#test
liste_cv_indeed_treated[0]

"informaticien developpement et reseaux  developpeur integrateur web  eragny  95   email me on indeed indeedcomrd7e8913ed00d0384  aujourhui je suis en recherche une opportunite sur un poste de developpeur ou integrateur web afin de monter toujours plus en competence et approfondir les bases solide que ai acquis en formation  experience  informaticien developpement et reseaux  legrandcercle95    eragny  95    novembre 2016  juin 2017  informaticien de entreprise mes missions etait de gerer les different probleme dans entreprise mise en place un antivirus serveur sauvegarde nas cree et gerer les droits sur active directory parametrer des clients leger ainsi que du materiel informatique comme des imprimantes ou des etiqueteuse en ip fixe  reajustement du code html et css sur le site grand public selon les normes w3c creation une source odbc creation un code en php  sql afin de recupere des donnees librairie sur un site fournisseur pour les enregistre en fiche xml creation de bannieres pou

** Gestion des stop words **

In [18]:
#generate stopwords
stop_words_py = set(stop_words.get_stop_words('french'))

# attention certains stop words pourraient être utiles par la suite
stopwords_set_manuel = set(["an", "ans", 'les', 'moins', 'd\'un','janvier', 'fevrier', 'février', 'mars', 'avril', \
                 'mai', 'juin', 'juillet', 'aout', 'août', 'septembre', 'octobre', 'novembre', 'décembre', \
                  'decembre', 'moins', 'mise', 'universit\xc3\xa9', 'université', 'universite', 'ion','sage', \
                  'o', 'rac', 'vers', 'via', 'p\xc3\xa9rim\xc3\xa8tre', 'périmètre','et','paris','x',"\x00",\
                          "\x01","\x02", "\x03","\x04","\x05","\x06","\x07","\x08","\x09","\x0e","\x0e","\x11",\
                           "\x12","\x13","\x14","\x15","\x16","\x17","\x18","\x19","transport","puis","lieu",\
                           "adresse","entre",'dun','dune','chez','boulognebillancourt','bt','etc','recrutement','main',\
                           'and', 'paie','paiement','environ','place','france','paris','mois','mobile','mobiles',\
                           'nanterre','source','sources','concerne','concernant','of','non','notes','rh','minimum',\
                           'maximum','bac','site','sites','actuellement','telephone','telephonique','telephoniques','ca','demenager',\
                           'demenagement','participer','participation','lycee','baccalaureat','lien','liens','in',\
                           'indeed','email','indeedcomrd7e8913ed00d0384','aujourhui','afin','toujours','enterprise',\
                           "guide","10g","11g","9i",'ad','v10','v2','v3','v5','v6','v8','v9','talan','talansolutions',\
                           "aide","ainsi",'aix','aupres','autour','autres','b','bonne','campagnes','cas','chaine',\
                           'choix','coherence','departement','differentes','differents','divers','fin','for','grandes',\
                           'i','ii','jour','lies','lors','lu','mettre','necessaires','national','nationale','nouvelle',\
                           'nouvelles','parle','partir','partie','permettant','permettte','plusieurs','reel','selon',\
                           'temps','toutes','v'])
stop_words_main = stop_words_py | stopwords_set_manuel
stop_words_main = list(stop_words_main)
print("taille stop words liste : ", len(stop_words_main))

taille stop words liste :  413


In [19]:
stop_words_main

['vous',
 'eusse',
 'aurai',
 '\x14',
 'elles',
 'peu',
 'rac',
 'fevrier',
 'notre',
 'eussent',
 'minimum',
 'eus',
 'état',
 'a',
 'deux',
 'tels',
 'dos',
 'mise',
 'devrez',
 'environ',
 'aussi',
 'v6',
 'ici',
 'la',
 'universite',
 'o',
 '\x00',
 'parle',
 'site',
 'bt',
 'indeed',
 'bon',
 'l',
 'nommés',
 'nouvelles',
 'mois',
 'fin',
 'source',
 'quelles',
 'vont',
 'avait',
 'mes',
 'devriez',
 'une',
 'ne',
 'hors',
 'soit',
 'entre',
 't',
 'étant',
 'fusse',
 'auras',
 'ta',
 'juin',
 'nationale',
 'national',
 'devrions',
 'peut',
 'parole',
 'quels',
 'aviez',
 'fussions',
 'et',
 'étaient',
 'avant',
 'elle',
 'seraient',
 'fussent',
 'suis',
 'tout',
 'transport',
 'etc',
 'adresse',
 'concernant',
 'des',
 'aies',
 'mobile',
 'soyez',
 'dun',
 'on',
 'ils',
 'and',
 'fait',
 'devrait',
 'aide',
 'sans',
 'eût',
 'étiez',
 'paris',
 'eue',
 'donc',
 'decembre',
 'être',
 'août',
 'ai',
 'êtes',
 'bac',
 'un',
 'me',
 'aux',
 'via',
 'lien',
 'pas',
 'baccalaureat',
 '

In [20]:
#voir si utile
def remove_stopwords(text,stopwords_list):
    text_temp = " ".join(text.split())+" "
    for word in stopwords_list:
        text_temp = text_temp.replace(" "+word+" ", " ")
    return text_temp

In [21]:
#test 
liste_cv_indeed_no_stop = [remove_stopwords(text,stop_words_main) for text in liste_cv_indeed_treated]
liste_cv_indeed_no_stop[0]

"informaticien developpement reseaux developpeur integrateur web eragny 95 recherche opportunite poste developpeur integrateur web monter plus competence approfondir bases solide acquis formation experience informaticien developpement reseaux legrandcercle95 eragny 95 2016 2017 informaticien entreprise missions etait gerer different probleme entreprise antivirus serveur sauvegarde nas cree gerer droits active directory parametrer clients leger materiel informatique imprimantes etiqueteuse ip fixe reajustement code html css grand public normes w3c creation odbc creation code php sql recupere donnees librairie fournisseur enregistre fiche xml creation bannieres evenements photoshop formation logiciel photoshop charge clientele europcar commercial saintouenaumone 95 2008 2016 missions principales qualite service assurer accueil clients respect charte agence gestion clients traiter ensemble appels analyser besoins client assurer suivi clientele logistique administratif s'assurer disponibil

In [22]:
#SnowballStemmer 
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("french")

In [23]:
def tokenize_and_stem(text):
    # first tokenize by sentence, then by word to ensure that punctuation is caught as it's own token
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    filtered_tokens = []
    # filter out any tokens not containing letters 
    for token in tokens:
        if re.search('[a-zA-Z]', token):
            filtered_tokens.append(token)
    stems = [stemmer.stem(t) for t in filtered_tokens]
    return stems


def tokenize_only(text):
    # first tokenize by sentence, then by word to ensure that punctuation is caught as it's own token
    tokens = [word.lower() for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    filtered_tokens = []
    # filter out any tokens not containing letters 
    for token in tokens:
        if re.search('[a-zA-Z]', token):
            filtered_tokens.append(token)
    return filtered_tokens

In [24]:
totalvocab_indeed_stemmed = []
totalvocab_indeed_tokenized = []
for text in liste_cv_indeed_no_stop:
    allwords_stemmed = tokenize_and_stem(text) #for each item in 'synopses', tokenize/stem
    totalvocab_indeed_stemmed.extend(allwords_stemmed) #extend the 'totalvocab_stemmed' list
    allwords_tokenized = tokenize_only(text)
    totalvocab_indeed_tokenized.extend(allwords_tokenized)

In [25]:
vocab_frame_indeed = pd.DataFrame({'words': totalvocab_indeed_tokenized}, index = totalvocab_indeed_stemmed)
print('there are ' + str(vocab_frame_indeed.shape[0]) + ' items in vocab_frame')
vocab_frame_indeed

there are 302518 items in vocab_frame


Unnamed: 0,words
informaticien,informaticien
developp,developpement
reseau,reseaux
developpeur,developpeur
integr,integrateur
web,web
eragny,eragny
recherch,recherche
opportunit,opportunite
post,poste


In [26]:
vocab_frame_indeed.loc['in']

words    ins
Name: in, dtype: object

HashVectorizer -> Normalize Documents Vectors

### ACP X KMEANS

In [27]:
tf_vect = TfidfVectorizer(stop_words=stop_words_main,max_df=0.8,min_df=0.05,\
                           preprocessor=text_treatment,tokenizer=tokenize_and_stem)

In [29]:
#test_hash = hash_vect.fit_transform(liste_cv_no_stop)
bow_idf_indeed = tf_vect.fit_transform(liste_cv_indeed_no_stop)

vocab_liste_pca_indeed = tf_vect.get_feature_names()

l2_norm = Normalizer()

In [30]:
#Ajout une étape pour supprimer les doublons
buffer = pd.DataFrame(data=bow_idf_indeed.toarray())
buffer.drop_duplicates(inplace=True)
bow_idf_indeed = buffer.values
bow_idf_indeed = shuffle(bow_idf_indeed)

In [31]:
tf_vect.vocabulary_

{'acce': 0,
 'access': 1,
 'accompagn': 2,
 'accueil': 3,
 'achat': 4,
 'acquisit': 5,
 'action': 6,
 'activ': 7,
 'activit': 8,
 'adapt': 9,
 'administr': 10,
 'affair': 11,
 'agenc': 12,
 'agent': 13,
 'agil': 14,
 'algorithm': 15,
 'altern': 16,
 'amelior': 17,
 'analys': 18,
 'analyst': 19,
 'analytic': 20,
 'android': 21,
 'anglais': 22,
 'anim': 23,
 'anne': 24,
 'annuel': 25,
 'anomal': 26,
 'appel': 27,
 'appliqu': 28,
 'applique': 29,
 'architect': 30,
 'architectur': 31,
 'assist': 32,
 'associ': 33,
 'assur': 34,
 'ateli': 35,
 'audit': 36,
 'automat': 37,
 'automatis': 38,
 'bancair': 39,
 'banqu': 40,
 'bas': 41,
 'besoin': 42,
 'bi': 43,
 'big': 44,
 'bilan': 45,
 'bnp': 46,
 'bord': 47,
 'budget': 48,
 'bureau': 49,
 'bureaut': 50,
 'business': 51,
 'c': 52,
 'cabinet': 53,
 'cadr': 54,
 'cahi': 55,
 'caiss': 56,
 'calcul': 57,
 'cart': 58,
 'centr': 59,
 'central': 60,
 'certif': 61,
 'certificationslicens': 62,
 'chang': 63,
 'charg': 64,
 'charge': 65,
 'chef': 66,
 '

Possibilité de rebasculer dans l'espace des mots
Puis on ordonne de manière décroissante les vecteurs de coefficients pour chaque cluster
On récupère les indices des mots aux plus grands coefficients pour chaque cluster
Via l'attribut vocabulaire du tf_idf vec on affiche les mots ayant les plus grand coeff pour chaque cluster

In [34]:
def get_kmeans_cluster_words_lsa(bow_idf,lsa_number,cluster_number,word_number,vocab_frame,vocab_liste):
    
    #implement LSA
    svd = TruncatedSVD(lsa_number)
    normalizer = Normalizer(copy=False)
    lsa = make_pipeline(svd, normalizer)
    bow_idf_reduced_lsa = lsa.fit_transform(bow_idf)
    explained_variance = svd.explained_variance_ratio_.sum()
    print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))
    
    #clustering using kmeans
    n_class = cluster_number
    km = KMeans(n_clusters=n_class, init='k-means++', max_iter=100, n_init=1)
    km.fit(bow_idf_reduced_lsa)

    #cluster centroid lsa
    cluster_centroids_lsa = km.cluster_centers_
    liste_cluster_word=[]
    
    #via l'opération inveserse je rebascule les centroids dans l'espace des mots 
    original_space_centroids = svd.inverse_transform(cluster_centroids_lsa)
    #ordre decroissant pour chaque cluster les indices des mots à plus forte corrélation
    idx_ordered_centroids = np.argsort(original_space_centroids,axis=1)[:,::-1] 
    
    for i in range(0,cluster_centroids_lsa.shape[0]): #nombre de clusters
        text=""
        for j in range(0,word_number): #nombre de mots
            text+= vocab_frame.loc[vocab_liste[idx_ordered_centroids[i,j]]].values.tolist()[0][0]+ " "
        liste_cluster_word.append(text)
        
    return bow_idf_reduced_lsa, liste_cluster_word, km.labels_, cluster_centroids_lsa

In [36]:
bow_idf_reduced_lsa_indeed, liste_cluster_word_lsa_indeed, labels_lsa_indeed,cluster_centroids_lsa_indeed=get_kmeans_cluster_words_lsa(bow_idf_indeed,150,5,6,vocab_frame_indeed,vocab_liste_pca_indeed)
liste_cluster_word_lsa_indeed

Explained variance of the SVD step: 73%


['oracle administratif serveur bases systeme reseaux ',
 'marketing commercial management business strategie clients ',
 'data scientist donnees statistiques r python ',
 'gestion projets suivi clients management equipe ',
 'informatique developpeur informaticien web c stage ']

### NMF X KMEANS

In [37]:
# on part d'un bag of words tf-idf
tf_vect_2 = TfidfVectorizer(stop_words=stop_words_main,max_df=0.8,min_df=0.05,\
                           preprocessor=text_treatment,tokenizer=tokenize_and_stem)

bow_idf_2 = tf_vect_2.fit_transform(liste_cv_indeed_no_stop)

vocab_liste_nmf_indeed = tf_vect_2.get_feature_names()

In [38]:
#cluster centers visualization
def get_kmeans_cluster_words_nmf(bow_idf,nmf_number,cluster_number,word_number,vocab_frame,vocab_liste):
    #implement NMF
    print("Fitting the NMF model on with n_samples = "+str(bow_idf.shape[0])+ " and n_features = "+str(bow_idf.shape[1]))
    nmf = NMF(n_components=nmf_number).fit(bow_idf) 
    
    liste_topic = []
    for topic_idx, topic in enumerate(nmf.components_):
        #explain each topix with the words with the strongest coeff
        liste_topic.append(" ".join([vocab_frame.loc[vocab_liste[i]].values.tolist()[0][0]  for i in topic.argsort()[:-10 - 1:-1]]))
    
    #get text matrix in nmf topic space
    bow_idf_reduced_nmf = nmf.fit_transform(bow_idf)
    bow_idf_reduced_nmf_normalized = l2_norm.fit_transform(bow_idf_reduced_nmf) #l2 observation normalization
    
    #clustering using kmeans
    n_class = cluster_number
    km = KMeans(n_clusters=n_class, init='k-means++', max_iter=100, n_init=1)
    km.fit(bow_idf_reduced_nmf_normalized)

    #cluster centroid nmf
    cluster_centroids_nmf = km.cluster_centers_
    
    liste_cluster_word=[]
    
    #via l'opération inveserse je rebascule les centroids dans l'espace des mots !!!
    original_space_centroids = nmf.inverse_transform(cluster_centroids_nmf)
    #ordre decroissant pour chaque cluster les indices des mots à plus forte corrélation
    idx_ordered_centroids = np.argsort(original_space_centroids,axis=1)[:,::-1] 
    
    for i in range(0,cluster_centroids_nmf.shape[0]): #nombre de clusters
        text=""
        for j in range(0,word_number): #nombre de mots
            text+= vocab_frame.loc[vocab_liste[idx_ordered_centroids[i,j]]].values.tolist()[0][0]+ " "
        liste_cluster_word.append(text)
        
    return bow_idf_reduced_nmf_normalized, liste_topic, liste_cluster_word, km.labels_, cluster_centroids_nmf

In [39]:
bow_idf_reduced_nmf_indeed, liste_topic, liste_cluster_nmf_indeed, labels_nmf_indeed, cluster_centroid_nmf_indeed = get_kmeans_cluster_words_nmf(bow_idf_2,150,5,6,vocab_frame_indeed,vocab_liste_nmf_indeed)

Fitting the NMF model on with n_samples = 1408 and n_features = 466


In [40]:
liste_topic

['gestion contrat planification parc actions prestataires changement organisations entites ensemble',
 'scientist data python juniors certificationslicenses decision automatiques recommandations parcours complementaires',
 'sas data donnees decisionnel recueil construction sql banque existants calcul',
 'oracle bases migrations version sauvegarde suite erp plsql performances expert',
 'web javascript conception cree espace internet intranet css lignes devis',
 'donnees bases optimisation requetes conception sql interfaces documentation importe generant',
 'marketing evenements direction veille digital leader operationnel partenaires construction actions',
 'creation sauvegarde fichiers restauration telephonie procedure fournisseur mis internet pc',
 'societes sein travaux internet generale niveau filiale interventions interets professionnelles',
 'management project business europe global interne selection operationnel changement budget',
 'administratif vmware fichiers plateforme mess

In [41]:
liste_cluster_nmf_indeed

['projets gestion management clients marketing suivi ',
 'gestion controle suivi projets analyser reporting ',
 'informatique informaticien reseaux technicien systeme administratif ',
 'data scientist developpeur web donnees stage ',
 'oracle bases dba donnees production administratif ']

### INDEED SEMI-SUPERVISED AUTOMATIC LABELLING (Manual implementation)

In [42]:
#get observations cluster distrib
X_texts = [liste_cv_indeed_no_stop[i] for i in buffer.index] #all textes sans doublons
X_idf_reduced = bow_idf_reduced_lsa_indeed #all idf matrix sans doublons
y_cluster_pca = labels_lsa_indeed #labels correspondants

Let's check label distribution

In [43]:
dict_res = dict()
for i in np.unique(y_cluster_pca):
    dict_res["label_"+str(i)] = len(np.where(y_cluster_pca == i)[0])
dict_res

{'label_0': 202,
 'label_1': 156,
 'label_2': 146,
 'label_3': 376,
 'label_4': 313}

Prenons dans un premiers temps les x observations les plus proche du cluster centroid au sens de la cosine similarity et attribuons leur le label du cluster...

In [44]:
def get_idx_closest_points(nb_points,X,labels,cluster_centroids):
    distance_idx = np.zeros((len(np.unique(labels)),nb_points))
    for i in np.unique(labels):
        buffer_2 = euclidean_distances(X,np.transpose(cluster_centroids[i].reshape(-1,1)))
        distance_idx[i] = np.argsort(buffer_2,axis=0)[:nb_points].reshape(-1,)
    return distance_idx.astype(int)

In [45]:
idx_per_cluster = get_idx_closest_points(15,X_idf_reduced,y_cluster_pca,cluster_centroids_lsa_indeed)
idx_per_cluster

array([[ 640, 1030, 1038,  994,  840, 1163, 1088,  855, 1045,  634,  989,
         838,  458,  105,  532],
       [ 879,  416,  439,  749,  506,    4, 1127,  127,  210,   18, 1159,
         310,  222,  619,  169],
       [ 673, 1061, 1190,  821,  444,  239,  549,  702, 1065,  211,  703,
        1144,  907, 1027,  184],
       [ 365,  228,  230,  845,  817,  173, 1035,  939,  569,  841,  727,
         361,  155,  588, 1140],
       [ 195,  912,  887,   54, 1184, 1132,   90, 1139,  811, 1110,   27,
         900,  717, 1004, 1114]])

In [46]:
y_cluster_pca[496]

3

Let's build first train set with these labelled data from the clustering + lsa

In [68]:
def get_input_semi_supervised_draft(idx,X,labels):
    """Method for the manual implementation of semi supervised learning, without sklearn"""
    X_train = np.zeros((idx.shape[0]*idx.shape[1],X.shape[1])) #nb de cvs selectionnes * dim tf_idf
    y_train = np.zeros(idx.shape[0]*idx.shape[1]) #nb de cvs_selectionnes
    nb_points = idx.shape[1] #nb de points par label
    #set train set
    for i in range(idx.shape[0]): #pour chaque cluster/label
        X_train[i*nb_points:(i+1)*nb_points,:] = X[idx[i]] #tous les points du labels
        if(i>0):
            y_train[i*nb_points:(i+1)*nb_points] = i #je mets leur label à i
    #set test (toutes mes données)
    X_test = np.delete(X,idx.ravel(),axis=0) #je supprime les point ajouté du test
    y_test = np.delete(labels,idx.ravel(),axis=0)
    return X_train,y_train,X_test,y_test

In [69]:
X_train,y_train,X_test,y_test = get_input_semi_supervised_draft(idx_per_cluster,X_idf_reduced,y_cluster_pca)
X_test.shape

(1118, 150)

Implementation

TEST Regression Logistique

In [70]:
log_reg = LogisticRegression(penalty='l2',C=10)
res = np.zeros((X_train.shape[0]+X_test.shape[0],2)) -1

for i in range(0,100):
    log_reg.fit(X_train,y_train.reshape(-1,)) #fit sur mon train
    #je predis sur mon test et je recupère la proba max pour chaque observation
    pred_prob_max = np.max(log_reg.predict_proba(X_test),axis=1) 
    buffer_pred = log_reg.predict(X_test)
    #je garde les indices correspondant à des proba supérieure à 0.65
    idx = np.where(pred_prob_max>0.65)
    
    #store results
    print(y_test[idx])
    res[idx,0] = y_test[idx] #je stocke les resultats des clusters
    res[idx,1] = buffer_pred[idx] #je stocke les resultats données par ma prediction
    
    #update datasets j'enlève mes observations du test et le rajoute au train
    X_train = np.vstack((X_train,X_test[idx]))
    y_train = np.vstack((y_train.reshape(-1,1),buffer_pred[idx].reshape(-1,1)))
    X_test = np.delete(X_test,idx,axis=0)
    
    #if len(y_test)<10:
     #   break

[3 2 3 3 1 3 1 2 4 3 3 4 0 0 3 4 2 3 0 0 3 4 3 2 2 0 4 2 3 1 2 1 1 4 0 1 4
 3 2 3 2 3 4 1 4 0 3 4 0 4 4 4 2 4 3 3 0 3 3 3 4 1 3 3 3 4 0 3 4 3 3 4 2 1
 4 4 3 2 3 3 3 4 1 4 4 2 1 1 3 3 0 4 0 1 3 0 3 0 4 0 0 2 4 3 3 3 4 3 3 4 4
 0 4 2 3 3 1 4 3 3 3 0 4 0 3 4 4 1 3 3 0 3 2 3 0 0 4 3 4 4 3 4 1 0 4 2 2 0
 4 0 2 4 4 1 0 0 3 0 3 4 4 3 4 4 4 3 3 3 2 4 3 3 4 0 4 4 0 3 2 3 2 3 4 3 3
 2 4 3 1 2 2 1 1 2 3 4 4 0 3 4 3 3 3 4 4 3 1 4 3 3 2 2 3 0 3 4 2 3 4 0 0 3
 3 3 2 3 4 3 4 1 4 3 4 4 3 1 2 4 1 0 4 1 1 3 0 3 3 0 3 0 4 4 2 2 2 1 4 4 3
 4 1 3 4 3 1 3 2 3 2 3 3 4 4 4 0 0 3 4 0 3 2 4 2 3 3 1 3 1 2 4 4 3 0 4 4 3
 3 2 4 4 3 4 4 0 4 1 4 0 3 4 3 2 4 3 4 4 1 4 1 2 0 0 3 2 2 3 4 2 2 4 0 3 0
 3 3 3 3 1 4 4 2 2 3 2 4 3 4 2 3 3 4 3 1 4 0 4 0 0 4 4 0 3 2 4 4 0 0 2 3 4
 3 3 3 3 2 4 4 4 3 1 0 3 4 3 3 3 3 3 3 3 4 3 3 3 3 3 3 3 3 3 1 3 0 3 4 2 1
 4 3 4 0 0 2 3 1 3 0 3 4 3 3 1 2 1 3 4 1 3 2 2 3 4 3 1 4 4 3 3 3 3 3 3 4 4
 4 2 4 3 4 3 4 1 4 3 3 2 3 1 3 1 3 0 4 2 2 2 2 3 4 4 0 4 0 4 4 3 4 3 3 2 4
 3 2 0 3 4 3 0 3 3 4 2 2 

In [71]:
test = res[res[:,0]!=-1]
print("accuracy :{}".format(np.mean(test[:,0]==test[:,1])))
print("proportion de donnée prédite : {}".format(X_train.shape[0]/(X_train.shape[0]+X_test.shape[0])))

accuracy :0.6404639175257731
proportion de donnée prédite : 0.9471919530595139


In [72]:
X_test.shape

(63, 150)

TEST SVM

Rappel augmenter C : risque d'overfitter, on priorise la minimisation de l'erreur sur la maximisation de la marge

In [80]:
svm = SVC(decision_function_shape='ovr', probability=True,C=10)
res = np.zeros((X_train.shape[0]+X_test.shape[0],2)) -1

for i in range(0,150):
    svm.fit(X_train,y_train.reshape(-1,))
    pred_prob_max = np.max(svm.predict_proba(X_test),axis=1) 
    buffer_pred = log_reg.predict(X_test)
    idx = np.where(pred_prob_max>0.6)
    
    #store results
    print(y_test[idx])
    res[idx,0] = y_test[idx]
    res[idx,1] = buffer_pred[idx]
    
    #update datasets
    X_train = np.vstack((X_train,X_test[idx]))
    y_train = np.vstack((y_train.reshape(-1,1),buffer_pred[idx].reshape(-1,1)))
    X_test = np.delete(X_test,idx,axis=0)
    
    if len(y_test)<10:
        break

[0 3 0 1 0 0 2 4 4 4 0 4 0 1 4 4 1 3 2 1 4 0 4 0 0 3 0 0 2 0 2 0 4 3 2 0 2
 2 1 1 4 4 4 2 1 1 3 0 0 0 1 0 1 3 2 1 3 2 1 4 1 3 3 3 2 1 0 0 0 0 2 2 2 0
 3 2 1 1 2 0 0]
[0 1 4 0 1 1 2 4 3 0 3 4 2 4 3 1 0 3 4 4 1 0 2 0 2 3 0 4]
[1 3 3 0]
[0 4 1]
[1 1]
[]
[]
[]
[0 1]
[]
[]
[]
[]
[0]
[]
[]
[]
[]
[2]
[1]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[4]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]


In [82]:
test = res[res[:,0]!=-1]
np.mean(test[:,0]==test[:,1])

0.19387755102040816

SEMI SUPERVISED WITH SEMI SUPERVISED METHODS

#### CV TALAN

In [2]:
#download talan CVs 
liste_cv_talan = []
liste_files_talan = []
path = '../Commun/Data_talan/txt/'
filenames = sorted(glob(os.path.join(path,"*.txt")))
print(len(filenames))
for file in filenames:
    liste_cv_talan.append(open(file).read())
    liste_files_talan.append(file.split('/')[-1].split('.')[0])

NameError: name 'glob' is not defined

In [17]:
liste_cv_talan[0]

"Secteurs Télécom & média Activités métier Avant-vente, Développement Intégration & validation. Compétences fonctionnelles CRM : Elaboration de réponses aux appels d’offres, conception des processus métiers, rédaction des spécifications fonctionnelles, préparations des maquettes. Compétences techniques Microsoft Dynamics CRM 2011,2013 Salesforce CRM Architecture et plan de migration (volumétrie importante) Service Director : solution de QOS Oblicore Guarantee : solution SLM Développement : J2EE (EJB3, JMS), Webservice, API, Javascript,C#. Base de données : SQL Server, Oracle, PostgreSQL, MySQL Méthodologie Agile: Scrum, Extreem programing, Sure Step , UML. Atos France Bull France CRM Dynamics 2013, Salesforce CRM Dynamics 2011 Avant-vente CRM : Elaboration de réponses aux appels d’offres, conception des processus métiers, rédaction des spécifications fonctionnelles, préparations des maquettes SLM : Gestion des contrats SLM (Service Level Management) Prise de commande Télécom (SI) Proce

In [18]:
#suppression des saut de lignes
liste_cv_talan = [del_line_feed(text).lower() for text in liste_cv_talan]

In [19]:
#suppression de la ponctuation
liste_cv_talan_no_punc = [del_punct(text) for text in liste_cv_talan]

In [20]:
#selectionner seulement cvs fr
liste_cv_talan_fr = get_cv_langue(liste_cv_talan_no_punc,'french')

nb_cv = len(liste_cv_talan_no_punc)
nb_cv_fr = len(liste_cv_talan_fr)

print("proportion cv french :",1- ((nb_cv-nb_cv_fr)/nb_cv))

proportion cv french : 0.9862385321100917


In [21]:
#On supprime les caractères étranges, accents et stop words
liste_cv_treated_talan = [text_treatment(text) for text in liste_cv_talan_fr]

In [22]:
#remove stop word
liste_cv_talan_no_stop = [remove_stopwords(text,stop_words_main) for text in liste_cv_treated_talan]

In [23]:
#facultatif add only for talan cv (delete numbers) -> could be use for the preprocessing in general !
liste_cv_talan_clean = [re.sub('[0-9 ]+', ' ', text) for text in liste_cv_talan_no_stop]
liste_cv_talan_clean[2]

"competences sectorielles finance sante serveurs applications progiciels reuters powerplus pro methodologies xml langages outils developpement sql visual basic html materiel systemes exploitation windows nt bases donnees relationnelles oracle consultant junior formation ecole ingenieur ecole internationale sciences traitement information e s genie mathematique option ingenierie financiere competences experience personelle sejour linguistique famille ecossaise approfondissement anglais decouverte milieu equestre experience professionnelle stage pole bourse etrangere procapital - projet gestion execution operations financieres objet projet controle gestion execution transactions financieres controle trades etrangers depositaires marches rapprochement quotidien clients - marches etrangers collecte transactions passees fortis merrill lynch forme fichiers extraits ifac base donnees controle transactions passees fortis merrill lynch gestion anticipation achat vente cash devises extraction in

In [24]:
totalvocab_stemmed_talan = []
totalvocab_tokenized_talan = []
for text in liste_cv_talan_no_stop:
    allwords_stemmed = tokenize_and_stem(text) #for each item in 'synopses', tokenize/stem
    totalvocab_stemmed_talan.extend(allwords_stemmed) #extend the 'totalvocab_stemmed' list
    allwords_tokenized = tokenize_only(text)
    totalvocab_tokenized_talan.extend(allwords_tokenized)

vocab_frame_talan = pd.DataFrame({'words': totalvocab_tokenized_talan}, index = totalvocab_stemmed_talan)
print('there are ' + str(vocab_frame_talan.shape[0]) + ' items in vocab_frame')
vocab_frame_talan

there are 112678 items in vocab_frame


Unnamed: 0,words
secteur,secteurs
telecom,telecom
medi,media
activit,activites
meti,metier
vent,vente
developp,developpement
integr,integration
valid,validation
competent,competences


### KMEANS TALAN

In [44]:
#TF IDF BOW Representation
tf_vect = TfidfVectorizer(stop_words=stop_words_main,max_df=0.8,min_df=0.1,\
                           preprocessor=text_treatment,tokenizer=tokenize_and_stem)
bow_idf_talan = tf_vect.fit_transform(liste_cv_talan_clean)

norm_l2 = make_pipeline(Normalizer(copy=False))
bow_idf_talan = norm_l2.fit_transform(bow_idf_talan)

vocab_liste_talan = tf_vect.get_feature_names()

  if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):


In [45]:
#Ajout une étape pour supprimer les doublons
buffer = pd.DataFrame(data=bow_idf_talan.toarray())
buffer.drop_duplicates(inplace=True)
bow_idf_talan = buffer.values
bow_idf_talan = shuffle(bow_idf_talan)

In [27]:
#kmeans
n_class = 5
km = KMeans(n_clusters=n_class, init='k-means++', max_iter=100, n_init=1)
km.fit(bow_idf_talan)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
    n_clusters=5, n_init=1, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [31]:
#cluster centroid lsa
cluster_centroids_talan = km.cluster_centers_
liste_cluster_word=[]

#ordre decroissant pour chaque cluster les indices des mots à plus forte corrélation
idx_ordered_centroids = np.argsort(cluster_centroids_talan,axis=1)[:,::-1] 

for i in range(0,cluster_centroids_talan.shape[0]): #nombre de clusters
    text=""
    for j in range(0,5): #nombre de mots
        text+= vocab_frame_talan.loc[vocab_liste_talan[idx_ordered_centroids[i,j]]].values.tolist()[0][0]+ " "
    liste_cluster_word.append(text)

In [32]:
pd.DataFrame(km.labels_,columns=["Label"]).groupby(["Label"])["Label"].size()

Label
0    39
1    59
2    31
3    66
4    19
Name: Label, dtype: int64

In [33]:
liste_cluster_word

['sas data r statistiques big ',
 'biais decisionnel sap talend informatica ',
 'objet erdf recette tests validation ',
 'oracle service equipe tests assistant ',
 'cognos datastage ibm decisionnel biais ']

#### ACP X KMEANS TALAN

In [34]:
vocab_liste_talan

['acce',
 'access',
 'accompagn',
 'achat',
 'acteur',
 'action',
 'activit',
 'adapt',
 'administr',
 'affair',
 'agil',
 'algorithm',
 'aliment',
 'amc',
 'amelior',
 'amo',
 'analyst',
 'analytic',
 'anglais',
 'anim',
 'anne',
 'anomal',
 'appel',
 'applique',
 'apprentissag',
 'arab',
 'architect',
 'architectur',
 'aspect',
 'assist',
 'assur',
 'ateli',
 'audit',
 'automat',
 'automatis',
 'avanc',
 'axe',
 'back',
 'bancair',
 'banqu',
 'bas',
 'basic',
 'batch',
 'besoin',
 'bi',
 'bien',
 'big',
 'bilan',
 'bilingu',
 'bnp',
 'bo',
 'bord',
 'budget',
 'budgetair',
 'business',
 'c',
 'cabinet',
 'cadr',
 'cadrag',
 'cahi',
 'calcul',
 'capacit',
 'cartograph',
 'cent',
 'centr',
 'central',
 'certif',
 'chain',
 'chang',
 'chanti',
 'charg',
 'chef',
 'chiffrag',
 'cibl',
 'class',
 'cloud',
 'cod',
 'cognos',
 'collabor',
 'collect',
 'comit',
 'command',
 'commerc',
 'commercial',
 'commun',
 'complet',
 'complex',
 'compos',
 'compt',
 'comptabilit',
 'comptabl',
 'concep

In [40]:
#LSA
svd = TruncatedSVD(70)
normalizer = Normalizer(copy=False)
lsa_talan = make_pipeline(svd, normalizer)

bow_idf_reduced_talan = lsa_talan.fit_transform(bow_idf_talan)
print(bow_idf_reduced_talan.shape)

#keep the same variance than for the the indeed data above
explained_variance = svd.explained_variance_ratio_.sum()
print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))

(214, 70)
Explained variance of the SVD step: 75%


In [42]:
#kmeans
n_class = 5
km = KMeans(n_clusters=n_class, init='k-means++', max_iter=100, n_init=1)
km.fit(bow_idf_reduced_talan)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=100,
    n_clusters=5, n_init=1, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [46]:
bow_idf_reduced_lsa_talan, liste_cluster_word_lsa_talan, labels_lsa_talan,cluster_centroids_lsa_talan = get_kmeans_cluster_words_lsa(bow_idf_talan,60,5,5,vocab_frame_talan,vocab_liste_talan)

Explained variance of the SVD step: 71%


In [47]:
pd.DataFrame(labels_lsa_talan,columns=["Label"]).groupby(["Label"])["Label"].size()

Label
0    51
1    71
2    53
3    18
4    21
Name: Label, dtype: int64

In [48]:
liste_cluster_word_lsa_talan

['objet oracle tests windows unix ',
 'biais decisionnel talend cognos datastage ',
 'service management equipe assistant processus ',
 'data r big python algorithmes ',
 'sas statistiques data r etude ']

In [49]:
dict_rand_word_label = dict()
for label in np.unique(labels_lsa_talan):
    idx_label = np.where(labels_lsa_talan==label)[0]
    idx_rand = np.random.choice(idx_label,size=(12))
    liste_cluster_word = []
    for idx in idx_rand:
        text = " "
        idx_ordered = np.argsort(bow_idf_talan[idx])[::-1]
        for j in range(0, 4):  # nombre de motss
            text += vocab_frame_talan.loc[vocab_liste_talan[idx_ordered[j]]].values.tolist()[0][0] + " "
        liste_cluster_word.append(text)
    dict_rand_word_label["cluster"+str(label)] = liste_cluster_word

In [54]:
dict_rand_word_label["cluster0"]

[' crm corrective chiffrage recette ',
 ' support administration office marches ',
 ' evolutive amc bo documentation ',
 ' crm corrective chiffrage recette ',
 ' objet recette ouvrage charges ',
 ' reseau propositions etude architecture ',
 ' tests production installation creation ',
 ' parametrages java sante ee ',
 ' recette objet fonctions center ',
 ' crm corrective chiffrage recette ',
 ' oracle support oeuvre architecture ',
 ' tests recette quality jeux ']

#### NMF X KMEANS TALAN

In [113]:
# on part d'un bag of words tf-idf
tf_vect_2 = TfidfVectorizer(stop_words=stop_words_main,max_df=0.8,min_df=0.05,\
                           preprocessor=text_treatment,tokenizer=tokenize_and_stem)

test_idf_2_talan = tf_vect_2.fit_transform(liste_cv_talan_clean)

vocab_liste_nmf_talan = tf_vect_2.get_feature_names()

In [123]:
liste_topic, liste_cluster = get_kmens_cluster_words_nmf(test_idf_2_talan,20,5,5,vocab_frame_talan,vocab_liste_nmf_talan)

Fitting the NMF model on with n_samples = 1182 and n_features = 493


In [124]:
liste_topic

['datastage etl oracle px unix ibm shell conception decisionnelles interface',
 'sas statistiques macro excel base enquetes directions analytics data visual',
 'data modeler spark r science scientist prototype cas python plateformes',
 'microstrategy grdf visualization dashboard semantique reporting couche exadata relatives documents',
 'sap xi bo bi businessobjects migration objects univers business securite',
 'talend java integration data realisation installation jobs plateformes big studio',
 'qlikview qlik application conception decisionnelles sense realisation desktop bord evolutions',
 'microsoft server conception ssrs net cubes c ssis ssas web',
 'cognos tm ibm bi regles decisionnelles systemes certified besoin controler',
 'statistiques formateur marketing data etude e excel consommations sas recommandations',
 'google tensorflow data classification r python platforms api twitter science',
 'mdm tma moe ibm data oeuvre pilotage assister referentiel corrective',
 'obiee epm ora

In [125]:
liste_cluster

['cognos datastage oracle ibm tm ',
 'sas data r big statistiques ',
 'sap xi bi bo businessobjects ',
 'microstrategy grdf visualization bi informatica ',
 'sas data marketing python directions ']