# Projet : Concevoir et implémenter un système de filtrage de cv
Présenté par : Abdoulaye DIANKHA M2BI

In [1]:
#Pour convertir les cvs PDF en format texte
#pip install PyPDF2

In [54]:
import os
import re
import numpy as np
import pandas as pd
import PyPDF2
import nltk
#nltk.download('punkt')
from nltk import SnowballStemmer
from nltk import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction import text
from sklearn.feature_extraction.text import TfidfVectorizer
#Pour traiter tout ce qui contient du html dans le texte
from bs4 import BeautifulSoup
# Partitionnement du jeu de données
from sklearn.model_selection import train_test_split
# Graphiques
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn_pandas import DataFrameMapper
from sklearn.metrics  import classification_report
from sklearn.pipeline import make_pipeline

## Importation des données
Pour ce faire, nous définissons une mini fonction
On parcours le dossier de cvs, on lit chaque cv, on le convertit et on lui attribut sa catégorie...

In [55]:
def lit_cvs(chemin=""):
    """Retourne une liste de tuples ("cv au format texte", "étiquette/classe/catégorie") contenant le jeu de données"""
    _nb = 0 #On dénombre les fichiers lus
    _categories = [_cat for _cat in os.listdir(chemin) if not(_cat.startswith("desktop"))]
    print("#Total catégories: ", len(_categories))
    _cvs = list()
    print("#Convertion des cvs de chaque catégorie...")
    for _categorie in _categories:
        _pdf_cvs= os.listdir(chemin+"/"+_categorie)
        print("Cat {} : {} => {} cvs".format(_nb, _categorie, len(_pdf_cvs)), end=" ")
        #On convertit chaque pdf
        _nb_error = 0
        for _pdf_cv in _pdf_cvs:
            try:
               pdf = PyPDF2.PdfFileReader(open(chemin+"/"+_categorie+'/'+_pdf_cv, "rb"))
            except:
                #print("error")
                _nb_error+=1
                pass
            else:
                contenu=""
                for page in pdf.pages:
                    contenu+=page.extractText()
                    #print(page.extractText())
                _cvs.append((contenu, _categorie))
        print(", {} error(s)".format(_nb_error))
        _nb+=1
    print("#Fin convertion")
    
    return _cvs

Exécution

In [56]:
chemin1 = "./jeu_de_donnees/cv_dataset"
cvs = lit_cvs(chemin1)
#cvs_df = pd.DataFrame({"id":ids, "cv":cvs})
#cvs_df

#Total catégories:  24
#Convertion des cvs de chaque catégorie...
Cat 0 : ACCOUNTANT => 119 cvs , 1 error(s)
Cat 1 : ADVOCATE => 119 cvs , 1 error(s)
Cat 2 : AGRICULTURE => 64 cvs , 1 error(s)
Cat 3 : APPAREL => 98 cvs , 1 error(s)
Cat 4 : ARTS => 104 cvs , 1 error(s)
Cat 5 : AUTOMOBILE => 37 cvs , 1 error(s)
Cat 6 : AVIATION => 118 cvs , 1 error(s)
Cat 7 : BANKING => 116 cvs , 1 error(s)
Cat 8 : BPO => 23 cvs , 1 error(s)
Cat 9 : BUSINESS-DEVELOPMENT => 121 cvs , 1 error(s)
Cat 10 : CHEF => 119 cvs , 1 error(s)
Cat 11 : CONSTRUCTION => 113 cvs , 1 error(s)
Cat 12 : CONSULTANT => 116 cvs , 1 error(s)
Cat 13 : DESIGNER => 108 cvs , 1 error(s)
Cat 14 : DIGITAL-MEDIA => 97 cvs , 1 error(s)
Cat 15 : ENGINEERING => 119 cvs , 1 error(s)
Cat 16 : FINANCE => 119 cvs , 1 error(s)
Cat 17 : FITNESS => 118 cvs , 1 error(s)
Cat 18 : HEALTHCARE => 116 cvs , 1 error(s)
Cat 19 : HR => 111 cvs , 1 error(s)
Cat 20 : INFORMATION-TECHNOLOGY => 121 cvs , 1 error(s)
Cat 21 : PUBLIC-RELATIONS => 112 cvs , 1 

In [57]:
cvs=np.array(cvs)
cvs

array([['ACCOUNTANTSummary\nFinancial Accountant specializing in financial planning, reporting and analysis within the Department of Defense.\nHighlights\nAccount reconciliations\nResults-oriented\nFinancial reporting\nCritical thinking\nAccounting operations professional\nAnalysis of financial systems\nERP (Enterprise Resource Planning) software.\nExcellent facilitator\nAccomplishments\nServed on a tiger team which identified and resolved General Ledger postings in DEAMS totaling $360B in accounting adjustments. This allowed\nfor the first successful fiscal year-end close for 2012.\nIn collaboration with DFAS Europe, developed an automated tool that identified duplicate obligations. This tool allowed HQ USAFE to\ndeobligate over $5M in duplicate obligations.\nExperience\nCompany Name\n \nJuly 2011\n \nto \nNovember 2012\n \nAccountant\n \nCity\n \n, \nState\nEnterprise Resource Planning Office (ERO)\nIn this position as an Accountant assigned to the Defense Enterprise Accounting and M

Construction du DataFrame

In [58]:
data=pd.DataFrame(data=cvs, columns=["cv", "categorie"])
data

Unnamed: 0,cv,categorie
0,ACCOUNTANTSummary\nFinancial Accountant specia...,ACCOUNTANT
1,STAFF ACCOUNTANTSummary\nHighly analytical and...,ACCOUNTANT
2,ACCOUNTANTProfessional Summary\nTo obtain a po...,ACCOUNTANT
3,SENIOR ACCOUNTANTExperience\nCompany Name\n \n...,ACCOUNTANT
4,SENIOR ACCOUNTANTProfessional Summary\nSenior ...,ACCOUNTANT
...,...,...
2479,HISTORY TEACHERProfessional Summary\nTo be emp...,TEACHER
2480,"TEACHERSummary\nHighly ethical, dependable, an...",TEACHER
2481,TEACHERSummary\nTalented early education profe...,TEACHER
2482,Kpandipou KoffiSummary\nCompassionate teaching...,TEACHER


## Quelques prétraitements
Comme prétraitement, nous pouvons :
   - Supprimer les stopwords associés à la langue
   - Supprimer les stopwords associés au jargon des cvs
   - Supprimer les ponctuations
   - Uniformiser la casse
   - Supprimer les caractères spéciaux
   - Lemming
   - Stemming
   - ... Soyez juste créatif :)

In [59]:
def clean (text, to_remove, regex_to_remove):
    """
        text: un document = une chaine de caractère
        to_remove: liste de mots à enlever
        regex_to_remove: une regex expression compilée
        
        retourne le texte pré-traité
    """
    # On décode tout ce qui est HTML
    text = BeautifulSoup(text, "lxml").text 
    # On uniformise la casse de notre document en minuscule
    text = text.lower() 
    #On supprimer tout ce qui est mauvais caractère
    text = regex_to_remove.sub(' ', text)
    #On supprime la liste de mots to_remove qui peut être la liste des stopwords
    text = ' '.join(word for word in text.split() if word not in to_remove)
    # On remplace chaque mots par son lemme 
    WNlemming = nltk.WordNetLemmatizer()
    text = " ".join([WNlemming.lemmatize(mot, pos="v") for mot in nltk.word_tokenize(text)])
    # On peut aussi remplacer les mots plutôt par leur racine
    porter = nltk.PorterStemmer()
    text = " ".join([porter.stem(mot) for mot in nltk.word_tokenize(text)])
    return text

Les mots à enlever

In [60]:
#Liste des stopwords de la langue anglaise
english_stops = list(set(stopwords.words("english")))
#On récupère les stopwords liés au jargon des cvs
with open("./jeu_de_donnees/specific_stopwords.txt") as fichier:
    specific_stops = [stop.strip() for stop in fichier.readlines()]
#Liste des stopwords
stop_words = english_stops+specific_stops
stop_words

['above',
 'yours',
 'here',
 "you'll",
 'her',
 'those',
 'into',
 'very',
 'before',
 'at',
 'which',
 't',
 "won't",
 "isn't",
 'but',
 'their',
 's',
 'm',
 'had',
 'just',
 'against',
 'am',
 'this',
 'after',
 'other',
 'itself',
 'they',
 'whom',
 'having',
 'to',
 'its',
 'needn',
 'who',
 'now',
 'then',
 'from',
 'was',
 'up',
 'some',
 'doesn',
 'mustn',
 'will',
 'has',
 've',
 'did',
 'ours',
 'and',
 'how',
 'it',
 'doing',
 "haven't",
 'we',
 'she',
 'few',
 'if',
 'should',
 'don',
 "needn't",
 'until',
 "weren't",
 "don't",
 "hasn't",
 'themselves',
 'of',
 'off',
 "shan't",
 "you're",
 'won',
 'theirs',
 'as',
 'because',
 'while',
 'further',
 'by',
 'both',
 'mightn',
 'aren',
 'himself',
 'shouldn',
 'so',
 'out',
 'does',
 'were',
 'couldn',
 "wouldn't",
 'under',
 'too',
 'hadn',
 'down',
 'he',
 'his',
 'my',
 'during',
 "shouldn't",
 "didn't",
 'all',
 'is',
 'isn',
 'own',
 'being',
 'myself',
 "should've",
 'weren',
 'yourself',
 'than',
 'between',
 'such',


Les mauvais caractères

In [61]:
Mauvais_caract = re.compile('[^0-9a-z \'#+_]')

In [None]:
def lit_cvs(chemin="", category=)

Nettoyage

In [62]:
#Taille avant nettoyage
print("Nombre de termes avant nettoyage:  {} termes".format(len(" ".join(data.cv))))
# Nettoyage
data.cv = data.cv.apply(lambda document: clean(document, stop_words, Mauvais_caract))
#Taille après nettoyage
print("-----------------------------------")
print("Nombre de termes après nettoyage:  {} termes".format(len(" ".join(data.cv))))

Nombre de termes avant nettoyage:  14957022 termes
-----------------------------------
Nombre de termes après nettoyage:  8765790 termes


In [None]:
X_train, X_test, y_train, y_test = train_test_split(data['cv'], data['categorie'], test_size=0.15, random_state=0)

Convertion des cv prétraités en une matrice cv-termes en utilisant l'approche de pondération TF-IDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tv = TfidfVectorizer(min_df=0., max_df=1., use_idf=True)
tv_matrix_vec = tv.fit(X_train)
tv_matrix_trans = tv_matrix_vec.fit_transform(X_train)

In [None]:
from imblearn.over_sampling import RandomOverSampler 
res = RandomOverSampler(sampling_strategy="not majority")
Xr,Yr = res.fit_resample(tv_matrix_trans,y_train)

In [None]:
Yr.value_counts()

In [None]:
from sklearn import neighbors

knn = neighbors.KNeighborsClassifier(n_neighbors=10)
knn.fit(tv_matrix_trans,y_train)
y_pred = knn.predict(tv_matrix_vec, transform(X_test))
print(metrics.accuracy_score(y_test,y_pred))

Entrainement de notre modéle a partir de la matrice précedente 

In [65]:
#from sklearn.decomposition import LatentDirichletAllocation
# Créer le modèle LDA
#lda = LatentDirichletAllocation(2, max_iter=100, random_state=42)
#dt_matrix = lda.fit_transform(tv_matrix)
#features = pd.DataFrame(dt_matrix, colums=['T1'])
#features

In [200]:
# Avec transformation countVectorze pour convertir  nos textes en chiffreet obtenir une matrice numirisé 
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer
mapper = DataFrameMapper([
                          ('cv',LabelEncoder()),
                          ('cv',TfidfVectorizer(min_df=0., max_df=1., use_idf=True)),
                        
                         ])
mapper

In [278]:
from sklearn import pipeline
from sklearn.ensemble  import RandomForestClassifier
seed = 0
pipe = pipeline.Pipeline([('mapper',mapper),
                     ('model',RandomForestClassifier(random_state = seed)),
                     ])

## Découpage

RandomForestClassifier

In [282]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import pipeline
from sklearn.ensemble  import RandomForestClassifier
seed = 0
pipe = pipeline.Pipeline([('mapper',mapper),
                     ('model',RandomForestClassifier(random_state = seed))
                     ])
pipe_fitted = pipe.fit(X_train,y_train)
print(pipe_fitted)

KeyError: 'cv'

In [275]:
pipe_fitted.score(X_test,y_test)

0.5764895330112721

In [276]:
#Rapport de classification 
print(classification_report(y_test, pipe_fitted.predict(X_test)))

                        precision    recall  f1-score   support

            ACCOUNTANT       0.49      0.93      0.64        29
              ADVOCATE       0.62      0.48      0.54        27
           AGRICULTURE       0.71      0.36      0.48        14
               APPAREL       0.58      0.39      0.47        18
                  ARTS       0.38      0.10      0.15        31
            AUTOMOBILE       0.50      0.17      0.25         6
              AVIATION       0.60      0.81      0.68        31
               BANKING       0.76      0.53      0.63        30
                   BPO       0.00      0.00      0.00         4
  BUSINESS-DEVELOPMENT       0.47      0.48      0.48        31
                  CHEF       0.81      0.90      0.85        42
          CONSTRUCTION       0.53      0.69      0.60        26
            CONSULTANT       0.50      0.03      0.06        29
              DESIGNER       0.50      0.62      0.56        16
         DIGITAL-MEDIA       0.50      

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## Sérialisation
Pour pouvoir bien intégrer notre modèle aux interfaces, nous devons l'exporter.

In [259]:
# Enregistrement du model 
import joblib 
joblib.dump(n_bmodel, './modele/cv_classifier.pkl')

['classifiers.pkl']

NB: Pour de nouveaux exemples, penser à les suivres toutes les étapes. (conversion, prétraitement, vectorisation, etc...)

## Conclusion
A vous de jouer;
Construisez le meilleur modèle possible et intégrer le à vos interfaces graphique (Tkinter, django, dash, flask, etc...).
Bonne chance à tous et toutes.