In [1]:
from docx import Document
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  
from io import StringIO
from pdfminer.layout import LAParams
from pdfminer.converter import TextConverter
from pdfminer.pdfpage import PDFPage

def convert_docx_to_txt(path):        # a function that converts from docx format to txt format
    document=Document(path)
    return "\n".join([para.text for para in document.paragraphs])

def convert_pdf_to_txt(path):         # a function that converts from pdf to txt format
    rsrcmgr = PDFResourceManager()    #store shared resources such as fonts or images
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device) #PDFPageInterpreter processes the page content and PDFDevice translates it according to the needs.
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)
    fp.close()
    device.close()
    string = retstr.getvalue()
    retstr.close()
    return string

def read_file(fileName):            # a function that reads all types of files(txt, docx, pdf)
        extension = fileName.split(".")[-1]   #returns the file extension which is the last term in the list of names
        if extension == "txt":
            f = open(fileName, 'r') 
            string = f.read()
            f.close() 
            return string

        elif extension == "docx":
            return convert_docx_to_txt(fileName) 

        elif extension == "pdf":
             return convert_pdf_to_txt(fileName) 
        

In [2]:
CV=read_file("CV DATA-1.pdf")
CV

"ROMAIN STÉVENIN\n\nA S S I S T A N T   M A R K E T I N G\n\nPARCOURS PROFESSIONNEL\n\nRÉSUMÉ DE CARRIÈRE\n\nJe suis un assistant marketing à la recherche d'un\nCDI où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nAssistant Marketing\nMarketing Domarin - 2020 à aujourd'hui\n\n- Supervision des campagnes marketing\n- Maintien de la couverture médiatique pour de nombreuses marques\n- Organisation de nombreux dossiers de bureau\n- Point de contact direct avec les clients\n\nAssistant Marketing\n\nRéseaux Dupont et Cie. 2018 à 2020\n\n- Gestion de la présence en ligne de la société\n- Préparation de présentations pour les clients potentiels\n- Recherche et analyse des concurrents et tendances du marché\n\nDOMAINES D'EXPERTISE\n\n- Gestion de marque\n- Analyse des concurrents\n- Marketing sur les réseaux sociaux\n- Optimisation du moteur de recherche\n- Marketing de contenu\n- Recherche de marché\n- Rédacteur publicitaire\n

In [3]:
text= CV.lower()
text

"romain stévenin\n\na s s i s t a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant marketing à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant marketing\nmarketing domarin - 2020 à aujourd'hui\n\n- supervision des campagnes marketing\n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant marketing\n\nréseaux dupont et cie. 2018 à 2020\n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n- marketing sur les réseaux sociaux\n- optimisation du moteur de recherche\n- marketing de contenu\n- recherche de marché\n- rédacteur publicitaire\n

In [4]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
words=word_tokenize(text)
words

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\red\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['romain',
 'stévenin',
 'a',
 's',
 's',
 'i',
 's',
 't',
 'a',
 'n',
 't',
 'm',
 'a',
 'r',
 'k',
 'e',
 't',
 'i',
 'n',
 'g',
 'parcours',
 'professionnel',
 'résumé',
 'de',
 'carrière',
 'je',
 'suis',
 'un',
 'assistant',
 'marketing',
 'à',
 'la',
 'recherche',
 "d'un",
 'cdi',
 'où',
 'je',
 'peux',
 "m'améliorer",
 'professionnellement',
 'et',
 'mettre',
 'en',
 'avant',
 'mes',
 'talents',
 'en',
 'créant',
 'des',
 'campagnes',
 'inoubliables',
 '.',
 'assistant',
 'marketing',
 'marketing',
 'domarin',
 '-',
 '2020',
 'à',
 "aujourd'hui",
 '-',
 'supervision',
 'des',
 'campagnes',
 'marketing',
 '-',
 'maintien',
 'de',
 'la',
 'couverture',
 'médiatique',
 'pour',
 'de',
 'nombreuses',
 'marques',
 '-',
 'organisation',
 'de',
 'nombreux',
 'dossiers',
 'de',
 'bureau',
 '-',
 'point',
 'de',
 'contact',
 'direct',
 'avec',
 'les',
 'clients',
 'assistant',
 'marketing',
 'réseaux',
 'dupont',
 'et',
 'cie.',
 '2018',
 'à',
 '2020',
 '-',
 'gestion',
 'de',
 'la',
 'p

In [5]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stop_words = stopwords.words('french')
print('Il y a {} stopwords'.format(len(stop_words)))
print('Les 10 premiers stopwords sont {}'.format(stop_words[:10]))

Il y a 157 stopwords
Les 10 premiers stopwords sont ['au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\red\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [6]:
#Lemmatize the text
import spacy
import fr_core_news_sm
nlp = fr_core_news_sm.load()
def lemmatize(text):
    nlp = fr_core_news_sm.load()
    text = nlp(text)
    text =" ".join ([word.lemma_ if word.lemma_ != '-PRON-' else word.text for word in text])
    return text
print(lemmatize(text))

romain stévenin 

 avoir s s i s t avoir n t    m avoir r k e t i n gramme 

 parcours professionnel 

 résumé de carrière 

 je être un assistant marketing à le recherche de un 
 cdi où je pouvoir me améliorer professionnellement 
 et mettre en avant mon talent en créer un 
 campagne inoubliable . 

 assister marketing 
 marketing domarin - 2020 à aujourd'hui 

 - supervision de campagne marketing 
 - maintien de le couverture médiatique pour de nombreux marque 
 - organisation de nombreux dossier de bureau 
 - point de contact direct avec le client 

 assister marketing 

 réseau dupont et cie . 2018 à 2020 

 - gestion de le présence en ligne de le société 
 - préparation de présentation pour le client potentiel 
 - recherche et analyse de concurrent et tendance de marché 

 domaine de expertise 

 - gestion de marque 
 - analyse de concurrent 
 - marketing sur le réseau social 
 - optimisation de moteur de recherche 
 - marketing de contenu 
 - recherche de marché 
 - rédacteur pub

In [7]:
#Removing emails using regular expressions
import re
def remove_email(text):
    emails = None
    pattern = re.compile(r'\S*@\S*')
    emails = pattern.findall(text)
    for email in emails:
        text = text.replace(email, '')
    return text
remove_email(text)

"romain stévenin\n\na s s i s t a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant marketing à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant marketing\nmarketing domarin - 2020 à aujourd'hui\n\n- supervision des campagnes marketing\n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant marketing\n\nréseaux dupont et cie. 2018 à 2020\n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n- marketing sur les réseaux sociaux\n- optimisation du moteur de recherche\n- marketing de contenu\n- recherche de marché\n- rédacteur publicitaire\n

In [8]:
#Removing phone numbers using regular expressions
def remove_phone_number(text):
    match = None
    pattern = re.compile(
            r'([+(]?\d+[)\-]?[ \t\r\f\v]*[(]?\d{2,}[()\-]?[ \t\r\f\v]*\d{2,}[()\-]?[ \t\r\f\v]*\d*[ \t\r\f\v]*\d*[ \t\r\f\v]*)')
    match = pattern.findall(text)
    for number in match:
            text= text.replace(number, '')
    return text
remove_phone_number(text)

"romain stévenin\n\na s s i s t a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant marketing à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant marketing\nmarketing domarin - 2020 à aujourd'hui\n\n- supervision des campagnes marketing\n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant marketing\n\nréseaux dupont et cie. 2018 à 2020\n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n- marketing sur les réseaux sociaux\n- optimisation du moteur de recherche\n- marketing de contenu\n- recherche de marché\n- rédacteur publicitaire\n

In [9]:
#Removing names
def remove_names(text):
    list_names = [ent.text for ent in nlp(text).ents if ent.label_=="PER"]
    #list_names[0:100]
    for n in list_names:
        text=text.replace(n,'')
    return text
remove_names(text)

"a s  a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant  à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant \n - 2020 à aujourd'hui\n\n- supervision des campagnes \n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant \n\nréseaux dupont et cie. 2018 à 2020\n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n-  sur les réseaux sociaux\n- optimisation du moteur de recherche\n-  de contenu\n- recherche de marché\n- rédacteur publicitaire\n\ninformations de contact\n\nportable\xa0: 01 23 45 67 89 téléphone\xa0: 01 23\n45 67 89\ne-mail\

In [10]:
#Removing locations
def remove_loc(text):
    list_loc = [ent.text for ent in nlp(text).ents if ent.label_=="LOC"]
    for n in list_loc:
        text=text.replace(n,'')
    return text
remove_loc(text)

"romain stévenin\n\na s s i s t a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant marketing à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant marketing\nmarketing domarin - 2020 à aujourd'hui\n\n- supervision des campagnes marketing\n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant marketing\n\nréseaux dupont et cie. 2018 à 2020\n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n- marketing sur les réseaux sociaux\n- optimisation du moteur de recherche\n- marketing de contenu\n- recherche de marché\n- rédacteur publicitaire\n

In [11]:
''.join(i for i in text if not i.isdigit())  #Removing digits

"romain stévenin\n\na s s i s t a n t   m a r k e t i n g\n\nparcours professionnel\n\nrésumé de carrière\n\nje suis un assistant marketing à la recherche d'un\ncdi où je peux m'améliorer professionnellement\net mettre en avant mes talents en créant des\ncampagnes inoubliables.\n\nassistant marketing\nmarketing domarin -  à aujourd'hui\n\n- supervision des campagnes marketing\n- maintien de la couverture médiatique pour de nombreuses marques\n- organisation de nombreux dossiers de bureau\n- point de contact direct avec les clients\n\nassistant marketing\n\nréseaux dupont et cie.  à \n\n- gestion de la présence en ligne de la société\n- préparation de présentations pour les clients potentiels\n- recherche et analyse des concurrents et tendances du marché\n\ndomaines d'expertise\n\n- gestion de marque\n- analyse des concurrents\n- marketing sur les réseaux sociaux\n- optimisation du moteur de recherche\n- marketing de contenu\n- recherche de marché\n- rédacteur publicitaire\n\ninformatio

In [None]:
import string
words= word_tokenize(text)
punctuations= list(string.punctuation)+ ["–","…","«","»","✓","◆","•","...","’"]
List=["compétences","allemagne","formations","formation","diplômes","parcours","connaissances","qualifications","intérêt","loisirs","expériences","professionnelles","parascolaire","activités parascolaires","langues","lu","écrit","parlé","certificats","certification","projets","adresse","intitulé","présentation","infos","informations","e-mail","numéro","coordonnées","téléphone","jour","mois","année","an","semestre","trimestre","janvier","février","mars","avril","mai","juin","juillet","août","septembre","bouches","octobre","novembre","décembre"]

#Text preprocessing
def clean_cv(text):
    l=text.lower()
    doc1= remove_names(l)
    doc2=remove_loc(doc1)
    doc3= remove_email(doc2)
    doc4=remove_phone_number(doc3)
    doc5= ''.join(i for i in doc4 if not i.isdigit())
    doc6=lemmatize(doc5)
    words = word_tokenize(doc6)
    filtered_text = [word for word in words if 
                (word not in stop_words) and (word not in  punctuations) and (word not in List)] 
    assembled=" ".join(filtered_text)
    a= assembled.join("''")
    return a
clean_cv(text)

In [15]:
#TF-IDF score for each unigram
import pandas as pd
from sklearn.feature_extraction .text import TfidfVectorizer
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([clean_cv(text)])
feature_names = vectorizer.get_feature_names()
dense = vectors.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)
df

Unnamed: 0,améliorer,analyse,assistant,assister,aujourd,avant,avoir,bureau,campagne,carrière,...,supervision,talent,tendance,tribun,université,web,écrivain,équipe,étudiant,être
0,0.078811,0.157622,0.078811,0.157622,0.078811,0.078811,0.236433,0.078811,0.157622,0.078811,...,0.078811,0.078811,0.078811,0.078811,0.078811,0.078811,0.078811,0.078811,0.078811,0.078811


In [17]:
import pandas as pd
from sklearn.feature_extraction .text import TfidfVectorizer, CountVectorizer

vectorizer = CountVectorizer(ngram_range =(2, 2)) 
X1 = vectorizer.fit_transform([clean_cv(text)])
Bigramms= (vectorizer.get_feature_names()) 
X1.toarray()
vectorizer = TfidfVectorizer(ngram_range = (2, 2)) 
X2 = vectorizer.fit_transform([clean_cv(text)]) 
scores = (X2.toarray()) 
Bigramms

['améliorer professionnellement',
 'analyse concurrent',
 'assistant recherche',
 'assister aujourd',
 'assister réseau',
 'aujourd hui',
 'avant talent',
 'avoir avoir',
 'avoir gramme',
 'bureau point',
 'campagne inoubliable',
 'campagne maintien',
 'carrière être',
 'cdi où',
 'cie gestion',
 'client assister',
 'client potentiel',
 'club écrivain',
 'cofondateur club',
 'compagnie martin',
 'concurrent réseau',
 'concurrent tendance',
 'contact direct',
 'contact portable',
 'contenu recherche',
 'couverture médiatique',
 'créer campagne',
 'desaix université',
 'diplômer mention',
 'direct client',
 'domaine expertise',
 'dossier bureau',
 'dupont cie',
 'expertise gestion',
 'football rédacteur',
 'gestion marque',
 'gestion présence',
 'gramme professionnel',
 'hui supervision',
 'information contact',
 'inoubliable assister',
 'jean réseau',
 'licence diplômer',
 'ligne société',
 'lycer second',
 'lycée photographe',
 'magazine mensuel',
 'maintien couverture',
 'maintien moy

In [19]:
#TF-IDF score for each bigram
X1.toarray()
vectorizer = TfidfVectorizer(ngram_range = (2, 2)) 
X2 = vectorizer.fit_transform([clean_cv(read_file("CV DATA-28.pdf"))]) 
scores = (X2.toarray()) 
  
# Getting top ranking features 
sums = X2.sum(axis = 0) 
data1 = [] 
for col, term in enumerate(Bigramms):  
    data1.append( (term, sums[0, col] )) 
    ranking = pd.DataFrame(data1, columns = ['term', 'rank']) 
    ranked_terms = (ranking.sort_values('rank', ascending = False)) 
    
ranked_terms

Unnamed: 0,term,rank
76,présence ligne,0.117444
23,contact portable,0.117444
17,club écrivain,0.117444
0,améliorer professionnellement,0.058722
67,point contact,0.058722
...,...,...
33,expertise gestion,0.058722
32,dupont cie,0.058722
31,dossier bureau,0.058722
30,domaine expertise,0.058722


In [22]:
from os import listdir
from os.path import isfile, join
onlyfiles = [f for f in listdir('C:/Users/red/Downloads/CVS') if isfile(join('C:/Users/red/Downloads/CVS',f))]

docs=[clean_cv(read_file(onlyfiles[i])) for i in range(50)]     
corpus=dict(list(enumerate([docs[i] for i in range(50)])))    #Gathering the cleaned resumes in a dictionary


In [23]:
terms=dict(list(enumerate([docs[i].split() for i in range(50)])))


In [26]:
from math import log

QUERY_TERMS = ['économie']   #Write the term that you want to search for in corpus

def tf(term, doc, normalize=True):  #Calculating the TF score
    doc = doc.lower().split()
    if normalize:
        return doc.count(term.lower()) / float(len(doc))
    else:
        return doc.count(term.lower()) / 1.0


def idf(term, corpus):               #Calculating the IDF score
    num_texts_with_term = len([True for text in corpus if term.lower() \
                              in text.lower().split()])
    try:
        return 1.0 + log(float(len(corpus)) / num_texts_with_term)
    except ZeroDivisionError:
        return 1.0

def tf_idf(term, doc, corpus):       #Calculating the TF-IDF score
    return tf(term, doc) * idf(term, corpus)


query_scores=dict(list(enumerate([0 for i in range(50)])))

for term in [t.lower() for t in QUERY_TERMS]:
    for doc in sorted(corpus):
        print('TF({}): {}'.format(doc, term), tf(term, corpus[doc]))
    print('IDF: {}'.format(term, ), idf(term, corpus.values()))
    print('\n')
    for doc in sorted(corpus):
        score = tf_idf(term, corpus[doc], corpus.values())
        print('TF-IDF({}): {}'.format(doc, term), score)
        query_scores[doc] += score
    print('\n')
print("TF-IDF scores sorted in descending order for the term '{}'".format(' '.join(QUERY_TERMS), ))
for (doc, score) in sorted(query_scores.items(),key=lambda score:score[1],reverse=True):
    if score!=0:
        print(doc,score)

TF(0): économie 0.0
TF(1): économie 0.0033222591362126247
TF(2): économie 0.0
TF(3): économie 0.035211267605633804
TF(4): économie 0.0
TF(5): économie 0.0
TF(6): économie 0.0
TF(7): économie 0.0
TF(8): économie 0.0
TF(9): économie 0.0
TF(10): économie 0.0
TF(11): économie 0.0
TF(12): économie 0.0
TF(13): économie 0.0
TF(14): économie 0.0
TF(15): économie 0.0
TF(16): économie 0.0
TF(17): économie 0.0
TF(18): économie 0.0
TF(19): économie 0.0
TF(20): économie 0.003703703703703704
TF(21): économie 0.0
TF(22): économie 0.0
TF(23): économie 0.0
TF(24): économie 0.0
TF(25): économie 0.0
TF(26): économie 0.0
TF(27): économie 0.0
TF(28): économie 0.0
TF(29): économie 0.0
TF(30): économie 0.0
TF(31): économie 0.0
TF(32): économie 0.011904761904761904
TF(33): économie 0.0
TF(34): économie 0.0
TF(35): économie 0.0
TF(36): économie 0.015873015873015872
TF(37): économie 0.02097902097902098
TF(38): économie 0.0
TF(39): économie 0.0
TF(40): économie 0.0
TF(41): économie 0.0
TF(42): économie 0.0
TF(43