## 1. Chargement des librairies et du dataset

In [112]:
import pandas as pd
import spacy

In [118]:
dataset = pd.read_csv("dataset_CV.csv", delimiter = ";")

In [114]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


In [120]:
dataset.shape

(31, 2)

In [119]:
dataset.tail()

Unnamed: 0,CV_number,CV_text
26,CV_27,CAMILLE ANDRÉ Candidate au doctorat en physiqu...
27,CV_28,EXPÉRIENCE PROFESSIONNELLE AUG INGÉNIEURE LOGI...
28,CV_29,PROFIL Mannequin avec 5 ans d'expérience dans ...
29,CV_30,Amory Bouvard MENUISIER SENIOR EXPÉRIENCE PROF...
30,CV_31,À mon sujet 0 Expérience de comédie Je suis un...


## 2. Installation de Spacy

In [121]:
nlp = spacy.load("fr_core_news_md")


## 3. Pre-processing

In [57]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


a. Création d'une nouvelle colonne et remplacement du "\n" dans les textes par un espace

In [58]:
dataset["Tokenization_preparation"] = dataset["CV_text"].apply(lambda x : str(x).replace("\n", " "))

In [59]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...


b. Tokenisation du texte

In [60]:
dataset["Tokenization"] = dataset["Tokenization_preparation"].apply(lambda x : nlp(x))

In [61]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS..."
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO..."
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave..."
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,..."


c. Compter le nombre de tokens par CV

In [62]:
dataset["Number_of_tokens"] = dataset["Tokenization"].apply(lambda x : len(x))

In [63]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization,Number_of_tokens
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS...",214
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO...",291
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6...",315
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave...",292
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,...",284


In [66]:
dataset.describe()

Unnamed: 0,Number_of_tokens
count,21.0
mean,267.0
std,58.783501
min,138.0
25%,231.0
50%,278.0
75%,297.0
max,410.0


c. Transformation du texte des CV en phrase

In [108]:
## Test sur 1 CV
dataset.iloc[0,2]

"SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet. Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens. RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc. mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudiants en histo

In [105]:
## Création d'une variable pour accueillir le texte du CV
doc = dataset.iloc[0,2]

In [106]:
## Application de la commande nlp pour tokeniser le texte du CV
doc = nlp(doc)

In [109]:
doc

SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet. Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens. RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc. mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudiants en histoi

In [122]:
type(doc)

spacy.tokens.doc.Doc

In [124]:
## Décomposition des mots du texte du CV en utilisant des attributs de la fonction token

for token in doc:
    print(token.text, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

SELMA NUM NUM nummod XXXX True False
LAFKIR NOUN NOUN nsubj XXXX True False
CORDE VERB VERB ROOT XXXX True False
80 DET DET nummod dd False False
CODEUSE VERB VERB ROOT XXXX True False
ENTHOUSIASTE NOUN NOUN nmod XXXX True False
PROFIL NOUN NOUN ROOT XXXX True False
PERSONNEL ADJ ADJ dep XXXX True False
Je PRON PRON nsubj Xx True True
suis AUX AUX cop xxxx True True
étudiante ADJ ADJ ROOT xxxx True False
au ADP ADP case xx True True
lycée NOUN NOUN obl:arg xxxx True False
Condorcet PROPN PROPN nmod Xxxxx True False
. PUNCT PUNCT punct . False False
Je PRON PRON nsubj Xx True True
code VERB VERB ROOT xxxx True False
depuis ADP ADP case xxxx True True
l' DET DET det x' False True
âge NOUN NOUN obl:arg xxx True False
de ADP ADP case xx True True
13 NUM NUM nummod dd False False
ans NOUN NOUN nmod xxx True False
et CCONJ CCONJ cc xx True True
j' PRON PRON nsubj x' False True
aime VERB VERB conj xxxx True False
créer VERB VERB xcomp xxxx True False
des DET DET det xxx True True
sites NOUN N

In [129]:
## Création de listes pour accueillir les données de la grammar sequence
list_token_text = []
list_token_pos_ = []
list_token_tag_ = []
list_token_is_alpha = []

for token in doc:
    list_token_text.append(token.text)
    list_token_pos_.append(token.pos_)
    list_token_tag_.append(token.tag_)
    list_token_is_alpha.append(token.is_alpha) 

In [130]:
df_grammar = pd.DataFrame(columns= ["Text", "Pos_", "Tag_","Is_alpha"])

In [131]:
df_grammar.head()

Unnamed: 0,Text,Pos_,Tag_,Is_alpha


In [132]:
df_grammar["Text"] = list_token_text
df_grammar["Pos_"] = list_token_pos_
df_grammar["Tag_"] = list_token_tag_
df_grammar["Is_alpha"] = list_token_is_alpha

In [140]:
df_grammar.head()

Unnamed: 0,Text,Pos_,Tag_,Is_alpha
0,SELMA,NUM,NUM,True
1,LAFKIR,NOUN,NOUN,True
2,CORDE,VERB,VERB,True
3,80,DET,DET,False
4,CODEUSE,VERB,VERB,True


In [141]:
df_grammar.shape

(214, 4)

In [103]:
sentence_split = []
def sentensizer_text(dataset.iloc[0,2]):
   return sentence_split
    

In [104]:
sentensizer_text(dataset)

AttributeError: 'str' object has no attribute 'str'

In [75]:
#sentence_split = []
#raw = dataset.iloc[0,2].split(".")
#sentence_split.append(raw)


In [80]:
#sentence_split

[['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
  " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
  " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
  " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des é

In [81]:
#type(sentence_split)

list

In [95]:
#sentence_split = sentence_split[0]

In [97]:
#sentence_split

['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
 " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
 " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
 " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudi

In [98]:
#len(sentence_split)

7

In [83]:
#len(sentence_split[0])

7

In [96]:
#df = pd.DataFrame(sentence_split, columns="Sentence")

TypeError: Index(...) must be called with a collection of some kind, 'Sentence' was passed

In [92]:
#for raw in range(0, len(df)): 
#    doc = nlp(raw)
#    for token in doc:
#        print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
#                token.shape_, token.is_alpha, token.is_stop)

ValueError: [E1041] Expected a string, Doc, or bytes as input, but got: <class 'int'>

In [78]:
# sentence_split

[['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
  " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
  " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
  " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des é