# PART 1 - BlindCV

### 1. Chargement des librairies et du dataset

In [7]:
import pandas as pd
import spacy

In [8]:
dataset = pd.read_csv("dataset_CV.csv", delimiter = ";")

In [9]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


In [10]:
dataset.shape

(31, 2)

In [11]:
dataset.tail()

Unnamed: 0,CV_number,CV_text
26,CV_27,CAMILLE ANDRÉ Candidate au doctorat en physiqu...
27,CV_28,EXPÉRIENCE PROFESSIONNELLE AUG INGÉNIEURE LOGI...
28,CV_29,PROFIL Mannequin avec 5 ans d'expérience dans ...
29,CV_30,Amory Bouvard MENUISIER SENIOR EXPÉRIENCE PROF...
30,CV_31,À mon sujet 0 Expérience de comédie Je suis un...


## 2. Installation de Spacy

In [12]:
## Instanciation de la bibliothèque fr_core_news_lg de Spacy

nlp = spacy.load("fr_core_news_lg")

## 3. Pre-processing

In [13]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


a. Création d'une nouvelle colonne et remplacement du "\n" dans les textes par un espace

In [14]:
dataset["Tokenization_preparation"] = dataset["CV_text"].apply(lambda x : str(x).replace("\n", " "))

In [15]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...


b. Tokenisation du texte

In [16]:
dataset["Tokenization"] = dataset["Tokenization_preparation"].apply(lambda x : nlp(x))

In [17]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS..."
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO..."
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave..."
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,..."


c. Compter le nombre de tokens par CV

In [18]:
dataset["Number_of_tokens"] = dataset["Tokenization"].apply(lambda x : len(x))

In [19]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization,Number_of_tokens
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS...",214
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO...",291
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6...",315
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave...",292
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,...",284


In [20]:
dataset.describe()

Unnamed: 0,Number_of_tokens
count,31.0
mean,266.387097
std,55.847219
min,138.0
25%,237.0
50%,278.0
75%,291.5
max,410.0


c. Obtenir la grammaire des mots du texte du CV_1

In [21]:
## Test sur 1 CV
dataset.iloc[0,2]

"SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet. Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens. RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc. mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudiants en histo

In [22]:
## Création d'une variable pour accueillir le texte du CV
doc = dataset.iloc[0,2]

In [23]:
## Application de la commande nlp pour tokeniser le texte du CV
doc = nlp(doc)

In [24]:
doc

SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet. Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens. RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc. mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudiants en histoi

## Fin Part 1