## 1. Chargement des librairies et du dataset

In [41]:
import pandas as pd
import spacy

In [42]:
dataset = pd.read_csv("dataset_CV.csv", delimiter = ";")

In [43]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


In [44]:
dataset.shape

(21, 2)

In [45]:
dataset.tail()

Unnamed: 0,CV_number,CV_text
16,CV_17,CONTACTEZ ADELINE Adeline est une amoureuse de...
17,CV_18,Adeline Pannier Actrice de Théâtre et de Ciném...
18,CV_19,INFOS DE CONTACT\nAdresse : Téléphone : Site w...
19,CV_20,"Patrick Fournier 9 rue Desaix, 75010 Paris\n01..."
20,CV_21,AKIRA THOMAS ANALYSTE DE SÉCURITÉ RÉCAPITULATI...


## 2. Installation de Spacy

In [52]:
nlp = spacy.load("fr_core_news_md")


## 3. Pre-processing

In [57]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


a. Création d'une nouvelle colonne et remplacement du "\n" dans les textes par un espace

In [58]:
dataset["Tokenization_preparation"] = dataset["CV_text"].apply(lambda x : str(x).replace("\n", " "))

In [59]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...


b. Tokenisation du texte

In [60]:
dataset["Tokenization"] = dataset["Tokenization_preparation"].apply(lambda x : nlp(x))

In [61]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS..."
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO..."
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave..."
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,..."


In [62]:
dataset["Number_of_tokens"] = dataset["Tokenization"].apply(lambda x : len(x))

In [63]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization,Number_of_tokens
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS...",214
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO...",291
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6...",315
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave...",292
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,...",284
