## 1. Chargement des librairies et du dataset

In [41]:
import pandas as pd
import spacy

In [42]:
dataset = pd.read_csv("dataset_CV.csv", delimiter = ";")

In [43]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


In [44]:
dataset.shape

(21, 2)

In [45]:
dataset.tail()

Unnamed: 0,CV_number,CV_text
16,CV_17,CONTACTEZ ADELINE Adeline est une amoureuse de...
17,CV_18,Adeline Pannier Actrice de Théâtre et de Ciném...
18,CV_19,INFOS DE CONTACT\nAdresse : Téléphone : Site w...
19,CV_20,"Patrick Fournier 9 rue Desaix, 75010 Paris\n01..."
20,CV_21,AKIRA THOMAS ANALYSTE DE SÉCURITÉ RÉCAPITULATI...


## 2. Installation de Spacy

In [52]:
nlp = spacy.load("fr_core_news_md")


## 3. Pre-processing

In [57]:
dataset.head()

Unnamed: 0,CV_number,CV_text
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...


a. Création d'une nouvelle colonne et remplacement du "\n" dans les textes par un espace

In [58]:
dataset["Tokenization_preparation"] = dataset["CV_text"].apply(lambda x : str(x).replace("\n", " "))

In [59]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...


b. Tokenisation du texte

In [60]:
dataset["Tokenization"] = dataset["Tokenization_preparation"].apply(lambda x : nlp(x))

In [61]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS..."
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO..."
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6..."
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave..."
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,..."


c. Compter le nombre de tokens par CV

In [62]:
dataset["Number_of_tokens"] = dataset["Tokenization"].apply(lambda x : len(x))

In [63]:
dataset.head()

Unnamed: 0,CV_number,CV_text,Tokenization_preparation,Tokenization,Number_of_tokens
0,CV_1,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PRO...,"(SELMA, LAFKIR, CORDE, 80, CODEUSE, ENTHOUSIAS...",214
1,CV_2,Ananya Singh \nProfesseure de Lycée\nPROFIL PE...,Ananya Singh Professeure de Lycée PROFIL PERS...,"(Ananya, Singh, , Professeure, de, Lycée, PRO...",291
2,CV_3,"Samira Hadid \n16 place Urbain II, 63000 Clerm...","Samira Hadid 16 place Urbain II, 63000 Clermo...","(Samira, Hadid, , 16, place, Urbain, II, ,, 6...",315
3,CV_4,Carine Maurice \nIngénieure logiciel avec 10 a...,Carine Maurice Ingénieure logiciel avec 10 an...,"(Carine, Maurice, , Ingénieure, logiciel, ave...",292
4,CV_5,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE \nAS...,MARCELLE ANDRÉ EXPÉRIENCE PROFESSIONNELLE ASS...,"(MARCELLE, ANDRÉ, EXPÉRIENCE, PROFESSIONNELLE,...",284


In [66]:
dataset.describe()

Unnamed: 0,Number_of_tokens
count,21.0
mean,267.0
std,58.783501
min,138.0
25%,231.0
50%,278.0
75%,297.0
max,410.0


In [68]:
# dataset.iloc[0,2]

"SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet. Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens. RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc. mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudiants en histo

In [71]:
# sentence_split = []
#  def sentensizer_text(doc):
   # for i in len(dataset):
    #    raw = dataset.iloc[0,2].apply(lambda x : x.split("."))
     #   sentence_split.append(raw)
    #return sentence_split
    

In [75]:
#sentence_split = []
#raw = dataset.iloc[0,2].split(".")
#sentence_split.append(raw)


In [80]:
#sentence_split

[['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
  " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
  " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
  " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des é

In [81]:
#type(sentence_split)

list

In [95]:
#sentence_split = sentence_split[0]

In [97]:
#sentence_split

['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
 " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
 " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
 " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des étudi

In [98]:
#len(sentence_split)

7

In [83]:
#len(sentence_split[0])

7

In [96]:
#df = pd.DataFrame(sentence_split, columns="Sentence")

TypeError: Index(...) must be called with a collection of some kind, 'Sentence' was passed

In [92]:
#for raw in range(0, len(df)): 
#    doc = nlp(raw)
#    for token in doc:
#        print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
#                token.shape_, token.is_alpha, token.is_stop)

ValueError: [E1041] Expected a string, Doc, or bytes as input, but got: <class 'int'>

In [78]:
# sentence_split

[['SELMA LAFKIR CORDE 80 CODEUSE ENTHOUSIASTE PROFIL PERSONNEL Je suis étudiante au lycée Condorcet',
  " Je code depuis l'âge de 13 ans et j'aime créer des sites Web et utiliser la technologie pour aider les gens",
  " RÉALISATIONS Chef d'équipe du site Web du lycée - Vice-présidente du club cinématographique du lycée - Trésorière de la société des codeurs du lycée - Premier prix au Hackathon de Condorcet EXPÉRIENCE Tuteur en mathématiques Centre scolaire de Condorcet Jan 2019 - présent • Cours particuliers avec des élèves du secondaire sur différents domaines des mathématiques • Cours d'algèbre Développeuse stagiaire | Berou Solutions, Inc",
  " mars - mai 2019 Traduction de wireframes en code frontal Aide à la création d'une application de commande en ligne Recherche d'utilisateurs effectuée par le biais d'enquêtes et d'entretiens PARCOURS SCOLAIRE Lycée de Condorcet · Spécialisation en technologie | Classe de 2020 • Diplômée avec une moyenne de 16/20 • Membre de l'association des é