# Pre-processing

In [1]:
import numpy as np
import pandas as pd
import re
pd.set_option('max_rows', 10)

In [2]:
df = pd.read_csv("../result_csv/scrap_indeed_fourteen_days.csv")
df

Unnamed: 0,Entreprise,Offre,Lieu,URL
0,SKILL AND YOU,Chargé(e)s de gestion locative en Alternance,- Paris 8e (75),https://www.indeed.fr/jobs?q=Alternance%20data...
1,Novencia,Développeur.se Web – Stage/Alternance (F/H),- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...
2,SPEAKING AGENCY,Data Analyst H/F,- Paris 12e (75),https://www.indeed.fr/jobs?q=Alternance%20data...
3,GROUPE GIFT,ALTERNANCE – Chargé de la relation client H/F,- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...
4,Chance,DATA ANALYST (M/F/D) - ALTERNANCE,- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...
...,...,...,...,...
515,,,,https://www.indeed.fr/jobs?q=Alternance%20data...
516,OCTOPUS COMPUTER ASSOCIATES,IoT & Big Data Technical Specialist Engineer P...,- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...
517,"Julien Cornic, infographiste freelance",Big Data Engineer / Freelance,- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...
518,Highline Paris,Architecte chargé de projet pour un grand ense...,- Paris (75),https://www.indeed.fr/jobs?q=Alternance%20data...


In [3]:
df.dtypes

Entreprise    object
Offre         object
Lieu          object
URL           object
dtype: object

In [4]:
df = df.astype('string')

In [5]:
df.dtypes

Entreprise    string
Offre         string
Lieu          string
URL           string
dtype: object

**Convert all value in lower case**

In [6]:
df = df.applymap(lambda s:s.lower() if type(s) == str else s)
df

Unnamed: 0,Entreprise,Offre,Lieu,URL
0,skill and you,chargé(e)s de gestion locative en alternance,- paris 8e (75),https://www.indeed.fr/jobs?q=alternance%20data...
1,novencia,développeur.se web – stage/alternance (f/h),- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
2,speaking agency,data analyst h/f,- paris 12e (75),https://www.indeed.fr/jobs?q=alternance%20data...
3,groupe gift,alternance – chargé de la relation client h/f,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
4,chance,data analyst (m/f/d) - alternance,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
...,...,...,...,...
515,,,,https://www.indeed.fr/jobs?q=alternance%20data...
516,octopus computer associates,iot & big data technical specialist engineer p...,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
517,"julien cornic, infographiste freelance",big data engineer / freelance,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
518,highline paris,architecte chargé de projet pour un grand ense...,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...


## Check rows with NaN Values and suppress it

**Check Nan Values**

In [7]:
df['Entreprise'].isnull().values.any()

True

In [8]:
df['Entreprise'].isnull().sum()

34

In [9]:
df.isna().sum(axis=0)

Entreprise    34
Offre         33
Lieu          33
URL            0
dtype: int64

In [10]:
df.isna().sum(axis=1)

0      0
1      0
2      0
3      0
4      0
      ..
515    3
516    0
517    0
518    0
519    0
Length: 520, dtype: int64

**Suppress it**

In [11]:
df.dropna(axis=0, inplace=True)
df

Unnamed: 0,Entreprise,Offre,Lieu,URL
0,skill and you,chargé(e)s de gestion locative en alternance,- paris 8e (75),https://www.indeed.fr/jobs?q=alternance%20data...
1,novencia,développeur.se web – stage/alternance (f/h),- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
2,speaking agency,data analyst h/f,- paris 12e (75),https://www.indeed.fr/jobs?q=alternance%20data...
3,groupe gift,alternance – chargé de la relation client h/f,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
4,chance,data analyst (m/f/d) - alternance,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
...,...,...,...,...
511,ach,chargé d’affaires / chef de projet f/h,- paris 16e (75),https://www.indeed.fr/jobs?q=alternance%20data...
516,octopus computer associates,iot & big data technical specialist engineer p...,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
517,"julien cornic, infographiste freelance",big data engineer / freelance,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...
518,highline paris,architecte chargé de projet pour un grand ense...,- paris (75),https://www.indeed.fr/jobs?q=alternance%20data...


In [12]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print (df['Lieu'])

0                    - paris 8e (75)
1                       - paris (75)
2                   - paris 12e (75)
3                       - paris (75)
4                       - paris (75)
5                       - paris (75)
6                    - malakoff (92)
7                       - paris (75)
8                       - paris (75)
9                       - paris (75)
10        - la garenne-colombes (92)
11                   - paris 9e (75)
12                      - paris (75)
13                      - paris (75)
14                      - paris (75)
15                      - paris (75)
16                      - paris (75)
17                      - paris (75)
18                      - paris (75)
20                      - paris (75)
30                   - île-de-france
31                    - noisiel (77)
32                      - paris (75)
33                 - longjumeau (91)
35              - saint-maurice (94)
36                   - gentilly (94)
37             - maisons-alfort (94)
3

In [13]:
# Difficultés pour extract les noms de villes :
    # les accents
    # les villes avec un ou plusieurs "-"
    # les villes qui commence avec la déterminant (ex: la garenne-colombes)

# Extract le nom de la ville de la column "Lieu"
df['Ville'] = df['Lieu'].str.extract("([a-zA-Z*(é|è|à|ù)]+[\sa-zA-Z*(é|è|à|ù)+]+[a-zA-Z*(é|è|à|ù)+\-+[a-zA-Z*(é|è|à|ù+)\-]+[a-zA-Z*(é|è|à|ù)]+|[a-zA-Z]+\-+[a-zA-Z]+|[a-zA-Z]+)",expand=True)

# Extract le département (difficulté) :
    # paris 8e (16) --> prendre le 75 et non le 16
df['Departement'] = df['Lieu'].str.extract('(\S\d{2,5})',expand=True)

# Supprimer les parenthèses
df['Departement'] = df['Departement'].str.extract('(\w{2})',expand=True)    

# Supprimer la column lieu
df.drop(['Lieu'], axis=1, inplace=True)
df

    

Unnamed: 0,Entreprise,Offre,URL,Ville,Departement
0,skill and you,chargé(e)s de gestion locative en alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
1,novencia,développeur.se web – stage/alternance (f/h),https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
2,speaking agency,data analyst h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
3,groupe gift,alternance – chargé de la relation client h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
4,chance,data analyst (m/f/d) - alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
...,...,...,...,...,...
511,ach,chargé d’affaires / chef de projet f/h,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
516,octopus computer associates,iot & big data technical specialist engineer p...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
517,"julien cornic, infographiste freelance",big data engineer / freelance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
518,highline paris,architecte chargé de projet pour un grand ense...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75


In [14]:
df.isna().sum(axis=0)

Entreprise      0
Offre           0
URL             0
Ville           0
Departement    10
dtype: int64

In [15]:
df.dropna(axis=0, inplace=True)
df.reset_index(inplace=True)
df.drop(['index'], axis=1, inplace=True)
df

Unnamed: 0,Entreprise,Offre,URL,Ville,Departement
0,skill and you,chargé(e)s de gestion locative en alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
1,novencia,développeur.se web – stage/alternance (f/h),https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
2,speaking agency,data analyst h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
3,groupe gift,alternance – chargé de la relation client h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
4,chance,data analyst (m/f/d) - alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
...,...,...,...,...,...
471,ach,chargé d’affaires / chef de projet f/h,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
472,octopus computer associates,iot & big data technical specialist engineer p...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
473,"julien cornic, infographiste freelance",big data engineer / freelance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75
474,highline paris,architecte chargé de projet pour un grand ense...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75


In [16]:
df['Entreprise'].nunique()

303

In [17]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print (df['Ville'])
    print (40 * '#')
    print (df['Departement'])

0                       paris
1                       paris
2                       paris
3                       paris
4                       paris
5                       paris
6                    malakoff
7                       paris
8                       paris
9                       paris
10        la garenne-colombes
11                      paris
12                      paris
13                      paris
14                      paris
15                      paris
16                      paris
17                      paris
18                      paris
19                      paris
20                    noisiel
21                      paris
22                 longjumeau
23              saint-maurice
24                   gentilly
25             maisons-alfort
26                      paris
27        vélizy-villacoublay
28                      paris
29                      paris
30                  montrouge
31                      paris
32                      paris
33        

0      75
1      75
2      75
3      75
4      75
5      75
6      92
7      75
8      75
9      75
10     92
11     75
12     75
13     75
14     75
15     75
16     75
17     75
18     75
19     75
20     77
21     75
22     91
23     94
24     94
25     94
26     75
27     78
28     75
29     75
30     92
31     75
32     75
33     77
34     93
35     92
36     92
37     92
38     92
39     92
40     75
41     78
42     78
43     75
44     94
45     94
46     75
47     94
48     78
49     92
50     92
51     75
52     75
53     75
54     94
55     78
56     78
57     75
58     93
59     93
60     77
61     75
62     75
63     92
64     75
65     93
66     92
67     75
68     75
69     93
70     78
71     93
72     75
73     75
74     75
75     75
76     75
77     77
78     75
79     94
80     75
81     78
82     75
83     94
84     78
85     93
86     75
87     75
88     75
89     92
90     75
91     94
92     75
93     75
94     92
95     93
96     75
97     75
98     75
99     75


In [18]:
resume = []
for offre in df['Offre']:
    resume.append(offre.split(" "))

df['Resume'] = resume
df['Resume']
        

0      [chargé(e)s, de, gestion, locative, en, altern...
1      [développeur.se, web, –, stage/alternance, (f/h)]
2                                   [data, analyst, h/f]
3      [alternance, –, chargé, de, la, relation, clie...
4                [data, analyst, (m/f/d), -, alternance]
                             ...                        
471       [chargé, d’affaires, /, chef, de, projet, f/h]
472    [iot, &, big, data, technical, specialist, eng...
473                  [big, data, engineer, /, freelance]
474    [architecte, chargé, de, projet, pour, un, gra...
475    [chargé, de, projet, d'affaires, en, industrie...
Name: Resume, Length: 476, dtype: object

In [19]:
best_word = ['alternance','stage','apprentissage','internship','data','analyst','scientist','développeur','chargé(e)s','stage/alternance']
for i in range(0,len(df['Resume'])):
    ref = []
    for el in df['Resume'][i]:
        print(el)
        if el in best_word:
            ref.append(el)
    if ref == []:
        ref = ['Mauvaise Anonce']
    df['Resume'][i] = ref 

chargé(e)s
de
gestion
locative
en
alternance
développeur.se
web
–
stage/alternance
(f/h)
data
analyst
h/f
alternance
–
chargé
de
la
relation
client
h/f
data
analyst
(m/f/d)
-
alternance
alternance
-
chargé
de
développement
commercial
h/f
assistant
de
gestion
en
alternance
h/f
technical
data
analyst
(f/h)
alternance
–
assistant
marketing
et
commercial
h/f
alternance
–
assistant
chef
de
produits
marketing
h/f
data
scientist
h/f
-
stage
ou
alternance
développeur
web
full
stack
h/f
pour
erp
en
alternance
alternance
-
assistant
directeur
data
management
(h/f)
data
analyst
(alternance)
data
analyst
en
alternance
(h/f)
-
paris
19e
(h/f)
data
scientist
data
scientist
h/f
data
scientist
(internship)
nlp
data
scientist
(stage
fin
d'études
/
alternance)
data
scientist
-
paris
alternance
-
assistant
marketing
(h/f)
data
analyst
alternance
-
data
manager
data
scientist
trainee
un
alternant
–
charge
gestion
de
projets
data
(h/f)
un
alternant
–
assistant
data
analyst
(h/f)
data
analyst
-
odds
stage
–

scientist
alternance
–
assistant(e)
développement
pap
homme
(f/h)
un(e)
assistant(e)
qualite
en
alternance
alternance
-
(1
an)
-
assistant(e)
chef
de
projet
it
finance
-
75013
paris
f/h
alternance
-
(1
an)
-
assistant(e)
chef
de
projet
it
finance
-
75013
paris
alternance
assistant
chef
de
projet
communication
f/h
stage
-
chargé
de
projet
-
développement
durable
(h/f)
data
engineer
h/f
senior
data
scientist
h/f
-
cdi
(levallois/corte)
manager
reporting
bi/
business
analyst
(h/f)
consultant
data
engineer
#kubernetes
#elk
#ansible
h/f
junior
data
software
engineer
-
warehouse
data
engineer
(h/f)
senior
data
engineer
#hadoop
#spark
#kafka
alternance
développeur
fullstack
data
analyst
-
h/f
alternance
développeur
web/ihm
f/h
data
scientist
computer
vision
f/h
stage
-
chargé(e)
de
projets
mécénats
de
compétences
-
idf
senior
data
analyst
h/f
pariscdi
data
scientist
-
f/h
cloud
data
engineer
f/h
data
business
analyst
chargé(e)
de
missions
commerce
en
alternance
h/f
consultant
data
scientist
(

analyste
developpeur
bi
(f/h)
intern
data
scientist
-
spanish
speaking
(end-of-studies)
apache
beam
big
data
engineer
(h/f)
-75
/
freelance
data
analyst
confirmé
f/h
chargé(e)
de
communication
digitale
en
alternance
h/f
chargée.
chargé
de
projet
informatique
industrielle
et
technique
-
supervision
et
automatisme
charge
de
projets
assurance
anglais
espagnol
h/f
data
engineer
sql
(ps
en
sybase
iq,
ctrl-m,
xml)
/
freelance
développeur
bbd
-
sql
-
t-sql
-
dataware
-
data
engineer
/
freelance
data
scientist
senior
f/h
stage
-
analyste
marché
soins
patients
&
bi
(h/f)
développeur
power
bi
/
freelance
chargé
de
projet
en
valorisation
énergétique
chargé
de
projet
d'affaires
en
industrie
f/h
senior
data
scientist
-
python
(h/f)
chargé
d’affaires
/
chef
de
projet
f/h
iot
&
big
data
technical
specialist
engineer
paris,
france
french
and
english
speaking
/
freelance
big
data
engineer
/
freelance
architecte
chargé
de
projet
pour
un
grand
ensemble
de
logements
chargé
de
projet
d'affaires
en
industri

In [20]:
#df.drop(['Resume'], axis=1, inplace=True) 

In [21]:
df['Resume']

0         [chargé(e)s, alternance]
1               [stage/alternance]
2                  [data, analyst]
3                     [alternance]
4      [data, analyst, alternance]
                  ...             
471              [Mauvaise Anonce]
472                         [data]
473                         [data]
474              [Mauvaise Anonce]
475              [Mauvaise Anonce]
Name: Resume, Length: 476, dtype: object

In [22]:
df

Unnamed: 0,Entreprise,Offre,URL,Ville,Departement,Resume
0,skill and you,chargé(e)s de gestion locative en alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,"[chargé(e)s, alternance]"
1,novencia,développeur.se web – stage/alternance (f/h),https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[stage/alternance]
2,speaking agency,data analyst h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,"[data, analyst]"
3,groupe gift,alternance – chargé de la relation client h/f,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[alternance]
4,chance,data analyst (m/f/d) - alternance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,"[data, analyst, alternance]"
...,...,...,...,...,...,...
471,ach,chargé d’affaires / chef de projet f/h,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[Mauvaise Anonce]
472,octopus computer associates,iot & big data technical specialist engineer p...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[data]
473,"julien cornic, infographiste freelance",big data engineer / freelance,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[data]
474,highline paris,architecte chargé de projet pour un grand ense...,https://www.indeed.fr/jobs?q=alternance%20data...,paris,75,[Mauvaise Anonce]
