Ce dataset contient les statistiques d’embauche pour une entreprise telles que l’expérience du candidat, sa note au test écrit et sa note pour l’entretien personnel. Sur la base de ces 3 facteurs, les ressources humaines doivent décider du salaire. 
Objectif : En se basant sur ces données, nous allons créer un modèle d’apprentissage automatique pour le service des ressources humaines, qui va les aider à déterminer les salaires des futurs candidats.

In [18]:
# Importons les librairies nécessaires
import pandas as pd
import numpy as np

In [19]:
# Chargeons le dataset 
data = pd.read_csv('hiring.csv')

In [20]:
data

Unnamed: 0,experience,test_score(out of 10),interview_score(out of 10),salary($)
0,,8.0,9,50000
1,,8.0,6,45000
2,five,6.0,7,60000
3,two,10.0,10,65000
4,seven,9.0,6,70000
5,three,7.0,10,62000
6,ten,,7,72000
7,eleven,7.0,8,80000


On constate que nous avons des données manquantes (NaN) aussi bien dans la colonne 'experience' que dans la colonne 'test_score'. Gérons-les.

### Gestion des données manquantes

Dans la colonne 'experience', nous allons remplacer les valeurs non connues par zéro.

In [21]:
data.experience = data.experience.fillna('zero')
data

Unnamed: 0,experience,test_score(out of 10),interview_score(out of 10),salary($)
0,zero,8.0,9,50000
1,zero,8.0,6,45000
2,five,6.0,7,60000
3,two,10.0,10,65000
4,seven,9.0,6,70000
5,three,7.0,10,62000
6,ten,,7,72000
7,eleven,7.0,8,80000


Remplaçons la valeur non connue de la colonne 'test_score(outof 10)' par la médiane de la colonne

In [22]:
import math
median_test_score = math.floor(data['test_score(out of 10)'].mean())
median_test_score

7

In [23]:
data['test_score(out of 10)'] = data['test_score(out of 10)'].fillna(median_test_score)
data

Unnamed: 0,experience,test_score(out of 10),interview_score(out of 10),salary($)
0,zero,8.0,9,50000
1,zero,8.0,6,45000
2,five,6.0,7,60000
3,two,10.0,10,65000
4,seven,9.0,6,70000
5,three,7.0,10,62000
6,ten,7.0,7,72000
7,eleven,7.0,8,80000


### Transformons les données de la colonne 'experience' en chiffres

In [24]:
from word2number import w2n
data.experience = data.experience.apply(w2n.word_to_num)
data

Unnamed: 0,experience,test_score(out of 10),interview_score(out of 10),salary($)
0,0,8.0,9,50000
1,0,8.0,6,45000
2,5,6.0,7,60000
3,2,10.0,10,65000
4,7,9.0,6,70000
5,3,7.0,10,62000
6,10,7.0,7,72000
7,11,7.0,8,80000


### Construisons le modèle

In [26]:
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(data[['experience','test_score(out of 10)','interview_score(out of 10)']],data['salary($)'])

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

### Prédisons le salaire d'un candidat ayant 5 ans d'expérience, 6 au score et 7 à l'interview

In [27]:
reg.predict([[5, 6, 7]])

array([57964.2290839])

Un candidat ayant 5 années d'expérience, 6 au score et 7 en entretien doit s'attendre à avoir un savoir de 57964.2290839.