In [1]:
import pandas as pd

# Partie 1

## Importation des données

Durant cette partie, on va importer nos données.

In [2]:
data_jobeur_file = 'DATA JOBEUR.xlsx'
data_client_file = 'DATA CLIENT.xlsx'

In [3]:
def Upload_Dataframe(filename1, filename2):
    data_jobeur = pd.read_excel(filename1, engine='openpyxl', skiprows=6)
    data_client = pd.read_excel(filename2, engine='openpyxl', skiprows=6)
    return data_jobeur, data_client

## Nettoyage des données

### Suppression des colonnes dupliquées et vides

In [4]:
def Delete_Col(data_jobeur, data_client):   
    # Suppression des données dans le tableau DATA JOBEUR.xlsx
    data_jobeur.drop(columns=['Quels sont vos niveaux de disponibilité 2? TEXTE', 'Autre transports', 'Permis PL', 'Caces 1',
                              'Caces 2', 'Caces 3', 'Si vous avez un profil Linkedin ou un e-CV, coller le lien URL :',
                              'Si vous avez un site internet, blog ou portfolio coller le lien URL'], axis=1, inplace=True)
    
    # Suppression des données dans le tableau DATA CLIENT.xlsx
    data_client.drop(columns=['un site internet', 'Plusieurs personnes recherchées', 
                              "Connaissez vous la différence de ces contrats ?", 'Taille entreprise', 'autre permis', 
                              "Si non, souhaitez-vous vous plus d'informations ?"], axis=1, inplace=True)

### Traitement des valeurs manquantes

In [5]:
def Deal_Nan(data_jobeur,data_client):
    # <------- DATA JOBEUR.xlsx ------->
    # Remplissage de la colonne '0-20klm'
    data_jobeur.fillna(value={'0- 20klm': 'non'}, inplace=True)
    
    # Traitement des valeurs 'null' dans la colonne 'Vos compétences 2'
    index = data_jobeur.loc[data_jobeur['Vos compétences 1'] == 'Confiance (en soi, en les autres et en l\'avenir)'].index
    data_jobeur.loc[index,'Vos compétences 2'] = 'Sympatique'
    
    # Traitement des valeurs 'null' dans la colonne 'Vos compétences 2' et 'Vos compétences 3'
    index = data_jobeur.loc[data_jobeur['Vos compétences 1'] == 'Résolution de problème'].index
    data_jobeur.loc[index,['Vos compétences 2', 'Vos compétences 3']] = ['Bon jugement', 'Créativité']
        
    # Suppression de toutes les lignes avec des valeurs 'null' dans la colonne 'Dernier poste occupé (ou actuel)' et la colonne 'Mission recherchée : Exemple..'
    data_jobeur.dropna(axis=0, subset = ['Dernier poste occupé (ou actuel)','Mission recherchée : Exemple n°1 de poste (métier + secteur)'],inplace=True)
    
    # <------- DATA CLIENT.xlsx ------->
    data_client.dropna(thresh=5, inplace=True)

### Normalisation des formats

In [6]:
def Format_Consistency(data_jobeur, data_client):
    # <------- DATA JOBEUR.xlsx ------->
    # Insertion de la upper initiale 
    data_jobeur['Dernier poste occupé (ou actuel)'] = data_jobeur['Dernier poste occupé (ou actuel)'].str.upper()
    data_jobeur['Mission recherchée : Exemple n°1 de poste (métier + secteur)'] = data_jobeur['Mission recherchée : Exemple n°1 de poste (métier + secteur)'].str.upper()

    # Insertion de la capitalisation initiale 
    data_jobeur['Quel type de contrat vous intéresse 2'] = data_jobeur['Quel type de contrat vous intéresse 2'].str.capitalize()
    data_jobeur['Quel type de contrat vous intéresse 3'] = data_jobeur['Quel type de contrat vous intéresse 3'].str.capitalize()

    # Insertion de la lower initiale 
    data_jobeur['Permis B'] = data_jobeur['Permis B'].str.lower()
    
    # <------- DATA CLIENT.xlsx ------->
    # Insertion de la upper initiale 
    data_client['Métier du poste'] = data_client['Métier du poste'].str.upper()
    data_client['prénom'] = data_client['prénom'].str.upper()
    
    # Insertion de la capitalisation initiale 
    data_client['Quels types de contrats pour les embauchés - TEXTE'] = data_client['Quels types de contrats pour les embauchés - TEXTE'].str.capitalize()

In [7]:
# Création de la dataframe
data_jobeur, data_client = Upload_Dataframe(data_jobeur_file, data_client_file)

# Suppression des colonnes toutes vide 
Delete_Col(data_jobeur, data_client)

# Traitement des valeurs manquantes ou vides
Deal_Nan(data_jobeur, data_client)

# Normalisation des formats
Format_Consistency(data_jobeur, data_client)

In [8]:
data_jobeur.head(2)

Unnamed: 0,NOM,Prénom,CODE POSTAL,VILLE,Dernier poste occupé (ou actuel),GENRE,Mission recherchée : Exemple n°1 de poste (métier + secteur),Quels sont vos niveaux de disponibilité ? TEXTE,Niveau de rémunération mensuelle brute souhaitée,"Localisation géographique du poste (région, ville)",...,Quel type de contrat vous intéresse 3,Connaissez vous la différence entre ces types de contrats ?,"Si non, souhaitez-vous vous plus d'informations ?",Vous souhaitez faire du télétravail (en % temps),0- 20klm,21- 40klm,41-60klm,61 - klm et plus,Seriez-vous prêt à déménager pour ce futur job ?,Vous êtes prêt à faire des déplacements professionnels (en % temps)
0,HERZOG,Patrick,64230.0,SAUVAGNON,AGENT ADMINISTRATIF,H,AGENT ADMINISTRATIF,1.0,2280.0,SAUVAGNON,...,Titulaire de la fonction publique,oui,oui,100.0,non,oui,non,non,oui,25.0
1,MATHIS,JONATHAN,64870.0,ESCOUT,AGENT DE NETTOYAGE,H,AGENT DE NETTOYAGE,1.0,2320.0,ESCOUT,...,Mannequinat,non,non,25.0,oui,non,non,non,non,50.0


In [9]:
data_client.head(2)

Unnamed: 0,Métier du poste,Quels types de contrats pour les embauchés - TEXTE,Temps de travail,niveau de rémunération,Localisation du poste,Mobilité,Comptétences pour le poste 1,Comptétences pour le poste 2,Comptétences pour le poste 3,Télétravail ( en %),Poste avec du déplacement (en %) si 75 ramené a 100%,Cv obligatoire,nom,prénom,nom entreprise,adresse du siège,siret de l'entreprise,code NAF
0,MANUTENTIONNAIRE,Contrat aidé ou aménagé (travailleur handicapé),1.0,2050.0,ABIDOS,Permis de conduire,"Créativité, générer des idées","Créativité, générer des idées","Confiance (en soi, en les autres et en l'avenir)",100.0,0.0,oui,LUCAZEAU,MARGALDO,CJS,ARTHEZ DE BEARN,509226800.0,8130Z
1,MANUTENTIONNAIRE,Temps partagé,1.0,2000.0,ABIDOS,Transports en commun,"Visualisation, Zoom sur la mise en pratique de...","Communication, faire passer un message","Motivation, donner du sens au delà de la tâche...",75.0,25.0,non,BARCO,FREDERIC,REY-BETBEDER,LACQ,306000900.0,4399C


# Partie 2

## Selection des variables significatives pour l'algorithme

Pour utiliser notre algorithme qui calculera des différences, on aura affaire qu'à quelques variables bien spécifiques.

### JOBEUR

Les variables dans **'DATA JOBEUR.xlsx'** dont on va se débarrasser sont:
    
        'Nom' et 'Prénom' : Ces deux variables sont clairement sans importance.
        
        'Genre' : Le genre ne définit pas l'efficacité dans le travail.
        
        'Si non, souhaitez-vous vous plus d'informations ?' : Variable sans importance.
        
        'Si vous avez un profil Linkedin ou un e-CV, coller le lien URL :' Variable sans importance.
        
        'Si vous avez un site internet, blog ou portfolio coller le lien URL' : Variable sans importance.

### CLIENT

Les variables dans **'DATA CLIENT.xlsx'** dont on va se débarrasser sont: 
    
        'Un site internet' : Variable sans importance.
        
        'CV obligatoire' : Variable sans importance.
        
        'Nom', 'Prénom' et 'Nom entreprise' : Variables sans importance.
        
        'Adresse du siège : La variable 'Localisation du poste' est suffisante.
        
        'Siret de l'entreprise' : Variable sans importance.
        
        'Code NAF' : Variable sans importance.      

In [10]:
def Clear_Useless_Data(data_jobeur, data_client) :
    Jobeur_Useless = ['NOM', 'Prénom', 'VILLE', 'GENRE', 'Connaissez vous la différence entre ces types de contrats ?']
    Client_Useless = ['Cv obligatoire ', 'nom', 'prénom', 'nom entreprise', 'adresse du siège', "siret de l'entreprise", 'code NAF ']   
    try:
        for var in Jobeur_Useless :
            del data_jobeur[var]
    
        for var in Client_Useless :
            del data_client[var]
    except Exception:
        pass

### Suppression des variables non significatives

In [11]:
Clear_Useless_Data(data_jobeur, data_client)

In [12]:
data_jobeur.head(2)

Unnamed: 0,CODE POSTAL,Dernier poste occupé (ou actuel),Mission recherchée : Exemple n°1 de poste (métier + secteur),Quels sont vos niveaux de disponibilité ? TEXTE,Niveau de rémunération mensuelle brute souhaitée,"Localisation géographique du poste (région, ville)",Quelle taille d'entreprise / organisation TEXTE,Voitures,Permis B,TPE - moins de 10 personnes,...,Quel type de contrat vous intéresse 2,Quel type de contrat vous intéresse 3,"Si non, souhaitez-vous vous plus d'informations ?",Vous souhaitez faire du télétravail (en % temps),0- 20klm,21- 40klm,41-60klm,61 - klm et plus,Seriez-vous prêt à déménager pour ce futur job ?,Vous êtes prêt à faire des déplacements professionnels (en % temps)
0,64230.0,AGENT ADMINISTRATIF,AGENT ADMINISTRATIF,1.0,2280.0,SAUVAGNON,ETI,Véhiculé avec voiture,oui,non,...,Militaire,Titulaire de la fonction publique,oui,100.0,non,oui,non,non,oui,25.0
1,64870.0,AGENT DE NETTOYAGE,AGENT DE NETTOYAGE,1.0,2320.0,ESCOUT,ETI,Véhiculé avec voiture,oui,non,...,Cdic (bâtiment),Mannequinat,non,25.0,oui,non,non,non,non,50.0


In [13]:
data_client.head(2)

Unnamed: 0,Métier du poste,Quels types de contrats pour les embauchés - TEXTE,Temps de travail,niveau de rémunération,Localisation du poste,Mobilité,Comptétences pour le poste 1,Comptétences pour le poste 2,Comptétences pour le poste 3,Télétravail ( en %),Poste avec du déplacement (en %) si 75 ramené a 100%
0,MANUTENTIONNAIRE,Contrat aidé ou aménagé (travailleur handicapé),1.0,2050.0,ABIDOS,Permis de conduire,"Créativité, générer des idées","Créativité, générer des idées","Confiance (en soi, en les autres et en l'avenir)",100.0,0.0
1,MANUTENTIONNAIRE,Temps partagé,1.0,2000.0,ABIDOS,Transports en commun,"Visualisation, Zoom sur la mise en pratique de...","Communication, faire passer un message","Motivation, donner du sens au delà de la tâche...",75.0,25.0


# Partie 3

## Transformation des variables qualitatives en variables quantitatives

Durant cette partie, on va utiliser des variables *dummy* pour nos variables qualitatives dans le but de pouvoir quantifier la différence entre ces variables.

#### Exemple:

Dans les variables **'Vos compétences'** dans **'DATA JOBEUR.xlsx'** et **'Compétences pour le poste'** dans **'DATA CLIENT.xlsx'**, on va transformer les différentes qualités comme **'Motivation'**, **'Vision'** et autres comme colonnes possédant des valeurs binaires.

Ainsi, si l'individu $x_i$ possède la qualité **'Motivation'**, on aura une valeur de $1$ dans la colonne **'Motivation'** de cet individu.

In [14]:
def conversion_variable_quali(data_set, list_variable_qualitative):
    for colonne in list_variable_qualitative:
        dummy_df = pd.get_dummies(data_set[colonne], dummy_na=False)
        data_set = data_set.drop(colonne, axis='columns')
        for i in dummy_df:
            if i not in data_set.columns:
                data_set = pd.concat([data_set, dummy_df[i]], axis= 'columns')
    return data_set

In [15]:
dataCLIENT = conversion_variable_quali(data_client, ["Comptétences pour le poste 1", "Comptétences pour le poste 2", 
                                                     "Comptétences pour le poste 3"])

In [16]:
dataJOBEUR = conversion_variable_quali(data_jobeur, ["Vos compétences 1", "Vos compétences 2", "Vos compétences 3"])

In [17]:
dataJOBEUR.columns

Index(['CODE POSTAL', 'Dernier poste occupé (ou actuel)',
       'Mission recherchée : Exemple n°1 de poste (métier + secteur)',
       'Quels sont vos niveaux de disponibilité ? TEXTE',
       'Niveau de rémunération mensuelle brute souhaitée',
       'Localisation géographique du poste (région, ville)',
       'Quelle taille d'entreprise / organisation TEXTE', 'Voitures',
       'Permis B', 'TPE - moins de 10 personnes', 'PME 10 à 250 personnes',
       'ETI 250 à 5000', 'GRAND GROUPE - Plus de 500 personnes',
       'Quel type de contrat vous intéresse 1',
       'Quel type de contrat vous intéresse 2',
       'Quel type de contrat vous intéresse 3',
       'Si non, souhaitez-vous vous plus d'informations ?',
       'Vous souhaitez faire du télétravail (en % temps)', '0- 20klm',
       '21- 40klm', '41-60klm', '61 - klm et plus',
       'Seriez-vous prêt à déménager pour ce futur job ?',
       'Vous êtes prêt à faire des déplacements professionnels (en % temps)',
       'Audace, ca

In [18]:
dataCLIENT.columns

Index(['Métier du poste', 'Quels types de contrats pour les embauchés - TEXTE',
       'Temps de travail', 'niveau de rémunération', 'Localisation du poste',
       'Mobilité', 'Télétravail ( en %)',
       'Poste avec du déplacement (en %) si 75 ramené a 100%',
       'Audace, capacité à oser', 'Capacité et application d'une consigne',
       'Communication, faire passer un message',
       'Confiance (en soi, en les autres et en l'avenir)',
       'Créativité, générer des idées', 'Curiosité, aimer apprendre',
       'Empathie, comprendre la réalité', 'Esprit d'entreprendre, proactivité',
       'Gestion du stress', 'Intelligence émotionnelle',
       'Motivation, donner du sens au delà de la tâche à effectuer',
       'Organisation du temps, respect de dates buttoires', 'Ponctualité',
       'Présence, capacité de concentration', 'Résolution de problème',
       'Sens du collectif, partage',
       'Vision, voir le chemin pour arriver à l'objectif (dézoom)',
       'Visualisation, Zo

# Partie 4

Durant cette partie, on exécutera notre algorithme. Cependant, il est impératif de faire des traitements additionnels pour le bon fonctionnement de ce dernier.

## Traitements additionnels

### (1) Correction

On va faire un traitement additionnel, question d'homogénéiser  les noms des variables entre les données Client et les données Jobeur.

In [19]:
dataCLIENT.rename(columns = {"Vision, voir le chemin pour arriver à l'objectif (dézoom)":'Vision', 'Motivation, donner du sens au delà de la tâche à effectuer':'Motivation'}, inplace = True)

### (2) Localisation

On va faire un deuxième traitement pour une heuristique qui calculera la distance au niveau de la localisation des deux données.

L'idée est qu'on va calculer la distance $d_{local}$ entre **la localisation de l'entreprise (CLIENT)** et **la localisation de l'individu (JOBEUR).**

Cette distance va être multipliée par $5$ variables binaires $a, b, c, d$ et $e$.

$a = \text{\{$0$ si la personne est prête à parcourir la distance $0-20klm$; $1$ sinon\}}$
$b = \text{\{$0$ si la personne est prête à parcourir la distance $21-40klm$; $1$ sinon\}}$
$c = \text{\{$0$ si la personne est prête à parcourir la distance $41-60klm$; $1$ sinon\}}$
$d = \text{\{$0$ si la personne est prête à parcourir plus de $61klm$; $1$ sinon\}}$
$e = \text{\{$0$ si la personne est prête à déménager pour son travail; $1$ sinon\}}$

Notre heuristique sera alors: 

$h_{local} = a*b*c*d*e*d_{local}$

#### (2.2) Calcul de $d_{local}$

Pour calculer $d_{local}$, on va tout d'abord récupérer les codes postaux respectives de **(CLIENT)** et **(JOBEUR)**. Cependant, il n'y a pas de code postal fourni dans les données **CLIENT** mais que les noms des villes.

On a choisi d'éviter d'utiliser un **API** parce que ce dernier est limité et coûteux.

##### (2.2.1) Récupérer les codes postales CLIENT

In [20]:
import unidecode

In [21]:
def Transform_Ville_CodePostal(bdd, data):
    CodePostals = []
    for i in data['Localisation du poste']:
        i = i.replace("-", " ")
        i = unidecode.unidecode(i)
        i = i.upper()
        result = Ville_CodePostal.loc[Ville_CodePostal['nom_de_la_commune'] == i]['code_postal']
        try:
            CodePostals = CodePostals + [result.values[0]]
        except Exception:
            # <!> POUR EVITER DES BUGS A CAUSE DE L'ABSENCE DE LA VILLE/COMMUNE DU CLIENT DANS LA BASE DE DONNEES <!>
            CodePostals = CodePostals + [64000]
    data['Localisation du poste'] = list(map(int, CodePostals))

In [22]:
Ville_CodePostal = pd.read_csv('./BDD_CodePostal.csv')
Ville_CodePostal.head()

Unnamed: 0,nom_de_la_commune,code_postal
0,VILLARS LES BLAMONT,25310
1,LES VILLEDIEU,25240
2,VILLERS BUZON,25170
3,VILLERS LA COMBE,25510
4,VILLERS SOUS CHALAMONT,25270


In [23]:
Transform_Ville_CodePostal(Ville_CodePostal, dataCLIENT)

##### (2.2.2) Calcul de la distance

In [24]:
import pgeocode
def Distance_CodePostal(codePostal1, codePostal2) :
  dist = pgeocode.GeoDistance('fr')
  return dist.query_postal_code(codePostal1, codePostal2)

In [25]:
print(Distance_CodePostal ('75000', '64000'), 'km')

650.4988436904562 km


#### (2.3) Tranformations pour les variables $a, b, c, d$ et $e$

##### (2.3.1) Homogénéisation

In [26]:
dataJOBEUR.columns

dataJOBEUR.rename(columns = {'0- 20klm': '0-20klm'}, inplace = True)
dataJOBEUR.rename(columns = {'21- 40klm': '21-40klm'}, inplace = True)
dataJOBEUR.rename(columns = {'41- 60klm': '41-60klm'}, inplace = True)
dataJOBEUR.rename(columns = {'61 - klm et plus': '61-klm et plus'}, inplace = True)

##### (2.3.2) Transformation

In [27]:
dataJOBEUR.loc[dataJOBEUR['0-20klm'] == 'oui', '0-20klm'] = 0
dataJOBEUR.loc[dataJOBEUR['21-40klm'] == 'oui', '21-40klm'] = 0
dataJOBEUR.loc[dataJOBEUR['41-60klm'] == 'oui', '41-60klm'] = 0
dataJOBEUR.loc[dataJOBEUR['61-klm et plus'] == 'oui', '61-klm et plus'] = 0
dataJOBEUR.loc[dataJOBEUR['0-20klm'] == 'non', '0-20klm'] = 1
dataJOBEUR.loc[dataJOBEUR['21-40klm'] == 'non', '21-40klm'] = 1
dataJOBEUR.loc[dataJOBEUR['41-60klm'] == 'non', '41-60klm'] = 1
dataJOBEUR.loc[dataJOBEUR['61-klm et plus'] == 'non', '61-klm et plus'] = 1
dataJOBEUR.loc[dataJOBEUR['Seriez-vous prêt à déménager pour ce futur job ?'] == 'oui', 'Seriez-vous prêt à déménager pour ce futur job ?'] = 0
dataJOBEUR.loc[dataJOBEUR['Seriez-vous prêt à déménager pour ce futur job ?'] == 'non', 'Seriez-vous prêt à déménager pour ce futur job ?'] = 1

Ensuite, on fait un troisième traitement pour homogénéiser au niveau des variables en relation avec la mobilité.

In [28]:
dataJOBEUR.loc[dataJOBEUR['Voitures'] == 'Véhiculé avec voiture', 'Voitures'] = 'Voiture'
dataJOBEUR.loc[dataJOBEUR['Voitures'] == 'Deux roues à moteur', 'Voitures'] = 'Véhicule 2 roues'
dataJOBEUR.loc[dataJOBEUR['Voitures'] == 'Pas de véhicule', 'Voitures'] = 'Transports en commun'
dataJOBEUR.rename(columns = {"Permis B": 'Permis de conduire'}, inplace = True)
dataJOBEUR.loc[dataJOBEUR['Permis de conduire'] == 'oui', 'Permis de conduire'] = 1
dataJOBEUR.loc[dataJOBEUR['Permis de conduire'] == 'non', 'Permis de conduire'] = 0

In [29]:
dataJOBEUR = conversion_variable_quali(dataJOBEUR, ['Voitures'])
dataCLIENT = conversion_variable_quali(dataCLIENT, ['Mobilité'])

Après, on homogénéise les noms des colonnes.

In [30]:
L = ['Métier du poste', 'Temps de travail', 'Niveau de rémunération', 'Télétravail (en %)', 'Poste avec du déplacement (en %)']
# JOBEUR
dataJOBEUR.rename(columns = {'Mission recherchée : Exemple n°1 de poste (métier + secteur)': L[0]}, inplace = True)
dataJOBEUR.rename(columns = {'Quels sont vos niveaux de disponibilité ? TEXTE': L[1]}, inplace = True)
dataJOBEUR.rename(columns = {'Niveau de rémunération mensuelle brute souhaitée': L[2]}, inplace = True)
dataJOBEUR.rename(columns = {'Vous souhaitez faire du télétravail (en % temps)': L[3]}, inplace = True)
dataJOBEUR.rename(columns = {'Vous êtes prêt à faire des déplacements professionnels (en % temps)': L[4]}, inplace = True)
dataJOBEUR.rename(columns = {'Localisation géographique du poste (région, ville)': 'Ville'}, inplace = True)
dataJOBEUR.rename(columns = {'Vdi (vendeur à doicile indépendant)': 'Vdi (vendeur à domicile indépendant)'}, inplace = True)
dataJOBEUR.rename(columns = {'Alternance, appentissage': 'Alternance-appentissage'}, inplace = True)
dataJOBEUR.rename(columns = {'CODE POSTAL': 'Code Postal'}, inplace = True)
dataCLIENT.rename(columns = {'Quels types de contrats pour les embauchés - TEXTE': 'Quels types de contrats pour les embauchés'}, inplace = True)

# CLIENT
dataCLIENT.rename(columns = {'niveau de rémunération': 'Niveau de rémunération'}, inplace = True)
dataCLIENT.rename(columns = {'Télétravail ( en %)': 'Télétravail (en %)'}, inplace = True)
dataCLIENT.rename(columns = {'Poste avec du déplacement (en %) si 75 ramené a 100%': 'Poste avec du déplacement (en %)'}, inplace = True)
dataCLIENT.rename(columns = {'Localisation du poste': 'Code Postal'}, inplace = True)

Enfin, on garde les valeurs dont on a besoin.

In [31]:
dataJOBEUR.columns

Index(['Code Postal', 'Dernier poste occupé (ou actuel)', 'Métier du poste',
       'Temps de travail', 'Niveau de rémunération', 'Ville',
       'Quelle taille d'entreprise / organisation TEXTE', 'Permis de conduire',
       'TPE - moins de 10 personnes', 'PME 10 à 250 personnes',
       'ETI 250 à 5000', 'GRAND GROUPE - Plus de 500 personnes',
       'Quel type de contrat vous intéresse 1',
       'Quel type de contrat vous intéresse 2',
       'Quel type de contrat vous intéresse 3',
       'Si non, souhaitez-vous vous plus d'informations ?',
       'Télétravail (en %)', '0-20klm', '21-40klm', '41-60klm',
       '61-klm et plus', 'Seriez-vous prêt à déménager pour ce futur job ?',
       'Poste avec du déplacement (en %)', 'Audace, capacité à oser',
       'Capacité et application d'une consigne',
       'Communication, faire passer un message',
       'Confiance (en soi, en les autres et en l'avenir)',
       'Créativité, générer des idées', 'Curiosité, aimer apprendre',
       'Em

In [32]:
dataCLIENT.columns

Index(['Métier du poste', 'Quels types de contrats pour les embauchés',
       'Temps de travail', 'Niveau de rémunération', 'Code Postal',
       'Télétravail (en %)', 'Poste avec du déplacement (en %)',
       'Audace, capacité à oser', 'Capacité et application d'une consigne',
       'Communication, faire passer un message',
       'Confiance (en soi, en les autres et en l'avenir)',
       'Créativité, générer des idées', 'Curiosité, aimer apprendre',
       'Empathie, comprendre la réalité', 'Esprit d'entreprendre, proactivité',
       'Gestion du stress', 'Intelligence émotionnelle', 'Motivation',
       'Organisation du temps, respect de dates buttoires', 'Ponctualité',
       'Présence, capacité de concentration', 'Résolution de problème',
       'Sens du collectif, partage', 'Vision',
       'Visualisation, Zoom sur la mise en pratique des méthodes concrètes',
       'Permis de conduire', 'Transports en commun', 'Voiture',
       'Véhicule 2 roues'],
      dtype='object')

In [33]:
dataCLIENT.head(5)

Unnamed: 0,Métier du poste,Quels types de contrats pour les embauchés,Temps de travail,Niveau de rémunération,Code Postal,Télétravail (en %),Poste avec du déplacement (en %),"Audace, capacité à oser",Capacité et application d'une consigne,"Communication, faire passer un message",...,Ponctualité,"Présence, capacité de concentration",Résolution de problème,"Sens du collectif, partage",Vision,"Visualisation, Zoom sur la mise en pratique des méthodes concrètes",Permis de conduire,Transports en commun,Voiture,Véhicule 2 roues
0,MANUTENTIONNAIRE,Contrat aidé ou aménagé (travailleur handicapé),1.0,2050.0,64150,100.0,0.0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
1,MANUTENTIONNAIRE,Temps partagé,1.0,2000.0,64150,75.0,25.0,0,0,0,...,0,0,0,0,0,1,0,1,0,0
2,MANUTENTIONNAIRE,Bénévolat,1.0,1750.0,64360,100.0,100.0,0,0,0,...,0,0,0,0,1,0,0,1,0,0
3,SERVEUSE,Militaire,1.0,1800.0,64360,0.0,75.0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,MANOEUVRE,Vdi (vendeur à domicile indépendant),1.0,2100.0,64360,100.0,25.0,0,0,0,...,0,0,1,0,0,0,0,0,1,0


In [34]:
dataJOBEUR.head(5)

Unnamed: 0,Code Postal,Dernier poste occupé (ou actuel),Métier du poste,Temps de travail,Niveau de rémunération,Ville,Quelle taille d'entreprise / organisation TEXTE,Permis de conduire,TPE - moins de 10 personnes,PME 10 à 250 personnes,...,Résolution de problème,"Sens du collectif, partage",Vision,"Visualisation, Zoom sur la mise en pratique des méthodes concrètes",Bon jugement,Sympatique,Créativité,Transports en commun,Voiture,Véhicule 2 roues
0,64230.0,AGENT ADMINISTRATIF,AGENT ADMINISTRATIF,1.0,2280.0,SAUVAGNON,ETI,1,non,oui,...,0,0,0,0,0,0,0,0,1,0
1,64870.0,AGENT DE NETTOYAGE,AGENT DE NETTOYAGE,1.0,2320.0,ESCOUT,ETI,1,non,non,...,0,0,0,0,0,0,0,0,1,0
2,64270.0,AGENT DE PRÉCONTRAINTE,AGENT DE PRÉCONTRAINTE,1.0,1940.0,SALIES-DE-BEARN,ETI,1,oui,oui,...,0,0,1,0,0,0,0,0,1,0
3,64000.0,AGENT DE PRODUCTION,AGENT DE PRODUCTION,1.0,2160.0,PAU,ETI,1,oui,oui,...,0,0,0,0,0,0,0,0,1,0
4,64370.0,AGENT DE SECURITE,AGENT DE SECURITE,0.8,2120.0,DOAZON,ETI,0,non,non,...,0,0,0,0,0,0,0,0,0,1


## Execution de l'algorithme

In [35]:
def Upload_Dataframe(filename1, filename2):
    data_jobeur = pd.read_excel(filename1, engine='openpyxl', skiprows=6)
    data_client = pd.read_excel(filename2, engine='openpyxl', skiprows=6)
    return data_jobeur, data_client

In [36]:
def Show_Suggestion(suggestion, filename, i):
    sortedThird = sorted(suggestion, key=lambda tup: tup[1])
    return filename.iloc[sortedThird[i][1]]

In [37]:
def Find_Match_Client(dataClient, dataJobeur, i):
    Suggestions = []
    S = 0
    penalty = 0
    for j in range(dataJOBEUR.shape[0]):
        S = 0
        priority = 0
        for k in dataClient.columns:
            if (k == 'Métier du poste' or k == 'Temps de travail'):
                if (dataClient.iloc[i][k] != dataJOBEUR.iloc[j][k]):
                    COND = False
                    break
                else:
                    continue
                    
            # <---- Distance ---->
            if (k == 'Code Postal'):
                if (dataClient.iloc[i][k] != dataJOBEUR.iloc[j][k]):
                    d_local = Distance_CodePostal(int(dataClient.iloc[i][k]), int(dataJOBEUR.iloc[j][k]))
                    if (0 <= d_local <= 20):
                        if (dataJobeur.iloc[j]['0-20klm'] == 1 and dataJobeur.iloc[j]['Seriez-vous prêt à déménager pour ce futur job ?'] == 1):
                            COND = False
                            break
                        else:
                            continue
                    if (21 <= d_local <= 40):
                        if (dataJobeur.iloc[j]['21-40klm'] == 1 and dataJobeur.iloc[j]['Seriez-vous prêt à déménager pour ce futur job ?'] == 1):
                            COND = False
                            break
                        else:
                            continue
                    if (41 <= d_local <= 60):
                        if (dataJobeur.iloc[j]['41-60klm'] == 1 and dataJobeur.iloc[j]['Seriez-vous prêt à déménager pour ce futur job ?'] == 1):
                            COND = False
                            break
                        else:
                            continue
                    if (d_local >= 61):
                        if (dataJobeur.iloc[j]['61-klm et plus'] == 1 and dataJobeur.iloc[j]['Seriez-vous prêt à déménager pour ce futur job ?'] == 1):
                            COND = False
                            break
                        else:
                            continue
                    continue
                else:
                    continue
                    
            # <---- Pénalisation pour le niveau de rémunération ----->     
            if (k == 'Niveau de rémunération'):
                if (dataClient.iloc[i][k] != dataJOBEUR.iloc[j][k]):
                    penalty = penalty + 2
                    continue
                else:
                    continue
                    
            # <---- Pénalisation pour le permis de conduire ----->
            if (k == 'Permis de conduire'):
                if (dataClient.iloc[i][k] == 1):
                    if (dataClient.iloc[i][k] != dataJOBEUR.iloc[j][k]):
                        penalty = penalty + 2
                        continue
                    else:
                        continue

            # <---- Pénalisation pour type de contrat ---->
            if (k == 'Quels types de contrats pour les embauchés'):
                if (dataClient.iloc[i][k] != dataJOBEUR.iloc[j]['Quel type de contrat vous intéresse 1'] and
                   dataClient.iloc[i][k] != dataJOBEUR.iloc[j]['Quel type de contrat vous intéresse 2'] and 
                   dataClient.iloc[i][k] != dataJOBEUR.iloc[j]['Quel type de contrat vous intéresse 3']):
                    penalty = penalty + 2
                    continue
                else:
                    continue
                    
            if (int(dataJOBEUR.iloc[j][k]) == 0):
                S = S + abs(int(dataClient.iloc[i][k])-int(dataJOBEUR.iloc[j][k]))
        if COND: 
            Suggestions = Suggestions + [(S, penalty, j)]
        COND = True
    return Suggestions

In [38]:
data_jobeur, data_client = Upload_Dataframe(data_jobeur_file, data_client_file)

Ici, on cherchera le matching de l'individu **(1)** de **'DATA CLIENT.xlsx'.**

In [39]:
suggestMatchClient = Find_Match_Client(dataCLIENT, dataJOBEUR, 1)

On distingue le coût au niveau des compétences *(DIMENSION 1)* et les autres coûts **('Permis de conduire' 'Type de contrat' et 'Niveau de rémunération')** *(DIMENSION 2)* dans des dimensions différentes. On prendra comme hypothèse que le coût d'une divergence au niveau du 'Permis de conduire' et 'Niveau de rémunération' est plus importante que dans 'Type de contrat'. On optimisera dans les deux directions, la troisième dimension contient l'index des individus de **'DATA JOBEUR.xlsx'** avec un ordre décroissant au niveau du matching.

On va montrer les 10 individus de **'DATA JOBEUR.xlsx'** qui matchent le plus l'individu de **'DATA CLIENT.xlsx'**.

In [40]:
suggestMatchClient[0:10]

[(2, 8, 158),
 (2, 12, 159),
 (2, 16, 160),
 (1, 30, 164),
 (2, 36, 166),
 (2, 54, 171),
 (2, 58, 172),
 (2, 62, 173),
 (2, 68, 175),
 (2, 72, 176)]

Ici on inspecte le premier individu de **'DATA JOBEUR.xlsx'** qui *match* le plus l'individu **(1)** de **'DATA CLIENT.xlsx'**.

In [41]:
Show_Suggestion(suggestMatchClient, dataJOBEUR, 0)

Code Postal                                                                                                64150
Dernier poste occupé (ou actuel)                                                               AGENT DE SECURITE
Métier du poste                                                                                AGENT DE SECURITE
Temps de travail                                                                                             0.5
Niveau de rémunération                                                                                      2200
Ville                                                                                                    MOURENX
Quelle taille d'entreprise / organisation TEXTE                                                              ETI
Permis de conduire                                                                                             1
TPE - moins de 10 personnes                                                                     

Ici on inspecte le deuxième individu de **'DATA JOBEUR.xlsx'** qui *match* le plus l'individu **(1)** de **'DATA CLIENT.xlsx'**.

In [42]:
Show_Suggestion(suggestMatchClient, dataJOBEUR, 1)

Code Postal                                                                       64360
Dernier poste occupé (ou actuel)                                      AGENT DE SECURITE
Métier du poste                                                       AGENT DE SECURITE
Temps de travail                                                                      1
Niveau de rémunération                                                             2060
Ville                                                                              ABOS
Quelle taille d'entreprise / organisation TEXTE                                     ETI
Permis de conduire                                                                    1
TPE - moins de 10 personnes                                                         oui
PME 10 à 250 personnes                                                              oui
ETI 250 à 5000                                                                      non
GRAND GROUPE - Plus de 500 perso