## 1 Import Data and Required Packages
### 1.1 Import Libraries

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as plt
%matplotlib inline

from sklearn.preprocessing import LabelEncoder, MinMaxScaler

### 1.2 Load Data and display it

In [3]:
file_path = './data/data.xlsx' 
df = pd.read_excel(file_path)
pd.DataFrame(df)

Unnamed: 0,ID,Nom,Prénom,Fonction,Domaine,Niveau,ColonneNiveau,Niveau d'experience en conception,ColonneExperience,Localisation,...,Prétention,Préavis,Commentaire,TJM,target,Source,Url,Colonne1,ID2,Gender
0,1,EL JANATI,Salim,Management de qualité,ingénieu qualité,Bac+5,5,7 ans,7.000000,Tanger,...,,,,,,Linkedin,https://www.linkedin.com/in/salim-el-janati-45...,salim-el-janati-455459183,f934b06e-bbdc-4d5f-b3b8-75c0e2a14df3,M
1,2,AALILECH,Khouloud,Économie / Finance / Gestion,économie / gestion,Bac+3,3,1 an,1.000000,Tanger,...,,,,,,Linkedin,https://www.linkedin.com/in/khouloud-aalilech-...,khouloud-aalilech-3a2b04296,,F
2,3,AATTAR,Zakaria,Génie Mecanique,technicien spécialisé,Bac+2,2,3 ans,3.000000,Rabat,...,,,,,,Linkedin,https://www.linkedin.com/in/zakaria-aattar-731...,zakaria-aattar-731342214,715afa81-a5f7-4313-87f4-bd7ecef1f3a3,M
3,4,ABABOU,Asaad,systemes electronique,ingénieur,Bac+5,5,7 ans,7.000000,Tanger,...,,,,,,Linkedin,https://www.linkedin.com/in/asaad-ababou-15072...,asaad-ababou-1507225a,,M
4,5,ABAHRI,Hamza,Ingénieur en électricité et industrie,Ingénieur Industriel,Bac+5,5,2 ans,2.000000,Tanger,...,,,,,1.0,cv,,,,M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1031,1032,ZOUHRI,Hidaya,Ingénieur Industriel,ingénieur industriel,Bac+5,5,4 mois,0.333333,Casablanca,...,,,,,,Linkedin + CV,https://www.linkedin.com/in/hicham-ahmamsi/,hicham-ahmamsi,,F
1032,1033,ZOUHRI,Amine,Économie / Finance / Gestion,économie / gestion,Bac+3,3,2 ans,2.000000,Mohammedia,...,,,,,,Linkedin,https://www.linkedin.com/in/amine-zouhri-ba676...,amine-zouhri-ba676a247,,M
1033,1034,ZRAKTOUNI,Nouhaila,Économie / Finance / Gestion,économie / gestion,Bac+3,3,8 mois,0.666667,Fkih-Ben Saleh,...,,,,,,Linkedin,https://www.linkedin.com/in/nouhaila-zraktouni...,nouhaila-zraktouni-754863264,,F
1034,1035,ZRHITI,Youssef,Diagnostic Et Electronique Embarquée,technicien spécialisé,Bac+2,2,4 mois,0.333333,Souk El Arbaa,...,,,,,,cv Architecte automobile,,,,M


### 1.3 Dataset informations

In [4]:
print("DataFrame:")
print(df.head())
print(df.info())

DataFrame:
   ID         Nom     Prénom                               Fonction  \
0   1   EL JANATI     Salim                   Management de qualité   
1   2    AALILECH  Khouloud            Économie / Finance / Gestion   
2   3      AATTAR   Zakaria                         Génie Mecanique   
3   4      ABABOU     Asaad                   systemes electronique   
4   5      ABAHRI      Hamza  Ingénieur en électricité et industrie   

                 Domaine Niveau  ColonneNiveau  \
0       ingénieu qualité  Bac+5              5   
1     économie / gestion  Bac+3              3   
2  technicien spécialisé  Bac+2              2   
3              ingénieur  Bac+5              5   
4   Ingénieur Industriel  Bac+5              5   

  Niveau d'experience en conception  ColonneExperience Localisation  ...  \
0                             7 ans                7.0       Tanger  ...   
1                              1 an                1.0       Tanger  ...   
2                             3 a

In [5]:
selected_columns = ['ColonneNiveau', 'ColonneExperience']
description = df[selected_columns].describe().round(2)
print(description)

       ColonneNiveau  ColonneExperience
count        1036.00            1036.00
mean            4.18               3.63
std             1.49               3.78
min             0.00               0.00
25%             3.00               1.00
50%             5.00               2.00
75%             5.00               5.00
max            12.00              29.00


In [6]:
print("Categories in 'gender' variable:     ",end=" " )
print(df['Gender'].unique())

print("Categories in 'race_ethnicity' variable:  ",end=" ")
print(df['Domaine'].unique())

Categories in 'gender' variable:      ['M' 'F']
Categories in 'race_ethnicity' variable:   ['ingénieu qualité' 'économie / gestion' 'technicien spécialisé'
 'ingénieur' 'Ingénieur Industriel' 'opérateur' 'chargé de développement'
 'concepteur/ dessinateur' 'logistique' 'ingénieur mécanique'
 'ingénieur process' 'ingénieur industriel' 'autres' 'technicien']


## 2 Data Labelling

### 2.1 Min-Max Scaling function

In [7]:
def min_max_scaling(column):
    try:
        return (column - column.min()) / (column.max() - column.min())
    except TypeError:
        # Handle the case where the column contains non-numeric values
        print(f"Skipping normalization for non-numeric column: {column.name}")
        return column

### 2.2 Apply Min-Max Scaling to selected columns

In [8]:
columns_to_normalize = ['ColonneExperience','ColonneNiveau']

# Apply Min-Max Scaling to selected columns
for column in columns_to_normalize:
    df[f'Normalized_{column}'] = min_max_scaling(df[column])

### 2.3 Calculate a weighted score based on normalized columns

In [9]:
weights = {'ColonneExperience': 0.6, 'ColonneNiveau': 0.4}

df['Weighted_Score'] = sum(df[f'Normalized_{col}'] * weights[col] for col in weights)
print(df.dtypes)
df['Weighted_Score'] = df['Weighted_Score'].astype(float)
threshold=df['Weighted_Score'].mean()
print('threshold',threshold)

ID                                     int64
Nom                                   object
Prénom                                object
Fonction                              object
Domaine                               object
Niveau                                object
ColonneNiveau                          int64
Niveau d'experience en conception     object
ColonneExperience                    float64
Localisation                          object
Salaire Actuel                        object
Prétention                           float64
Préavis                               object
Commentaire                          float64
TJM                                  float64
target                               float64
Source                                object
Url                                   object
Colonne1                              object
ID2                                   object
Gender                                object
Normalized_ColonneExperience         float64
Normalized

### 2.4 Label the dataset

In [10]:
for i, row in df.iterrows():
    if row['Weighted_Score']>=(threshold):
        df.at[i, 'Output'] = 1
    else:
        df.at[i, 'Output'] = 0

# Display the labelled  Dataset
print("\nDataFrame with Output :")
df = df.round(2)
print(df.head())


DataFrame with Output :
   ID         Nom     Prénom                               Fonction  \
0   1   EL JANATI     Salim                   Management de qualité   
1   2    AALILECH  Khouloud            Économie / Finance / Gestion   
2   3      AATTAR   Zakaria                         Génie Mecanique   
3   4      ABABOU     Asaad                   systemes electronique   
4   5      ABAHRI      Hamza  Ingénieur en électricité et industrie   

                 Domaine Niveau  ColonneNiveau  \
0       ingénieu qualité  Bac+5              5   
1     économie / gestion  Bac+3              3   
2  technicien spécialisé  Bac+2              2   
3              ingénieur  Bac+5              5   
4   Ingénieur Industriel  Bac+5              5   

  Niveau d'experience en conception  ColonneExperience Localisation  ...  \
0                             7 ans                7.0       Tanger  ...   
1                              1 an                1.0       Tanger  ...   
2                  

## 3 Data Cleaning
### 3.1 Drop unnecessary columns

In [11]:
df=df
df=df.drop(['ID','Nom','Prénom','Fonction','Niveau','ColonneNiveau',
            "Niveau d'experience en conception",'ColonneExperience',
            'Localisation','Salaire Actuel','Prétention','Préavis',
            'Commentaire','TJM','target','Source','Url','Colonne1','ID2'],axis=1)
df.columns

Index(['Domaine', 'Gender', 'Normalized_ColonneExperience',
       'Normalized_ColonneNiveau', 'Weighted_Score', 'Output'],
      dtype='object')

### 3.2 Check the number of each category in 'Domaine'

In [12]:
domain_counts = df['Domaine'].value_counts()
print(domain_counts)
c = df['Domaine'].shape[0]
print('\nlength domain :',c )

Domaine
ingénieur mécanique        102
technicien spécialisé      101
ingénieu qualité           100
économie / gestion         100
ingénieur                  100
chargé de développement    100
concepteur/ dessinateur    100
logistique                 100
ingénieur process          100
ingénieur industriel        99
opérateur                   25
autres                       5
technicien                   3
Ingénieur Industriel         1
Name: count, dtype: int64

length domain : 1036


### 3.3 Drop outliers

In [13]:
f = df[df['Domaine'] != 'technicien']
df = df[df['Domaine'] != 'opérateur']
df = df[df['Domaine'] != 'autres']

### 3.4 Correct misspelling errors

In [14]:
df['Domaine'] = df['Domaine'].replace('Ingénieur Industriel', 'ingénieur industriel')
df['Domaine'] = df['Domaine'].replace('ingénieu qualité', 'ingénieur qualité')

### 3.5 Rename columns

In [15]:
df.rename(columns = {'Domaine':'Domain'}, inplace = True) 
df.rename(columns = {'Normalized_ColonneExperience':'Experience'}, inplace = True) 
df.rename(columns = {'Normalized_ColonneNiveau':'Niveau'}, inplace = True) 

### 3.6 Check missing values

In [16]:
missing_values = df.isnull().sum()
print("\nMissing Values:")
print(missing_values)


Missing Values:
Domain            0
Gender            0
Experience        0
Niveau            0
Weighted_Score    0
Output            0
dtype: int64


### 3.7 Encode Categorical columns
#### 3.7.1 Encode 'Domain' column

In [17]:
label_encoder = LabelEncoder()

df['Domain_encoded'] = label_encoder.fit_transform(df['Domain'])
# Display unique values of 'Domain' along with their corresponding encoding
unique_domain_encoded = df[['Domain', 'Domain_encoded']].drop_duplicates()
print("Unique Domain values with their corresponding encodings:")
print(unique_domain_encoded)
# Save to Excel sheet
output_file_path = 'data/domain_encoded.xlsx' 
unique_domain_encoded.to_excel(output_file_path, index=False)
print(f"Unique Domain values with their corresponding encodings saved to {output_file_path}")
df=df.drop('Domain',axis=1)
df.rename(columns = {'Domain_encoded':'Domain'}, inplace = True) 

Unique Domain values with their corresponding encodings:
                      Domain  Domain_encoded
0          ingénieur qualité               6
1         économie / gestion              10
2      technicien spécialisé               9
3                  ingénieur               2
4       ingénieur industriel               3
8    chargé de développement               0
12   concepteur/ dessinateur               1
13                logistique               7
25       ingénieur mécanique               4
29         ingénieur process               5
364               technicien               8
Unique Domain values with their corresponding encodings saved to data/domain_encoded.xlsx


#### 3.7.2 Encode 'Gender' column

In [18]:
df['Gender'] = label_encoder.fit_transform(df['Gender'])
print(df['Gender'].head()) # male = 1 and female = 0 

0    1
1    0
2    1
3    1
4    1
Name: Gender, dtype: int32


In [19]:
print(df.head())

   Gender  Experience  Niveau  Weighted_Score  Output  Domain
0       1        0.24    0.42            0.31     1.0       6
1       0        0.03    0.25            0.12     0.0      10
2       1        0.10    0.17            0.13     0.0       9
3       1        0.24    0.42            0.31     1.0       2
4       1        0.07    0.42            0.21     0.0       3


## 4 Data

### 4 Save the results to a new file

In [20]:
output_file_path = './data/clean_data.csv'  
df.to_csv(output_file_path, index=False)
print(f"Results saved to: {output_file_path}")

Results saved to: ./data/clean_data.csv
