![Two data scientists working on a dashboard.](hr-image-small.png)

Un problème courant lors de la création de modèles pour générer de la valeur commerciale à partir des données est que les ensembles de données peuvent être si volumineux qu’il peut falloir des jours pour que le modèle génère des prédictions. Assurer que votre ensemble de données est stocké de la manière la plus efficace possible est crucial pour permettre à ces modèles de fonctionner dans un délai plus raisonnable sans avoir à réduire la taille de l’ensemble de données.

Vous avez été embauché par un important fournisseur de formation en science des données en ligne appelé Training Data Ltd. pour nettoyer l’un de leurs plus grands ensembles de données clients. Cet ensemble de données sera finalement utilisé pour prédire si leurs étudiants recherchent un nouvel emploi ou non, information qu’ils utiliseront ensuite pour les orienter vers des recruteurs potentiels.

Vous avez accès à customer_train.csv, qui est un sous-ensemble de leur ensemble de données clients complet, afin que vous puissiez créer une preuve de concept d’une solution de stockage beaucoup plus efficace. L’ensemble de données contient des informations anonymisées sur les étudiants, et indique s’ils recherchaient un nouvel emploi ou non pendant la formation :

| Colonne                  | Description                                                                      |
|------------------------- |--------------------------------------------------------------------------------- |
| `student_id`             | Un identifiant unique pour chaque étudiant.                                      |
| `city`                   | Un code pour la ville où vit l'étudiant.                                         |
| `city_development_index` | Un indice de développement de la ville.                                          |
| `gender`                 | Le genre de l'étudiant.                                                          |
| `relevant_experience`    | Un indicateur de l'expérience professionnelle pertinente de l'étudiant.          |
| `enrolled_university`    | Le type de cours universitaire suivi (le cas échéant).                           |
| `education_level`        | Le niveau d'éducation de l'étudiant.                                             |
| `major_discipline`       | La discipline éducative de l'étudiant.                                           |
| `experience`             | L'expérience professionnelle totale de l'étudiant (en années).                   |
| `company_size`           | Le nombre d'employés chez l'employeur actuel de l'étudiant.                      |
| `company_type`           | Le type d'entreprise employant l'étudiant.                                       |
| `last_new_job`           | Le nombre d'années entre l'emploi actuel et précédent de l'étudiant.             |
| `training_hours`         | Le nombre d'heures de formation complétées.                                      |
| `job_change`             | Un indicateur de si l'étudiant cherche un nouvel emploi (`1`) ou non (`0`).      |


In [30]:
# Import necessary libraries
import pandas as pd

# Load the dataset
ds_jobs = pd.read_csv("customer_train.csv")

# View the dataset
ds_jobs.head()

Unnamed: 0,student_id,city,city_development_index,gender,relevant_experience,enrolled_university,education_level,major_discipline,experience,company_size,company_type,last_new_job,training_hours,job_change
0,8949,city_103,0.92,Male,Has relevant experience,no_enrollment,Graduate,STEM,>20,,,1,36,1.0
1,29725,city_40,0.776,Male,No relevant experience,no_enrollment,Graduate,STEM,15,50-99,Pvt Ltd,>4,47,0.0
2,11561,city_21,0.624,,No relevant experience,Full time course,Graduate,STEM,5,,,never,83,0.0
3,33241,city_115,0.789,,No relevant experience,,Graduate,Business Degree,<1,,Pvt Ltd,never,52,1.0
4,666,city_162,0.767,Male,Has relevant experience,no_enrollment,Masters,STEM,>20,50-99,Funded Startup,4,8,0.0


In [2]:
# Import necessary libraries  
import pandas as pd

# ----- 1. Chargement et visualisation des données -----
# Load the dataset  
ds_jobs = pd.read_csv("customer_train.csv")

# View the dataset  
print("Aperçu des données :")
print(ds_jobs.head())

Aperçu des données :
   student_id      city  ...  training_hours job_change
0        8949  city_103  ...              36        1.0
1       29725   city_40  ...              47        0.0
2       11561   city_21  ...              83        0.0
3       33241  city_115  ...              52        1.0
4         666  city_162  ...               8        0.0

[5 rows x 14 columns]


In [3]:
# Create a copy of ds_jobs for transforming  
ds_jobs_transformed = ds_jobs.copy()

# ----- 2. Information sur le DataFrame -----
# Display information about the DataFrame  
print("\nInformations sur le DataFrame :")
print(ds_jobs_transformed.info())


Informations sur le DataFrame :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19158 entries, 0 to 19157
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   student_id              19158 non-null  int64  
 1   city                    19158 non-null  object 
 2   city_development_index  19158 non-null  float64
 3   gender                  14650 non-null  object 
 4   relevant_experience     19158 non-null  object 
 5   enrolled_university     18772 non-null  object 
 6   education_level         18698 non-null  object 
 7   major_discipline        16345 non-null  object 
 8   experience              19093 non-null  object 
 9   company_size            13220 non-null  object 
 10  company_type            13018 non-null  object 
 11  last_new_job            18735 non-null  object 
 12  training_hours          19158 non-null  int64  
 13  job_change              19158 non-null  float64
dtypes: fl

In [4]:
# ----- 3. Traitement des colonnes catégorielles binaires -----
# Identifying binary categorical columns  
print("\nValeurs uniques pour les colonnes catégorielles :")
print(ds_jobs_transformed['relevant_experience'].unique())
print(ds_jobs_transformed['gender'].unique())
print(ds_jobs_transformed['major_discipline'].unique())
print(ds_jobs_transformed['company_type'].unique())
print(ds_jobs_transformed['job_change'].unique())
print(ds_jobs_transformed['enrolled_university'].unique())


Valeurs uniques pour les colonnes catégorielles :
['Has relevant experience' 'No relevant experience']
['Male' nan 'Female' 'Other']
['STEM' 'Business Degree' nan 'Arts' 'Humanities' 'No Major' 'Other']
[nan 'Pvt Ltd' 'Funded Startup' 'Early Stage Startup' 'Other'
 'Public Sector' 'NGO']
[1. 0.]
['no_enrollment' 'Full time course' nan 'Part time course']


In [5]:
# Mapping binary columns to boolean  
ds_jobs_transformed['relevant_experience'] = ds_jobs_transformed['relevant_experience'].map({
    'Has relevant experience': True,
    'No relevant experience': False  
})

ds_jobs_transformed['job_change'] = ds_jobs_transformed['job_change'].map({1.0: True, 0.0: False})

# Verify data types after conversion  
print("\nTypes après conversion :")
print(ds_jobs_transformed['relevant_experience'].dtype)
print(ds_jobs_transformed['job_change'].dtype)


Types après conversion :
bool
bool


In [6]:
# ----- 4. Conversion des entiers en int32 -----
# Converting int64 columns to int32  
ds_jobs_transformed['student_id'] = ds_jobs_transformed['student_id'].astype('int32')
ds_jobs_transformed['training_hours'] = ds_jobs_transformed['training_hours'].astype('int32')

# Verify conversion  
print("\nTypes des colonnes après conversion :")
print(ds_jobs_transformed['student_id'].dtypes)
print(ds_jobs_transformed['training_hours'].dtypes)


Types des colonnes après conversion :
int32
int32


In [7]:
# ----- 5. Conversion des flottants en float16 -----
# Converting float64 columns to float16  
ds_jobs_transformed['city_development_index'] = ds_jobs_transformed['city_development_index'].astype('float16')

# Verify conversion  
print("\nType de la colonne 'city_development_index' après conversion :")
print(ds_jobs_transformed['city_development_index'].dtypes)



Type de la colonne 'city_development_index' après conversion :
float16


In [8]:
# ----- 6. Conversion des colonnes nominales en catégories -----
# Converting nominal columns to category  
nominal_columns = ['city', 'gender', 'major_discipline', 'company_type']
for column in nominal_columns:
    ds_jobs_transformed[column] = ds_jobs_transformed[column].astype('category')

# ----- 7. Conversion des colonnes ordinales -----
# Colonne ordinale : education_level, experience, enrolled_university, company_size, last_new_job  
print("\nValeurs uniques pour les colonnes ordinales :")
print(ds_jobs_transformed['education_level'].unique())

educ_order = ['NaN', 'Primary School', 'High School', 'Graduate', 'Masters', 'Phd']
ds_jobs_transformed['education_level'] = pd.Categorical(ds_jobs_transformed['education_level'], categories=educ_order, ordered=True)


Valeurs uniques pour les colonnes ordinales :
['Graduate' 'Masters' 'High School' nan 'Phd' 'Primary School']


In [9]:
# Experience  
print(ds_jobs_transformed['experience'].unique())
exp_order = ['null', '<1'] + [str(x) for x in range(1, 21)] + ['>20']
ds_jobs_transformed['experience'] = pd.Categorical(ds_jobs_transformed['experience'], categories=exp_order, ordered=True)

['>20' '15' '5' '<1' '11' '13' '7' '17' '2' '16' '1' '4' '10' '14' '18'
 '19' '12' '3' '6' '9' '8' '20' nan]


In [10]:
# Company size  
print(ds_jobs_transformed['company_size'].unique())
company_order = ['null', '<10', '10-49', '50-99', '100-499', '500-999', '1000-4999', '5000-9999', '10000+']
ds_jobs_transformed['company_size'] = pd.Categorical(ds_jobs_transformed['company_size'], categories=company_order, ordered=True)

[nan '50-99' '<10' '10000+' '5000-9999' '1000-4999' '10-49' '100-499'
 '500-999']


In [11]:
# Last new job  
print(ds_jobs_transformed['last_new_job'].unique())
new_job_order = ['null', 'never', '1', '2', '3', '4', '>4']
ds_jobs_transformed['last_new_job'] = pd.Categorical(ds_jobs_transformed['last_new_job'], categories=new_job_order, ordered=True)

['1' '>4' 'never' '4' '3' '2' nan]


In [12]:
# Enrolled university  
print(ds_jobs_transformed['enrolled_university'].unique())
enrolled_order = ['null', 'no_enrollment', 'Part time course', 'Full time course']
ds_jobs_transformed['enrolled_university'] = pd.Categorical(ds_jobs_transformed['enrolled_university'], categories=enrolled_order, ordered=True)

['no_enrollment' 'Full time course' nan 'Part time course']


In [13]:
# ----- 8. Final Check -----
# Display final info about the transformed DataFrame  
print("\nInformations finales sur le DataFrame transformé :")
print(ds_jobs_transformed.info())


Informations finales sur le DataFrame transformé :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19158 entries, 0 to 19157
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   student_id              19158 non-null  int32   
 1   city                    19158 non-null  category
 2   city_development_index  19158 non-null  float16 
 3   gender                  14650 non-null  category
 4   relevant_experience     19158 non-null  bool    
 5   enrolled_university     18772 non-null  category
 6   education_level         18698 non-null  category
 7   major_discipline        16345 non-null  category
 8   experience              19093 non-null  category
 9   company_size            13220 non-null  category
 10  company_type            13018 non-null  category
 11  last_new_job            18735 non-null  category
 12  training_hours          19158 non-null  int32   
 13  job_change              