In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

In [2]:
# Chargement du dataset
file_path = 'data/ds_salaries.csv'
data = pd.read_csv(file_path)

In [3]:
# Séparer environ 1000 enregistrements pour les mettre de côté pour MLOps
train_data, holdout_data = train_test_split(data, test_size=1000, random_state=42)

In [4]:
print(train_data.dtypes)

work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object


In [5]:
# Importation de pandas et numpy
import pandas as pd
import numpy as np

# Pour les colonnes numériques, remplacer les valeurs manquantes par la moyenne de la colonne
for col in ['work_year', 'salary', 'salary_in_usd', 'remote_ratio']:
    if train_data[col].isnull().any():
        train_data[col].fillna(train_data[col].mean(), inplace=True)

# Pour les colonnes catégorielles, remplacer les valeurs manquantes par la valeur la plus fréquente (mode)
for col in ['experience_level', 'employment_type', 'job_title', 'salary_currency', 'employee_residence', 'company_location', 'company_size']:
    if train_data[col].isnull().any():
        train_data[col].fillna(train_data[col].mode()[0], inplace=True)

# Vérifier de nouveau les types de données pour confirmer que tout est correct
print(train_data.dtypes)
print(train_data.isnull().sum())  # Afficher le nombre de valeurs manquantes par colonne pour vérifier


work_year              int64
experience_level      object
employment_type       object
job_title             object
salary                 int64
salary_currency       object
salary_in_usd          int64
employee_residence    object
remote_ratio           int64
company_location      object
company_size          object
dtype: object
work_year             0
experience_level      0
employment_type       0
job_title             0
salary                0
salary_currency       0
salary_in_usd         0
employee_residence    0
remote_ratio          0
company_location      0
company_size          0
dtype: int64


In [7]:
# Sélectionner uniquement les colonnes numériques pour le calcul de la moyenne
numeric_cols = train_data.select_dtypes(include=['int64', 'float64'])

# Calculer la moyenne pour les colonnes numériques
means = numeric_cols.mean()

# Appliquer la moyenne calculée uniquement aux colonnes numériques
train_data[numeric_cols.columns] = numeric_cols.fillna(means)

# Suppression des colonnes non nécessaires et préparation des données pour l'encodage
features = train_data.drop(columns=['salary_in_usd', 'salary', 'salary_currency'])

# Encodage des variables catégorielles
features = pd.get_dummies(features)

# Séparation des caractéristiques et de la cible
X = features
y = train_data['salary_in_usd']

In [8]:
# Séparer les données en ensembles d'entraînement et de test pour le développement du modèle
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
# Entraînement du modèle
model = LinearRegression()
model.fit(X_train, y_train)

# Prédiction et évaluation sur l'ensemble de test
y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: ", rmse)

RMSE:  955989193265.6637
