## Prediction de salaire

### Biblioth√®ques utiles

In [35]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix


from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor

from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

pd.set_option("display.float_format", lambda x: f"{x:,.3f}")
sns.set_context("talk")
pd.set_option('display.max_columns', 200)
pd.set_option('display.width', 200)


### I-  Description de la base de donn√©e

#### Salaires dans le secteur priv√© selon le sexe et la cat√©gorie socioprofessionnelle (base communale)

* Le champ correspond aux salari√©s du priv√©, y compris b√©n√©ficiaires de contrats aid√©s et de contrats de professionnalisation ; hors apprentis, stagiaires, salari√©s agricoles et salari√©s des particuliers employeurs.

* Les donn√©es sur les salaires au lieu de travail sont ventil√©es selon le sexe et la cat√©gorie socioprofessionnelle (hors agriculture), et d√©taill√©es par territoire : commune, arrondissement municipal, arrondissement, aire d'attraction des villes 2020, bassin de vie 2022, √©tablissement public de coop√©ration intercommunal, unit√© urbaine 2020, zone d'emploi 2020, d√©partement, r√©gion, France hors Mayotte.

Variables explicatives retenues :

SEX : Sexe (Homme/Femme) - impact attendu sur l'√©cart salarial

PCS_ESE : Profession et Cat√©gorie Socioprofessionnelle - d√©terminant principal

TIME_PERIOD : Ann√©e (2022-2023) - √©volution temporelle

GEO : Code g√©ographique - variations territoriales

In [20]:
## lien vers le dataset
data_path = r"dataset\DS_BTS_SAL_EQTP_SEX_PCS_2023_data.csv"
metadata_path = r"dataset\DS_BTS_SAL_EQTP_SEX_PCS_2023_metadata.csv"


In [21]:
data = pd.read_csv(data_path, sep=';')
metadata = pd.read_csv(metadata_path, sep=';')

In [22]:
# Affichage des informations de base
print(f" Dimensions du dataset: {data.shape}")
print(f" Colonnes disponibles: {list(data.columns)}")

 Dimensions du dataset: (370710, 9)
 Colonnes disponibles: ['GEO', 'GEO_OBJECT', 'FREQ', 'SEX', 'PCS_ESE', 'DERA_MEASURE', 'CONF_STATUS', 'TIME_PERIOD', 'OBS_VALUE']


In [23]:
print("\n Aper√ßu des premi√®res lignes:")
print(data.head())


 Aper√ßu des premi√®res lignes:
     GEO GEO_OBJECT FREQ SEX PCS_ESE                      DERA_MEASURE CONF_STATUS  TIME_PERIOD  OBS_VALUE
0  26362     BV2022    A   F      _T  SALAIRE_NET_EQTP_MENSUEL_MOYENNE           F         2022  2,157.285
1  26324     BV2022    A  _T       4  SALAIRE_NET_EQTP_MENSUEL_MOYENNE           F         2022  3,112.938
2  26307     BV2022    A  _T       6  SALAIRE_NET_EQTP_MENSUEL_MOYENNE           F         2023  2,013.097
3  26362     BV2022    A  _T      _T  SALAIRE_NET_EQTP_MENSUEL_MOYENNE           F         2023  2,483.037
4  27170     BV2022    A   F       4  SALAIRE_NET_EQTP_MENSUEL_MOYENNE           F         2022  2,107.221


In [24]:
print(" Types de donn√©es:")
print(data.dtypes)

 Types de donn√©es:
GEO              object
GEO_OBJECT       object
FREQ             object
SEX              object
PCS_ESE          object
DERA_MEASURE     object
CONF_STATUS      object
TIME_PERIOD       int64
OBS_VALUE       float64
dtype: object


In [25]:

print("\nüìã Informations d√©taill√©es:")
print(data.info())


üìã Informations d√©taill√©es:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 370710 entries, 0 to 370709
Data columns (total 9 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   GEO           370710 non-null  object 
 1   GEO_OBJECT    370710 non-null  object 
 2   FREQ          370710 non-null  object 
 3   SEX           370710 non-null  object 
 4   PCS_ESE       370710 non-null  object 
 5   DERA_MEASURE  370710 non-null  object 
 6   CONF_STATUS   370710 non-null  object 
 7   TIME_PERIOD   370710 non-null  int64  
 8   OBS_VALUE     350250 non-null  float64
dtypes: float64(1), int64(1), object(7)
memory usage: 25.5+ MB
None


In [26]:
# Analyse des variables uniques
print("üìä Analyse des variables cat√©gorielles:")
categorical_vars = ['GEO_OBJECT', 'FREQ', 'SEX', 'PCS_ESE', 'DERA_MEASURE', 'CONF_STATUS']

for var in categorical_vars:
    unique_vals = data[var].unique()
    print(f"\n{var} ({len(unique_vals)} valeurs uniques):")
    print(f"  Valeurs: {unique_vals[:10]}...")  # Afficher les 10 premi√®res valeurs

print(f"\nüìà Variable cible (OBS_VALUE) - Statistiques descriptives:")
print(data['OBS_VALUE'].describe())

print(f"\nüìÖ P√©riode temporelle:")
print(f"  Ann√©es disponibles: {sorted(data['TIME_PERIOD'].unique())}")

print(f"\n‚ùå Valeurs manquantes:")
missing_data = data.isnull().sum()
print(missing_data[missing_data > 0])


üìä Analyse des variables cat√©gorielles:

GEO_OBJECT (11 valeurs uniques):
  Valeurs: ['BV2022' 'ARR' 'AAV2020' 'COM' 'UU2020' 'ARM' 'EPCI' 'ZE2020' 'DEP'
 'FRANCE']...

FREQ (1 valeurs uniques):
  Valeurs: ['A']...

SEX (3 valeurs uniques):
  Valeurs: ['F' '_T' 'M']...

PCS_ESE (5 valeurs uniques):
  Valeurs: ['_T' '4' '6' '5' '1T3']...

DERA_MEASURE (1 valeurs uniques):
  Valeurs: ['SALAIRE_NET_EQTP_MENSUEL_MOYENNE']...

CONF_STATUS (2 valeurs uniques):
  Valeurs: ['F' 'C']...

üìà Variable cible (OBS_VALUE) - Statistiques descriptives:
count   350,250.000
mean      2,445.223
std         758.391
min         793.399
25%       1,908.283
50%       2,191.887
75%       2,671.732
max      14,047.315
Name: OBS_VALUE, dtype: float64

üìÖ P√©riode temporelle:
  Ann√©es disponibles: [np.int64(2022), np.int64(2023)]

‚ùå Valeurs manquantes:
OBS_VALUE    20460
dtype: int64


### II-  Analyse exploratoire de donn√©e

#### A analyse univari√©

#### B Analyse bivari√©e

### III- Mod√®le de pr√©diction 

#### A nettoyage de donn√©e

#### Mod√©lisation de donn√©e