In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
import os

In [2]:
def charger_dataset():
    """
    Charge le dataset des salaires
    """
    try:
        chemin = 'WEEK_2/DAY_3/DATASET/datascience_salaries.csv'
        if not os.path.exists(chemin):
            print(f"Erreur : Le fichier {chemin} n'existe pas")
            return None
            
        df = pd.read_csv(chemin)
        print("Dataset chargé avec succès !")
        return df
        
    except Exception as e:
        print(f"Erreur lors du chargement : {e}")
        return None

In [3]:
def explorer_donnees(df):
    """
    Explore le dataset et affiche les informations importantes
    """
    print("\n=== EXPLORATION DES DONNÉES ===")
    print("\nAperçu des premières lignes :")
    print(df.head())
    
    print("\nInformations sur le dataset :")
    print(df.info())
    
    print("\nStatistiques descriptives des salaires :")
    print(df['salary'].describe())

In [4]:
def normaliser_salaires(df):
    """
    Normalise la colonne des salaires avec Min-Max
    """
    print("\n=== NORMALISATION DES SALAIRES ===")
    scaler = MinMaxScaler()
    
    # Création d'une nouvelle colonne pour les salaires normalisés
    df['salary_normalized'] = scaler.fit_transform(df[['salary']])
    
    print("\nAperçu des salaires normalisés :")
    print(df[['salary', 'salary_normalized']].head())
    
    print("\nStatistiques des salaires normalisés :")
    print(df['salary_normalized'].describe())
    
    return df

In [5]:
def reduction_dimension_pca(df):
    """
    Applique PCA pour réduire la dimensionnalité
    """
    print("\n=== RÉDUCTION DE DIMENSION (PCA) ===")
    
    # Sélection des colonnes numériques
    colonnes_numeriques = df.select_dtypes(include=[np.number]).columns
    print(f"\nColonnes numériques utilisées : {colonnes_numeriques.tolist()}")
    
    # Application de PCA
    pca = PCA(n_components=2)
    donnees_reduites = pca.fit_transform(df[colonnes_numeriques])
    
    # Création d'un DataFrame avec les composantes principales
    df_pca = pd.DataFrame(
        donnees_reduites, 
        columns=['PC1', 'PC2']
    )
    
    print("\nAperçu des données réduites :")
    print(df_pca.head())
    
    print("\nVariance expliquée par composante :")
    print(pca.explained_variance_ratio_)
    
    return df_pca

In [6]:
def analyser_salaires_par_experience(df):
    """
    Analyse les salaires par niveau d'expérience
    """
    print("\n=== ANALYSE DES SALAIRES PAR NIVEAU D'EXPÉRIENCE ===")
    
    # Groupement par niveau d'expérience
    analyse = df.groupby('experience_level').agg({
        'salary': ['mean', 'median', 'count', 'std']
    }).round(2)
    
    print("\nStatistiques par niveau d'expérience :")
    print(analyse)
    
    # Calcul des écarts relatifs
    print("\nÉcarts de salaire entre niveaux :")
    niveaux = df['experience_level'].unique()
    for i in range(len(niveaux)-1):
        niveau_actuel = niveaux[i]
        niveau_suivant = niveaux[i+1]
        ecart = (df[df['experience_level']==niveau_suivant]['salary'].mean() - 
                df[df['experience_level']==niveau_actuel]['salary'].mean())
        print(f"Écart moyen {niveau_actuel} -> {niveau_suivant}: {ecart:,.2f}")
    
    return analyse

In [7]:
def main():
    # Chargement des données
    df = charger_dataset()
    
    if df is not None:
        # Exploration
        explorer_donnees(df)
        
        # Normalisation
        df = normaliser_salaires(df)
        
        # Réduction de dimension
        df_pca = reduction_dimension_pca(df)
        
        # Analyse par expérience
        analyse_exp = analyser_salaires_par_experience(df)
        
        print("\nAnalyse complétée avec succès !")

if __name__ == "__main__":
    main()

Dataset chargé avec succès !

=== EXPLORATION DES DONNÉES ===

Aperçu des premières lignes :
   Unnamed: 0       job_title   job_type experience_level       location  \
0           0  Data scientist  Full Time           Senior  New York City   
1           2  Data scientist  Full Time           Senior         Boston   
2           3  Data scientist  Full Time           Senior         London   
3           4  Data scientist  Full Time           Senior         Boston   
4           5  Data scientist  Full Time           Senior  New York City   

  salary_currency  salary  
0             USD  149000  
1             USD  120000  
2             USD   68000  
3             USD  120000  
4             USD  149000  

Informations sur le dataset :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1171 entries, 0 to 1170
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Unnamed: 0        1171 non-null   int64 
 1   jo