# üìä Visualisation Simple des Donn√©es - Salaires

Exploration visuelle simple du dataset des salaires d'employ√©s.


## 1. Import et Chargement des Donn√©es


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configuration
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

# Chargement
df = pd.read_csv('data/employee_salaries.csv')
print(f"Dataset : {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
df.head()


## 2. Distribution du Salaire


In [None]:
plt.figure(figsize=(10, 6))
plt.hist(df['salaire_annuel'], bins=50, color='steelblue', edgecolor='black')
plt.axvline(df['salaire_annuel'].mean(), color='red', linestyle='--', label='Moyenne')
plt.axvline(df['salaire_annuel'].median(), color='green', linestyle='--', label='M√©diane')
plt.xlabel('Salaire Annuel (‚Ç¨)')
plt.ylabel('Fr√©quence')
plt.title('Distribution du Salaire Annuel')
plt.legend()
plt.show()


## 3. Corr√©lations avec le Salaire


In [None]:
# Matrice de corr√©lation
colonnes_num = df.select_dtypes(include=[np.number]).columns
correlation = df[colonnes_num].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation, annot=True, fmt='.2f', cmap='coolwarm', center=0)
plt.title('Matrice de Corr√©lation')
plt.tight_layout()
plt.show()

# Top corr√©lations
print("\nTop 5 corr√©lations avec le salaire:")
print(correlation['salaire_annuel'].sort_values(ascending=False)[1:6])


## 4. Salaire vs Exp√©rience


In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(df['experience'], df['salaire_annuel'], alpha=0.5)
plt.xlabel('Exp√©rience (ann√©es)')
plt.ylabel('Salaire Annuel (‚Ç¨)')
plt.title('Salaire vs Exp√©rience')
plt.show()


## 5. Salaire par Poste


In [None]:
salaire_poste = df.groupby('poste')['salaire_annuel'].mean().sort_values()

plt.figure(figsize=(10, 6))
salaire_poste.plot(kind='barh', color='steelblue')
plt.xlabel('Salaire Moyen (‚Ç¨)')
plt.ylabel('Poste')
plt.title('Salaire Moyen par Poste')
plt.tight_layout()
plt.show()


## 6. Salaire par Niveau d'√âducation


In [None]:
salaire_educ = df.groupby('niveau_education')['salaire_annuel'].mean().sort_values()

plt.figure(figsize=(10, 6))
salaire_educ.plot(kind='barh', color='coral')
plt.xlabel('Salaire Moyen (‚Ç¨)')
plt.ylabel("Niveau d'√âducation")
plt.title("Salaire Moyen par Niveau d'√âducation")
plt.tight_layout()
plt.show()


## 7. Salaire par D√©partement


In [None]:
salaire_dept = df.groupby('departement')['salaire_annuel'].mean().sort_values()

plt.figure(figsize=(10, 6))
salaire_dept.plot(kind='barh', color='lightgreen')
plt.xlabel('Salaire Moyen (‚Ç¨)')
plt.ylabel('D√©partement')
plt.title('Salaire Moyen par D√©partement')
plt.tight_layout()
plt.show()


## 8. Boxplot du Salaire par Ville


In [None]:
plt.figure(figsize=(12, 6))
df.boxplot(column='salaire_annuel', by='ville', figsize=(12, 6))
plt.title('Distribution du Salaire par Ville')
plt.suptitle('')  # Enlever le titre par d√©faut
plt.xlabel('Ville')
plt.ylabel('Salaire Annuel (‚Ç¨)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
