In [2]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

# 1. Charger le dataset
df = pd.read_csv(r"C:\Users\isaac\Documents\Pst&b\Bootcamp\S2\J3\Data Science Job Salary dataset\Data Science Job Salary dataset\datascience_salaries.csv")

# 2. Normaliser la colonne 'salary' avec Min-Max Scaling
scaler = MinMaxScaler()
df['salary_normalized'] = scaler.fit_transform(df[['salary']])

# 3. Réduction de dimension avec PCA (on garde 2 composantes principales)
# On sélectionne uniquement les colonnes numériques
numeric_df = df.select_dtypes(include=['int64', 'float64'])
pca = PCA(n_components=2)
pca_result = pca.fit_transform(numeric_df.drop(columns=['salary']))  # on exclut la colonne d'origine non normalisée
df['pca_1'] = pca_result[:, 0]
df['pca_2'] = pca_result[:, 1]

# 4. Agrégation par niveau d'expérience (moyenne et médiane du salaire)
agg = df.groupby('experience_level')['salary'].agg(['mean', 'median']).reset_index()

# 5. Affichage des résultats
print("✅ Moyenne et médiane des salaires par niveau d'expérience :")
print(agg)

# Optionnel : aperçu des nouvelles colonnes
print("\n✅ Exemple de données normalisées et PCA :")
print(df[['salary', 'salary_normalized', 'pca_1', 'pca_2']].head())


✅ Moyenne et médiane des salaires par niveau d'expérience :
  experience_level          mean   median
0            Entry  36111.111111  30000.0
1        Executive  76076.923077  46000.0
2              Mid  51786.885246  51000.0
3           Senior  75088.033012  68000.0

✅ Exemple de données normalisées et PCA :
   salary  salary_normalized       pca_1     pca_2
0  149000           0.601010 -931.620836  0.427553
1  120000           0.454545 -929.620836  0.281083
2   68000           0.191919 -928.620837  0.018454
3  120000           0.454545 -927.620836  0.281077
4  149000           0.601010 -926.620836  0.427539


In [None]:
!git add .
!git commit -m "Add sample data files and initial scripts"
!git push origin main