**Apprendre l'exploration de données avec Pandas en analysant les salaires post-universitaires des diplômés par spécialité**

Les diplômes universitaires sont très coûteux aux Etats Unis. Mais sont-ils rentables ? 
Le choix de la philosophie ou des relations internationales comme filière a peut-être inquiété certains parents, mais les données confirment-elles leurs craintes ? 
PayScale Inc. a mené une enquête d'un an auprès de 1,2 million d'Américains n'ayant qu'une licence. Nous allons nous pencher sur ces données et utiliser Pandas pour répondre à ces questions :


1. Quels sont les diplômes pour lesquels les salaires de départ sont les plus élevés ? 

2. Quelles sont les filières qui rapportent le moins après l'université ?

3. Quels sont les diplômes qui ont le potentiel de gain le plus élevé ?

4. Quelles sont les disciplines universitaires les moins risquées du point de vue des revenus ?

5. Les diplômes en commerce, en STEM (sciences, technologie, ingénierie, mathématiques) ou en HASS (sciences humaines, arts, sciences sociales) sont-ils plus rémunérateurs en moyenne ?

In [1]:
import pandas as pd

salaires = pd.read_csv("salaries_by_college_major.csv")

In [2]:
salaires.head()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,Accounting,46000.0,77100.0,42200.0,152000.0,Business
1,Aerospace Engineering,57700.0,101000.0,64300.0,161000.0,STEM
2,Agriculture,42600.0,71900.0,36300.0,150000.0,Business
3,Anthropology,36800.0,61500.0,33800.0,138000.0,HASS
4,Architecture,41600.0,76800.0,50600.0,136000.0,Business


In [3]:
salaires.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS
50,Source: PayScale Inc.,,,,,


In [4]:
salaires.isna().sum()

Undergraduate Major                  0
Starting Median Salary               1
Mid-Career Median Salary             1
Mid-Career 10th Percentile Salary    1
Mid-Career 90th Percentile Salary    1
Group                                1
dtype: int64

Hormis la colonne **Undergraduate Major**, on note une valeur manquante sur chaque colonne, car la dernière ligne du jeux de données représente la source (**PayScale Inc**).

In [5]:
salaires.dropna(inplace=True)

In [8]:
salaires.isna().sum()

Undergraduate Major                  0
Starting Median Salary               0
Mid-Career Median Salary             0
Mid-Career 10th Percentile Salary    0
Mid-Career 90th Percentile Salary    0
Group                                0
dtype: int64

In [9]:
salaires.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50 entries, 0 to 49
Data columns (total 6 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   Undergraduate Major                50 non-null     object 
 1   Starting Median Salary             50 non-null     float64
 2   Mid-Career Median Salary           50 non-null     float64
 3   Mid-Career 10th Percentile Salary  50 non-null     float64
 4   Mid-Career 90th Percentile Salary  50 non-null     float64
 5   Group                              50 non-null     object 
dtypes: float64(4), object(2)
memory usage: 2.7+ KB


In [10]:
salaires.describe()

Unnamed: 0,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary
count,50.0,50.0,50.0,50.0
mean,44310.0,74786.0,43408.0,142766.0
std,9360.866217,16088.40386,12000.779567,27851.249267
min,34000.0,52000.0,26700.0,96400.0
25%,37050.0,60825.0,34825.0,124250.0
50%,40850.0,72000.0,39400.0,145500.0
75%,49875.0,88750.0,49850.0,161750.0
max,74300.0,107000.0,71900.0,210000.0


In [25]:
id_max = salaires["Starting Median Salary"].idxmax()
revenus_max = salaires["Undergraduate Major"].loc[id_max]

print(f"Les diplômes pour lesquels les salaires de départ sont les plus élevés: {revenus_max}.")

Les diplômes pour lesquels les salaires de départ sont les plus élevés: Physician Assistant.


In [28]:
id_min = salaires["Starting Median Salary"].idxmin()
revenus_min = salaires["Undergraduate Major"].loc[id_min]
print(f"Les filières qui rapportent le moins après l'université: {revenus_min}")

Les filières qui rapportent le moins après l'université: Spanish


**Les diplômes qui ont le potentiel de gain le plus élevé**

In [31]:
potentiel_gain = salaires[["Undergraduate Major", "Mid-Career 90th Percentile Salary"]]\
    .sort_values("Mid-Career 90th Percentile Salary", ascending=False).head()

potentiel_gain

Unnamed: 0,Undergraduate Major,Mid-Career 90th Percentile Salary
17,Economics,210000.0
22,Finance,195000.0
8,Chemical Engineering,194000.0
37,Math,183000.0
44,Physics,178000.0


**Les disciplines universitaires les moins risquées du point de vue des revenus ?**

In [32]:
salaires.insert(1, "ecart", \
                salaires['Mid-Career 90th Percentile Salary'] - salaires['Mid-Career 10th Percentile Salary'])

In [33]:
salaires.head()

Unnamed: 0,Undergraduate Major,ecart,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,Accounting,109800.0,46000.0,77100.0,42200.0,152000.0,Business
1,Aerospace Engineering,96700.0,57700.0,101000.0,64300.0,161000.0,STEM
2,Agriculture,113700.0,42600.0,71900.0,36300.0,150000.0,Business
3,Anthropology,104200.0,36800.0,61500.0,33800.0,138000.0,HASS
4,Architecture,85400.0,41600.0,76800.0,50600.0,136000.0,Business


In [34]:
moins_risquees = salaires[["Undergraduate Major", "ecart"]]\
    .sort_values("ecart", ascending=False).head()

moins_risquees

Unnamed: 0,Undergraduate Major,ecart
17,Economics,159400.0
22,Finance,147800.0
37,Math,137800.0
36,Marketing,132900.0
42,Philosophy,132500.0


**Rémunérations moyennes des diplômes en commerce, en STEM (sciences, technologie, ingénierie, mathématiques) ou en HASS (sciences humaines, arts, sciences sociales)**

In [36]:
pd.options.display.float_format = '{:,.2f}'.format # Arrondi au 100è
salaires.groupby("Group").mean()

Unnamed: 0_level_0,ecart,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Business,103958.33,44633.33,75083.33,43566.67,147525.0
HASS,95218.18,37186.36,62968.18,34145.45,129363.64
STEM,101600.0,53862.5,90812.5,56025.0,157625.0
