# Exercice : analyse de données

## Import des données

Importer les 2 jeux de données all-ages.csv et recent-grads.csv

Voici la [documentation](https://github.com/fivethirtyeight/data/tree/master/college-majors) du dataset, tirée de [cet article](https://fivethirtyeight.com/features/the-economic-guide-to-picking-a-college-major/) par Five Thirty Eight.


[Five Thirty Eight](https://en.wikipedia.org/wiki/FiveThirtyEight) c'est un site d'analyses statistiques connu pour leurs analyses poussées et visualisations interactives concernant la politique et les élections américaines. Ils se sont fait connaitre au fil des années car leurs modèles statistiques battaient souvent les prédictions des sondages, notamment en 2012 lorsqu'ils ont correctement prédit les résultats des 51 états, battant absolument toutes les autres prédictions.


Voici quelques-uns de leur projets et visualisations interactives, je vous conseille fortement d'y jeter un coup d'oeil : https://projects.fivethirtyeight.com/

In [1]:
import pandas as pd
import numpy as np

In [2]:
aa = pd.read_csv('Data/all-ages.csv')
rg = pd.read_csv('Data/recent-grads.csv')

In [3]:
aa.info()
rg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173 entries, 0 to 172
Data columns (total 11 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Major_code                     173 non-null    int64  
 1   Major                          173 non-null    object 
 2   Major_category                 173 non-null    object 
 3   Total                          173 non-null    int64  
 4   Employed                       173 non-null    int64  
 5   Employed_full_time_year_round  173 non-null    int64  
 6   Unemployed                     173 non-null    int64  
 7   Unemployment_rate              173 non-null    float64
 8   Median                         173 non-null    int64  
 9   P25th                          173 non-null    int64  
 10  P75th                          173 non-null    float64
dtypes: float64(2), int64(7), object(2)
memory usage: 15.0+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17

In [4]:
print(rg[rg.isnull().sum(axis=1) > 0])

    Rank  Major_code                  Major  \
73    74        3801  MILITARY TECHNOLOGIES   

                         Major_category  Total  Sample_size   Men  Women  \
73  Industrial Arts & Consumer Services    124            4  1756   1323   

    ShareWomen  Employed  ...  Part_time  Full_time_year_round  Unemployed  \
73    0.429685         0  ...          0                   111           0   

    Unemployment_rate  Median  P25th  P75th  College_jobs  Non_college_jobs  \
73                NaN   40000  40000  40000             0                 0   

    Low_wage_jobs  
73              0  

[1 rows x 21 columns]


In [5]:
# après nettoyage des " dans les csv , il reste juste une valeur manquante
# il s'agit du taux de chômage mais on sait qu'il y a personne au chômage dans cette major
# on peut donc dire que le taux de chômage est 0
rg.loc[rg.isnull().sum(axis=1) > 0, 'Unemployment_rate'] = 0

In [6]:
rg[rg.isnull().sum(axis=1) > 0]

Unnamed: 0,Rank,Major_code,Major,Major_category,Total,Sample_size,Men,Women,ShareWomen,Employed,...,Part_time,Full_time_year_round,Unemployed,Unemployment_rate,Median,P25th,P75th,College_jobs,Non_college_jobs,Low_wage_jobs


In [7]:
# on peut éventuellement fusionner les 2 dataframes
# on vérifie que major_code est bien une varialble identifiante et identique dans les 2 df
print(len(aa.Major_code.unique()), len(rg.Major_code.unique()))
a = np.sort(aa.Major_code.unique())
b = np.sort(rg.Major_code.unique())
np.sum(a == b)

173 173


173

In [8]:
# on fusionne sur cette variable
df = pd.merge(aa, rg, on="Major_code", suffixes=('_aa', '_rg'))
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173 entries, 0 to 172
Data columns (total 31 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Major_code                     173 non-null    int64  
 1   Major_aa                       173 non-null    object 
 2   Major_category_aa              173 non-null    object 
 3   Total_aa                       173 non-null    int64  
 4   Employed_aa                    173 non-null    int64  
 5   Employed_full_time_year_round  173 non-null    int64  
 6   Unemployed_aa                  173 non-null    int64  
 7   Unemployment_rate_aa           173 non-null    float64
 8   Median_aa                      173 non-null    int64  
 9   P25th_aa                       173 non-null    int64  
 10  P75th_aa                       173 non-null    float64
 11  Rank                           173 non-null    int64  
 12  Major_rg                       173 non-null    obj

## Calculer le nombre d'étudiants par catégorie de Major (Major_category) dans chaque dataset

#### Contraintes:
- Définir une fonction permettant ce calcul et prenant commme paramètre un dataframe. Quel est l'intérêt d'une telle solution ?
- Le refaire d'une seconde manière avec une méthode déjà vue et permettant d'obtenir des tableaux croisés à partir d'un dataframe...

In [9]:
# RAPPEL
# vous voulez sélection des colonnes pour certaines observations
# .loc[lignes, colonnes] -> avec noms de colonnes
# .iloc[lignes, colonnes] -> avec positions des colonnes

# juste sélectionner une ou plusieurs colonnes
# df[["nom1", "nom2"]]
# df["nom1"] <==> df.nom1

In [10]:
nb_stud = lambda df : df.groupby("Major_category").Total.sum()

nb_stud(aa), nb_stud(rg)

(Major_category
 Agriculture & Natural Resources         632437
 Arts                                   1805865
 Biology & Life Science                 1338186
 Business                               9858741
 Communications & Journalism            1803822
 Computers & Mathematics                1781378
 Education                              4700118
 Engineering                            3576013
 Health                                 2950859
 Humanities & Liberal Arts              3738335
 Industrial Arts & Consumer Services    1033798
 Interdisciplinary                        45199
 Law & Public Policy                     902926
 Physical Sciences                      1025318
 Psychology & Social Work               1987278
 Social Science                         2654125
 Name: Total, dtype: int64,
 Major_category
 Agriculture & Natural Resources          79981
 Arts                                    357130
 Biology & Life Science                  453862
 Business                   

In [11]:
res = aa.pivot_table(index="Major_category", values="Total", aggfunc="sum")
res.rename(columns={"Total":"Total_aa"}, inplace=True)
res['Total_rg'] = rg.pivot_table(index="Major_category", values="Total", aggfunc="sum")
res

Unnamed: 0_level_0,Total_aa,Total_rg
Major_category,Unnamed: 1_level_1,Unnamed: 2_level_1
Agriculture & Natural Resources,632437,79981
Arts,1805865,357130
Biology & Life Science,1338186,453862
Business,9858741,1302376
Communications & Journalism,1803822,392601
Computers & Mathematics,1781378,299008
Education,4700118,559129
Engineering,3576013,537583
Health,2950859,463230
Humanities & Liberal Arts,3738335,713468


## Taux de jobs à faible salaire

Utiliser les colonnes "Low_wage_jobs" et "Total" pour calculer la proportion de jeunes diplômés (donc recent_grads) qui ont du accepter des jobs à faible salaire. Interprétez ce résultat !

In [12]:
round(rg.Low_wage_jobs.sum()/rg.Total.sum() * 100, 2)

9.85

In [13]:
rg["low_wage_jobs_rate"] = rg.Low_wage_jobs/ rg.Total
rg.pivot_table(index="Major_category", values="low_wage_jobs_rate", aggfunc="mean")

Unnamed: 0_level_0,low_wage_jobs_rate
Major_category,Unnamed: 1_level_1
Agriculture & Natural Resources,0.080408
Arts,0.184417
Biology & Life Science,0.074043
Business,0.091599
Communications & Journalism,0.125711
Computers & Mathematics,0.059442
Education,0.0784
Engineering,0.051016
Health,0.090949
Humanities & Liberal Arts,0.134025


## Comparer les données : déterminer le nombre de Major pour lesquelles les jeunes diplômés ont un taux de chômage plus faible qu'en population générale

Indications :
- Créer un compteur
- Utiliser une boucle for pour parcourir toutes les majors.
>- Comparer les valeurs pour la colonne "Unemployment_rate" pour voir lequel des 2 DataFrames possèdent la valeur la plus basse
>- Incrémenter le compteur si la valeur pour Unemployment_rate est plus petite dans le dataframe recent_grads que dans le dataframe all_ages
- Afficher le résultat du compteur.
- On pourra aussi éventuellement stocker dans une liste les majors concernées

In [18]:
cpt = 0
majors = []
for m in rg["Major"].unique():
    tx_rg = rg.loc[rg.Major == m, "Unemployment_rate"].values
    tx_aa = aa.loc[aa.Major == m, "Unemployment_rate"].values
    if tx_rg < tx_aa :
        cpt += 1
        majors.append(m)
cpt, majors

(44,
 ['PETROLEUM ENGINEERING',
  'METALLURGICAL ENGINEERING',
  'ASTRONOMY AND ASTROPHYSICS',
  'ENGINEERING MECHANICS PHYSICS AND SCIENCE',
  'INDUSTRIAL AND MANUFACTURING ENGINEERING',
  'ARCHITECTURAL ENGINEERING',
  'COURT REPORTING',
  'MATERIALS ENGINEERING AND MATERIALS SCIENCE',
  'MISCELLANEOUS FINE ARTS',
  'INDUSTRIAL PRODUCTION TECHNOLOGIES',
  'MATHEMATICS',
  'PHYSICS',
  'ENGINEERING AND INDUSTRIAL MANAGEMENT',
  'MATHEMATICS AND COMPUTER SCIENCE',
  'GENERAL AGRICULTURE',
  'MISCELLANEOUS ENGINEERING TECHNOLOGIES',
  'GENETICS',
  'UNITED STATES HISTORY',
  'PHYSICAL SCIENCES',
  'MILITARY TECHNOLOGIES',
  'CHEMISTRY',
  'ELECTRICAL, MECHANICAL, AND PRECISION TECHNOLOGIES AND PRODUCTION',
  'BOTANY',
  'HUMAN RESOURCES AND PERSONNEL MANAGEMENT',
  'GEOSCIENCES',
  'SOCIAL PSYCHOLOGY',
  'AREA ETHNIC AND CIVILIZATION STUDIES',
  'SPECIAL NEEDS EDUCATION',
  'NEUROSCIENCE',
  'MULTI/INTERDISCIPLINARY STUDIES',
  'ATMOSPHERIC SCIENCES AND METEOROLOGY',
  'SOIL SCIENCE',
 

### Même question avec major_category
Il y a plusieurs observations par catégorie, on utilise donc la moyenne agrégée pour les diplômés récents et le reste des étudiants : 

In [21]:
unemp_rate_rg = rg.groupby('Major_category').Unemployment_rate.mean()
unemp_rate_aa = aa.groupby('Major_category').Unemployment_rate.mean()

In [22]:
unemp_rate_rg < unemp_rate_aa

Major_category
Agriculture & Natural Resources        False
Arts                                   False
Biology & Life Science                 False
Business                               False
Communications & Journalism            False
Computers & Mathematics                False
Education                              False
Engineering                            False
Health                                 False
Humanities & Liberal Arts              False
Industrial Arts & Consumer Services     True
Interdisciplinary                       True
Law & Public Policy                    False
Physical Sciences                       True
Psychology & Social Work                True
Social Science                         False
Name: Unemployment_rate, dtype: bool