In [405]:
import pandas as pd
import numpy as np

## Énoncé
En tant que Data Scientist vous venez de décrocher une mission avec une plateforme d'éducation en ligne leader sur le marché européen, vous allez bientôt signer le contrat et vous consacrer au sujet pour les deux prochaines semaines.

Ce leader de l'EdTech voit grand, ayant une forte implantation en France et en Europe, les dirigeants souhaitent également se développer sur le territoire américain qui regorge d'opportunités pour la formation en ligne, de par la taille de la population et des besoins liés aux métiers du numérique. L'entreprise souhaite démarrer son implantation aux USA en sélectionnant les territoires géographiques les plus prometteurs afin de lancer des campagnes publicitaires ciblées.

## Mission
Pour cette mission, on vous demande de déterminer la liste des villes prioritaires en vous basant sur des données récoltées par l'administration et disponibles en open-data. Votre objectif est de **fournir des résultats impactants** afin de guider Lesley en charge du développement pour la région Amérique du Nord.

Pour ce travail, votre client a identifié [une source de données](https://data.ed.gov/dataset/college-scorecard-all-data-files-through-6-2020/resources?resource=658b5b83-ac9f-4e41-913e-9ba9411d7967) intéressante et a déjà initié une sélection de variables, à vous de compléter l'étude.

# Exercice
## Partie 1 - Inspection des données (10 minutes)
<img src='./oc_logo.png' width=15px /> Chargez le fichier `edtech_market_study_usa.csv` à l'aide de Pandas. Stockez le résultat du chargement dans la variable `df`.

Les colonnes du fichier sont uniquement séparées par des virgules.

In [406]:
df = pd.read_csv('edtech_market_study_usa.csv', sep=',')

<img src='./oc_logo.png' width=15px /> Pouvez-vous afficher les 5 premières lignes du dataframe pour vérifier que les données sont bien chargées ?

In [407]:
df.head(5)

Unnamed: 0,ID,NOM,VILLE,ETAT,LATITUDE,LONGITUDE,A_DISTANCE_SEULEMENT,NOMBRE_ETUDIANTS,AGE_ENTREE,COUT_MOYEN_ANNEE_ACADEMIE,TAUX_ADMISSION,DEFAUT_PAIEMENT_2ANNEES,DEFAUT_PAIEMENT_3ANNEES
0,100200,Alabama A & M University,Normal,AL,34.783368,-86.568502,0.0,1368,20.283741368,22489.0,0.8986,0.114,0.182
1,105200,University of Alabama at Birmingham,Birmingham,AL,33.505697,-86.799345,0.0,2730,23.60797466,24347.0,0.9211,0.06,0.057
2,2503400,Amridge University,Montgomery,AL,32.362609,-86.17401,1.0,135,33.672297297,17680.0,,0.071,0.11
3,105500,University of Alabama in Huntsville,Huntsville,AL,34.724557,-86.640449,0.0,1175,22.727919632,23441.0,0.8087,0.077,0.059
4,100500,Alabama State University,Montgomery,AL,32.364317,-86.295677,0.0,1281,20.130990415,21476.0,0.9774,0.132,0.203


<img src='./oc_logo.png' width=15px /> Combien de lignes et colonnes sont contenues dans `df` ?

In [408]:
df.shape

(6806, 13)

<img src='./oc_logo.png' width=15px /> Affichez le type des colonnes

In [409]:
df.dtypes

ID                             int64
NOM                           object
VILLE                         object
ETAT                          object
LATITUDE                     float64
LONGITUDE                    float64
A_DISTANCE_SEULEMENT         float64
NOMBRE_ETUDIANTS              object
AGE_ENTREE                    object
COUT_MOYEN_ANNEE_ACADEMIE    float64
TAUX_ADMISSION               float64
DEFAUT_PAIEMENT_2ANNEES      float64
DEFAUT_PAIEMENT_3ANNEES      float64
dtype: object

<img src='./oc_logo.png' width=15px /> Les deux colonnes `NOMBRE_ETUDIANTS` et `AGE_ENTREE` ne sont pas bien typées, corrigez cela.

In [410]:
df['NOMBRE_ETUDIANTS'].unique
df.loc[df['NOMBRE_ETUDIANTS']=='PrivacySuppressed','NOMBRE_ETUDIANTS']=np.nan
df['NOMBRE_ETUDIANTS']= pd.to_numeric(df['NOMBRE_ETUDIANTS'])
df.loc[df['AGE_ENTREE']=='PrivacySuppressed','AGE_ENTREE']=np.nan
df['AGE_ENTREE']= pd.to_numeric(df['AGE_ENTREE'])
df.dtypes

ID                             int64
NOM                           object
VILLE                         object
ETAT                          object
LATITUDE                     float64
LONGITUDE                    float64
A_DISTANCE_SEULEMENT         float64
NOMBRE_ETUDIANTS             float64
AGE_ENTREE                   float64
COUT_MOYEN_ANNEE_ACADEMIE    float64
TAUX_ADMISSION               float64
DEFAUT_PAIEMENT_2ANNEES      float64
DEFAUT_PAIEMENT_3ANNEES      float64
dtype: object

<img src='./oc_logo.png' width=15px /> Existe-t-il des valeurs manquantes dans ce jeu de données ?

In [411]:
df.isna().sum()

ID                              0
NOM                             0
VILLE                           0
ETAT                            0
LATITUDE                      475
LONGITUDE                     475
A_DISTANCE_SEULEMENT          475
NOMBRE_ETUDIANTS              747
AGE_ENTREE                    626
COUT_MOYEN_ANNEE_ACADEMIE    3375
TAUX_ADMISSION               4800
DEFAUT_PAIEMENT_2ANNEES      1296
DEFAUT_PAIEMENT_3ANNEES       927
dtype: int64

<img src='./oc_logo.png' width=15px /> Vérifions s'il existe des doublons pour la variable ID qui est un identifiant unique

In [412]:
df['ID'].duplicated().sum()

30

<img src='./oc_logo.png' width=15px /> Nous allons maintenant nous débarrasser des duplicatas en supprimant la version la moins bien renseignée

In [413]:
# on compte le nombre de valeurs manquantes pour la ligne et on stocke dans une nouvelle colonne
df['NB_NAN'] = df.isna().sum(axis=1)
# trie des lignes en fonction du nombre de valeurs manquantes
df.sort_values('NB_NAN', inplace=True)
# suppression des duplicatas en gardant les versions les mieux remplies
df.drop_duplicates('ID', keep='first', inplace=True)
df['ID'].duplicated().sum()

0

## Partie 2 - Exploration (2 heures)

<img src='./oc_logo.png' width=15px /> Combien d'établissements sont représentés dans ce fichier ?

In [414]:
df['ID'].count()

6776

<img src='./oc_logo.png' width=15px /> On souhaite savoir si la couverture des états est représentative, à savoir si le nombre d'établissements est significatif. **Donnez le nombre d'établissements par état**.

In [415]:
etab_state = df.groupby('ETAT')['ID'].count()
etab_state

ETAT
AK      9
AL     85
AR     92
AS      1
AZ    117
CA    701
CO    109
CT     80
DC     22
DE     21
FL    383
FM      1
GA    176
GU      3
HI     23
IA     86
ID     38
IL    263
IN    135
KS     80
KY     94
LA    125
MA    161
MD     87
ME     40
MH      1
MI    191
MN    117
MO    162
MP      1
MS     60
MT     33
NC    183
ND     28
NE     46
NH     38
NJ    167
NM     49
NV     39
NY    449
OH    298
OK    110
OR     77
PA    356
PR    142
PW      1
RI     23
SC     99
SD     29
TN    159
TX    433
UT     72
VA    166
VI      2
VT     25
WA    106
WI     98
WV     74
WY     10
Name: ID, dtype: int64

<img src='./oc_logo.png' width=15px /> Suite aux résultats de la question précédente, pensez-vous qu'il est normal que certains états possèdent si peu d'établissements ? Voici [un lien intéressant](https://www.factmonster.com/us/postal-information/state-abbreviations-and-state-postal-codes). 

Identifiez les états avec moins de 5 établissements éducatifs.

In [416]:
small_states = etab_state[etab_state<=5].index
small_states

Index(['AS', 'FM', 'GU', 'MH', 'MP', 'PW', 'VI'], dtype='object', name='ETAT')

<img src='./oc_logo.png' width=15px /> Supprimez les établissements situés dans ces états, nos résultats risquent de ne pas être assez représentatifs si on les exploite.

In [417]:
# df.drop(df[df['ETAT'].isin(small_states)].index, inplace=True)
df = df[~df['ETAT'].isin(small_states)]

<img src='./oc_logo.png' width=15px /> Quels sont les 3 états qui hébergent le plus d'établissements fonctionnant en mode à distance ?

In [418]:
df.groupby('ETAT')['A_DISTANCE_SEULEMENT'].sum().sort_values(ascending=False).head(3)

ETAT
CA    9.0
AZ    4.0
WV    3.0
Name: A_DISTANCE_SEULEMENT, dtype: float64

<img src='./oc_logo.png' width=15px /> Nous allons exploiter le taux de défaut de paiement de l'établissement pour se renseigner sur le potentiel local d'une formation à coût inférieur. 

Faites une moyenne des variables `DEFAUT_PAIEMENT_2ANNEES` et `DEFAUT_PAIEMENT_3ANNEES`, stockez le résultat dans une nouvelle colonne `DEFAUT_PAIEMENT`.

In [419]:
df['DEFAUT_PAIEMENT']=df[['DEFAUT_PAIEMENT_2ANNEES','DEFAUT_PAIEMENT_3ANNEES']].mean(axis=1)

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `DEFAUT_PAIEMENT` par zéro.

In [420]:
df['DEFAUT_PAIEMENT'] = df['DEFAUT_PAIEMENT'].replace(np.nan,0)

<img src='./oc_logo.png' width=15px /> Il serait intéressant de connaître le nombre d'étudiants potentiels par ville dans le but de cibler prioritairement les plus peuplées, une hypothétique opération publicitaire serait alors plus rentable.

Pour retrouver le nombre d'étudiants ayant fait une demande d'inscription, nous allons nous baser sur le nombre d'étudiants acceptés et sur le taux d'admission. 

Dans un premier temps remplacez les taux d'admission manquants par la valeur médiane de la variable.

In [421]:
df['TAUX_ADMISSION']=df['TAUX_ADMISSION'].replace(np.nan,df['TAUX_ADMISSION'].median())

<img src='./oc_logo.png' width=15px /> Supprimez les lignes ayant un taux d'admission nul, cela paraît peu probable.

In [422]:
df = df[df['TAUX_ADMISSION']>0]

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `NOMBRE_ETUDIANTS` en remplaçant par la valeur médiane de la variable.

In [423]:
df['NOMBRE_ETUDIANTS']=df['NOMBRE_ETUDIANTS'].replace(np.nan,df['NOMBRE_ETUDIANTS'].median())

<img src='./oc_logo.png' width=15px /> À l'aide d'un calcul savant, retrouvez le nombre d'étudiants ayant fait une demande d'inscription.

In [424]:
df['NOMBRE_ETUDIANTS_DEMANDEURS'] = df['NOMBRE_ETUDIANTS']/df['TAUX_ADMISSION']

<img src='./oc_logo.png' width=15px /> Nous utiliserons plus tard la variable `COUT_MOYEN_ANNEE_ACADEMIE`, afin de quantifier le budget éducation des étudiants. Avant cela, il faut remplacer les valeurs manquantes de la variable par la médiane.

In [425]:
df['COUT_MOYEN_ANNEE_ACADEMIE']=df['COUT_MOYEN_ANNEE_ACADEMIE'].replace(np.nan,df['COUT_MOYEN_ANNEE_ACADEMIE'].median())

### Création des scores 

<img src='./oc_logo.png' width=15px /> Nous allons maintenant créer un score entre 0 et 1 pour noter le critère population étudiante de chaque ville (1 ville pour la plus peuplée, 0 pour la moins peuplée).

Créez une colonne `SCORE_POP` contenant le score de la variable `NOMBRE_ETUDIANTS_DEMANDEURS`.

In [426]:
df['SCORE_POP'] = df['NOMBRE_ETUDIANTS']/df['NOMBRE_ETUDIANTS_DEMANDEURS'].max()

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_COUT` contenant le score issu de la variable `COUT_MOYEN_ANNEE_ACADEMIE`.

In [427]:
df['SCORE_COUT'] = df['COUT_MOYEN_ANNEE_ACADEMIE']/df['COUT_MOYEN_ANNEE_ACADEMIE'].max()

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_DEFAUT` contenant le score issu de la variable `DEFAUT_PAIEMENT`.

In [428]:
df['SCORE_DEFAUT'] = df['DEFAUT_PAIEMENT']/df['DEFAUT_PAIEMENT'].max()

<img src='./oc_logo.png' width=15px /> Par curiosité, on se demande si il existe une relation entre les variables `SCORE_DEFAUT` et `SCORE_COUT`. Pour démontrer cela, calculer la corrélation linéaire entre les deux variables.

In [429]:
print('r=', df[['SCORE_DEFAUT', 'SCORE_COUT']].corr().iloc[0,1])

r= -0.25598856286364796


<img src='./oc_logo.png' width=15px /> On souhaite identifier les écoles ayant un fort potentiel économique pour notre client, voici la liste des critères que l'on recherche :
- Nombre important d'étudiants
- Prix élevé de la formation
- Taux d'admission faible

Utilisez les scores calculés précédemment pour construire un nouvel indicateur (`SCORE_SYNT`) synthétisant ces propriétés.

In [439]:
df['SCORE_SYNT'] =  (df['SCORE_POP'] + df['SCORE_COUT'] + (1 - df['TAUX_ADMISSION'])) / 3

<img src='./oc_logo.png' width=15px /> Donnez la liste des 15 établissements les mieux classés par rapport à `SCORE_SYNT`

In [440]:
df.sort_values('SCORE_SYNT', ascending=False)[['NOM', 'ETAT', 'SCORE_POP', 'SCORE_COUT', 'TAUX_ADMISSION', 'SCORE_SYNT']].head(15)

Unnamed: 0,NOM,ETAT,SCORE_POP,SCORE_COUT,TAUX_ADMISSION,SCORE_SYNT
2153,Columbia University in the City of New York,NY,0.013686,0.772348,0.0591,0.575644
890,University of Chicago,IL,0.00575,0.785837,0.0726,0.572996
1492,Harvard University,MA,0.005873,0.738106,0.0473,0.56556
983,Northwestern University,IL,0.010693,0.757043,0.0847,0.561012
605,Yale University,CT,0.004472,0.739715,0.0635,0.560229
2992,University of Pennsylvania,PA,0.010626,0.753141,0.0841,0.559889
3841,Stanford University,CA,0.005582,0.717084,0.0436,0.559689
2413,Duke University,NC,0.008619,0.751917,0.0891,0.557145
3072,Brown University,RI,0.008115,0.737224,0.0767,0.556213
1959,Dartmouth College,NH,0.005257,0.745287,0.0874,0.554381


<img src='./oc_logo.png' width=15px /> Quels sont les 15 villes ayant les plus forts scores totaux ?

In [441]:
df.groupby('VILLE')[['VILLE', 'SCORE_POP', 'SCORE_COUT', 'TAUX_ADMISSION', 'SCORE_SYNT']].sum().sort_values('SCORE_SYNT', ascending=False).head(15)

Unnamed: 0_level_0,SCORE_POP,SCORE_COUT,TAUX_ADMISSION,SCORE_SYNT
VILLE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
New York,0.863773,27.171684,52.8903,19.381719
Chicago,1.44808,18.739787,48.195,13.664289
Houston,1.971793,16.596981,45.2818,13.095658
Los Angeles,0.443986,15.911045,34.5458,11.269744
Miami,0.601244,11.600581,33.9626,8.746408
Philadelphia,1.236584,12.733302,24.9637,8.668729
San Antonio,0.759308,10.874397,31.4057,8.409335
Atlanta,1.703088,10.046859,24.4662,8.094582
Brooklyn,0.331944,10.332586,36.6797,7.328277
Dallas,0.557328,9.542547,27.3729,6.908992


In [445]:
df.groupby('VILLE')[['VILLE', 'SCORE_POP', 'SCORE_COUT', 'TAUX_ADMISSION', 'SCORE_SYNT','A_DISTANCE_SEULEMENT']].sum().sort_values('SCORE_SYNT', ascending=False).head(15)

Unnamed: 0_level_0,SCORE_POP,SCORE_COUT,TAUX_ADMISSION,SCORE_SYNT,A_DISTANCE_SEULEMENT
VILLE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
New York,0.863773,27.171684,52.8903,19.381719,0.0
Chicago,1.44808,18.739787,48.195,13.664289,0.0
Houston,1.971793,16.596981,45.2818,13.095658,0.0
Los Angeles,0.443986,15.911045,34.5458,11.269744,0.0
Miami,0.601244,11.600581,33.9626,8.746408,0.0
Philadelphia,1.236584,12.733302,24.9637,8.668729,0.0
San Antonio,0.759308,10.874397,31.4057,8.409335,0.0
Atlanta,1.703088,10.046859,24.4662,8.094582,0.0
Brooklyn,0.331944,10.332586,36.6797,7.328277,0.0
Dallas,0.557328,9.542547,27.3729,6.908992,0.0


<img src='./oc_logo.png' width=15px /> Et les états ?

In [444]:
df.groupby('ETAT')[['ETAT', 'SCORE_POP', 'SCORE_COUT', 'TAUX_ADMISSION', 'SCORE_SYNT','A_DISTANCE_SEULEMENT']].sum().sort_values('SCORE_SYNT', ascending=False).head(15)

Unnamed: 0_level_0,SCORE_POP,SCORE_COUT,TAUX_ADMISSION,SCORE_SYNT,A_DISTANCE_SEULEMENT
ETAT,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
CA,9.535273,180.850802,480.5725,136.604525,9.0
NY,4.574724,127.790516,305.3332,91.344013,1.0
TX,8.738987,101.21103,301.4342,80.505272,1.0
FL,9.015471,94.673764,265.6467,73.680845,1.0
PA,8.624143,108.887533,253.1908,73.440292,0.0
OH,4.696831,77.891715,209.1235,57.155015,0.0
IL,3.543797,66.677624,181.0552,50.38874,0.0
MA,1.333169,57.882272,105.0249,38.396847,1.0
NC,4.160643,44.581437,121.9264,36.605227,1.0
MI,4.085186,47.055865,133.4562,36.228284,0.0


Coincidence avec le nombre d'établissements à distance ? ;)

<img src='./oc_logo.png' width=15px /> Conclusions

Vous venez d'identifier un ensemble de villes potentiellement intéressantes pour un développement commercial, il faut maintenant les présenter à votre client pour le convaincre de la pertinence de vos analyses !

Dans cet exercice vous avez appris à nettoyer et explorer un jeu de données pour en extraire des données exploitables (ici à travers les scores). Essayez toujours de présenter des résultats simples à comprendre, ici les scores sont directement issus des indicateurs, ils sont bornés entre 0 et 1.

<img src='./oc_logo.png' width=15px /> Perspectives d'amélioration

Nous n'avons pas exploité toutes les données, par exemple pour illustrer nos analyses il est indispensable de créer des visualisations graphiques avec matplotlib et seaborn, et pourquoi pas faire une carte interactive (avec folium) en utilisant lattitude et longitude.