In [43]:
import pandas as pd
import numpy as np

## Énoncé
En tant que Data Scientist vous venez de décrocher une mission avec une plateforme d'éducation en ligne leader sur le marché européen, vous allez bientôt signer le contrat et vous consacrer au sujet pour les deux prochaines semaines.

Ce leader de l'EdTech voit grand, ayant une forte implantation en France et en Europe, les dirigeants souhaitent également se développer sur le territoire américain qui regorge d'opportunités pour la formation en ligne, de par la taille de la population et des besoins liés aux métiers du numérique. L'entreprise souhaite démarrer son implantation aux USA en sélectionnant les territoires géographiques les plus prometteurs afin de lancer des campagnes publicitaires ciblées.

## Mission
Pour cette mission, on vous demande de déterminer la liste des villes prioritaires en vous basant sur des données récoltées par l'administration et disponibles en open-data. Votre objectif est de **fournir des résultats impactants** afin de guider Lesley en charge du développement pour la région Amérique du Nord.

Pour ce travail, votre client a identifié [une source de données](https://data.ed.gov/dataset/college-scorecard-all-data-files-through-6-2020/resources?resource=658b5b83-ac9f-4e41-913e-9ba9411d7967) intéressante et a déjà initié une sélection de variables, à vous de compléter l'étude.

# Exercice
## Partie 1 - Inspection des données (10 minutes)
<img src='./oc_logo.png' width=15px /> Chargez le fichier `edtech_market_study_usa.csv` à l'aide de Pandas. Stockez le résultat du chargement dans la variable `df`.

Les colonnes du fichier sont uniquement séparées par des virgules.

In [47]:
df = pd.read_csv('edtech_market_study_usa.csv', sep=',')

<img src='./oc_logo.png' width=15px /> Pouvez-vous afficher les 5 premières lignes du dataframe pour vérifier que les données sont bien chargées ?

In [54]:
print(df.head(5))

        ID                                  NOM       VILLE ETAT   LATITUDE  \
0   100200             Alabama A & M University      Normal   AL  34.783368   
1   105200  University of Alabama at Birmingham  Birmingham   AL  33.505697   
2  2503400                   Amridge University  Montgomery   AL  32.362609   
3   105500  University of Alabama in Huntsville  Huntsville   AL  34.724557   
4   100500             Alabama State University  Montgomery   AL  32.364317   

   LONGITUDE  A_DISTANCE_SEULEMENT NOMBRE_ETUDIANTS    AGE_ENTREE  \
0 -86.568502                   0.0             1368  20.283741368   
1 -86.799345                   0.0             2730   23.60797466   
2 -86.174010                   1.0              135  33.672297297   
3 -86.640449                   0.0             1175  22.727919632   
4 -86.295677                   0.0             1281  20.130990415   

   COUT_MOYEN_ANNEE_ACADEMIE  TAUX_ADMISSION  DEFAUT_PAIEMENT_2ANNEES  \
0                    22489.0         

<img src='./oc_logo.png' width=15px /> Combien de lignes et colonnes sont contenues dans `df` ?

In [58]:
print(df.shape)

(6806, 13)


<img src='./oc_logo.png' width=15px /> Affichez le type des colonnes

In [62]:
print(df.columns)

Index(['ID', 'NOM', 'VILLE', 'ETAT', 'LATITUDE', 'LONGITUDE',
       'A_DISTANCE_SEULEMENT', 'NOMBRE_ETUDIANTS', 'AGE_ENTREE',
       'COUT_MOYEN_ANNEE_ACADEMIE', 'TAUX_ADMISSION',
       'DEFAUT_PAIEMENT_2ANNEES', 'DEFAUT_PAIEMENT_3ANNEES'],
      dtype='object')


<img src='./oc_logo.png' width=15px /> Les deux colonnes `NOMBRE_ETUDIANTS` et `AGE_ENTREE` ne sont pas bien typées, corrigez cela.

In [66]:
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['NOMBRE_ETUDIANTS'] == 'PrivacySuppressed', 'NOMBRE_ETUDIANTS'] = np.nan
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['AGE_ENTREE'] == 'PrivacySuppressed', 'AGE_ENTREE'] = np.nan
df['NOMBRE_ETUDIANTS'] = pd.to_numeric(df['NOMBRE_ETUDIANTS'])
df['AGE_ENTREE'] = pd.to_numeric(df['AGE_ENTREE'])

<img src='./oc_logo.png' width=15px /> Existe-t-il des valeurs manquantes dans ce jeu de données ?

In [70]:
df.isnull().sum()

ID                              0
NOM                             0
VILLE                           0
ETAT                            0
LATITUDE                      475
LONGITUDE                     475
A_DISTANCE_SEULEMENT          475
NOMBRE_ETUDIANTS              747
AGE_ENTREE                    626
COUT_MOYEN_ANNEE_ACADEMIE    3375
TAUX_ADMISSION               4800
DEFAUT_PAIEMENT_2ANNEES      1296
DEFAUT_PAIEMENT_3ANNEES       927
dtype: int64

<img src='./oc_logo.png' width=15px /> Vérifions s'il existe des doublons pour la variable ID qui est un identifiant unique

In [74]:
df.duplicated('ID').sum()

30

<img src='./oc_logo.png' width=15px /> Nous allons maintenant nous débarrasser des duplicatas en supprimant la version la moins bien renseignée

In [78]:
# on compte le nombre de valeurs manquantes pour la ligne et on stocke dans une nouvelle colonne
df['NB_NAN'] = df.isna().sum(axis=1)
# trie des lignes en fonction du nombre de valeurs manquantes
df = df.sort_values('NB_NAN')
# suppression des duplicatas en gardant les versions les mieux remplies
df = df.drop_duplicates('ID', keep='first')
# on supprime la colonne qui n'est plus utile
df = df.drop('NB_NAN', axis=1)

## Partie 2 - Exploration (2 heures)

<img src='./oc_logo.png' width=15px /> Combien d'établissements sont représentés dans ce fichier ?

In [81]:
len(df)

6776

<img src='./oc_logo.png' width=15px /> On souhaite savoir si la couverture des états est représentative, à savoir si le nombre d'établissements est significatif. **Donnez le nombre d'établissements par état**.

In [85]:
df_Etat_Representative= df["ETAT"].value_counts()

<img src='./oc_logo.png' width=15px /> Suite aux résultats de la question précédente, pensez-vous qu'il est normal que certains états possèdent si peu d'établissements ? Voici [un lien intéressant](https://www.factmonster.com/us/postal-information/state-abbreviations-and-state-postal-codes). 

Identifiez les états avec moins de 5 établissements éducatifs.

In [89]:
df_moins_5Etat= df['ETAT'].value_counts()[df['ETAT'].value_counts() < 5].index

<img src='./oc_logo.png' width=15px /> Supprimez les établissements situés dans ces états, nos résultats risquent de ne pas être assez représentatifs si on les exploite.

In [97]:
df_moins_5Etat= df[~df['ETAT'].isin(df_moins_5Etat)]

<img src='./oc_logo.png' width=15px /> Quels sont les 3 états qui hébergent le plus d'établissements fonctionnant en mode à distance ?

In [101]:
print(df[df['A_DISTANCE_SEULEMENT'] == 1.0]['ETAT'].value_counts().head(3))

ETAT
CA    9
AZ    4
WV    3
Name: count, dtype: int64


<img src='./oc_logo.png' width=15px /> Nous allons exploiter le taux de défaut de paiement de l'établissement pour se renseigner sur le potentiel local d'une formation à coût inférieur. 

Faites une moyenne des variables `DEFAUT_PAIEMENT_2ANNEES` et `DEFAUT_PAIEMENT_3ANNEES`, stockez le résultat dans une nouvelle colonne `DEFAUT_PAIEMENT`.

In [105]:
df['DEFAUT_PAIEMENT'] = df[['DEFAUT_PAIEMENT_2ANNEES', 'DEFAUT_PAIEMENT_3ANNEES']].mean(axis=1)

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `DEFAUT_PAIEMENT` par zéro.

In [109]:
df['DEFAUT_PAIEMENT'] = df['DEFAUT_PAIEMENT'].fillna(0)

<img src='./oc_logo.png' width=15px /> Il serait intéressant de connaître le nombre d'étudiants potentiels par ville dans le but de cibler prioritairement les plus peuplées, une hypothétique opération publicitaire serait alors plus rentable.

Pour retrouver le nombre d'étudiants ayant fait une demande d'inscription, nous allons nous baser sur le nombre d'étudiants acceptés et sur le taux d'admission. 

Dans un premier temps remplacez les taux d'admission manquants par la valeur médiane de la variable.

In [113]:
median_admission = df['TAUX_ADMISSION'].median()

<img src='./oc_logo.png' width=15px /> Supprimez les lignes ayant un taux d'admission nul, cela paraît peu probable.

In [117]:
df['TAUX_ADMISSION'] = df['TAUX_ADMISSION'].fillna(median_admission)

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `NOMBRE_ETUDIANTS` en remplaçant par la valeur médiane de la variable.

In [123]:
median_etudiants = df['NOMBRE_ETUDIANTS'].median()
df['NOMBRE_ETUDIANTS'] = df['NOMBRE_ETUDIANTS'].fillna(median_etudiants)

<img src='./oc_logo.png' width=15px /> À l'aide d'un calcul savant, retrouvez le nombre d'étudiants ayant fait une demande d'inscription.

In [127]:
df['NOMBRE_ETUDIANTS_DEMANDEURS'] = df['NOMBRE_ETUDIANTS'] / df['TAUX_ADMISSION']

<img src='./oc_logo.png' width=15px /> Nous utiliserons plus tard la variable `COUT_MOYEN_ANNEE_ACADEMIE`, afin de quantifier le budget éducation des étudiants. Avant cela, il faut remplacer les valeurs manquantes de la variable par la médiane.

In [131]:
median_cout = df['COUT_MOYEN_ANNEE_ACADEMIE'].median()
df['COUT_MOYEN_ANNEE_ACADEMIE'] = df['COUT_MOYEN_ANNEE_ACADEMIE'].fillna(median_cout)

### Création des scores 

<img src='./oc_logo.png' width=15px /> Nous allons maintenant créer un score entre 0 et 1 pour noter le critère population étudiante de chaque ville (1 ville pour la plus peuplée, 0 pour la moins peuplée).

Créez une colonne `SCORE_POP` contenant le score de la variable `NOMBRE_ETUDIANTS_DEMANDEURS`.

In [136]:
df['SCORE_POP'] = (df['NOMBRE_ETUDIANTS_DEMANDEURS'] - df['NOMBRE_ETUDIANTS_DEMANDEURS'].min()) / (df['NOMBRE_ETUDIANTS_DEMANDEURS'].max() - df['NOMBRE_ETUDIANTS_DEMANDEURS'].min())

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_COUT` contenant le score issu de la variable `COUT_MOYEN_ANNEE_ACADEMIE`.

In [140]:
df['SCORE_COUT'] = (df['COUT_MOYEN_ANNEE_ACADEMIE'] - df['COUT_MOYEN_ANNEE_ACADEMIE'].min()) / (df['COUT_MOYEN_ANNEE_ACADEMIE'].max() - df['COUT_MOYEN_ANNEE_ACADEMIE'].min())

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_DEFAUT` contenant le score issu de la variable `DEFAUT_PAIEMENT`.

In [144]:
df['SCORE_DEFAUT'] = (df['DEFAUT_PAIEMENT'] - df['DEFAUT_PAIEMENT'].min()) / (df['DEFAUT_PAIEMENT'].max() - df['DEFAUT_PAIEMENT'].min())

<img src='./oc_logo.png' width=15px /> Par curiosité, on se demande si il existe une relation entre les variables `SCORE_DEFAUT` et `SCORE_COUT`. Pour démontrer cela, calculer la corrélation linéaire entre les deux variables.

In [148]:
print(df[['SCORE_DEFAUT', 'SCORE_COUT']].corr())

              SCORE_DEFAUT  SCORE_COUT
SCORE_DEFAUT      1.000000   -0.253592
SCORE_COUT       -0.253592    1.000000


<img src='./oc_logo.png' width=15px /> On souhaite identifier les écoles ayant un fort potentiel économique pour notre client, voici la liste des critères que l'on recherche :
- Nombre important d'étudiants
- Prix élevé de la formation
- Taux d'admission faible

Utilisez les scores calculés précédemment pour construire un nouvel indicateur (`SCORE_SYNT`) synthétisant ces propriétés.

In [152]:
df['SCORE_SYNT'] = (df['SCORE_POP'] + df['SCORE_COUT'] + (1 - df['TAUX_ADMISSION'])) / 3

<img src='./oc_logo.png' width=15px /> Donnez la liste des 15 établissements les mieux classés par rapport à `SCORE_SYNT`

In [156]:
top_15_etablissements = df[['NOM', 'ETAT', 'SCORE_POP', 'SCORE_COUT', 'TAUX_ADMISSION', 'SCORE_SYNT']].sort_values('SCORE_SYNT', ascending=False).head(15)
print(top_15_etablissements)

                                              NOM ETAT  SCORE_POP  SCORE_COUT  \
890                         University of Chicago   IL        0.0    0.776587   
2153  Columbia University in the City of New York   NY        0.0    0.762516   
1492                           Harvard University   MA        0.0    0.726795   
605                               Yale University   CT        0.0    0.728473   
983                       Northwestern University   IL        0.0    0.746550   
3841                          Stanford University   CA        0.0    0.704866   
2992                   University of Pennsylvania   PA        0.0    0.742480   
2413                              Duke University   NC        0.0    0.741203   
3072                             Brown University   RI        0.0    0.725875   
1959                            Dartmouth College   NH        0.0    0.734286   
260                     Claremont McKenna College   CA        0.0    0.733398   
203            California In

<img src='./oc_logo.png' width=15px /> Quels sont les 15 villes ayant les plus forts scores totaux ?

In [158]:
ville_scores = df.groupby('VILLE')['SCORE_SYNT'].sum().sort_values(ascending=False)
print(ville_scores.head(15))

VILLE
New York        18.275058
Chicago         12.444111
Houston         11.711340
Los Angeles     10.591019
Miami            8.009840
Philadelphia     7.901911
San Antonio      7.653783
Atlanta          7.131512
Brooklyn         6.669722
Boston           6.474677
Dallas           6.305685
Washington       5.856127
San Diego        5.764533
Jacksonville     5.665956
Portland         5.375490
Name: SCORE_SYNT, dtype: float64


<img src='./oc_logo.png' width=15px /> Et les états ?

In [160]:
Etat_scores = df.groupby('ETAT')['SCORE_SYNT'].sum().sort_values(ascending=False)
print(Etat_scores.head(15))

ETAT
CA    125.794714
NY     85.154658
TX     72.718926
PA     66.950589
FL     66.433176
OH     52.363601
IL     46.341693
MA     36.444445
NC     33.195738
MI     32.754550
GA     30.877362
VA     30.304314
NJ     28.783519
MO     28.009849
TN     27.666944
Name: SCORE_SYNT, dtype: float64


Coincidence avec le nombre d'établissements à distance ? ;)

<img src='./oc_logo.png' width=15px /> Conclusions

Vous venez d'identifier un ensemble de villes potentiellement intéressantes pour un développement commercial, il faut maintenant les présenter à votre client pour le convaincre de la pertinence de vos analyses !

Dans cet exercice vous avez appris à nettoyer et explorer un jeu de données pour en extraire des données exploitables (ici à travers les scores). Essayez toujours de présenter des résultats simples à comprendre, ici les scores sont directement issus des indicateurs, ils sont bornés entre 0 et 1.

<img src='./oc_logo.png' width=15px /> Perspectives d'amélioration

Nous n'avons pas exploité toutes les données, par exemple pour illustrer nos analyses il est indispensable de créer des visualisations graphiques avec matplotlib et seaborn, et pourquoi pas faire une carte interactive (avec folium) en utilisant lattitude et longitude.