In [280]:
import pandas as pd
import numpy as np

## Énoncé
En tant que Data Scientist vous venez de décrocher une mission avec une plateforme d'éducation en ligne leader sur le marché européen, vous allez bientôt signer le contrat et vous consacrer au sujet pour les deux prochaines semaines.

Ce leader de l'EdTech voit grand, ayant une forte implantation en France et en Europe, les dirigeants souhaitent également se développer sur le territoire américain qui regorge d'opportunités pour la formation en ligne, de par la taille de la population et des besoins liés aux métiers du numérique. L'entreprise souhaite démarrer son implantation aux USA en sélectionnant les territoires géographiques les plus prometteurs afin de lancer des campagnes publicitaires ciblées.

## Mission
Pour cette mission, on vous demande de déterminer la liste des villes prioritaires en vous basant sur des données récoltées par l'administration et disponibles en open-data. Votre objectif est de **fournir des résultats impactants** afin de guider Lesley en charge du développement pour la région Amérique du Nord.

Pour ce travail, votre client a identifié [une source de données](https://data.ed.gov/dataset/college-scorecard-all-data-files-through-6-2020/resources?resource=658b5b83-ac9f-4e41-913e-9ba9411d7967) intéressante et a déjà initié une sélection de variables, à vous de compléter l'étude.

# Exercice
## Partie 1 - Inspection des données 
<img src='./oc_logo.png' width=15px /> Chargez le fichier `edtech_market_study_usa.csv` à l'aide de Pandas. Stockez le résultat du chargement dans la variable `df`.

Les colonnes du fichier sont uniquement séparées par des virgules.

In [281]:
df = pd.read_csv('edtech_market_study_usa.csv', sep=',')

<img src='./oc_logo.png' width=15px /> Pouvez-vous afficher les 5 premières lignes du dataframe pour vérifier que les données sont bien chargées ?

In [282]:
df.head(5)

Unnamed: 0,ID,NOM,VILLE,ETAT,LATITUDE,LONGITUDE,A_DISTANCE_SEULEMENT,NOMBRE_ETUDIANTS,AGE_ENTREE,COUT_MOYEN_ANNEE_ACADEMIE,TAUX_ADMISSION,DEFAUT_PAIEMENT_2ANNEES,DEFAUT_PAIEMENT_3ANNEES
0,100200,Alabama A & M University,Normal,AL,34.783368,-86.568502,0.0,1368,20.283741368,22489.0,0.8986,0.114,0.182
1,105200,University of Alabama at Birmingham,Birmingham,AL,33.505697,-86.799345,0.0,2730,23.60797466,24347.0,0.9211,0.06,0.057
2,2503400,Amridge University,Montgomery,AL,32.362609,-86.17401,1.0,135,33.672297297,17680.0,,0.071,0.11
3,105500,University of Alabama in Huntsville,Huntsville,AL,34.724557,-86.640449,0.0,1175,22.727919632,23441.0,0.8087,0.077,0.059
4,100500,Alabama State University,Montgomery,AL,32.364317,-86.295677,0.0,1281,20.130990415,21476.0,0.9774,0.132,0.203


In [283]:
#df.loc[df['ETAT']=='AL','A_DISTANCE_SEULEMENT'].count()
df.loc[df['ETAT']=='AL','A_DISTANCE_SEULEMENT'].sum()

2.0

<img src='./oc_logo.png' width=15px /> Combien de lignes et colonnes sont contenues dans `df` ?

In [284]:
df.shape

(6806, 13)

<img src='./oc_logo.png' width=15px /> Affichez le type des colonnes

In [285]:
df.dtypes

ID                             int64
NOM                           object
VILLE                         object
ETAT                          object
LATITUDE                     float64
LONGITUDE                    float64
A_DISTANCE_SEULEMENT         float64
NOMBRE_ETUDIANTS              object
AGE_ENTREE                    object
COUT_MOYEN_ANNEE_ACADEMIE    float64
TAUX_ADMISSION               float64
DEFAUT_PAIEMENT_2ANNEES      float64
DEFAUT_PAIEMENT_3ANNEES      float64
dtype: object

In [286]:
df['NOMBRE_ETUDIANTS']

0                    1368
1                    2730
2                     135
3                    1175
4                    1281
              ...        
6801                  NaN
6802                  NaN
6803                  NaN
6804    PrivacySuppressed
6805                  NaN
Name: NOMBRE_ETUDIANTS, Length: 6806, dtype: object

<img src='./oc_logo.png' width=15px /> Les deux colonnes `NOMBRE_ETUDIANTS` et `AGE_ENTREE` ne sont pas bien typées, corrigez cela.

In [287]:
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['NOMBRE_ETUDIANTS'] == 'PrivacySuppressed', 'NOMBRE_ETUDIANTS'] = np.nan
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['AGE_ENTREE'] == 'PrivacySuppressed', 'AGE_ENTREE'] = np.nan
df['NOMBRE_ETUDIANTS'] = pd.to_numeric(df['NOMBRE_ETUDIANTS'])
df['AGE_ENTREE'] = pd.to_numeric(df['AGE_ENTREE'])

<img src='./oc_logo.png' width=15px /> Existe-t-il des valeurs manquantes dans ce jeu de données ?

In [288]:
df.isna().sum()/df.shape[0]
# ou 
df.isna().any()
# ou mieux
df.isna().mean()

ID                           0.000000
NOM                          0.000000
VILLE                        0.000000
ETAT                         0.000000
LATITUDE                     0.069791
LONGITUDE                    0.069791
A_DISTANCE_SEULEMENT         0.069791
NOMBRE_ETUDIANTS             0.109756
AGE_ENTREE                   0.091978
COUT_MOYEN_ANNEE_ACADEMIE    0.495886
TAUX_ADMISSION               0.705260
DEFAUT_PAIEMENT_2ANNEES      0.190420
DEFAUT_PAIEMENT_3ANNEES      0.136203
dtype: float64

<img src='./oc_logo.png' width=15px /> Vérifions s'il existe des doublons pour la variable ID qui est un identifiant unique

In [289]:
df.duplicated('ID').sum()

30

<img src='./oc_logo.png' width=15px /> Nous allons maintenant nous débarrasser des duplicatas en supprimant la version la moins bien renseignée

In [290]:
# on compte le nombre de valeurs manquantes pour la ligne et on stocke dans une nouvelle colonne
df['NB_NAN'] = df.isna().sum(axis=1)
# trie des lignes en fonction du nombre de valeurs manquantes
df = df.sort_values('NB_NAN')
# suppression des duplicatas en gardant les versions les mieux remplies
df = df.drop_duplicates('ID', keep='first')
# on supprime la colonne qui n'est plus utile
df = df.drop('NB_NAN', axis=1)

## Partie 2 - Exploration 

<img src='./oc_logo.png' width=15px /> Combien d'établissements sont représentés dans ce fichier ?

In [291]:
df['ID'].count()

6776

<img src='./oc_logo.png' width=15px /> On souhaite savoir si la couverture des états est représentative, à savoir si le nombre d'établissements est significatif. **Donnez le nombre d'établissements par état**.

In [292]:
df.groupby('ETAT')['ID'].count()

ETAT
AK      9
AL     85
AR     92
AS      1
AZ    117
CA    701
CO    109
CT     80
DC     22
DE     21
FL    383
FM      1
GA    176
GU      3
HI     23
IA     86
ID     38
IL    263
IN    135
KS     80
KY     94
LA    125
MA    161
MD     87
ME     40
MH      1
MI    191
MN    117
MO    162
MP      1
MS     60
MT     33
NC    183
ND     28
NE     46
NH     38
NJ    167
NM     49
NV     39
NY    449
OH    298
OK    110
OR     77
PA    356
PR    142
PW      1
RI     23
SC     99
SD     29
TN    159
TX    433
UT     72
VA    166
VI      2
VT     25
WA    106
WI     98
WV     74
WY     10
Name: ID, dtype: int64

<img src='./oc_logo.png' width=15px /> Suite aux résultats de la question précédente, pensez-vous qu'il est normal que certains états possèdent si peu d'établissements ? Voici [un lien intéressant](https://www.factmonster.com/us/postal-information/state-abbreviations-and-state-postal-codes). 

Identifiez les états avec moins de 5 établissements éducatifs.

In [293]:
nb_etab_par_etat = df.groupby('ETAT')['ID'].count()

In [294]:
#nb_etab_par_etat

In [295]:
etats_a_sup = nb_etab_par_etat[nb_etab_par_etat <= 5].index

<img src='./oc_logo.png' width=15px /> Supprimez les établissements situés dans ces états, nos résultats risquent de ne pas être assez représentatifs si on les exploite.

In [296]:
df = df[~df['ETAT'].isin(etats_a_sup)]

In [297]:
df.shape

(6766, 13)

In [298]:
df.groupby('ETAT')['A_DISTANCE_SEULEMENT'].sum().sort_values(ascending=False)

ETAT
CA    9.0
AZ    4.0
WV    3.0
CO    3.0
IN    3.0
MO    2.0
MN    2.0
AL    2.0
UT    2.0
NY    1.0
NC    1.0
PR    1.0
TN    1.0
MA    1.0
TX    1.0
KY    1.0
KS    1.0
OR    1.0
GA    1.0
FL    1.0
WI    1.0
CT    1.0
IA    1.0
PA    0.0
OK    0.0
AK    0.0
RI    0.0
SC    0.0
SD    0.0
VA    0.0
VT    0.0
WA    0.0
OH    0.0
MT    0.0
NV    0.0
NM    0.0
AR    0.0
DC    0.0
DE    0.0
HI    0.0
ID    0.0
IL    0.0
LA    0.0
MD    0.0
ME    0.0
MI    0.0
MS    0.0
ND    0.0
NE    0.0
NH    0.0
NJ    0.0
WY    0.0
Name: A_DISTANCE_SEULEMENT, dtype: float64

<img src='./oc_logo.png' width=15px /> Quels sont les 3 états qui hébergent le plus d'établissements fonctionnant en mode à distance ?

In [299]:
df.groupby('ETAT')['A_DISTANCE_SEULEMENT'].sum().sort_values(ascending=False).iloc[:3]

ETAT
CA    9.0
AZ    4.0
WV    3.0
Name: A_DISTANCE_SEULEMENT, dtype: float64

<img src='./oc_logo.png' width=15px /> Nous allons exploiter le taux de défaut de paiement de l'établissement pour se renseigner sur le potentiel local d'une formation à coût inférieur. 

Faites une moyenne des variables `DEFAUT_PAIEMENT_2ANNEES` et `DEFAUT_PAIEMENT_3ANNEES`, stockez le résultat dans une nouvelle colonne `DEFAUT_PAIEMENT`.

In [300]:
df['DEFAUT_PAIEMENT'] = (df['DEFAUT_PAIEMENT_2ANNEES'] + df['DEFAUT_PAIEMENT_3ANNEES']) / 2

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `DEFAUT_PAIEMENT` par zéro.

In [306]:
#df['DEFAUT_PAIEMENT'].fillna(0)
# ou bien 
df.loc[df['DEFAUT_PAIEMENT'].isna(), 'DEFAUT_PAIEMENT'] = 0

<img src='./oc_logo.png' width=15px /> Il serait intéressant de connaître le nombre d'étudiants potentiels par ville dans le but de cibler prioritairement les plus peuplées, une hypothétique opération publicitaire serait alors plus rentable.

Pour retrouver le nombre d'étudiants ayant fait une demande d'inscription, nous allons nous baser sur le nombre d'étudiants acceptés et sur le taux d'admission. 

Dans un premier temps remplacez les taux d'admission manquants par la valeur médiane de la variable.

In [307]:
#df['TAUX_ADMISSION'].fillna(df['TAUX_ADMISSION'].median())
#ou bien 
df.loc[df['TAUX_ADMISSION'].isna(), 'TAUX_ADMISSION'] = df['TAUX_ADMISSION'].median()

<img src='./oc_logo.png' width=15px /> Supprimez les lignes ayant un taux d'admission nul, cela paraît peu probable.

In [308]:
df = df[df['TAUX_ADMISSION'] > 0]

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `NOMBRE_ETUDIANTS` en remplaçant par la valeur médiane de la variable.

In [309]:
#df['NOMBRE_ETUDIANTS'].fillna(df['NOMBRE_ETUDIANTS'].median())
#ou bien
df.loc[df['NOMBRE_ETUDIANTS'].isna(), 'NOMBRE_ETUDIANTS'] = df['NOMBRE_ETUDIANTS'].median()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


<img src='./oc_logo.png' width=15px /> À l'aide d'un calcul savant, retrouvez le nombre d'étudiants ayant fait une demande d'inscription.

In [313]:
df['NOMBRE_ETUDIANTS_DEMANDEURS'] = df['NOMBRE_ETUDIANTS'] / df['TAUX_ADMISSION']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['NOMBRE_ETUDIANTS_DEMANDEURS'] = df['NOMBRE_ETUDIANTS'] / df['TAUX_ADMISSION']


<img src='./oc_logo.png' width=15px /> Nous utiliserons plus tard la variable `COUT_MOYEN_ANNEE_ACADEMIE`, afin de quantifier le budget éducation des étudiants. Avant cela, il faut remplacer les valeurs manquantes de la variable par la médiane.

In [164]:
#df['COUT_MOYEN_ANNEE_ACADEMIE'].fillna(df['COUT_MOYEN_ANNEE_ACADEMIE''].median())
#ou bien 
df.loc[df['COUT_MOYEN_ANNEE_ACADEMIE'].isna(), 'COUT_MOYEN_ANNEE_ACADEMIE'] = df['COUT_MOYEN_ANNEE_ACADEMIE'].median()