In [3]:
import pandas as pd
import numpy as np

## Énoncé
En tant que Data Scientist vous venez de décrocher une mission avec une plateforme d'éducation en ligne leader sur le marché européen, vous allez bientôt signer le contrat et vous consacrer au sujet pour les deux prochaines semaines.

Ce leader de l'EdTech voit grand, ayant une forte implantation en France et en Europe, les dirigeants souhaitent également se développer sur le territoire américain qui regorge d'opportunités pour la formation en ligne, de par la taille de la population et des besoins liés aux métiers du numérique. L'entreprise souhaite démarrer son implantation aux USA en sélectionnant les territoires géographiques les plus prometteurs afin de lancer des campagnes publicitaires ciblées.

## Mission
Pour cette mission, on vous demande de déterminer la liste des villes prioritaires en vous basant sur des données récoltées par l'administration et disponibles en open-data. Votre objectif est de **fournir des résultats impactants** afin de guider Lesley en charge du développement pour la région Amérique du Nord.

Pour ce travail, votre client a identifié [une source de données](https://data.ed.gov/dataset/college-scorecard-all-data-files-through-6-2020/resources?resource=658b5b83-ac9f-4e41-913e-9ba9411d7967) intéressante et a déjà initié une sélection de variables, à vous de compléter l'étude.

# Exercice
## Partie 1 - Inspection des données
<img src='./oc_logo.png' width=15px /> Chargez le fichier `edtech_market_study_usa.csv` à l'aide de Pandas. Stockez le résultat du chargement dans la variable `df`.

Les colonnes du fichier sont uniquement séparées par des virgules.

In [5]:
df = pd.read_csv('211028_EdTech_market_study_usa.csv', sep=',')

<img src='./oc_logo.png' width=15px /> Pouvez-vous afficher les 5 premières lignes du dataframe pour vérifier que les données sont bien chargées ?

Unnamed: 0,ID,NOM,VILLE,ETAT,LATITUDE,LONGITUDE,A_DISTANCE_SEULEMENT,NOMBRE_ETUDIANTS,AGE_ENTREE,COUT_MOYEN_ANNEE_ACADEMIE,TAUX_ADMISSION,DEFAUT_PAIEMENT_2ANNEES,DEFAUT_PAIEMENT_3ANNEES
0,100200,Alabama A & M University,Normal,AL,34.783368,-86.568502,0.0,1368,20.283741368,22489.0,0.8986,0.114,0.182
1,105200,University of Alabama at Birmingham,Birmingham,AL,33.505697,-86.799345,0.0,2730,23.60797466,24347.0,0.9211,0.06,0.057
2,2503400,Amridge University,Montgomery,AL,32.362609,-86.17401,1.0,135,33.672297297,17680.0,,0.071,0.11
3,105500,University of Alabama in Huntsville,Huntsville,AL,34.724557,-86.640449,0.0,1175,22.727919632,23441.0,0.8087,0.077,0.059
4,100500,Alabama State University,Montgomery,AL,32.364317,-86.295677,0.0,1281,20.130990415,21476.0,0.9774,0.132,0.203


<img src='./oc_logo.png' width=15px /> Combien de lignes et colonnes sont contenues dans `df` ?

(6806, 13)

<img src='./oc_logo.png' width=15px /> Affichez le type des colonnes

ID                             int64
NOM                           object
VILLE                         object
ETAT                          object
LATITUDE                     float64
LONGITUDE                    float64
A_DISTANCE_SEULEMENT         float64
NOMBRE_ETUDIANTS              object
AGE_ENTREE                    object
COUT_MOYEN_ANNEE_ACADEMIE    float64
TAUX_ADMISSION               float64
DEFAUT_PAIEMENT_2ANNEES      float64
DEFAUT_PAIEMENT_3ANNEES      float64
dtype: object

<img src='./oc_logo.png' width=15px /> Les deux colonnes `NOMBRE_ETUDIANTS` et `AGE_ENTREE` ne sont pas bien typées, corrigez cela.

In [6]:
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['NOMBRE_ETUDIANTS'] == 'PrivacySuppressed', 'NOMBRE_ETUDIANTS'] = np.nan
# la colonne contient une valeur string ce qui empêche la conversion en entier
df.loc[df['AGE_ENTREE'] == 'PrivacySuppressed', 'AGE_ENTREE'] = np.nan
df['NOMBRE_ETUDIANTS'] = pd.to_numeric(df['NOMBRE_ETUDIANTS'])
df['AGE_ENTREE'] = pd.to_numeric(df['AGE_ENTREE'])

<img src='./oc_logo.png' width=15px /> Existe-t-il des valeurs manquantes dans ce jeu de données ?

ID                           0.000000
NOM                          0.000000
VILLE                        0.000000
ETAT                         0.000000
LATITUDE                     0.069791
LONGITUDE                    0.069791
A_DISTANCE_SEULEMENT         0.069791
NOMBRE_ETUDIANTS             0.109756
AGE_ENTREE                   0.091978
COUT_MOYEN_ANNEE_ACADEMIE    0.495886
TAUX_ADMISSION               0.705260
DEFAUT_PAIEMENT_2ANNEES      0.190420
DEFAUT_PAIEMENT_3ANNEES      0.136203
dtype: float64

<img src='./oc_logo.png' width=15px /> Vérifions s'il existe des doublons pour la variable ID qui est un identifiant unique

30

<img src='./oc_logo.png' width=15px /> Nous allons maintenant nous débarrasser des duplicatas en supprimant la version la moins bien renseignée

In [7]:
# on compte le nombre de valeurs manquantes pour la ligne et on stocke dans une nouvelle colonne
df['NB_NAN'] = df.isna().sum(axis=1)
# trie des lignes en fonction du nombre de valeurs manquantes
df = df.sort_values('NB_NAN')
# suppression des duplicatas en gardant les versions les mieux remplies
df = df.drop_duplicates('ID', keep='first')
# on supprime la colonne qui n'est plus utile
df = df.drop('NB_NAN', axis=1)

## Partie 2 - Exploration

<img src='./oc_logo.png' width=15px /> Combien d'établissements sont représentés dans ce fichier ?

In [8]:
nb_etab_by_etat = df['ETAT'].value_counts()
print(nb_etab_by_etat)

CA    701
NY    449
TX    433
FL    383
PA    356
OH    298
IL    263
MI    191
NC    183
GA    176
NJ    167
VA    166
MO    162
MA    161
TN    159
PR    142
IN    135
LA    125
MN    117
AZ    117
OK    110
CO    109
WA    106
SC     99
WI     98
KY     94
AR     92
MD     87
IA     86
AL     85
KS     80
CT     80
OR     77
WV     74
UT     72
MS     60
NM     49
NE     46
ME     40
NV     39
ID     38
NH     38
MT     33
SD     29
ND     28
VT     25
RI     23
HI     23
DC     22
DE     21
WY     10
AK      9
GU      3
VI      2
PW      1
AS      1
MH      1
MP      1
FM      1
Name: ETAT, dtype: int64


<img src='./oc_logo.png' width=15px /> On souhaite savoir si la couverture des états est représentative, à savoir si le nombre d'établissements est significatif. **Donnez le nombre d'établissements par état**.

ETAT
AK      9
AL     85
AR     92
AS      1
AZ    117
CA    701
CO    109
CT     80
DC     22
DE     21
FL    383
FM      1
GA    176
GU      3
HI     23
IA     86
ID     38
IL    263
IN    135
KS     80
KY     94
LA    125
MA    161
MD     87
ME     40
MH      1
MI    191
MN    117
MO    162
MP      1
MS     60
MT     33
NC    183
ND     28
NE     46
NH     38
NJ    167
NM     49
NV     39
NY    449
OH    298
OK    110
OR     77
PA    356
PR    142
PW      1
RI     23
SC     99
SD     29
TN    159
TX    433
UT     72
VA    166
VI      2
VT     25
WA    106
WI     98
WV     74
WY     10
Name: ID, dtype: int64

<img src='./oc_logo.png' width=15px /> Suite aux résultats de la question précédente, pensez-vous qu'il est normal que certains états possèdent si peu d'établissements ? Voici [un lien intéressant](https://www.factmonster.com/us/postal-information/state-abbreviations-and-state-postal-codes). 

Identifiez les états avec moins de 5 établissements éducatifs.

In [9]:
nb_etab_by_etat = df['ETAT'].value_counts()
res = df[~df['ETAT'].isin(nb_etab_by_etat[nb_etab_by_etat < 5].index)]
print(res)
print(df.shape)
print(res.shape)

           ID                                                NOM       VILLE  \
0      100200                           Alabama A & M University      Normal   
2152   976900                   Metropolitan College of New York    New York   
2153   270700        Columbia University in the City of New York    New York   
2156   270900                         Concordia College-New York  Bronxville   
2158   271000  Cooper Union for the Advancement of Science an...    New York   
...       ...                                                ...         ...   
6787  4223301                 Alliance Computing Solutions - NYC    New York   
6786  4219301       East-West Healing Arts Institute - Milwaukee   Shorewood   
6755  4164701  Keweenaw Bay Ojibwa Community College - Wabanu...      L'Anse   
6669  1005303         Indian Capital Technology Center-Tahlequah   Tahlequah   
6805  4227001                   ABC Adult School - Cabrillo Lane    Cerritos   

     ETAT   LATITUDE  LONGITUDE  A_DIST

<img src='./oc_logo.png' width=15px /> Supprimez les établissements situés dans ces états, nos résultats risquent de ne pas être assez représentatifs si on les exploite.

<img src='./oc_logo.png' width=15px /> Quels sont les 3 états qui hébergent le plus d'établissements fonctionnant en mode à distance ?

In [10]:
df_distance = df[df["A_DISTANCE_SEULEMENT"]>0]
df_distance = df_distance.groupby(["ETAT"]).size().sort_values(ascending=False)
print(df_distance.head(3))

ETAT
CA    9
AZ    4
WV    3
dtype: int64


<img src='./oc_logo.png' width=15px /> Nous allons exploiter le taux de défaut de paiement de l'établissement pour se renseigner sur le potentiel local d'une formation à coût inférieur. 

Faites une moyenne des variables `DEFAUT_PAIEMENT_2ANNEES` et `DEFAUT_PAIEMENT_3ANNEES`, stockez le résultat dans une nouvelle colonne `DEFAUT_PAIEMENT`.

In [2]:
df["DEFAUT_PAIEMENT"] = (df['DEFAUT_PAIEMENT_2ANNEES'] + df['DEFAUT_PAIEMENT_3ANNEES'])/2
if verbose == True:
    print(df["DEFAUT_PAIEMENT"])
    print(df.head)
    print(df.shape)

NameError: name 'df' is not defined

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `DEFAUT_PAIEMENT` par zéro.

<img src='./oc_logo.png' width=15px /> Il serait intéressant de connaître le nombre d'étudiants potentiels par ville dans le but de cibler prioritairement les plus peuplées, une hypothétique opération publicitaire serait alors plus rentable.

Pour retrouver le nombre d'étudiants ayant fait une demande d'inscription, nous allons nous baser sur le nombre d'étudiants acceptés et sur le taux d'admission. 

Dans un premier temps remplacez les taux d'admission manquants par la valeur médiane de la variable.

<img src='./oc_logo.png' width=15px /> Supprimez les lignes ayant un taux d'admission nul, cela paraît peu probable.

<img src='./oc_logo.png' width=15px /> Remplacez les valeurs manquantes de la colonne `NOMBRE_ETUDIANTS` en remplaçant par la valeur médiane de la variable.

<img src='./oc_logo.png' width=15px /> À l'aide d'un calcul savant, retrouvez le nombre d'étudiants ayant fait une demande d'inscription.

<img src='./oc_logo.png' width=15px /> Nous utiliserons plus tard la variable `COUT_MOYEN_ANNEE_ACADEMIE`, afin de quantifier le budget éducation des étudiants. Avant cela, il faut remplacer les valeurs manquantes de la variable par la médiane.

### Création des scores 

<img src='./oc_logo.png' width=15px /> Nous allons maintenant créer un score entre 0 et 1 pour noter le critère population étudiante de chaque ville (1 ville pour la plus peuplée, 0 pour la moins peuplée).

Créez une colonne `SCORE_POP` contenant le score de la variable `NOMBRE_ETUDIANTS_DEMANDEURS`.

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_COUT` contenant le score issu de la variable `COUT_MOYEN_ANNEE_ACADEMIE`.

<img src='./oc_logo.png' width=15px /> Créez une colonne `SCORE_DEFAUT` contenant le score issu de la variable `DEFAUT_PAIEMENT`.

<img src='./oc_logo.png' width=15px /> Par curiosité, on se demande si il existe une relation entre les variables `SCORE_DEFAUT` et `SCORE_COUT`. Pour démontrer cela, calculer la corrélation linéaire entre les deux variables.

Unnamed: 0,SCORE_DEFAUT,SCORE_COUT
SCORE_DEFAUT,1.0,-0.230826
SCORE_COUT,-0.230826,1.0


<img src='./oc_logo.png' width=15px /> On souhaite identifier les écoles ayant un fort potentiel économique pour notre client, voici la liste des critères que l'on recherche :
- Nombre important d'étudiants
- Prix élevé de la formation
- Taux d'admission faible

Utilisez les scores calculés précédemment pour construire un nouvel indicateur (`SCORE_SYNT`) synthétisant ces propriétés.

<img src='./oc_logo.png' width=15px /> Donnez la liste des 15 établissements les mieux classés par rapport à `SCORE_SYNT`

Unnamed: 0,NOM,ETAT,SCORE_POP,SCORE_COUT,TAUX_ADMISSION,SCORE_SYNT
2153,Columbia University in the City of New York,NY,0.23157,0.772348,0.0591,0.648272
476,University of Southern California,CA,0.206357,0.748088,0.1296,0.608282
1492,Harvard University,MA,0.124172,0.738106,0.0473,0.604993
2159,Cornell University,NY,0.188994,0.729453,0.1061,0.604116
3841,Stanford University,CA,0.128025,0.717084,0.0436,0.600503
983,Northwestern University,IL,0.126246,0.757043,0.0847,0.59953
2992,University of Pennsylvania,PA,0.126347,0.753141,0.0841,0.598463
890,University of Chicago,IL,0.079202,0.785837,0.0726,0.597479
3072,Brown University,RI,0.105803,0.737224,0.0767,0.588776
5439,Chamberlain University-Virginia,VA,0.520493,0.409598,0.1667,0.587797


<img src='./oc_logo.png' width=15px /> Quels sont les 15 villes ayant les plus forts scores totaux ?

VILLE
New York        19.671427
Chicago         13.876685
Houston         13.473386
Los Angeles     11.525051
Philadelphia     8.921852
                  ...    
Epworth          0.069591
Celina           0.061313
MEADVILLE        0.060391
Havre            0.055672
Gering           0.045670
Name: SCORE_SYNT, Length: 2447, dtype: float64

<img src='./oc_logo.png' width=15px /> Et les états ?

ETAT
CA    138.597452
NY     92.356936
TX     81.876825
FL     75.187339
PA     74.549925
OH     57.789733
IL     50.952180
MA     38.759950
NC     37.368602
MI     36.862312
GA     35.299388
VA     34.634184
NJ     32.235426
MO     30.805332
TN     30.686800
IN     28.505368
LA     23.729721
MN     23.133028
PR     23.080823
AZ     22.518678
CO     20.785743
OK     20.153163
SC     20.043690
WA     19.375646
WI     18.838152
MD     18.047529
IA     17.653631
KY     17.534481
CT     16.648674
AR     16.175873
AL     15.566728
KS     14.893030
UT     13.607601
OR     13.494514
WV     13.173343
MS     10.249513
NE      9.132231
NM      9.035832
ME      8.595038
NH      8.051893
NV      7.391162
ID      6.439194
VT      5.879210
RI      5.489774
DC      5.357599
MT      5.318545
SD      4.872587
ND      4.577903
DE      4.211376
HI      4.169070
AK      1.528461
WY      1.454076
Name: SCORE_SYNT, dtype: float64

Coincidence avec le nombre d'établissements à distance ? ;)

<img src='./oc_logo.png' width=15px /> Conclusions

Vous venez d'identifier un ensemble de villes potentiellement intéressantes pour un développement commercial, il faut maintenant les présenter à votre client pour le convaincre de la pertinence de vos analyses !

Dans cet exercice vous avez appris à nettoyer et explorer un jeu de données pour en extraire des données exploitables (ici à travers les scores). Essayez toujours de présenter des résultats simples à comprendre, ici les scores sont directement issus des indicateurs, ils sont bornés entre 0 et 1.

<img src='./oc_logo.png' width=15px /> Perspectives d'amélioration

Nous n'avons pas exploité toutes les données, par exemple pour illustrer nos analyses il est indispensable de créer des visualisations graphiques avec matplotlib et seaborn, et pourquoi pas faire une carte interactive (avec folium) en utilisant lattitude et longitude.

In [2]:
import pandas as pd
import folium

url = (
    "https://raw.githubusercontent.com/python-visualization/folium/master/examples/data"
)
state_geo = f"{url}/us-states.json"
state_unemployment = f"{url}/US_Unemployment_Oct2012.csv"
state_data = pd.read_csv(state_unemployment)

m = folium.Map(location=[48, -102], zoom_start=3)

folium.Choropleth(
    geo_data=state_geo,
    name="choropleth",
    data=state_data,
    columns=["State", "Unemployment"],
    key_on="feature.id",
    fill_color="YlGn",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="Unemployment Rate (%)",
).add_to(m)

folium.LayerControl().add_to(m)

m

In [1]:
import sys
# insert at 1, 0 is the script path (or '' in REPL)
sys.path.insert(1, '../modules')
import pandas as pd
import numpy as np
import DataFrameUtil as myDf
import matplotlib.pyplot as plt
import seaborn as sns
import folium
from IPython.display import display


def cleanType(df, verbose=False):
    print("Correction des types ....")
    # la colonne contient une valeur string ce qui empêche la conversion en entier
    df.loc[df['NOMBRE_ETUDIANTS'] == 'PrivacySuppressed', 'NOMBRE_ETUDIANTS'] = np.nan
    # la colonne contient une valeur string ce qui empêche la conversion en entier
    df.loc[df['AGE_ENTREE'] == 'PrivacySuppressed', 'AGE_ENTREE'] = np.nan
    df['NOMBRE_ETUDIANTS'] = pd.to_numeric(df['NOMBRE_ETUDIANTS'])
    df['AGE_ENTREE'] = pd.to_numeric(df['AGE_ENTREE'])
    print("Correction des types........ END")
    if verbose: print(df.dtypes)
    return df


def cleanMissingValues(df, verbose=False):
    print("Traitement des valeurrs manquantes ....")
    # Existe-t-il des valeurs manquantes dans ce jeu de données ?
    nadatas = df.isna().sum()
    if verbose: print(nadatas)
    print("Traitement des valeurrs manquantes........ END")
    return df


def cleanDuplicated(df, verbose=False):
    print("Traitement des doublons ....")
    # Existe-t-il des doublons sur l'ID dans ce jeu de données ?
    if verbose: print(df.shape, df["ID"].nunique())
    if verbose: print(df["ID"].duplicated().sum())

    # on compte le nombre de valeurs manquantes pour la ligne et on stocke dans une nouvelle colonne
    df['NB_NAN'] = df.isna().sum(axis=1)
    # trie des lignes en fonction du nombre de valeurs manquantes
    df = df.sort_values('NB_NAN')
    # suppression des duplicatas en gardant les versions les mieux remplies
    df = df.drop_duplicates('ID', keep='first')
    # on supprime la colonne qui n'est plus utile
    df = df.drop('NB_NAN', axis=1)
    if verbose: print(df.shape, df["ID"].nunique())
    if verbose: print(df["ID"].duplicated().sum())
    print("Traitement des doublons ........ END")
    return df


def prepareData(df, verbose=False):
    print("prepareData ... ")
    df = cleanType(df, verbose)
    df = cleanMissingValues(df, verbose)
    df = cleanDuplicated(df, verbose)
    print("prepareData ........................................................ END")
    return df

verbose = False

print("Chargement des données....")
df = pd.read_csv('211028_EdTech_market_study_usa.csv', sep=',')
print("Chargement des données........ END")
if verbose: myDf.displayInfo(df)
if verbose: print(df.dtypes)

df = prepareData(df,verbose)

if verbose: print(df.shape, df["ID"].nunique())
if verbose: print(df.shape, df["NOM"].nunique())


def removeLessEtablissementByEtat(df, nb=5, verbose=False):
    print("removeLessEtablissementByEtat ... ")
    nb_etab_by_etat3 = df.groupby(["ETAT"]).size()
    if verbose: print(nb_etab_by_etat3)
    res = df[~df['ETAT'].isin(nb_etab_by_etat3[nb_etab_by_etat3 < nb].index)]
    if verbose:
        print(res)
        print(df.shape)
        print(res.shape)
    print("removeLessEtablissementByEtat .................. END")
    return res


def replaceNaNByMedianValu(df, columName, verbose=False):
    res = df.copy()
    median = res[columName].median()
    res[columName].fillna(value=median, inplace=True)
    if verbose:
        print(median)
        print(res[columName])
        print(res[columName].isna().sum())
    return res



def createMap2(state_data, verbose = False):

    url = (
        "https://raw.githubusercontent.com/python-visualization/folium/master/examples/data"
    )
    state_geo = f"{url}/us-states.json"

    m = folium.Map(location=[48, -102], zoom_start=3)
    bins = list(state_data["SCORE_TOT"].quantile([0, 0.25, 0.5, 0.75, 1]))

    folium.Choropleth(
        geo_data=state_geo,
        name="choropleth",
        data=state_data,
        columns=["ETAT", "SCORE_TOT"],
        # columns=["State", "Unemployment"],
        key_on="feature.id",
        fill_color="YlGn",
        fill_opacity=0.7,
        line_opacity=0.2,
        legend_name="SCORE_TOT Rate (%)",
        bins=bins,
        reset=True,
    ).add_to(m)

    folium.LayerControl().add_to(m)
    display(m)


def createMap(state_data, columnName, verbose = False):

    url = (
        "https://raw.githubusercontent.com/python-visualization/folium/master/examples/data"
    )
    state_geo = f"{url}/us-states.json"

    m = folium.Map(location=[48, -102], zoom_start=4)

    folium.Choropleth(
        geo_data=state_geo,
        name="choropleth",
        data=state_data,
        columns=["ETAT", columnName],
        # columns=["State", "Unemployment"],
        key_on="feature.id",
        fill_color="YlGn",
        fill_opacity=0.7,
        line_opacity=0.2,
        legend_name=columnName,
    ).add_to(m)

    folium.LayerControl().add_to(m)
    display(m)


df = removeLessEtablissementByEtat(df, 5, verbose)

#Quels sont les 3 états qui hébergent le plus d'établissements fonctionnant en mode à distance
# ETAT, A_DISTANCE_SEULEMENT (0 ou 1)
df_distance = df[df["A_DISTANCE_SEULEMENT"]>0]
if verbose:print(df_distance)
df_distance = df_distance.groupby(["ETAT"]).size().sort_values(ascending=False)
if verbose:
    print(df_distance)
    print(df_distance.head(3))

# Faites une moyenne des variables DEFAUT_PAIEMENT_2ANNEES et DEFAUT_PAIEMENT_3ANNEES, stockez le résultat dans une nouvelle colonne DEFAUT_PAIEMENT.
df["DEFAUT_PAIEMENT"] = (df['DEFAUT_PAIEMENT_2ANNEES'] + df['DEFAUT_PAIEMENT_3ANNEES'])/2
if verbose:
    print(df["DEFAUT_PAIEMENT"])
    print(df.head)
    print(df.shape)


# Remplacez les valeurs manquantes de la colonne DEFAUT_PAIEMENT par zéro.
df["DEFAUT_PAIEMENT"].fillna(value=0, inplace=True)
if verbose:
    print(df["DEFAUT_PAIEMENT"])
    print(df["DEFAUT_PAIEMENT"].isna().sum())

# Dans un premier temps remplacez les taux d'admission manquants par la valeur médiane de la variable.
df = replaceNaNByMedianValu(df, "TAUX_ADMISSION", verbose)

# Supprimez les lignes ayant un taux d'admission nul, cela paraît peu probable.
dfClean = df[df["TAUX_ADMISSION"]>0]
if verbose:
    print(dfClean)
    print("DF", df.shape, "dfClean", dfClean.shape)
df = dfClean

# Remplacez les valeurs manquantes de la colonne NOMBRE_ETUDIANTS en remplaçant par la valeur médiane de la variable.
df = replaceNaNByMedianValu(df, "NOMBRE_ETUDIANTS", verbose)

# À l'aide d'un calcul savant, retrouvez le nombre d'étudiants ayant fait une demande d'inscription.
df['NOMBRE_ETUDIANTS_DEMANDEURS'] = df['NOMBRE_ETUDIANTS'] / df['TAUX_ADMISSION']
if verbose:
    print(df[["NOMBRE_ETUDIANTS", "TAUX_ADMISSION","NOMBRE_ETUDIANTS_DEMANDEURS"]])
    print(df["NOMBRE_ETUDIANTS_DEMANDEURS"].sum())
    print(df.dtypes)

# Logiquement il faudrait convertir en INT, mais dans ce cas, les résultats sont différents du corrigé
# df["NOMBRE_ETUDIANTS_DEMANDEURS"] = df["NOMBRE_ETUDIANTS_DEMANDEURS"].astype(dtype='int32')
# if verbose:
#     print(df.head())
#     print(df.dtypes)

#    Nous utiliserons plus tard la variable COUT_MOYEN_ANNEE_ACADEMIE, afin de quantifier le budget éducation des étudiants. Avant cela, il faut remplacer les valeurs manquantes de la variable par la médiane.
df = replaceNaNByMedianValu(df, "COUT_MOYEN_ANNEE_ACADEMIE", verbose)

# Nous allons maintenant créer un score entre 0 et 1 pour noter le critère population étudiante de chaque ville (1 ville pour la plus peuplée, 0 pour la moins peuplée).
df['SCORE_POP'] = (df['NOMBRE_ETUDIANTS_DEMANDEURS'] - df['NOMBRE_ETUDIANTS_DEMANDEURS'].min()) / (df['NOMBRE_ETUDIANTS_DEMANDEURS'].max() - df['NOMBRE_ETUDIANTS_DEMANDEURS'].min())
if verbose:
    print(df['SCORE_POP'])
    print(df.head())
    print(df['SCORE_POP'].describe())

# Créez une colonne SCORE_COUT contenant le score issu de la variable COUT_MOYEN_ANNEE_ACADEMIE.
df['SCORE_COUT'] = (df['COUT_MOYEN_ANNEE_ACADEMIE'] - df['COUT_MOYEN_ANNEE_ACADEMIE'].min()) / (df['COUT_MOYEN_ANNEE_ACADEMIE'].max() - df['COUT_MOYEN_ANNEE_ACADEMIE'].min())
if verbose:
    print(df['SCORE_COUT'])
    print(df.head())
    print(df['SCORE_COUT'].describe())

# Créez une colonne SCORE_DEFAUT contenant le score issu de la variable DEFAUT_PAIEMENT.
df['SCORE_DEFAUT'] = (df['DEFAUT_PAIEMENT'] - df['DEFAUT_PAIEMENT'].min()) / (df['DEFAUT_PAIEMENT'].max() - df['DEFAUT_PAIEMENT'].min())
if verbose:
    print(df['SCORE_DEFAUT'])
    print(df.head())
    print(df['SCORE_DEFAUT'].describe())

# Créez une colonne SCORE_DEFAUT contenant le score issu de la variable DEFAUT_PAIEMENT.
corr_df = df[['SCORE_DEFAUT', 'SCORE_COUT']].corr()
if verbose:
    print("CORR ------------------")
    print(corr_df, "\n")
    plt.figure(figsize=(4, 4))
    sns.heatmap(corr_df, annot=True)
    plt.show()


# On souhaite identifier les écoles ayant un fort potentiel économique pour notre client, voici la liste des critères que l'on recherche :
#
#     Nombre important d'étudiants
#     Prix élevé de la formation
#     Taux d'admission faible
#
# Utilisez les scores calculés précédemment pour construire un nouvel indicateur (SCORE_SYNT) synthétisant ces propriétés.
df['SCORE_SYNT'] = (df['SCORE_POP'] + df['SCORE_DEFAUT'] + (1 - df['SCORE_COUT'])) /3
df = df.sort_values(['SCORE_SYNT'], ascending=False)
if verbose:
    print(df['SCORE_SYNT'])
    print(df.head())
    print(df['SCORE_SYNT'].describe())

df['SCORE_SYNT_POND'] = (df['SCORE_POP']*2 + df['SCORE_DEFAUT'] + (1 - df['SCORE_COUT'])) /4
if verbose:
    print(df[['SCORE_SYNT', 'SCORE_SYNT_POND']])
    print(df.head())
    print(df['SCORE_SYNT_POND'].describe())

# Donnez la liste des 15 établissements les mieux classés par rapport à
df_reduce = df[['NOM', 'ETAT','SCORE_POP','SCORE_COUT','TAUX_ADMISSION','SCORE_SYNT']]
if verbose:
    print(df_reduce.head(15))


df['SCORE_TOT'] = df['SCORE_POP'] + df['SCORE_DEFAUT'] + df['SCORE_COUT']
df = df.sort_values(['SCORE_TOT'], ascending=False)   
serie_score_total_ville = df.groupby("VILLE")['SCORE_TOT'].sum()
serie_score_total_ville = serie_score_total_ville.sort_values(ascending=False)
if verbose: 
    print(df.head(15))
    print(serie_score_total_ville[:15])


serie_score_total_etat = df.groupby("ETAT")['SCORE_POP'].sum()
serie_score_total_etat = serie_score_total_etat.sort_values(ascending=False)
createMap(serie_score_total_etat, "SCORE_POP", verbose)

serie_score_total_etat = df.groupby("ETAT")['SCORE_DEFAUT'].sum()
serie_score_total_etat = serie_score_total_etat.sort_values(ascending=False)
createMap(serie_score_total_etat, "SCORE_DEFAUT", verbose)

serie_score_total_etat = df.groupby("ETAT")['SCORE_COUT'].sum()
serie_score_total_etat = serie_score_total_etat.sort_values(ascending=False)
createMap(serie_score_total_etat, "SCORE_COUT", verbose)

serie_score_total_etat = df.groupby("ETAT")['SCORE_TOT'].sum()
serie_score_total_etat = serie_score_total_etat.sort_values(ascending=False)
if verbose: 
    print(serie_score_total_etat[:15])
createMap(serie_score_total_etat, "SCORE_TOT", verbose)

print("END")



Chargement des données....
Chargement des données........ END
prepareData ... 
Correction des types ....
Correction des types........ END
Traitement des valeurrs manquantes ....
Traitement des valeurrs manquantes........ END
Traitement des doublons ....
Traitement des doublons ........ END
prepareData ........................................................ END
removeLessEtablissementByEtat ... 
removeLessEtablissementByEtat .................. END


END
