# **Plan du projet**

### **1.** Importation des données et constitution de la DataFrame
1.   Fonctions permettant l'importation des données
2.   Base comparateur des territoires en 2017 - INSEE
3.   Base salaire net horaire moyen en 2017 - INSEE
4.   Base scolarisation en 2017 - INSEE
5.   Consolidation des DataFrames
6.   Base établissements d'enseignement du premier et second degrés




In [1]:


import pandas as pd
import numpy


import bs4
import re

import matplotlib.pyplot as plt
%matplotlib inline

from io import BytesIO
from zipfile import ZipFile
from urllib.request import urlopen

from functools import reduce

# **Importation des données et constitution de la DataFrame**


## Fonctions permettant l'importation des données


La première fonction (**csv_zip_to_df**) permet de convertir un **fichier CSV en format ZIP** grâce à son URL et au nom du fichier en un **dataframe**.

La deuxième fonction (**taux**) permet de **créer taux** correspondant au rapport de 2 autres variables initialement dans la base de données. La variable créée est **arrondie au centième**.

In [2]:
def csv_zip_to_df (url_file,file_name):
  url = urlopen(url_file)
  zipfile = ZipFile(BytesIO(url.read()))
  dataframe = pd.read_csv(zipfile.open(file_name), header = 0, sep = ';')
  return dataframe

def taux(new_var,nom_var,denom_var,bdd):
  bdd[new_var] = bdd[nom_var] / bdd[denom_var]
  bdd[new_var] = bdd[new_var].round(decimals=3)
  return bdd[new_var]

## Base comparateur des territoires en 2017 - INSEE
Cette base, issue de l'INSEE (https://www.insee.fr/fr/statistiques/2521169) renvoie des **indicateurs économiques** à l'échelle communale. 

Pour notre étude, nous n'avons pas besoin de l'intégralité des variables présentes sur cette base, nous allons en sélectionner quelques unes : 

- Population en 2017 (**P17_POP**);
- Médiane du niveau vie en 2017 (**MED17**);
- Taux de pauvreté en 2O17 (**TP6017**);



Et en créer certaines :
- Densité en 2017 (**DEN17**);;
- Taux de chômage en 2017 (**T17_CHOM1564**)
Le taux de chômage et le taux d'activité sont redondants, on ne décide de retenir que le taux de chômage de la liste des covariables que l'on souhaite utiliser dans notre modèle. 


In [15]:
bdd_ind_eco = csv_zip_to_df("https://www.insee.fr/fr/statistiques/fichier/2521169/base-comparateur-2017_CSV.zip","base_cc_comparateur.CSV")

In [16]:
for i in bdd_ind_eco.columns:
  print(i)

#Création du taux de chômage et d'activité, et de la densité
taux('T17_ACT1564','P17_ACT1564','P17_POP1564',bdd_ind_eco)
taux('T17_CHOM1564','P17_CHOM1564','P17_POP1564',bdd_ind_eco)
taux('DEN17','P17_POP','SUPERF',bdd_ind_eco)

for i in bdd_ind_eco.columns:
  print(i)

#Sélection de variables et arrondis
bdd_ind_eco = bdd_ind_eco[['CODGEO','P17_POP','DEN17','MED17','P17_EMPLT','T17_CHOM1564', 'TP6017']]

bdd_ind_eco[['T17_CHOM1564']] = bdd_ind_eco[['T17_CHOM1564' ]].round(decimals=3)
bdd_ind_eco[['DEN17']] = bdd_ind_eco[['DEN17']].round(decimals=0)

bdd_ind_eco

CODGEO
P17_POP
P12_POP
SUPERF
NAIS1217
DECE1217
P17_MEN
NAISD19
DECESD19
P17_LOG
P17_RP
P17_RSECOCC
P17_LOGVAC
P17_RP_PROP
NBMENFISC17
PIMP17
MED17
TP6017
P17_EMPLT
P17_EMPLT_SAL
P12_EMPLT
P17_POP1564
P17_CHOM1564
P17_ACT1564
ETTOT15
ETAZ15
ETBE15
ETFZ15
ETGU15
ETGZ15
ETOQ15
ETTEF115
ETTEFP1015
CODGEO
P17_POP
P12_POP
SUPERF
NAIS1217
DECE1217
P17_MEN
NAISD19
DECESD19
P17_LOG
P17_RP
P17_RSECOCC
P17_LOGVAC
P17_RP_PROP
NBMENFISC17
PIMP17
MED17
TP6017
P17_EMPLT
P17_EMPLT_SAL
P12_EMPLT
P17_POP1564
P17_CHOM1564
P17_ACT1564
ETTOT15
ETAZ15
ETBE15
ETFZ15
ETGU15
ETGZ15
ETOQ15
ETTEF115
ETTEFP1015
T17_ACT1564
T17_CHOM1564
DEN17


Unnamed: 0,CODGEO,P17_POP,DEN17,MED17,P17_EMPLT,T17_CHOM1564,TP6017
0,01001,776.0,49.0,23310.0,98.828563,0.071,
1,01002,248.0,27.0,24290.0,16.169223,0.069,
2,01004,14035.0,571.0,19860.0,7685.583424,0.113,17.0
3,01005,1689.0,106.0,23370.0,293.563139,0.063,
4,01006,111.0,19.0,23970.0,6.054545,0.111,
...,...,...,...,...,...,...,...
34994,75116,166361.0,10163.0,38900.0,118108.644980,0.073,10.6
34995,75117,167288.0,29504.0,30800.0,106753.699959,0.090,13.8
34996,75118,195233.0,32485.0,22330.0,88116.745765,0.102,21.2
34997,75119,187015.0,27543.0,20320.0,89180.620928,0.126,22.9


## Base scolarisation en 2017 - INSEE
Cette base, issue de l'INSEE (https://www.insee.fr/fr/statistiques/4516086?sommaire=4516089) renvoie des indicateurs sur la **scolarisation par catégories d'âge et la part des diplômés dans la population active** *(personnes non scolarisées de 15 ans ou plus)* **selon le diplôme**, à l'échelle communale. 


Nous allons sélectionner certaines variables afin de créer les suivantes :
- Taux de scolarisation entre 2 et 5 ans (**T17_0205**);
- Taux de scolarisation entre 6 et 10 ans (**T17_0610**);
- Taux de scolarisation entre 11 et 14 ans (**T17_1114**);
- Taux de scolarisation entre 15 et 17 ans (**T17_1517**);
- Taux de scolarisation entre 18 et 24 ans (**T17_1824**);
- Taux de scolarisation entre 25 et 29 ans (**T17_2529**);


- Part de la population active n'ayant pas ou peu de diplôme (**T17_NDIP**);
- Part de la population active dont le diplôme le plus élevé est le BEPC ou le brevet (**T17_BEPC**);
- Part de la population active dont le diplôme le plus élevé est un CAP ou BEP (**T17_CAPBEP**);
- Part de la population active dont le diplôme le plus élevé est le BAC (**T17_BAC**);
- Part des diplômés d'un BAC+2 dans la population active (**T17_SUP2**);
- Part des diplômés d'un BAC+3 ou BAC+4 dans la population active (**T17_SUP34**);
- Part des diplômés d'un BAC+5 ou plus dans la population active (**T17_SUP5**).


In [18]:
bdd_scolar = csv_zip_to_df("https://www.insee.fr/fr/statistiques/fichier/4516086/base-ccc-diplomes-formation-2017.zip","base-cc-diplomes-formation-2017.CSV")

  if (await self.run_code(code, result,  async_=asy)):


In [19]:
#Création des taux de scolarisation
taux('T17_0205','P17_SCOL0205','P17_POP0205',bdd_scolar)
taux('T17_0610','P17_SCOL0610','P17_POP0610',bdd_scolar)
taux('T17_1114','P17_SCOL1114','P17_POP1114',bdd_scolar)
taux('T17_1517','P17_SCOL1517','P17_POP1517',bdd_scolar)
taux('T17_1824','P17_SCOL1824','P17_POP1824',bdd_scolar)
taux('T17_2529','P17_SCOL2529','P17_POP2529',bdd_scolar)

#Part de diplômés
taux('T17_NDIP','P17_NSCOL15P_DIPLMIN','P17_NSCOL15P',bdd_scolar)
taux('T17_BEPC','P17_NSCOL15P_BEPC','P17_NSCOL15P',bdd_scolar)
taux('T17_CAPBEP','P17_NSCOL15P_CAPBEP','P17_NSCOL15P',bdd_scolar)
taux('T17_BAC','P17_NSCOL15P_BAC','P17_NSCOL15P',bdd_scolar)
taux('T17_SUP2','P17_NSCOL15P_SUP2','P17_NSCOL15P',bdd_scolar)
taux('T17_SUP34','P17_NSCOL15P_SUP34','P17_NSCOL15P',bdd_scolar)
taux('T17_SUP5','P17_NSCOL15P_SUP5','P17_NSCOL15P',bdd_scolar)

0        0.056
1        0.091
2        0.063
3        0.048
4        0.032
         ...  
34991    0.043
34992    0.017
34993    0.034
34994    0.024
34995    0.011
Name: T17_SUP5, Length: 34996, dtype: float64

In [20]:
bdd_scolar['CODGEO']= bdd_scolar['CODGEO'].astype(str).str.zfill(5)
bdd_scolar['DEP']=bdd_scolar['CODGEO'].str[:2]

#Sélection de variables
bdd_scolar["Taux_sup"] = bdd_scolar["T17_BAC"] + bdd_scolar["T17_SUP2"] + bdd_scolar["T17_SUP34"] + bdd_scolar["T17_SUP5"]


bdd_scolar = bdd_scolar[["Taux_sup", 'CODGEO']]


## Base établissements d'enseignement du premier et second degrés

In [21]:
import csv
import io
import urllib.request

#url = "https://data.education.gouv.fr/explore/dataset/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre/download/?format=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre.csv"
url = "https://raw.github.com/datasets/gdp/master/data/gdp.csv"
webpage = urllib.request.urlopen(url)
datareader = csv.reader(io.TextIOWrapper(webpage))
data = list(datareader)

#for row in datareader:
   # print(row)

## Détermination des bases des variables à étudier 
- bdd_results
- bdd_ind_eco
- bdd_academ
- bdd_cinema
- bdd_scolar


In [36]:
url = "https://data.education.gouv.fr/explore/dataset/fr-en-indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/download/?format=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B"
bdd_results = pd.read_csv(url, sep =";")



In [39]:
for i in bdd_results.columns :
  print(i)

print(bdd_results.shape)
bdd_results = bdd_results.rename(columns = {'Code commune' : 'CODGEO'})
#Taux d'élèves présents dans les fillières générales
bdd_results["Taux_gen"] = (bdd_results["Effectif Présents série S"] + bdd_results["Effectif Présents série L"] + bdd_results["Effectif Présents série ES"])/ bdd_results['Effectif Présents Total séries']

Code Etablissement
Etablissement
Année
Ville
Code commune
Académie
Département
Secteur Public/Prive
Effectif Présents série L
Effectif Présents série ES
Effectif Présents série S
Effectif Présents série STG
Effectif Présents série STI2D
Effectif Présents série STD2A
Effectif Présents série STMG
Effectif Présents série STI
Effectif Présents série STL
Effectif Présents série ST2S
Effectif Présents série Musique Danse
Effectif Présents série Hotellerie
Effectif Présents Total séries
Taux Brut de Réussite série L
Taux Brut de Réussite série ES
Taux Brut de Réussite série S
Taux Brut de Réussite série STG
Taux Brut de Réussite série STI2D
Taux Brut de Réussite série STD2A
Taux Brut de Réussite série STMG
Taux Brut de Réussite série STI
Taux Brut de Réussite série STL
Taux Brut de Réussite série ST2S
Taux Brut de Réussite série Musique Danse
Taux Brut de Réussite série Hotellerie
Taux Brut de Réussite Total séries
Taux Réussite Attendu Académie série L
Taux Réussite Attendu Académie série ES

On utilisera la variable 'CODGEO' pour merger les différentes bases, en se basant sur le code qui indique la ville dans laquelle se trouve le lycée.



In [83]:
col = ['Code Etablissement','CODGEO', 'Secteur Public/Prive', 'Académie', 'Département', 'Taux Brut de Réussite série L', 'Taux Brut de Réussite série ES', 'Taux Brut de Réussite série S', 'Taux_gen']

bdd_results = bdd_results[col]

# Notre variable d'intérêt est le taux de réussite au bac général, on supprime donc les lignes où ces données sont manquantes
bdd_results = bdd_results.dropna(subset=['Taux Brut de Réussite série L'])
bdd_results  = bdd_results.dropna(subset=['Taux Brut de Réussite série S'])
bdd_results  = bdd_results.dropna(subset=['Taux Brut de Réussite série ES'])

#Du même biais, on se débarasse des NAN dans la colonne taux_gen

bdd_results

Unnamed: 0,Code Etablissement,CODGEO,Secteur Public/Prive,Académie,Département,Taux Brut de Réussite série L,Taux Brut de Réussite série ES,Taux Brut de Réussite série S,Taux_gen
1,0130002G,13001,PU,AIX-MARSEILLE,BOUCHES DU RHONE,95.0,94.0,95.0,0.816284
2,0131319N,13001,PR,AIX-MARSEILLE,BOUCHES DU RHONE,100.0,100.0,99.0,1.000000
3,0130010R,13004,PU,AIX-MARSEILLE,BOUCHES DU RHONE,95.0,79.0,96.0,0.609467
4,0132410Z,13054,PU,AIX-MARSEILLE,BOUCHES DU RHONE,88.0,71.0,65.0,0.813187
5,0130043B,13203,PU,AIX-MARSEILLE,BOUCHES DU RHONE,67.0,73.0,75.0,0.595588
...,...,...,...,...,...,...,...,...,...
18515,0593225K,59378,PR,LILLE,NORD,100.0,100.0,100.0,1.000000
18516,0590143K,59378,PU,LILLE,NORD,100.0,84.0,78.0,1.000000
18518,0590181B,59512,PU,LILLE,NORD,79.0,66.0,67.0,0.844262
18519,0592921E,59512,PR,LILLE,NORD,100.0,98.0,97.0,0.819444


In [306]:
bdd_academ= pd.read_excel('https://www.insee.fr/fr/statistiques/fichier/1281332/ip1512.xls', sheet_name= "Figure 2a")
bdd_academ = bdd_academ.iloc[3:32]
bdd_academ.columns = ['Académie','part_fav', 'taux_retard_sixième']
print(bdd_academ["Académie"])

3            Amiens
4              Nice
5             Reims
6     Aix-Marseille
7              Caen
8             Dijon
9          Besançon
10            Rouen
11            Corse
12         Toulouse
13         Bordeaux
14      Montpellier
15           Rennes
16         Grenoble
17           Nantes
18    Orléans-Tours
19       Nancy-Metz
20            Lille
21         Clermont
22       Strasbourg
23             Lyon
24            Paris
25          Créteil
26       Versailles
27         Poitiers
28          Limoges
29       Guadeloupe
30       Martinique
31           Guyane
Name: Académie, dtype: object


In [260]:
bdd_cinema = pd.read_excel('https://www.data.gouv.fr/fr/datasets/r/cdb918e7-7f1a-44fc-bf6f-c59d1614ed6d', sheet_name ='2017')
print(bdd_cinema.columns)
bdd_cinema = bdd_cinema.iloc[4:]
bdd_cinema = bdd_cinema.rename(columns = {'Unnamed: 1' : "nom", 'Unnamed: 4' : 'CODGEO'})
bdd_cinema

Index(['Unnamed: 0', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8'],
      dtype='object')


Unnamed: 0.1,Unnamed: 0,nom,Unnamed: 2,Unnamed: 3,CODGEO,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
4,12,GEORGE V,11,1666,75108,Paris 8e Arrondissement,FIXE,NON,OUI
5,31,UGC NORMANDIE,4,1610,75108,Paris 8e Arrondissement,FIXE,NON,OUI
6,35,BALZAC,3,590,75108,Paris 8e Arrondissement,FIXE,OUI,OUI
7,54,GAUMONT CHAMPS ELYSEES MARIGNAN,6,1701,75108,Paris 8e Arrondissement,FIXE,NON,OUI
8,55,ELYSEES LINCOLN,3,448,75108,Paris 8e Arrondissement,FIXE,OUI,NON
...,...,...,...,...,...,...,...,...,...
2045,447622,CAROUSSEL 1 (EX-MAJESTIC 1),8,1161,55545,Verdun,FIXE,OUI,OUI
2046,450575,CLUB 6,1,370,70550,Vesoul,FIXE,NON,NON
2047,460135,RIO,1,127,54580,Villerupt,FIXE,NON,NON
2048,464001,ALHAMBRA,1,313,88516,Vittel,FIXE,NON,NON


In [261]:
liste_cinema = bdd_cinema.groupby(['CODGEO'])['nom'].count()

CODGEO
01004    1
01033    1
01034    1
01053    2
01093    1
        ..
95555    1
95572    1
95585    1
95607    1
95637    1
Name: nom, Length: 1680, dtype: int64

In [269]:
#On transforme cette liste en data frame
bdd_cinema = pd.DataFrame(liste_cinema)
bdd_cinema

Unnamed: 0_level_0,nom
CODGEO,Unnamed: 1_level_1
01004,1
01033,1
01034,1
01053,2
01093,1
...,...
95555,1
95572,1
95585,1
95607,1


In [275]:
print(bdd_ind_eco.shape)
print(bdd_cinema.shape)
print(bdd_results.shape)
print(bdd_scolar.shape)
print(bdd_academ.shape)

(34999, 7)
(1680, 1)
(14077, 9)
(34996, 2)
(29, 3)


### Consolidation des data frames retenus 


In [290]:
liste_df = [bdd_ind_eco, bdd_results, bdd_scolar]

df = reduce(lambda left,right: pd.merge(left, right, on='CODGEO',left_index=True, right_index=True, how='inner'), liste_df)
print(df.shape)

#On utilise how = "inner" car on souhaite retenir uniquement les valeurs pour lesquelles on a bdd_results, donc on écrase les occurences des villes qui ne comptent pas de lycée

(14077, 16)


In [311]:
#Pour fusionner la base, les valeurs dans les colonnes Académie doivent être identiques


def up(x):
    return(x.upper())

df["Académie"] = df["Académie"].apply(up)
bdd_academ["Académie"] = bdd_academ["Académie"].apply(up)

bdd_academ['Académie'] = df['Académie'].replace(['CRÉTEIL','BESANÇON', 'ORLÉANS-TOURS' ],['CRETEIL','BESANCON', 'ORLEANS-TOURS'])

liste_df_2 = [df, bdd_academ]
df = reduce(lambda left,right: pd.merge(left, right, on='Académie',left_index=True, right_index=True, how='outer'), liste_df)
df  = df.dropna(subset=['Code Etablissement'])
#La base bdd_academ comptait en plus 3 DROM COM, qui n'étaient pas présents dans la base bdd_results
print(df.shape)


AttributeError: 'float' object has no attribute 'upper'

In [312]:
liste_df_3 = [bdd_cinema, df]

df = reduce(lambda left,right: pd.merge(left, right, on='CODGEO',left_index=True, right_index=True, how='outer'), liste_df_3)
df  = df.dropna(subset=['Code Etablissement'])
df

Unnamed: 0,CODGEO,nom_x,nom_y,P17_POP,DEN17,MED17,P17_EMPLT,T17_CHOM1564,TP6017,Code Etablissement,Secteur Public/Prive,Académie,Département,Taux Brut de Réussite série L,Taux Brut de Réussite série ES,Taux Brut de Réussite série S,Taux_gen,Taux_sup
1,01002,,,248.0,27.0,24290.0,16.169223,0.069,,0130002G,PU,AIX-MARSEILLE,BOUCHES DU RHONE,95.0,94.0,95.0,0.816284,0.565
2,01004,,,14035.0,571.0,19860.0,7685.583424,0.113,17.0,0131319N,PR,AIX-MARSEILLE,BOUCHES DU RHONE,100.0,100.0,99.0,1.000000,0.449
3,01005,,,1689.0,106.0,23370.0,293.563139,0.063,,0130010R,PU,AIX-MARSEILLE,BOUCHES DU RHONE,95.0,79.0,96.0,0.609467,0.416
4,01006,,,111.0,19.0,23970.0,6.054545,0.111,,0132410Z,PU,AIX-MARSEILLE,BOUCHES DU RHONE,88.0,71.0,65.0,0.813187,0.454
5,01007,,,2726.0,81.0,22380.0,469.385339,0.061,,0130043B,PU,AIX-MARSEILLE,BOUCHES DU RHONE,67.0,73.0,75.0,0.595588,0.503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18515,51388,,,5085.0,219.0,18980.0,3493.778058,0.068,12.0,0593225K,PR,LILLE,NORD,100.0,100.0,100.0,1.000000,0.358
18516,51389,,,813.0,67.0,20730.0,238.704027,0.107,,0590143K,PU,LILLE,NORD,100.0,84.0,78.0,1.000000,0.333
18518,51391,,,2161.0,302.0,24290.0,903.019133,0.056,,0590181B,PU,LILLE,NORD,79.0,66.0,67.0,0.844262,0.406
18519,51392,,,188.0,50.0,27340.0,31.759179,0.043,,0592921E,PR,LILLE,NORD,100.0,98.0,97.0,0.819444,0.440
