On va tenter de simuler une pseudo carte scolaire. En effet, notre modélisation du lien entre taux de réussite au baccalauréat et revenu souffre probablement du fait qu'on ait associé le revenu des élèves à celui des communes de leur lycée. 
Or, des élèves viennent d'autres communes non pourvues d'établissement scolaire et le revenu médian peut être très hétérogène entre deux communes. 
On va donc essayer de refaire une carte scolaire de la manière suivante :
- Chaque commune sera associée à un point géographique. Si elle est dépourvue de lycée, on l'associera au lycée le plus proche. 
- On ponderera alors un revenu médian pour chaque lycée en fonction du revenu médian de chaque commune qui lui est associée et de la population des communes prises en compte. On posera donc l'hypothèse que la proportion de bacheliers potentiels est identique dans chaque commune (ce qui est discutable étant donné qu'il y'a une ségrégation spatiale générationnelle sur le territoire français)
- On procédera ainsi à une nouvelle régression avec les données obtenues

On doit donc créer une base de données adaptée. Il faut qu'on ait dedans
- Chaque établissement scolaire, avec son nombre de candidats et le taux de réussite par filières. 
- Chaque commune avec le revenu médian associé
- Les coordonnées géographiques des lycées et des communes 
En plus des bases de données utilisées précédemment, nous avons utilisé une base de données de La Poste pour avoir la longitude et la latitude de chaque commune. 

In [1]:
!pip install pathlib2
!pip install python-Levenshtein
!pip install --upgrade xlrd
!pip install git+https://github.com/InseeFrLab/Py-Insee-Data.git
import requests
url = 'https://github.com/InseeFrLab/Py-Insee-Data/archive/refs/heads/master.zip'
r = requests.get(url)
with open("pynsee.zip" , 'wb') as zipfile:
    zipfile.write(r.content)
!pip install --ignore-installed pynsee.zip
!pip install python-Levenshtein
!pip install openpyxl
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import pynsee.download
import seaborn as sns

Collecting pathlib2
  Downloading pathlib2-2.3.7.post1-py2.py3-none-any.whl (18 kB)
Installing collected packages: pathlib2
Successfully installed pathlib2-2.3.7.post1
Collecting python-Levenshtein
  Downloading python_Levenshtein-0.20.8-py3-none-any.whl (9.4 kB)
Collecting Levenshtein==0.20.8
  Downloading Levenshtein-0.20.8-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (174 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m174.1/174.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting rapidfuzz<3.0.0,>=2.3.0
  Downloading rapidfuzz-2.13.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.2/2.2 MB[0m [31m60.8 MB/s[0m eta [36m0:00:00[0m00:01[0m
[?25hInstalling collected packages: rapidfuzz, Levenshtein, python-Levenshtein
Successfully installed Levenshtein-0.20.8 python-Levenshtein-0.20.8 rapidfuzz-2.13.6
Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-n

In [87]:
#Importations des bases de données

#Base de communes

df_communes = pd.read_excel("FILO2019_DEC_COM.xlsx", sheet_name = 1, header=[4,5])
df_com = df_communes.copy()
df_com = df_com.drop(['PMIMP19', 'Q119', 'Q319','Q3_Q1','D119', 'D219', 'D319', 'D419', 'D619', 'D719', 'D819', 'D919', 'RD', 'S80S2019', 'GI19', 'PACT19', 'PTSA19', 'PCHO19', 'PBEN19', 'PPEN19', 'PAUT19'], axis = 1, level = 1 )
#Base des lycées
dflyc = pd.read_excel('base_def_SansDOMTOM.xlsx')
dflyc = dflyc[dflyc['Code_commune'].str.startswith('2B')==False] #On exclut la Corse pour faciliter des conversions en nombre entier futur
dflyc = dflyc[dflyc['Code_commune'].str.startswith('2A')==False]

#Base des coordonnées géographiques des communes 
dfgeo = pd.read_csv('communes-departement-region.csv')

#Base population
dfpop = pd.read_excel('ensemble.xlsx', sheet_name=4, header=7)
dfpop =dfpop[["Code département", "Code commune", "Population totale"]]
dfpop = dfpop[dfpop['Code département'].str.startswith('2B')==False] #On exclut la Corse pour faciliter des conversions en nombre entier futur
dfpop = dfpop[dfpop['Code département'].str.startswith('2A')==False]
dfpop["Code département"] = dfpop["Code département"].astype(int)
for i in range(dfpop.shape[0]):
    dfpop.loc[dfpop.index[i], "Code département"] = dfpop.loc[dfpop.index[i], "Code département"]*1000
dfpop['Code Commune INSEE'] = dfpop['Code département'] + dfpop['Code commune'] #Les codes communes seront alors compatibles avec ceux de la base de données des communes
dfpop = dfpop.drop(["Code département", "Code commune"], axis=1)

In [92]:
# NettoyageBaseGéo
dfgeo=dfgeo[dfgeo['code_postal']<97000]
dfgeo = dfgeo.drop(["code_postal", "libelle_acheminement", "ligne_5", "nom_commune_complet", "nom_departement", "nom_region","article"], axis=1)
dfgeo

#NettoyageBaseLycCom
dflyc.columns
dflyc = dflyc.drop(["Unnamed: 0", "Valeur ajoutée du taux de réussite_GNLE", "Valeur ajoutée du taux de réussite_Valeur ajoutée techno", "Nombre d'élèves présents au Bac_TOTAL_LGT","Taux de réussite bruts_TOTAL_LGT", "Valeur ajoutée du taux de réussite_TOTAL_LGT", "Valeur ajoutée du taux de réussite_TOTAL_Pro", "Nbre de ménages fiscaux_NBMEN19","Nbre de personnes dans les ménages fiscaux_NBPERS19", "Nbre d'unités de consommation dans les ménages fiscaux_NBUC19", "coordonnee_X", "coordonnee_Y", "epsg"], axis=1)
dflyc

#Amélioration base communes
df_com.columns = df_com.columns.map('_'.join).str.strip('_')
df_com = df_com.drop(["Nbre de ménages fiscaux_NBMEN19","Nbre de personnes dans les ménages fiscaux_NBPERS19","Nbre d'unités de consommation dans les ménages fiscaux_NBUC19"], axis=1)
df_com = df_com[df_com["Code géographique_CODGEO"].str.startswith('2A')==False]
df_com = df_com[df_com["Code géographique_CODGEO"].str.startswith('2B')==False] #On enlève la Corse pour faciliter des manipulations futures
df_com["Code géographique_CODGEO"] = df_com["Code géographique_CODGEO"].astype(int)
df_com2 = df_com.merge(dfpop, how='left', left_on = "Code géographique_CODGEO", right_on='Code Commune INSEE')
df_com2["Code géographique_CODGEO"] = df_com2["Code géographique_CODGEO"].astype(str)

Unnamed: 0,Code géographique_CODGEO,Libellé géographique_LIBGEO,Médiane (€)_Q219,Population totale,Code Commune INSEE
0,1001,L'Abergement-Clémenciat,24210,789.0,1001.0
1,1002,L'Abergement-de-Varey,23380,254.0,1002.0
2,1004,Ambérieu-en-Bugey,19690,14586.0,1004.0
3,1005,Ambérieux-en-Dombes,24100,1744.0,1005.0
4,1007,Ambronay,23340,2878.0,1007.0
...,...,...,...,...,...
31153,97420,Sainte-Suzanne,14100,,
31154,97421,Salazie,7740,,
31155,97422,Le Tampon,12370,,
31156,97423,Les Trois-Bassins,13060,,


In [108]:
#Fusion des bases

#Fusion commune/géographie
dfcomgeo  = df_com2.merge(dfgeo, how= 'left', left_on='Code géographique_CODGEO', right_on = 'code_commune_INSEE')
dfcomgeo = dfcomgeo.drop(["nom_commune_postal", "nom_commune"], axis=1)

#Fusion commune, lycée 
dfmodel = pd.merge(dflyc, dfcomgeo, how = 'outer', left_on = "Code_commune", right_on ='code_commune_INSEE')

In [107]:
dfmodel

Unnamed: 0,Identifiant_de_l_etablissement,Informations établissement_Académie,Informations établissement_Département,Informations établissement_Etablissement,Informations établissement_Ville,Code_commune,Informations établissement_Secteur,Nombre d'élèves présents au Bac_GNLE,Taux de réussite bruts_GNLE,Nombre d'élèves présents au Bac_Somme Techno,...,Libellé géographique_LIBGEO,Médiane (€)_Q219_y,Population totale,Code Commune INSEE,code_commune_INSEE,latitude_y,longitude_y,code_commune,code_departement,code_region
0,0040003G,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ANDRE HONNORAT (GENERAL ET TECHNO.),BARCELONNETTE,04019,PU,54.0,98.0,,...,,,,,,,,,,
1,0040003G,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ANDRE HONNORAT (PROFESSIONNEL),BARCELONNETTE,04019,PU,,,,...,,,,,,,,,,
2,0040027H,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ALEXANDRA DAVID NEEL,DIGNE LES BAINS,04070,PU,122.0,99.0,78.0,...,,,,,,,,,,
3,0040490L,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE PIERRE-GILLES DE GENNES,DIGNE LES BAINS,04070,PU,98.0,100.0,67.0,...,,,,,,,,,,
4,0040010P,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE FELIX ESCLANGON,MANOSQUE,04112,PU,174.0,97.0,60.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6756,0780273Y,VERSAILLES,YVELINES,LYCEE PROFESSIONNEL LOUIS BLERIOT,TRAPPES,78621,PU,,,,...,Trappes,15420.0,32236.0,78621.0,78621,48.775002,1.993440,621.0,78,11.0
6757,0782603F,VERSAILLES,YVELINES,LYCEE PROFESSIONNEL JACQUES PREVERT,VERSAILLES,78646,PU,,,,...,Versailles,34730.0,87253.0,78646.0,78646,48.802567,2.117893,646.0,78,11.0
6758,0782100J,VERSAILLES,YVELINES,LYCEE PROFESSIONNEL LES CHATAIGNIERS,VERSAILLES,78646,PR,,,,...,Versailles,34730.0,87253.0,78646.0,78646,48.802567,2.117893,646.0,78,11.0
6759,0781582W,VERSAILLES,YVELINES,LYCEE PROFESSIONNEL NOTRE-DAME DU GRANDCHAMP,VERSAILLES,78646,PR,,,,...,Versailles,34730.0,87253.0,78646.0,78646,48.802567,2.117893,646.0,78,11.0


In [95]:
dfmodelc = dfmodel.copy()

dfmodelc["Informations établissement_Ville"]= dfmodelc["Informations établissement_Ville"].fillna(0)
dfmodelcnz = dfmodelc[dfmodelc["Informations établissement_Ville"]!=0]
dfmodelcz = dfmodelc[dfmodelc["Informations établissement_Ville"]==0]
for i in range(dfmodelcnz.shape[0]):
    dfmodelcnz.loc[dfmodelcnz.index[i], "Libellé géographique_LIBGEO"]=dfmodelcnz.loc[dfmodelcnz.index[i],"Informations établissement_Ville"]
    dfmodelcnz.loc[dfmodelcnz.index[i], "code_commune_INSEE"]=dfmodelcnz.loc[dfmodelcnz.index[i],"Code_commune"]
    dfmodelcnz.loc[dfmodelcnz.index[i], "Médiane (€)_Q219_y"]=dfmodelcnz.loc[dfmodelcnz.index[i],"Médiane (€)_Q219_x"]
    dfmodelcnz.loc[dfmodelcnz.index[i], "latitude_y"]=dfmodelcnz.loc[dfmodelcnz.index[i],"latitude_x"]
    dfmodelcnz.loc[dfmodelcnz.index[i], "longitude_y"]=dfmodelcnz.loc[dfmodelcnz.index[i],"longitude_x"]
    dfmodelcnz.loc
dfmodelc = pd.concat([dfmodelcnz, dfmodelcz])
dfmodelc = dfmodelc.drop(["Code_commune","Informations établissement_Ville","code_commune", "latitude_x", "longitude_x", "Médiane (€)_Q219_x", "Code géographique_CODGEO", "Code Commune INSEE"], axis=1)
dfmodelc.to_excel('test.xlsx')

Unnamed: 0,Identifiant_de_l_etablissement,Informations établissement_Académie,Informations établissement_Département,Informations établissement_Etablissement,Informations établissement_Secteur,Nombre d'élèves présents au Bac_GNLE,Taux de réussite bruts_GNLE,Nombre d'élèves présents au Bac_Somme Techno,Taux de réussite bruts_Taux brut techno,Nombre d'élèves présents au Bac_TOTAL_Pro,Taux de réussite bruts_TOTAL_Pro,Libellé géographique_LIBGEO,Médiane (€)_Q219_y,Population totale,Code Commune INSEE,code_commune_INSEE,latitude_y,longitude_y,code_departement,code_region
0,0040003G,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ANDRE HONNORAT (GENERAL ET TECHNO.),PU,54.0,98.0,,,,,BARCELONNETTE,19070.0,,,04019,44.388778,6.651860,,
1,0040003G,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ANDRE HONNORAT (PROFESSIONNEL),PU,,,,,15.0,87.0,BARCELONNETTE,19070.0,,,04019,44.388778,6.651860,,
2,0040027H,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE ALEXANDRA DAVID NEEL,PU,122.0,99.0,78.0,93.435897,,,DIGNE LES BAINS,19840.0,,,04070,44.100803,6.234041,,
3,0040490L,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE PIERRE-GILLES DE GENNES,PU,98.0,100.0,67.0,98.447761,,,DIGNE LES BAINS,19840.0,,,04070,44.073766,6.181939,,
4,0040007L,AIX-MARSEILLE,ALPES DE HTE PROVENCE,LYCEE PROFESSIONNEL BEAU DE ROCHAS,PU,,,,,104.0,87.0,DIGNE LES BAINS,19840.0,,,04070,44.100068,6.234224,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39031,,,,,,,,,,,,VILLERON,24910.0,1265.0,95675.0,95675,49.060843,2.534511,95,11.0
39032,,,,,,,,,,,,VILLERS-EN-ARTHIES,27360.0,507.0,95676.0,95676,49.085900,1.730396,95,11.0
39033,,,,,,,,,,,,VILLIERS-ADAM,33010.0,872.0,95678.0,95678,49.070289,2.239509,95,11.0
39034,,,,,,,,,,,,VILLIERS-LE-SEC,25690.0,190.0,95682.0,95682,49.074309,2.386890,95,11.0
