# La présence de bibliothèques autour des lycées augmente-t-elle la performance des lycées ?

In [None]:
# Setup

# Si la commande n'avait pas déjà été lancée danas le terminal
# !pip install -r "requirements.txt"

import numpy as np
import pandas as pd
import geopandas as gpd
from src.download_file import download_file
from src.data_lycees import get_data_lycees
from src.data_lycees import merge_data_lycees
from src.data_biblio import get_data_biblio
from src.distances import compute_biblio_distances
from plotnine import *
import folium

pd.set_option('display.width', 120)

### Contexte

La performance des lycées est ici entendue comme le taux de réussite à l’examen du 
baccalauréat général, même si l’étude du taux de mention obtenu par les lycées est 
une piste envisagée. Celle-ci peut être expliquée par trois facteurs :

-	par le public de l’établissement (les élèves et leur origine sociale)
-	par le contexte de l’établissement (ses propriétés intrinsèques et possiblement les politiques 
    éducatives dont il fait objet)
-	par l’environnement de l’établissement (ce qui est relatif à sa situation géographique)

La question que l’on se pose se concentre sur les facteurs environnementaux de réussite scolaire, 
en proposant l’analyse de l’impact de la présence de bibliothèques autour des lycées. Les 
bibliothèques, qu’elles soient municipales, universitaires ou d’une autre nature, sont en effet 
des lieux qui peuvent favoriser la réussite des élèves par au moins deux moyens : d’abord, ce 
sont des lieux d’accès à la culture et à la connaissance ; d’autre part, ce sont aussi des 
lieux de révision privilégiés, notamment pour la préparation du baccalauréat .

La démarche adoptée consiste donc principalement à étudier le lien entre proximité d’une (ou de) 
bibliothèque(s) et performance des lycées. Cette proximité sera évaluée par la distance 
géographique, ou aussi par le nombre d’équipements disponibles dans un rayon donné. 


### Méthodes

@bourdieuHeritiersEtudiantsCulture1964

Après quelques statistiques descriptives et cartes pour illustrer le problème, des régressions 
linéaires seront mobilisées pour tester notre hypothèse, en contrôlant par d’autres variables. En 
partant des facteurs mis en évidence précédemment, la composition sociale du lycée sera appréciée 
à partir de l’indice de position sociale proposée par la Depp (cf. rubrique « Données »). Le 
contexte de l’établissement sera surtout pris en compte par le secteur de l’établissement 
(privé / public) et les filières et formations disponibles en son sein (filières technologiques 
et professionnelles, formations post-baccalauréat comme les BTS ou CPGE).

### Données

Pour ce qui est des données mobilisées, l’échelle d’observation sera le lycée. Le champ d’étude 
est limité aux lycées avec au moins 50 candidats (seuil à préciser) présents aux épreuves du 
baccalauréat général en 2024. Il s’agira alors de construire nos observations à partir de 
trois bases de données ouvertes produites par la Depp (service statistique ministériel de 
l’Education nationale) :
-	taux de réussite et de mention au bac (https://data.education.gouv.fr/explore/dataset/fr-en-indicateurs-de-resultat-des-lycees-gt_v2/information/)
-	indice de position sociale (https://data.education.gouv.fr/explore/dataset/fr-en-ips-lycees-ap2023/information/)
-	géolocalisation des lycées (https://data.education.gouv.fr/explore/dataset/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre/information/)

Enfin, le choix de se limiter à 2024 est lié à la disponibilité des données concernant les 
bibliothèques. En effet, nous utilisons la base permanente des équipements, qui n’est disponible 
en open data que pour 2024 (https://www.data.gouv.fr/datasets/base-permanente-des-equipements-1/).


## Analyse descriptive des données

### Les données sur les lycées

In [2]:
# Importation des données sur les lycées

lycees_resultats, lycees_ips, annuaire_education = get_data_lycees()
lycees_data = merge_data_lycees(lycees_resultats, lycees_ips, annuaire_education)
lycees_data.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 1911 entries, 0 to 2212
Data columns (total 45 columns):
 #   Column                              Non-Null Count  Dtype   
---  ------                              --------------  -----   
 0   uai                                 1911 non-null   object  
 1   annee                               1911 non-null   int64   
 2   presents_gnle                       1911 non-null   float64 
 3   taux_reu_gnle                       1911 non-null   float64 
 4   va_reu_gnle                         1910 non-null   float64 
 5   taux_men_gnle                       1911 non-null   float64 
 6   va_men_gnle                         1910 non-null   float64 
 7   ips_voie_gt                         1911 non-null   float64 
 8   ecart_type_voie_gt                  1911 non-null   float64 
 9   libelle_etablissement               1911 non-null   object  
 10  code_commune                        1911 non-null   object  
 11  code_departement           

### Les données sur les bibliothèques

In [3]:
# Importation des données sur les bibliothèques

biblio = get_data_biblio()
biblio.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 4958 entries, 0 to 5166
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   NOMETAB           4958 non-null   object  
 1   PAYS              4958 non-null   object  
 2   CODEPOSTAL        4958 non-null   object  
 3   LATITUDE          4958 non-null   float64 
 4   LONGITUDE         4958 non-null   float64 
 5   CONDITIONACCES_d  4373 non-null   object  
 6   TYPEETABABES_d    4938 non-null   object  
 7   TYPEFAMABES_d     4936 non-null   object  
 8   TYPEINST_d        4957 non-null   object  
 9   geometry          4958 non-null   geometry
dtypes: float64(2), geometry(1), object(7)
memory usage: 426.1+ KB


## Modélisation

## Conclusion

### Perspectives