# Potentiel s(c)olaire

## Récupération des données

In [1]:
# Je commence par installer le module requests pour récupérer les données via API
!pip install requests



In [2]:
# Import des modules utilisés
import requests
import pandas as pd

In [3]:
# Définition de l'url qui contient les données
url = 'https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-annuaire-education/exports/json'

# Récupération des données
response = requests.get(url)

# Vérification de la bonne récupération
if response.status_code == 200:
    data = response.json()
    #print(data)
    print("Données récupérées avec succès")
else:
    print(f"Error: {response.status_code}")

Données récupérées avec succès


In [4]:
# Création du jeu de données
df = pd.DataFrame(data)
df.head()

Unnamed: 0,identifiant_de_l_etablissement,nom_etablissement,type_etablissement,statut_public_prive,adresse_1,adresse_2,adresse_3,code_postal,code_commune,nom_commune,...,libelle_nature,code_type_contrat_prive,pial,etablissement_mere,type_rattachement_etablissement_mere,code_circonscription,code_zone_animation_pedagogique,libelle_zone_animation_pedagogique,code_bassin_formation,libelle_bassin_formation
0,0580631W,Ecole maternelle Pauline Kergomard,Ecole,Public,29 rue Jacques Duclos,,58640 VARENNES VAUZELLES,58640,58303,Varennes-Vauzelles,...,ECOLE MATERNELLE,99,0580620J,,,0580086D,,,7581,Réseau Nevers
1,0580632X,Ecole primaire,Ecole,Public,46 rue du Bourg,AU BOURG,58640 VARENNES VAUZELLES,58640,58303,Varennes-Vauzelles,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0580620J,,,0580086D,,,7581,Réseau Nevers
2,0580644K,Ecole primaire,Ecole,Public,1 rue DU FOUR BANAL,LE BOURG,58800 CERVON,58800,58047,Cervon,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0580012Y,,,0580059Z,,,7581,Réseau Nevers
3,0580649R,Ecole primaire,Ecole,Public,22 rue Henri Renaud,,58360 ST HONORE LES BAINS,58360,58246,Saint-Honoré-les-Bains,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0580030T,,,0580059Z,,,7581,Réseau Nevers
4,0580653V,Ecole primaire,Ecole,Public,411 avenue des tilleuls,LE BOURG,58170 MILLAY,58170,58168,Millay,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0580619H,,,0580059Z,,,7581,Réseau Nevers


In [6]:
# Vérification que toutes les données ont été exportées

# Url permettant d'accéder aux enregistrements (dont le total_count)
url_ = 'https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-annuaire-education/records'

# Récupération via appel GET
response_ = requests.get(url_)

# On s'assure que l'appel a fonctionné
if response_.status_code == 200:
    data_ = response_.json()
else:
    print(f"Error: {response_.status_code}")

# Enfin, on compare avec la taille attendue
try:
  assert data_['total_count'] == len(df)
except AssertionError as e:
  print(f"Données non complètement récupérées, erreur : {f}.")
else:
  print("Toutes les données sont récupérées.")

Toutes les données sont récupérées.


## Analyse des colonnes

In [8]:
# Liste des colonnes pour analyse
list(df.columns)

['identifiant_de_l_etablissement',
 'nom_etablissement',
 'type_etablissement',
 'statut_public_prive',
 'adresse_1',
 'adresse_2',
 'adresse_3',
 'code_postal',
 'code_commune',
 'nom_commune',
 'code_departement',
 'code_academie',
 'code_region',
 'ecole_maternelle',
 'ecole_elementaire',
 'voie_generale',
 'voie_technologique',
 'voie_professionnelle',
 'telephone',
 'fax',
 'web',
 'mail',
 'restauration',
 'hebergement',
 'ulis',
 'apprentissage',
 'segpa',
 'section_arts',
 'section_cinema',
 'section_theatre',
 'section_sport',
 'section_internationale',
 'section_europeenne',
 'lycee_agricole',
 'lycee_militaire',
 'lycee_des_metiers',
 'post_bac',
 'appartenance_education_prioritaire',
 'greta',
 'siren_siret',
 'nombre_d_eleves',
 'fiche_onisep',
 'position',
 'type_contrat_prive',
 'libelle_departement',
 'libelle_academie',
 'libelle_region',
 'coordx_origine',
 'coordy_origine',
 'epsg_origine',
 'nom_circonscription',
 'latitude',
 'longitude',
 'precision_localisation',

In [15]:
print(f"Valeurs uniques : {len(df['identifiant_de_l_etablissement'].unique())}\n")
df['identifiant_de_l_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 69566



Unnamed: 0,identifiant_de_l_etablissement
38177,0410723N
55127,0320160A
8413,0400274F
61003,0221740X
41125,0530674V


In [16]:
print(f"Valeurs uniques : {len(df['nom_etablissement'].unique())}\n")
df['nom_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 42633



Unnamed: 0,nom_etablissement
38177,Ecole primaire privée Sainte Geneviève
55127,Ecole élémentaire publique
8413,Ecole primaire
61003,Ecole primaire publique La Ville Hellio
41125,Ecole primaire privée L'Ange Gardien


In [17]:
print(f"Valeurs uniques : {len(df['type_etablissement'].unique())}\n")
df['type_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 9



Unnamed: 0,type_etablissement
38177,Ecole
55127,Ecole
8413,Ecole
61003,Ecole
41125,Ecole


In [18]:
df['type_etablissement'].unique()

array(['Ecole', 'Collège', 'Lycée', 'Médico-social',
       'Information et orientation', 'Service Administratif', None,
       'EREA', 'Autre'], dtype=object)

In [19]:
print(f"Valeurs uniques : {len(df['statut_public_prive'].unique())}\n")
df['statut_public_prive'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,statut_public_prive
38177,Privé
55127,Public
8413,Public
61003,Public
41125,Privé


In [20]:
df['statut_public_prive'].unique()

array(['Public', 'Privé', None], dtype=object)

In [21]:
print(f"Valeurs uniques : {len(df['adresse_1'].unique())}\n")
df['adresse_1'].sample(n=5, random_state=23)

Valeurs uniques : 51680



Unnamed: 0,adresse_1
38177,22 rue Abel Poulin
55127,AU CHATEAU
8413,22 route des Genêts d'Or
61003,2 rue DE GASCOGNE
41125,10 RUE DU CENTRE


In [22]:
print(f"Valeurs uniques : {len(df['adresse_2'].unique())}\n")
df['adresse_2'].sample(n=5, random_state=23)

Valeurs uniques : 7034



Unnamed: 0,adresse_2
38177,CONTRES
55127,AU CHATEAU
8413,
61003,RUE
41125,


In [23]:
print(f"Valeurs uniques : {len(df['adresse_3'].unique())}\n")
df['adresse_3'].sample(n=5, random_state=23)

Valeurs uniques : 22915



Unnamed: 0,adresse_3
38177,41700 LE CONTROIS EN SOLOGNE
55127,32240 MONLEZUN D ARMAGNAC
8413,40380 LOUER
61003,22000 ST BRIEUC
41125,53500 ST PIERRE DES LANDES


In [24]:
print(f"Valeurs uniques : {len(df['code_postal'].unique())}\n")
df['code_postal'].sample(n=5, random_state=23)

Valeurs uniques : 8432



Unnamed: 0,code_postal
38177,41700
55127,32240
8413,40380
61003,22000
41125,53500


In [25]:
print(f"Valeurs uniques : {len(df['code_commune'].unique())}\n")
df['code_commune'].sample(n=5, random_state=23)

Valeurs uniques : 21548



Unnamed: 0,code_commune
38177,41059
55127,32274
8413,40159
61003,22278
41125,53245


In [26]:
print(f"Valeurs uniques : {len(df['nom_commune'].unique())}\n")
df['nom_commune'].sample(n=5, random_state=23)

Valeurs uniques : 20829



Unnamed: 0,nom_commune
38177,Le Controis-en-Sologne
55127,Monlezun-d'Armagnac
8413,Louer
61003,Saint-Brieuc
41125,Saint-Pierre-des-Landes


In [27]:
print(f"Valeurs uniques : {len(df['code_departement'].unique())}\n")
df['code_departement'].sample(n=5, random_state=23)

Valeurs uniques : 107



Unnamed: 0,code_departement
38177,41
55127,32
8413,40
61003,22
41125,53


In [28]:
print(f"Valeurs uniques : {len(df['code_academie'].unique())}\n")
df['code_academie'].sample(n=5, random_state=23)

Valeurs uniques : 34



Unnamed: 0,code_academie
38177,18
55127,16
8413,4
61003,14
41125,17


In [29]:
print(f"Valeurs uniques : {len(df['code_region'].unique())}\n")
df['code_region'].sample(n=5, random_state=23)

Valeurs uniques : 19



Unnamed: 0,code_region
38177,24
55127,76
8413,75
61003,53
41125,52


In [30]:
print(f"Valeurs uniques : {len(df['ecole_maternelle'].unique())}\n")
df['ecole_maternelle'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,ecole_maternelle
38177,1.0
55127,0.0
8413,1.0
61003,1.0
41125,1.0


In [31]:
df['ecole_maternelle'].unique()

array([ 1.,  0., nan])

In [None]:
print(f"Valeurs uniques : {len(df['ecole_maternelle'].unique())}\n")
df['ecole_maternelle'].sample(n=5, random_state=23)

## Sélection du département pour la POC (93)

## Feature selection / feature engineering

In [None]:
# Colonne type_etablissement
# Ne prendre que Ecole / Collège / Lycée ?

# Utilité adresse_1, adresse_2, adresse_3 ?

# Vérifier cohérence entre code_commune et code_departement

# Utilité du binaire ecole_maternelle ?

In [None]:
# Créer 2eme table pour viz uniquement ? Jointure sur ID_etablissement
col_pour_viz = [
    'nom_etablissement', 'statut_public_prive', 'adresse_1', 'adresse_2',
    'adresse_3', 'code_postal', 'code_commune', 'nom_commune', 'code_academie',
    'code_region',
]