# Potentiel s(c)olaire

Données disponibles [=> ici](https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/information/?disjunctive.type_etablissement&disjunctive.libelle_academie&disjunctive.libelle_region&disjunctive.ministere_tutelle&disjunctive.appartenance_education_prioritaire&disjunctive.nom_commune&disjunctive.code_postal&disjunctive.code_departement).

## Récupération des données

In [1]:
# Je commence par installer le module requests pour récupérer les données via API
!pip install requests



In [2]:
# Import des modules utilisés
import requests
import pandas as pd

In [3]:
# Définition de l'url qui contient les données
url = 'https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-annuaire-education/exports/json'

# Récupération des données
response = requests.get(url)

# Vérification de la bonne récupération
if response.status_code == 200:
    data = response.json()
    print("Données disponibles !\n")
    # Création du jeu de données
    df = pd.DataFrame(data)
    print(f"Le dataframe contient {df.shape[0]} lignes et {df.shape[1]} colonnes. Ci-dessous un extrait :\n")
    df.head()
else:
    print(f"Error: {response.status_code}")

Données récupérées avec succès


In [4]:
# Création du jeu de données
df = pd.DataFrame(data)
print(f"Le dataframe contient {df.shape[0]} lignes et {df.shape[1]} colonnes.\n")
df.head()

Le dataframe contient 69648 lignes et 72 colonnes.



Unnamed: 0,identifiant_de_l_etablissement,nom_etablissement,type_etablissement,statut_public_prive,adresse_1,adresse_2,adresse_3,code_postal,code_commune,nom_commune,...,libelle_nature,code_type_contrat_prive,pial,etablissement_mere,type_rattachement_etablissement_mere,code_circonscription,code_zone_animation_pedagogique,libelle_zone_animation_pedagogique,code_bassin_formation,libelle_bassin_formation
0,0271114P,Ecole primaire Arc en Ciel 2,Ecole,Public,22 rue de la Renaissance,,27200 VERNON,27200,27681,Vernon,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0271123Z,,,0271037F,2702,B.E.F. LOUVIERS VERNON,21272,BEF LOUVIERS - VERNON
1,0271149C,Ecole maternelle Pierre Pirou,Ecole,Public,5 bis rue des Brûlins,,27600 ST AUBIN SUR GAILLON,27600,27517,Saint-Aubin-sur-Gaillon,...,ECOLE MATERNELLE,99,0271482P,,,0271031Z,2702,B.E.F. LOUVIERS VERNON,21272,BEF LOUVIERS - VERNON
2,0271226L,Ecole maternelle intercommunale,Ecole,Public,24 rue de la Mairie,,27150 COUDRAY,27150,27176,Coudray,...,ECOLE MATERNELLE,99,0271320N,,,0271916L,2702,B.E.F. LOUVIERS VERNON,21272,BEF LOUVIERS - VERNON
3,0271230R,Ecole maternelle Romain Rolland,Ecole,Public,59 rue Romain Rolland,,27000 EVREUX,27000,27229,Evreux,...,ECOLE MATERNELLE,99,0271104D,,,0271596N,2701,B.E.F. EVREUX VERNEUIL,21271,BEF EVREUX - VERNEUIL
4,0271248K,Ecole élémentaire,Ecole,Public,LA VALLEE,LA VALLEE,27210 ST PIERRE DU VAL,27210,27597,Saint-Pierre-du-Val,...,ECOLE DE NIVEAU ELEMENTAIRE,99,0270006K,,,0271034C,2703,B.E.F. BERNAY - PONT AUDEMER,21273,BEF BERNAY PONT AUDEMER


In [5]:
# Vérification que toutes les données ont été exportées

# Url permettant d'accéder aux enregistrements (dont le total_count)
url_ = 'https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-annuaire-education/records'

# Récupération via appel GET
response_ = requests.get(url_)

# On s'assure que l'appel a fonctionné
if response_.status_code == 200:
    data_ = response_.json()
else:
    print(f"Error: {response_.status_code}")

# Enfin, on compare avec la taille attendue
try:
  assert data_['total_count'] == len(df)
except AssertionError as e:
  print(f"Données non complètement récupérées, erreur : {f}.")
else:
  print("Toutes les données sont bien récupérées.")

Toutes les données sont bien récupérées.


## Analyse des colonnes

In [6]:
# Liste des colonnes pour analyse
list(df.columns)

['identifiant_de_l_etablissement',
 'nom_etablissement',
 'type_etablissement',
 'statut_public_prive',
 'adresse_1',
 'adresse_2',
 'adresse_3',
 'code_postal',
 'code_commune',
 'nom_commune',
 'code_departement',
 'code_academie',
 'code_region',
 'ecole_maternelle',
 'ecole_elementaire',
 'voie_generale',
 'voie_technologique',
 'voie_professionnelle',
 'telephone',
 'fax',
 'web',
 'mail',
 'restauration',
 'hebergement',
 'ulis',
 'apprentissage',
 'segpa',
 'section_arts',
 'section_cinema',
 'section_theatre',
 'section_sport',
 'section_internationale',
 'section_europeenne',
 'lycee_agricole',
 'lycee_militaire',
 'lycee_des_metiers',
 'post_bac',
 'appartenance_education_prioritaire',
 'greta',
 'siren_siret',
 'nombre_d_eleves',
 'fiche_onisep',
 'position',
 'type_contrat_prive',
 'libelle_departement',
 'libelle_academie',
 'libelle_region',
 'coordx_origine',
 'coordy_origine',
 'epsg_origine',
 'nom_circonscription',
 'latitude',
 'longitude',
 'precision_localisation',

In [7]:
print(f"Valeurs uniques : {len(df['identifiant_de_l_etablissement'].unique())}\n")
df['identifiant_de_l_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 69566



Unnamed: 0,identifiant_de_l_etablissement
38177,0492513R
55127,0950763N
8413,0332079F
61003,0080498Y
41125,0291929P


In [8]:
print(f"Valeurs uniques : {len(df['nom_etablissement'].unique())}\n")
df['nom_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 42630



Unnamed: 0,nom_etablissement
38177,Ecole primaire publique Emilie Oberkampf
55127,Collège Le Rosaire
8413,Ecole maternelle Jean Jaurès
61003,Ecole primaire
41125,Collège Kerallan


In [9]:
print(f"Valeurs uniques : {len(df['type_etablissement'].unique())}\n")
df['type_etablissement'].sample(n=5, random_state=23)

Valeurs uniques : 9



Unnamed: 0,type_etablissement
38177,Ecole
55127,Collège
8413,Ecole
61003,Ecole
41125,Collège


In [10]:
df['type_etablissement'].unique()

array(['Ecole', 'Lycée', 'Collège', 'EREA', 'Autre', 'Médico-social',
       'Information et orientation', 'Service Administratif', None],
      dtype=object)

In [11]:
print(f"Valeurs uniques : {len(df['statut_public_prive'].unique())}\n")
df['statut_public_prive'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,statut_public_prive
38177,Public
55127,Privé
8413,Public
61003,Public
41125,Public


In [12]:
df['statut_public_prive'].unique()

array(['Public', 'Privé', None], dtype=object)

In [13]:
print(f"Valeurs uniques : {len(df['adresse_1'].unique())}\n")
df['adresse_1'].sample(n=5, random_state=23)

Valeurs uniques : 51664



Unnamed: 0,adresse_1
38177,3 rue de la Houssaye
55127,39 rue du Général de Gaulle
8413,46 avenue des 4 Pavillons
61003,14 route de Charleville
41125,Rue des Myosotis


In [14]:
print(f"Valeurs uniques : {len(df['adresse_2'].unique())}\n")
df['adresse_2'].sample(n=5, random_state=23)

Valeurs uniques : 7035



Unnamed: 0,adresse_2
38177,
55127,BP 28
8413,
61003,
41125,BP 29


In [15]:
print(f"Valeurs uniques : {len(df['adresse_3'].unique())}\n")
df['adresse_3'].sample(n=5, random_state=23)

Valeurs uniques : 22914



Unnamed: 0,adresse_3
38177,49070 BEAUCOUZE
55127,
8413,33150 CENON
61003,08300 NOVY CHEVRIERES
41125,


In [16]:
print(f"Valeurs uniques : {len(df['code_postal'].unique())}\n")
df['code_postal'].sample(n=5, random_state=23)

Valeurs uniques : 8431



Unnamed: 0,code_postal
38177,49070
55127,95321
8413,33150
61003,8300
41125,29280


In [17]:
print(f"Valeurs uniques : {len(df['code_commune'].unique())}\n")
df['code_commune'].sample(n=5, random_state=23)

Valeurs uniques : 21548



Unnamed: 0,code_commune
38177,49020
55127,95563
8413,33119
61003,8330
41125,29212


In [18]:
print(f"Valeurs uniques : {len(df['nom_commune'].unique())}\n")
df['nom_commune'].sample(n=5, random_state=23)

Valeurs uniques : 20829



Unnamed: 0,nom_commune
38177,Beaucouzé
55127,Saint-Leu-la-Forêt
8413,Cenon
61003,Novy-Chevrières
41125,Plouzané


In [19]:
print(f"Valeurs uniques : {len(df['code_departement'].unique())}\n")
df['code_departement'].sample(n=5, random_state=23)

Valeurs uniques : 107



Unnamed: 0,code_departement
38177,49
55127,95
8413,33
61003,8
41125,29


In [20]:
print(f"Valeurs uniques : {len(df['code_academie'].unique())}\n")
df['code_academie'].sample(n=5, random_state=23)

Valeurs uniques : 34



Unnamed: 0,code_academie
38177,17
55127,25
8413,4
61003,19
41125,14


In [21]:
print(f"Valeurs uniques : {len(df['code_region'].unique())}\n")
df['code_region'].sample(n=5, random_state=23)

Valeurs uniques : 19



Unnamed: 0,code_region
38177,52
55127,11
8413,75
61003,44
41125,53


In [22]:
print(f"Valeurs uniques : {len(df['ecole_maternelle'].unique())}\n")
df['ecole_maternelle'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,ecole_maternelle
38177,1.0
55127,
8413,1.0
61003,1.0
41125,


In [23]:
df['ecole_maternelle'].unique()

array([ 1.,  0., nan])

In [24]:
print(f"Valeurs uniques : {len(df['ecole_elementaire'].unique())}\n")
df['ecole_elementaire'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,ecole_elementaire
38177,1.0
55127,
8413,0.0
61003,1.0
41125,


In [25]:
df['ecole_elementaire'].unique()

array([ 1.,  0., nan])

In [26]:
print(f"Valeurs uniques : {len(df['voie_generale'].unique())}\n")
df['voie_generale'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,voie_generale
38177,
55127,0.0
8413,
61003,
41125,0.0


In [27]:
df['voie_generale'].unique()

array([None, '0', '1'], dtype=object)

In [28]:
print(f"Valeurs uniques : {len(df['voie_technologique'].unique())}\n")
df['voie_technologique'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,voie_technologique
38177,
55127,0.0
8413,
61003,
41125,0.0


In [29]:
df['voie_technologique'].unique()

array([None, '0', '1'], dtype=object)

In [30]:
print(f"Valeurs uniques : {len(df['voie_professionnelle'].unique())}\n")
df['voie_professionnelle'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,voie_professionnelle
38177,
55127,0.0
8413,
61003,
41125,0.0


In [31]:
df['voie_professionnelle'].unique()

array([None, '0', '1'], dtype=object)

In [32]:
print(f"Valeurs uniques : {len(df['telephone'].unique())}\n")
df['telephone'].sample(n=5, random_state=23)

Valeurs uniques : 65978



Unnamed: 0,telephone
38177,0249890343
55127,01 34 18 38 00
8413,0556862417
61003,0324723116
41125,02 98 49 09 65


In [33]:
print(f"Valeurs uniques : {len(df['fax'].unique())}\n")
df['fax'].sample(n=5, random_state=23)

Valeurs uniques : 9653



Unnamed: 0,fax
38177,
55127,01 39 60 28 88
8413,
61003,
41125,02 98 45 94 55


In [34]:
print(f"Valeurs uniques : {len(df['web'].unique())}\n")
df['web'].sample(n=5, random_state=23)

Valeurs uniques : 10437



Unnamed: 0,web
38177,
55127,http://www.bury-rosaire.fr/
8413,
61003,
41125,http://www.college-kerallan-plouzane.ac-rennes.fr


In [35]:
print(f"Valeurs uniques : {len(df['mail'].unique())}\n")
df['mail'].sample(n=5, random_state=23)

Valeurs uniques : 66968



Unnamed: 0,mail
38177,ce.0492513R@ac-nantes.fr
55127,0950763N@ac-versailles.fr
8413,ce.0332079F@ac-bordeaux.fr
61003,ce.0080498Y@ac-reims.fr
41125,ce.0291929p@ac-rennes.fr


In [36]:
print(f"Valeurs uniques : {len(df['restauration'].unique())}\n")
df['restauration'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,restauration
38177,1.0
55127,1.0
8413,1.0
61003,0.0
41125,1.0


In [37]:
df['restauration'].unique()

array([ 1.,  0., nan])

In [38]:
print(f"Valeurs uniques : {len(df['hebergement'].unique())}\n")
df['hebergement'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,hebergement
38177,0.0
55127,0.0
8413,0.0
61003,0.0
41125,0.0


In [39]:
df['hebergement'].unique()

array([ 0.,  1., nan])

In [40]:
print(f"Valeurs uniques : {len(df['ulis'].unique())}\n")
df['ulis'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,ulis
38177,0.0
55127,0.0
8413,0.0
61003,0.0
41125,0.0


In [41]:
df['ulis'].unique()

array([ 0.,  1., nan])

In [42]:
print(f"Valeurs uniques : {len(df['apprentissage'].unique())}\n")
df['apprentissage'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,apprentissage
38177,
55127,0.0
8413,
61003,
41125,0.0


In [43]:
df['apprentissage'].unique()

array([None, '0', '1'], dtype=object)

In [44]:
print(f"Valeurs uniques : {len(df['segpa'].unique())}\n")
df['segpa'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,segpa
38177,
55127,0.0
8413,
61003,
41125,0.0


In [45]:
df['segpa'].unique()

array([None, '0', '1'], dtype=object)

In [46]:
print(f"Valeurs uniques : {len(df['section_arts'].unique())}\n")
df['section_arts'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_arts
38177,
55127,0.0
8413,
61003,
41125,0.0


In [47]:
df['section_arts'].unique()

array([None, '0', '1'], dtype=object)

In [48]:
print(f"Valeurs uniques : {len(df['section_cinema'].unique())}\n")
df['section_cinema'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_cinema
38177,
55127,0.0
8413,
61003,
41125,0.0


In [49]:
df['section_cinema'].unique()

array([None, '0', '1'], dtype=object)

In [59]:
print(f"Valeurs uniques : {len(df['section_theatre'].unique())}\n")
df['section_theatre'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_theatre
38177,
55127,0.0
8413,
61003,
41125,0.0


In [60]:
df['section_theatre'].unique()

array([None, '0', '1'], dtype=object)

In [61]:
print(f"Valeurs uniques : {len(df['section_sport'].unique())}\n")
df['section_sport'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_sport
38177,
55127,0.0
8413,
61003,
41125,0.0


In [62]:
df['section_sport'].unique()

array([None, '0', '1'], dtype=object)

In [63]:
print(f"Valeurs uniques : {len(df['section_internationale'].unique())}\n")
df['section_internationale'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_internationale
38177,
55127,0.0
8413,
61003,
41125,0.0


In [64]:
df['section_internationale'].unique()

array([None, '0', '1'], dtype=object)

In [65]:
print(f"Valeurs uniques : {len(df['section_europeenne'].unique())}\n")
df['section_europeenne'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,section_europeenne
38177,
55127,0.0
8413,
61003,
41125,0.0


In [66]:
df['section_europeenne'].unique()

array([None, '0', '1'], dtype=object)

In [67]:
print(f"Valeurs uniques : {len(df['lycee_agricole'].unique())}\n")
df['lycee_agricole'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,lycee_agricole
38177,
55127,0.0
8413,
61003,
41125,0.0


In [68]:
df['lycee_agricole'].unique()

array([None, '0', '1'], dtype=object)

In [69]:
print(f"Valeurs uniques : {len(df['lycee_militaire'].unique())}\n")
df['lycee_militaire'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,lycee_militaire
38177,
55127,0.0
8413,
61003,
41125,0.0


In [70]:
df['lycee_militaire'].unique()

array([None, '0', '1'], dtype=object)

In [71]:
print(f"Valeurs uniques : {len(df['lycee_des_metiers'].unique())}\n")
df['lycee_des_metiers'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,lycee_des_metiers
38177,
55127,0.0
8413,
61003,
41125,0.0


In [72]:
df['lycee_des_metiers'].unique()

array([None, '0', '1'], dtype=object)

In [73]:
print(f"Valeurs uniques : {len(df['post_bac'].unique())}\n")
df['post_bac'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,post_bac
38177,
55127,0.0
8413,
61003,
41125,0.0


In [74]:
df['post_bac'].unique()

array([None, '1', '0'], dtype=object)

In [75]:
print(f"Valeurs uniques : {len(df['appartenance_education_prioritaire'].unique())}\n")
df['appartenance_education_prioritaire'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,appartenance_education_prioritaire
38177,
55127,
8413,REP
61003,
41125,


In [76]:
df['appartenance_education_prioritaire'].unique()

array(['REP', None, 'REP+'], dtype=object)

In [77]:
print(f"Valeurs uniques : {len(df['greta'].unique())}\n")
df['greta'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,greta
38177,
55127,0.0
8413,
61003,
41125,0.0


In [78]:
df['greta'].unique()

array([None, '0', '1'], dtype=object)

In [79]:
print(f"Valeurs uniques : {len(df['siren_siret'].unique())}\n")
df['siren_siret'].sample(n=5, random_state=23)

Valeurs uniques : 63347



Unnamed: 0,siren_siret
38177,21490020100077
55127,31107901600045
8413,21330119500151
61003,21080297100023
41125,19291929800013


In [80]:
print(f"Valeurs uniques : {len(df['nombre_d_eleves'].unique())}\n")
df['nombre_d_eleves'].sample(n=5, random_state=23)

Valeurs uniques : 1462



Unnamed: 0,nombre_d_eleves
38177,89.0
55127,738.0
8413,75.0
61003,84.0
41125,444.0


In [82]:
print(f"Min : {df['nombre_d_eleves'].min()}\nMax : {df['nombre_d_eleves'].max()}")

Min : 0.0
Max : 2599.0


In [83]:
print(f"Valeurs uniques : {len(df['fiche_onisep'].unique())}\n")
df['fiche_onisep'].sample(n=5, random_state=23)

Valeurs uniques : 11807



Unnamed: 0,fiche_onisep
38177,
55127,https://www.onisep.fr/http/redirection/etablis...
8413,
61003,
41125,https://www.onisep.fr/http/redirection/etablis...


In [85]:
#print(f"Valeurs uniques : {len(df['position'].unique())}\n")
df['position'].sample(n=5, random_state=23)

Unnamed: 0,position
38177,"{'lon': -0.6398919967146796, 'lat': 47.4761898..."
55127,"{'lon': 2.245564434063241, 'lat': 49.015212285..."
8413,"{'lon': -0.5169567324101877, 'lat': 44.8618214..."
61003,"{'lon': 4.446250564420175, 'lat': 49.536603638..."
41125,"{'lon': -4.589760486392371, 'lat': 48.37396459..."


In [86]:
print(f"Valeurs uniques : {len(df['type_contrat_prive'].unique())}\n")
df['type_contrat_prive'].sample(n=5, random_state=23)

Valeurs uniques : 11



Unnamed: 0,type_contrat_prive
38177,SANS OBJET
55127,CONTRAT D'ASSOCIATION TOUTES CLASSES
8413,SANS OBJET
61003,SANS OBJET
41125,SANS OBJET


In [87]:
df['type_contrat_prive'].unique()

array(['SANS OBJET', "CONTRAT D'ASSOCIATION TOUTES CLASSES",
       'HORS CONTRAT', 'CONTRAT ASSOCIATION PARTIE DES CLASSES',
       'C0NTRAT SIMPLE POUR PARTIE DES CLASSES',
       'CONTRAT SIMPLE TOUTES CLASSES',
       'CONTRAT TTES CLASSES SIMPLE+ASSOCIATION',
       'CONTRAT PARTIE DES CLASSES SIMPLE+ASSOC',
       'SOUS CONTRAT ETABLISSEMENT AGRICOLE', 'INCONNU DU GESTIONNAIRE',
       None], dtype=object)

In [88]:
print(f"Valeurs uniques : {len(df['libelle_departement'].unique())}\n")
df['libelle_departement'].sample(n=5, random_state=23)

Valeurs uniques : 107



Unnamed: 0,libelle_departement
38177,Maine-et-Loire
55127,Val-d'Oise
8413,Gironde
61003,Ardennes
41125,Finistère


In [89]:
print(f"Valeurs uniques : {len(df['libelle_academie'].unique())}\n")
df['libelle_academie'].sample(n=5, random_state=23)

Valeurs uniques : 34



Unnamed: 0,libelle_academie
38177,Nantes
55127,Versailles
8413,Bordeaux
61003,Reims
41125,Rennes


In [90]:
print(f"Valeurs uniques : {len(df['libelle_region'].unique())}\n")
df['libelle_region'].sample(n=5, random_state=23)

Valeurs uniques : 19



Unnamed: 0,libelle_region
38177,Pays de la Loire
55127,Ile-de-France
8413,Nouvelle-Aquitaine
61003,Grand Est
41125,Bretagne


In [91]:
print(f"Valeurs uniques : {len(df['coordx_origine'].unique())}\n")
df['coordx_origine'].sample(n=5, random_state=23)

Valeurs uniques : 62570



Unnamed: 0,coordx_origine
38177,425952.7
55127,644813.6
8413,422274.3
61003,804725.6
41125,138818.6


In [92]:
print(f"Valeurs uniques : {len(df['coordy_origine'].unique())}\n")
df['coordy_origine'].sample(n=5, random_state=23)

Valeurs uniques : 62519



Unnamed: 0,coordy_origine
38177,6714743.0
55127,6879742.1
8413,6424257.8
61003,6938437.4
41125,6835175.4


In [93]:
print(f"Valeurs uniques : {len(df['epsg_origine'].unique())}\n")
df['epsg_origine'].sample(n=5, random_state=23)

Valeurs uniques : 8



Unnamed: 0,epsg_origine
38177,EPSG:2154
55127,EPSG:2154
8413,EPSG:2154
61003,EPSG:2154
41125,EPSG:2154


In [94]:
df['epsg_origine'].unique()

array(['EPSG:2154', 'EPSG:32738', None, 'EPSG:2972', 'EPSG:2975',
       'EPSG:32621', 'EPSG:32620', 'EPSG:4559'], dtype=object)

In [95]:
print(f"Valeurs uniques : {len(df['nom_circonscription'].unique())}\n")
df['nom_circonscription'].sample(n=5, random_state=23)

Valeurs uniques : 1398



Unnamed: 0,nom_circonscription
38177,Circonscription d'inspection du 1er degré d'An...
55127,
8413,Circonscription d'inspection du 1er degré d'En...
61003,Circonscription d'inspection du 1er degré de R...
41125,


In [96]:
print(f"Valeurs uniques : {len(df['latitude'].unique())}\n")
df['latitude'].sample(n=5, random_state=23)

Valeurs uniques : 62956



Unnamed: 0,latitude
38177,47.47619
55127,49.015212
8413,44.861821
61003,49.536604
41125,48.373965


In [97]:
print(f"Valeurs uniques : {len(df['longitude'].unique())}\n")
df['longitude'].sample(n=5, random_state=23)

Valeurs uniques : 62956



Unnamed: 0,longitude
38177,-0.639892
55127,2.245564
8413,-0.516957
61003,4.446251
41125,-4.58976


In [98]:
print(f"Valeurs uniques : {len(df['precision_localisation'].unique())}\n")
df['precision_localisation'].sample(n=5, random_state=23)

Valeurs uniques : 21



Unnamed: 0,precision_localisation
38177,Rue
55127,Numéro de rue
8413,PLAQUE_ADRESSE
61003,Numéro de rue
41125,Numéro de rue


In [99]:
df['precision_localisation'].unique()

array(['Numéro de rue', 'Rue', 'Ville', 'PLAQUE_ADRESSE',
       'ENTREE PRINCIPALE', 'BATIMENT', None, 'Lieu-dit',
       'NUMERO (ADRESSE)', 'INTERPOLATION', 'CENTRE_PARCELLE_PROJETE',
       'COMMUNE', 'NE SAIT PAS', 'MANUEL', 'Parfaite', 'Moyenne',
       'Correcte', 'SIMILAIRE', 'ZONE_ADRESSAGE', 'DEFAUT_DE_NUMERO',
       'Mauvaise'], dtype=object)

In [100]:
print(f"Valeurs uniques : {len(df['date_ouverture'].unique())}\n")
df['date_ouverture'].sample(n=5, random_state=23)

Valeurs uniques : 4654



Unnamed: 0,date_ouverture
38177,2022-09-01
55127,1968-05-09
8413,1971-12-13
61003,1968-05-10
41125,1982-09-01


In [101]:
print(f"Valeurs uniques : {len(df['date_maj_ligne'].unique())}\n")
df['date_maj_ligne'].sample(n=5, random_state=23)

Valeurs uniques : 1



Unnamed: 0,date_maj_ligne
38177,2025-01-27
55127,2025-01-27
8413,2025-01-27
61003,2025-01-27
41125,2025-01-27


In [102]:
print(f"Valeurs uniques : {len(df['etat'].unique())}\n")
df['etat'].sample(n=5, random_state=23)

Valeurs uniques : 2



Unnamed: 0,etat
38177,OUVERT
55127,OUVERT
8413,OUVERT
61003,OUVERT
41125,OUVERT


In [103]:
df['etat'].unique()

array(['OUVERT', 'A FERMER'], dtype=object)

In [104]:
print(f"Valeurs uniques : {len(df['ministere_tutelle'].unique())}\n")
df['ministere_tutelle'].sample(n=5, random_state=23)

Valeurs uniques : 13



Unnamed: 0,ministere_tutelle
38177,MINISTERE DE L'EDUCATION NATIONALE
55127,MINISTERE DE L'EDUCATION NATIONALE
8413,MINISTERE DE L'EDUCATION NATIONALE
61003,MINISTERE DE L'EDUCATION NATIONALE
41125,MINISTERE DE L'EDUCATION NATIONALE


In [105]:
df['ministere_tutelle'].unique()

array(["MINISTERE DE L'EDUCATION NATIONALE", 'AGRICULTURE', 'MER',
       'DEFENSE', 'SANTE ET SOLIDARITE NATIONALE',
       'ENSEIGNEMENT SUPERIEUR', 'REDEPLOIEMENT INDUSTRIEL',
       'SANS TUTELLE', 'TRAVAIL EMPLOI FORMATION PROFESSIONNELLE',
       'COMMERCE ET ARTISANAT',
       'GRANDE CHANCELLERIE ORDRE LEGION HONNEUR', 'CULTURE',
       'JEUNESSE ET SPORTS'], dtype=object)

In [106]:
print(f"Valeurs uniques : {len(df['multi_uai'].unique())}\n")
df['multi_uai'].sample(n=5, random_state=23)

Valeurs uniques : 2



Unnamed: 0,multi_uai
38177,0
55127,0
8413,0
61003,0
41125,0


In [107]:
df['multi_uai'].unique()

array([0, 1])

In [108]:
print(f"Valeurs uniques : {len(df['rpi_concentre'].unique())}\n")
df['rpi_concentre'].sample(n=5, random_state=23)

Valeurs uniques : 3



Unnamed: 0,rpi_concentre
38177,0.0
55127,0.0
8413,0.0
61003,0.0
41125,0.0


In [109]:
df['rpi_concentre'].unique()

array([ 0.,  1., nan])

In [110]:
print(f"Valeurs uniques : {len(df['rpi_disperse'].unique())}\n")
df['rpi_disperse'].sample(n=5, random_state=23)

Valeurs uniques : 3826



Unnamed: 0,rpi_disperse
38177,
55127,
8413,
61003,
41125,


In [111]:
print(f"Valeurs uniques : {len(df['code_nature'].unique())}\n")
df['code_nature'].sample(n=5, random_state=23)

Valeurs uniques : 47



Unnamed: 0,code_nature
38177,151
55127,340
8413,101
61003,151
41125,340


In [112]:
print(f"Valeurs uniques : {len(df['libelle_nature'].unique())}\n")
df['libelle_nature'].sample(n=5, random_state=23)

Valeurs uniques : 47



Unnamed: 0,libelle_nature
38177,ECOLE DE NIVEAU ELEMENTAIRE
55127,COLLEGE
8413,ECOLE MATERNELLE
61003,ECOLE DE NIVEAU ELEMENTAIRE
41125,COLLEGE


In [113]:
print(f"Valeurs uniques : {len(df['code_type_contrat_prive'].unique())}\n")
df['code_type_contrat_prive'].sample(n=5, random_state=23)

Valeurs uniques : 11



Unnamed: 0,code_type_contrat_prive
38177,99
55127,30
8413,99
61003,99
41125,99


In [114]:
df['code_type_contrat_prive'].unique()

array(['99', '30', '10', '31', '21', '20', '40', '41', '60', '!!', '50'],
      dtype=object)

In [115]:
print(f"Valeurs uniques : {len(df['pial'].unique())}\n")
df['pial'].sample(n=5, random_state=23)

Valeurs uniques : 4125



Unnamed: 0,pial
38177,
55127,0950749Y
8413,0331464M
61003,0080897G
41125,0291929P


In [116]:
print(f"Valeurs uniques : {len(df['etablissement_mere'].unique())}\n")
df['etablissement_mere'].sample(n=5, random_state=23)

Valeurs uniques : 2574



Unnamed: 0,etablissement_mere
38177,
55127,
8413,
61003,
41125,


In [117]:
print(f"Valeurs uniques : {len(df['type_rattachement_etablissement_mere'].unique())}\n")
df['type_rattachement_etablissement_mere'].sample(n=5, random_state=23)

Valeurs uniques : 4



Unnamed: 0,type_rattachement_etablissement_mere
38177,
55127,
8413,
61003,
41125,


In [118]:
df['type_rattachement_etablissement_mere'].unique()

array([None, 'ANNEXE GEOGRAPHIQUE', 'FILIERE OU DEPARTEMENT OU SECTION',
       'COMPOSANTE JURIDIQUE'], dtype=object)

In [119]:
print(f"Valeurs uniques : {len(df['code_circonscription'].unique())}\n")
df['code_circonscription'].sample(n=5, random_state=23)

Valeurs uniques : 1413



Unnamed: 0,code_circonscription
38177,0490794X
55127,
8413,0331444R
61003,0080078S
41125,


In [120]:
print(f"Valeurs uniques : {len(df['code_zone_animation_pedagogique'].unique())}\n")
df['code_zone_animation_pedagogique'].sample(n=5, random_state=23)

Valeurs uniques : 376



Unnamed: 0,code_zone_animation_pedagogique
38177,
55127,
8413,03303B
61003,
41125,029B01


In [121]:
print(f"Valeurs uniques : {len(df['libelle_zone_animation_pedagogique'].unique())}\n")
df['libelle_zone_animation_pedagogique'].sample(n=5, random_state=23)

Valeurs uniques : 353



Unnamed: 0,libelle_zone_animation_pedagogique
38177,
55127,
8413,ZAP 03303B RIVE DROITE
61003,
41125,BEF 29 Nord


In [122]:
print(f"Valeurs uniques : {len(df['code_bassin_formation'].unique())}\n")
df['code_bassin_formation'].sample(n=5, random_state=23)

Valeurs uniques : 365



Unnamed: 0,code_bassin_formation
38177,17006.0
55127,25022.0
8413,4203.0
61003,19030.0
41125,


In [123]:
print(f"Valeurs uniques : {len(df['libelle_bassin_formation'].unique())}\n")
df['libelle_bassin_formation'].sample(n=5, random_state=23)

Valeurs uniques : 364



Unnamed: 0,libelle_bassin_formation
38177,ANGERS-EST
55127,095C-ENGHIEN
8413,BX RIVE DROITE
61003,SUD ARDENNES
41125,


## Anomalies

### id etablissement et multi_uai

In [129]:
# Vérifier doublons sur id etablissement
print(f"Taille du dataframe : {len(df)}")
print(f"Valeurs uniques pour identifiant_de_l_etablissement : {len(df['identifiant_de_l_etablissement'].unique())}")

Taille du dataframe : 69648
Valeurs uniques pour identifiant_de_l_etablissement : 69566


In [143]:
# Comptage du nombre de lignes par id etablissement
df_ets = df.groupby('identifiant_de_l_etablissement').size().reset_index(name='Count')

# Puis, sélection des id etablissement qui ont au moins 2 lignes
df_ets_sup2 = df_ets[df_ets['Count'] > 1]

# On ajoute cette information dans le dataframe initial, avec un indicateur permettant de savoir
# quels établissements ont plusieurs lignes
merged_df = pd.merge(df, df_ets_sup2, on='identifiant_de_l_etablissement',
                     how='outer', indicator=True)
merged_df.head()

Unnamed: 0,identifiant_de_l_etablissement,nom_etablissement,type_etablissement,statut_public_prive,adresse_1,adresse_2,adresse_3,code_postal,code_commune,nom_commune,...,pial,etablissement_mere,type_rattachement_etablissement_mere,code_circonscription,code_zone_animation_pedagogique,libelle_zone_animation_pedagogique,code_bassin_formation,libelle_bassin_formation,Count,_merge
0,0010001W,Lycée professionnel Alexandre Bérard,Lycée,Public,223 rue Alexandre Bérard,BP 519,,1505,1004,Ambérieu-en-Bugey,...,0010002X,,,,,,10013,AIN SUD,,left_only
1,0010002X,Collège Saint-Exupéry,Collège,Public,6 rue Aguetant,,,1500,1004,Ambérieu-en-Bugey,...,0010002X,,,0010818J,,,10013,AIN SUD,,left_only
2,0010005A,Collège Roger Poulnard,Collège,Public,131 rue de la Mairie,,,1380,1025,Bâgé-la-Ville,...,0010005A,,,0010818J,,,10011,AIN OUEST,,left_only
3,0010006B,Lycée polyvalent Saint-Exupéry,Lycée,Public,15 avenue Saint-Exupéry,BP 616,,1206,1033,Valserhône,...,0010008D,,,,,,10012,AIN EST,,left_only
4,0010008D,Collège Saint-Exupéry,Collège,Public,15 avenue Saint-Exupéry,,,1206,1033,Valserhône,...,0010008D,,,0010818J,,,10012,AIN EST,,left_only


In [144]:
merged_df['_merge'].unique()

['left_only', 'both']
Categories (3, object): ['left_only', 'right_only', 'both']

In [146]:
# Pour les établissements avec plusieurs lignes (identifiés par _merge = 'both'), vérifier que multi_uai = 1 uniquement
merged_df[merged_df['_merge'] == 'both']['multi_uai'].unique()

array([1])

In [147]:
# De même, je vérifie que pour tous les autres cette valeur est 0
merged_df[merged_df['_merge'] == 'left_only']['multi_uai'].unique()

array([0])

### precision_localisation

D'après la doc, les valeurs possibles sont:
* BÂTIMENT: l'adresse ponctuelle a été vérifiée par un collecteur
* l'adresse ponctuelle correspondant exactement à celle de l'établissement a été trouvée :
  * PLAQUE_ADRESSE_PROJETEE : projection de la plaque adresse
  * CENTRE_PARCELLE_PROJETE : projection du centroïde de parcelle
* l'adresse précise n'a pas été trouvée mais une adresse ponctuelle voisine a été trouvée:
  * DEFAUT_D_INDICE : [numéro et indice utilisé] : adresse projetée de même numéro, mais d'indice différent
  * DEFAUT_DE_NUMERO : [numéro cherché -> numéro utilisé] : adresse projetée la plus proche. Si l'adresse recherchée n'a pas de numéro, il est placé sur le plus petit numéro trouvé (ex. DEFAUT_DE_NUMERO [->2])
* aucune adresse ponctuelle portant le même nom de voie n'a été trouvée, mais un tronçon portant ce nom a été trouvé :
  * INTERPOLATION : adresse interpolée entre les bornes initiales et finales d'un tronçon (interpolation linéaire)
  * DEFAUT_DE_TRONCON : aucun tronçon de la route appariée n'a de bornes permettant d'encadrer le numéro recherché. L'adresse est positionnée sur le tronçon dont les bornes sont le plus proche du numéro recherché
* ZONE_D_ADRESSAGE : ni adresse ni tronçon n’ont été trouvés, mais un lieu-dit (ponctuel) ou une zone nommée (ponctuelle) de même nom a été trouvée
* COMMUNE : la géolocalisation se fait à la commune
* ERR : pas de géolocalisation

In [None]:
# Colonne precision_localisation : valeurs non conformes à la doc
# -> peut être utilisée, ou inutile ?

In [None]:
# Vérifier cohérence entre code_zone_animation_pedagogique et libelle_zone_animation_pedagogique
# (nombre de valeurs uniques différent)

# Vérifier cohérence entre code_bassin_formation et libelle_bassin_formation
# (nombre de valeurs uniques différent)

## Feature selection / feature engineering

In [None]:
# Colonne type_etablissement : ne prendre que Ecole / Collège / Lycée ?

# Utilité adresse_1, adresse_2, adresse_3 ?
# vérif si doublon entre adresse_3 et code_postal ?

# Vérifier cohérence entre code_commune et code_departement
# + différencier "France", Corse et outre-mer ?

# Utilité binaires suivants ? (ajoutés dans col_pour_viz pour le moment) : ecole_maternelle, ecole_elementaire,
# voie_generale, voie_technologique, voie_professionnelle, restauration, hebergement, ulis, apprentissage, segpa,
# section_arts, section_cinema, section_theatre, section_sport, section_internationale, section_europeenne,
# lycee_agricole, lycee_militaire, lycee_des_metiers, post_bac, greta, rpi_concentre

# Colonne nombre_d_eleves : regrouper en tranches ?

# Comment utiliser colonnes suivantes ? :
#- position
#- coordx_origine, coordy_origine, epsg_origine
#- latitude, longitude
#- TODO : vérifier cohérence entre position et lat/long

# Colonnes type_contrat_prive et code_type_contrat_prive : quézako ? utilité ?
# => supprimées en attente d'informations

# Colonne date_ouverture : vérifier si dates dans le futur ?
# Eventuellement, convertir au format date, ou créer cols année/mois/jour

# Colonne date_maj_ligne à titre informatif = récence des données (valeur unique)

# Utilité colonne rpi_disperse ?
# => supprimé en attente d'informations

# Utilité colonnes code_nature et libelle_nature ?
# => supprimées en attente d'informations

In [None]:
# Colonnes non utilisées (PII ou autre)
# TODO : à confirmer, sinon stocker dans autre table
col_to_remove = [
    'telephone', 'fax', 'web', 'mail', 'siren_siret', 'fiche_onisep',
    'type_contrat_prive', 'date_maj_ligne', 'ministere_tutelle',
    'rpi_disperse', 'code_nature', 'libelle_nature', 'code_type_contrat_prive'
]

In [None]:
# Créer 2eme table pour viz uniquement ? Jointure sur ID_etablissement
col_pour_viz = [
    'nom_etablissement', 'statut_public_prive', 'adresse_1', 'adresse_2',
    'adresse_3', 'code_postal', 'code_commune', 'nom_commune', 'code_academie',
    'code_region', 'appartenance_education_prioritaire', 'libelle_departement',
    'libelle_academie', 'libelle_region', 'nom_circonscription', 'etat', 'pial',
    'etablissement_mere', 'type_rattachement_etablissement_mere',
    'code_circonscription', 'code_zone_animation_pedagogique',
    'libelle_zone_animation_pedagogique', 'code_bassin_formation',
    'libelle_bassin_formation'
]

In [None]:
# En attendant confirmation, j'ajoute ces binaires suivants dans la table de viz
col_pour_viz.extend([
    'ecole_maternelle', 'ecole_elementaire', 'voie_generale',
    'voie_technologique', 'voie_professionnelle', 'restauration', 'hebergement',
    'ulis', 'apprentissage', 'segpa', 'section_arts', 'section_cinema',
    'section_theatre', 'section_sport', 'section_internationale',
    'section_europeenne', 'lycee_agricole', 'lycee_militaire',
    'lycee_des_metiers', 'post_bac', 'greta', 'rpi_concentre'
])

## Sélection du département pour la POC (93)