# Analyse de base des fichiers concernant les écoles de l'éducation nationale. 


Objectif : nettoyer et fusionner les données pour une future analyse et créer des colonnes précalculées.

Il y a 2 fichiers concernant les écoles :<ul>
  <li>fr-en-ecoles-effectifs-nb_classes.csv => décrit les effectifs des écoles</li>
  <li>fr-en-ips-ecoles-ap2022.csv =>décrit le public des écoles </li>
</ul>

In [1]:
# import bibliothéques d'analyse de python
import pandas as pd


In [2]:
# import des données en RAM avec pandas
effectif_prim = pd.read_csv("donnee/fr-en-ecoles-effectifs-nb_classes.csv",sep=";",low_memory=False)
ecole_stat = pd.read_csv("donnee/fr-en-ips-ecoles-ap2022.csv",sep=";",low_memory=False)


## Affichage des données brutes

In [3]:
effectif_prim.head(1)

Unnamed: 0,Rentrée scolaire,Région académique,Académie,Département,Commune,Numéro de l'école,Dénomination principale,Patronyme,Secteur,REP,...,Nombre d'élèves en pré-élémentaire hors ULIS,Nombre d'élèves en élémentaire hors ULIS,Nombre d'élèves en ULIS,Nombre d'élèves en CP hors ULIS,Nombre d'élèves en CE1 hors ULIS,Nombre d'élèves en CE2 hors ULIS,Nombre d'élèves en CM1 hors ULIS,Nombre d'élèves en CM2 hors ULIS,tri,Code Postal
0,2022,AUVERGNE-ET-RHONE-ALPES,CLERMONT-FERRAND,ALLIER,ABREST,0030701W,ECOLE PRIMAIRE PUBLIQUE,,PUBLIC,0,...,56,108,0,16,22,18,31,21,78-AUVERGNE-ET-RHONE-ALPES-CLERMONT-FERRAND-AL...,3200


In [4]:
effectif_prim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194898 entries, 0 to 194897
Data columns (total 23 columns):
 #   Column                                        Non-Null Count   Dtype 
---  ------                                        --------------   ----- 
 0   Rentrée scolaire                              194898 non-null  int64 
 1   Région académique                             194898 non-null  object
 2   Académie                                      194898 non-null  object
 3   Département                                   194898 non-null  object
 4   Commune                                       194898 non-null  object
 5   Numéro de l'école                             194898 non-null  object
 6   Dénomination principale                       194897 non-null  object
 7   Patronyme                                     148531 non-null  object
 8   Secteur                                       194898 non-null  object
 9   REP                                           194898 non-nu

Le fichier effectif contient 23 colonnes.<br>
Il contient l'année scolaire ainsi que de quoi identifier les établissements, dont un numéro d'école qui peut servir d'identifiant.<br>
Le fichier contient aussi les effectifs des classes du CP au CM2 ainsi que les effectifs totaux des élèves en école maternelle.<br>

In [5]:
ecole_stat.head(1)

Unnamed: 0,Rentrée scolaire,Académie,Code du département,Département,UAI,Nom de l'établissment,Code INSEE de la commune,Nom de la commune,Secteur,Effectifs,IPS
0,2022-2023,MONTPELLIER,66,PYRENEES-ORIENTALES,0660242E,ECOLE ELEMENTAIRE,66059,CORNEILLA DEL VERCOL,public,133.0,105.2


In [6]:
ecole_stat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30059 entries, 0 to 30058
Data columns (total 11 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Rentrée scolaire          30059 non-null  object 
 1   Académie                  30059 non-null  object 
 2   Code du département       30059 non-null  object 
 3   Département               30059 non-null  object 
 4   UAI                       30059 non-null  object 
 5   Nom de l'établissment     30059 non-null  object 
 6   Code INSEE de la commune  30059 non-null  object 
 7   Nom de la commune         30059 non-null  object 
 8   Secteur                   30059 non-null  object 
 9   Effectifs                 30059 non-null  float64
 10  IPS                       30059 non-null  float64
dtypes: float64(2), object(9)
memory usage: 2.5+ MB


Le fichier ips contient l'année de la rentré ainsi que les effectifs et l'Indice de Position Sociale (IPS) moyen de l'école. 

# premier nettoyage

Standardiser les catégories public privé dans la colonne secteur.<br>
Standardiser les rentrées scolaires.<br>
Voir pour réduire le nombre de colonnes des fichiers.<br>
Enlever la colonne tri dans effectif.<br>
Regrouper les données dans un seul fichier ecole.csv .<br>


In [7]:
# patronyme contient des Nan je les remplace par un espace
effectif_prim['Patronyme'] = effectif_prim['Patronyme'].fillna(" ")

Je regarde s'il existe des établissements en REP et REP+.

In [8]:
effectif_prim[(effectif_prim['REP'] == 1) & (effectif_prim['REP +'] == 1)]

Unnamed: 0,Rentrée scolaire,Région académique,Académie,Département,Commune,Numéro de l'école,Dénomination principale,Patronyme,Secteur,REP,...,Nombre d'élèves en pré-élémentaire hors ULIS,Nombre d'élèves en élémentaire hors ULIS,Nombre d'élèves en ULIS,Nombre d'élèves en CP hors ULIS,Nombre d'élèves en CE1 hors ULIS,Nombre d'élèves en CE2 hors ULIS,Nombre d'élèves en CM1 hors ULIS,Nombre d'élèves en CM2 hors ULIS,tri,Code Postal
159139,2019,CORSE,CORSE,HAUTE-CORSE,AGHIONE,7200296J,ECOLE ELEMENTAIRE PUBLIQUE,AGHIONE,PUBLIC,1,...,0,21,0,5,2,6,4,4,81-CORSE-CORSE-HAUTE-CORSE-AGHIONE-7200296J,20270


Un établissement est dans les 2 catégories.<br>
Je regarde les doublons :

In [9]:
effectif_prim[effectif_prim.duplicated()]

Unnamed: 0,Rentrée scolaire,Région académique,Académie,Département,Commune,Numéro de l'école,Dénomination principale,Patronyme,Secteur,REP,...,Nombre d'élèves en pré-élémentaire hors ULIS,Nombre d'élèves en élémentaire hors ULIS,Nombre d'élèves en ULIS,Nombre d'élèves en CP hors ULIS,Nombre d'élèves en CE1 hors ULIS,Nombre d'élèves en CE2 hors ULIS,Nombre d'élèves en CM1 hors ULIS,Nombre d'élèves en CM2 hors ULIS,tri,Code Postal


In [10]:
effectif_prim.drop(columns='tri',inplace=True)

In [11]:
# patronyme contient des Nan remplacer par un espace
effectif_prim['Patronyme'] = effectif_prim['Patronyme'].fillna(" ")

État du fichier effectif avant le merge avec le fichier ips :

In [12]:
effectif_prim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194898 entries, 0 to 194897
Data columns (total 22 columns):
 #   Column                                        Non-Null Count   Dtype 
---  ------                                        --------------   ----- 
 0   Rentrée scolaire                              194898 non-null  int64 
 1   Région académique                             194898 non-null  object
 2   Académie                                      194898 non-null  object
 3   Département                                   194898 non-null  object
 4   Commune                                       194898 non-null  object
 5   Numéro de l'école                             194898 non-null  object
 6   Dénomination principale                       194897 non-null  object
 7   Patronyme                                     194898 non-null  object
 8   Secteur                                       194898 non-null  object
 9   REP                                           194898 non-nu

In [13]:
ecole_stat['Secteur'].unique()

array(['public', 'privé sous contrat'], dtype=object)

In [14]:
# changement dans les data ecole_stat['secteur'] et college_stat['secteur']
# Les valeurs doivent être PRIVE ou PUBLIC
ecole_stat['Secteur'] = ecole_stat['Secteur'].replace({'public':'PUBLIC','privé sous contrat':'PRIVE'})

In [15]:
ecole_stat['Rentrée scolaire'].unique()

array(['2022-2023'], dtype=object)

In [16]:
# remplacer dans les données ecoles_stat colonne rentree_scolaire 2022-2023 par 2022
ecole_stat['Rentrée scolaire'] = ecole_stat['Rentrée scolaire'].str[:4].astype(int)

In [17]:
fichier_ecole_elementaire = pd.merge(ecole_stat,effectif_prim,left_on=['Rentrée scolaire','UAI'],right_on=['Rentrée scolaire',"Numéro de l'école"],how='outer')

Le fichier qui est généré pour les analyses : 

In [18]:
fichier_ecole_elementaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194898 entries, 0 to 194897
Data columns (total 32 columns):
 #   Column                                        Non-Null Count   Dtype  
---  ------                                        --------------   -----  
 0   Rentrée scolaire                              194898 non-null  int64  
 1   Académie_x                                    30059 non-null   object 
 2   Code du département                           30059 non-null   object 
 3   Département_x                                 30059 non-null   object 
 4   UAI                                           30059 non-null   object 
 5   Nom de l'établissment                         30059 non-null   object 
 6   Code INSEE de la commune                      30059 non-null   object 
 7   Nom de la commune                             30059 non-null   object 
 8   Secteur_x                                     30059 non-null   object 
 9   Effectifs                                     30

In [19]:
# supression colonne en double
fichier_ecole_elementaire.drop(columns=['Académie_x','Département_x','Secteur_x'],inplace=True)
# renomme les colonnes avec un _y
fichier_ecole_elementaire.rename(columns={'Académie_y':'academie','Département_y':'Département','Secteur_y':'secteur'},inplace=True)

In [20]:
# calcul des colonnes pour future analyse
fichier_ecole_elementaire["Nombre moyen d'élève par classe"] = fichier_ecole_elementaire["Nombre total d\'élèves"]/fichier_ecole_elementaire["Nombre total de classes"]
fichier_ecole_elementaire['Pourcentage ULIS'] = fichier_ecole_elementaire["Nombre d\'élèves en ULIS"]/fichier_ecole_elementaire["Nombre total d\'élèves"]*100

Je supprime les colonnes en doubles et je rajoute 2 colonnes pour des analyses.<br>
État final du fichier envoyé pour analyse :

In [21]:
fichier_ecole_elementaire.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194898 entries, 0 to 194897
Data columns (total 31 columns):
 #   Column                                        Non-Null Count   Dtype  
---  ------                                        --------------   -----  
 0   Rentrée scolaire                              194898 non-null  int64  
 1   Code du département                           30059 non-null   object 
 2   UAI                                           30059 non-null   object 
 3   Nom de l'établissment                         30059 non-null   object 
 4   Code INSEE de la commune                      30059 non-null   object 
 5   Nom de la commune                             30059 non-null   object 
 6   Effectifs                                     30059 non-null   float64
 7   IPS                                           30059 non-null   float64
 8   Région académique                             194898 non-null  object 
 9   academie                                      19

In [22]:
fichier_ecole_elementaire.to_csv('donnee_temp/ecole.csv',index=False)