# Traitement de données en tables


## Traitements des données



**Activité** : Les exemples de programmes reposent sur la base [Adresse et géolocalisation des établissements d'enseignement du premier et second degré](https://www.data.gouv.fr/fr/datasets/adresse-et-geolocalisation-des-etablissements-denseignement-du-premier-et-second-degres-1/)

Les traitements simples peuvent être effectués au cours de la lecture du fichier.

### Recherche dans une table

Rechercher dans une table les enregistrements vérifiant une condition, consiste à parcourir le fichier en testant cette condition, et à afficher ceux qui la vérifient.

* **Activité** : Pour rechercher, par exemple, tous les lycées publics d'une académie, il faut repérer dans la documentation du fichier les champs pertinents et noter les valeurs recherchées.

    - C'est le champ numéro 4 qui donne l'information Public/Privé.
    - C'est le champ numéro 18 qui donne le type d'établissement :  300 LYCEE ENSEIGNT GENERAL ET TECHNOLOGIQUE,
301 LYCEE D ENSEIGNEMENT TECHNOLOGIQUE,
302 LYCEE D ENSEIGNEMENT GENERAL,
306 LYCEE POLYVALENT,
307 LYC D'ENS GENERAL TECHNO PROF AGRICOLE.
    - C'est le champ numéro 24 qui donne le code de l'académie (on a choisi ici 17 l'académie de Nantes).


In [None]:
with open('data/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre.csv') as f:
    entete = f.readline()
    print(entete)
    for ligne in f:
        champs = ligne.split(";")
        if champs[4]=='Public' and champs[24]=='17' and 300<=int(champs[18])<=307:
            print(ligne)

### Filtrage d'une table

Filtrer dans une table les enregistrements vérifiant une condition, consiste à parcourir le fichier en testant cette condition, et à réécrire dans un nouveau fichier ceux qui la vérifient.

In [None]:
f = open('data/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre.csv')
g = open('LyceesPublicsAcademie.csv', 'w')
entete = f.readline()
g.write(entete)
for ligne in f:
    champs = ligne.split(";")
    if champs[4]=='Public' and champs[24]=='17' and 300<=int(champs[18])<=307:
        g.write(ligne)
f.close()
g.close()

### Traitement d'une table - cas général

De manière générale, en particulier pour les traitements complexes, on peut effectuer les traitements en mémoire après avoir lu les données dans un tableau d'enregistrements, ce qui simplifie l'expression des conditions sur les champs.

In [None]:
Etablissements = []
with open('data/fr-en-adresse-et-geolocalisation-etablissements-premier-et-second-degre.csv') as f:
    entete = f.readline().split(";")
    for ligne in f:
        champs = ligne.split(";")
        Etablissements.append ({entete[i]:champs[i] for i in range(len(entete))})

In [None]:
Etablissements

**Remarque** : On dispose maintenant dans la variable `Etablissements` d'une liste de 66040 établissements d'enseignements du 1er et du 2nd degré pour la France entière.

In [None]:
len(Etablissements)

### Filtrage d'une table en mémoire

On peut maitenant écrire une fonction qui fabrique une liste des lycées publics filtrés par académie.
Le code de l'académie est passé en paramètre. Les conditions permettant de tester que c'est un lycée `300<=int(etab['Code nature'])<=307`, et qu'il est public `etab['Secteur Public/Privé']== 'Public'` sont  écrites dans le code de la fonction.

In [None]:
def lyceespublics (listetab, codeacademie):
    return([etab for etab in listetab if int(etab['Code académie'])== codeacademie and 300<=int(etab['Code nature'])<=307 and etab['Secteur Public/Privé']== 'Public'])
    

L'appel de cette fonction permet de créer un nouveau tableau avec seulement les enregistrements choisis.

In [None]:
lycees_publics_nantes = lyceespublics (Etablissements, 17)
lycees_publics_nantes

### Tri d'une table

Deux fonctions de tris de tableaux sont disponibles en Python.
* La fonction `sorted` construit un nouveau tableau trié copie du tableau à trier.
* La méthode `sort` trie en place le tableau et ne donne pas de résultat, mais modifie le tableau donné.

Les deux nécessitent une fonction de comparaison pour savoir comment trier les enregistrements. C'est le rôle du paramètre `key` qui associe à chaque élément de la liste une valeur, ici le code de la commune, pour servir d'index de tri. 

La notation `lambda` permet d'introduire une fonction anonyme qui à un établissement associe son code de commune.

In [None]:
sorted(lycees_publics_nantes, key=lambda etab: etab['Code commune'])

Après exécution de la fonction `sorted`, la liste `lycees_publics_nantes` n'est pas modifiée.

In [None]:
lycees_publics_nantes.sort(key=lambda etab: etab['Patronyme uai'])

Après tri de la liste avec comme clé de tri le patronyme du lycée,on peut vérifier que la liste a bien été modifiée.

In [None]:
[lycee['Patronyme uai'] for lycee in lycees_publics_nantes]

### Fusion de tables

La fusion consiste à cnstruire une nouvelle table en combinant les données de deux tables.
Cela est possible si les deux tables comportent un champ commun. 

Un algorithle naïf consiste à parcourir la 1ere table et pour chaque enregistrement, à parcourir la seconde table à la recherche d'enregistrements correspondants.

Un algorithme de fusion plus efficace est possible si les deux tables sont triées sur le critère selon lequel on souhaite les fusionner. On peut alors écrire un algorithme qui parcourt les deux tables de manière synchronisée.

* **Activité** : Rechercher une nouvelle table contenant pour une académie la liste des lycées offrant la spécialité NSI. Fusionner avec la table précédemment obtenue pour en déduire une table contenant les lycées offrant NSI avec leur localisation géographique (latitude, longitude) pour permettre de générer ensuite une cartographie localisant ces lycées.

Equipe pédagoqique DIU EIL, ressource éducative libre distribuée sous [Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International](http://creativecommons.org/licenses/by-nc-sa/4.0/) ![Licence Creative Commons](https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png)