## <p style="text-align: center;">NSI</p>
## <p style="text-align: center;">Traitement de données en tables</p>
## <p style="text-align: center;">Lycée Beaussier - F. Lagrave</p>

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Fklag/NSI_iere/master?filepath=NSI_Traitement_donnees_tables_diapo.ipynb)

# Supports de cours

<div id="top">
    
### Les <a href="http://lycee.lagrave.free.fr/snt/data/SNTdata23mai.pdf" target="_blank">données organisées en table</a>

De telles <a href="http://lycee.lagrave.free.fr/SNTdata/co/module_Data_1.html" target="_blank">données</a> correspondent à <a href="http://lycee.lagrave.free.fr/nsi/programmation/8_Elements_programmation_diapo.pdf" target="_blank">une liste</a> de <a href="http://lycee.lagrave.free.fr/nsi/programmation/11_Elements_programmation_diapo.pdf" target="_blank">$p-$uplets nommés</a> qui partagent les mêmes <a href="http://lycee.lagrave.free.fr/SNTdata/co/Data_02.html" target="_blank">descripteurs</a>.

</div>

###   Indexation de table

Au départ il nous faut un fichier texte $\texttt{csv}$ qui contient des données, supposons que cela soit le fichier <a href="./data/election.csv" target="_blank">$\texttt{election.csv}$</a> ci-dessous :



nom,prenom,nb_voix  
dupond,emile,514  
dupont,chloe,632  
dupons,camille,421



In [1]:
f = open("./data/election.csv",'r')
champs = f.readline() # lecture de la 1ere ligne
lignes = f.readlines()
f.close()

print(champs)
lignes

nom,prenom,nb_voix



['dupond,emile,514\n', 'dupont,chloe,632\n', 'dupons,camille,421\n']

In [2]:
import csv

def csv2dict(csv_file):
    """Converti un fichier csv en une liste de dictionnaires
        [{'key' : value, 'key' : value, 'key' : value, ...},...]"""
    with open(csv_file,'r') as data :
        reader = csv.DictReader(data)
        return [dict(row.items()) for row in reader]

table = csv2dict("./data/election.csv")
table

[{'nom': 'dupond', 'prenom': 'emile', 'nb_voix': '514'},
 {'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': '632'},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': '421'}]

Pour chaque enregistrement (ligne), il ne faut pas oublier de convertir les valeurs de la colonne nb_voix en des entiers de $\texttt{type} : \texttt{int}$

In [3]:
for rec in table :
    rec['nb_voix'] = int(rec['nb_voix'])

table

[{'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 514},
 {'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421}]

### Recherche dans une table

Supposons qu'on cherche la liste des lignes dans lesquelles le prénom commence par un "c" et le nombre de voix est supérieur à $300$. On écrira :


In [4]:
def test(rec) :
    return rec['prenom'][0] == 'c' and rec['nb_voix'] > 300


recherche = [rec for rec in table if test(rec)]

assert list(filter(test, table)) == recherche
list(filter(test, table))

[{'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421}]

On peut éviter de créer la fonction $\texttt{test}$ et utiliser à la place une fonction anonyme (un "$\texttt{lambda}$")

In [5]:
list(filter(lambda rec: rec['nom'][-1] =='d' or rec['nb_voix'] < 500, table))

[{'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 514},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421}]

In [6]:
[rec for rec in table if rec['nom'][-1] =='d' or rec['nb_voix'] < 500]

[{'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 514},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421}]

### Trier une table suivant une colonne  
On peut utiliser la méthode $\texttt{sort}$ ou la fonction $\texttt{sorted}$ qui permettent de trier une liste, en ajoutant un calcul de la clé utilisée pour comparer ($\texttt{sorted}$ permet de ne pas modifier la table de départ et d'en construire une nouvelle).

Par exemple, pour trier par nombre de voix croissant :


In [7]:
def nombre_voix(rec) :
    return rec['nb_voix']

sorted(table, key=nombre_voix)

[{'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421},
 {'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 514},
 {'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632}]

De nouveau, on a parfois intérêt à utiliser une fonction anonyme pour ne pas créer une fonction de tri à chaque fois :

In [8]:
sorted(table, key=lambda rec:rec['nom'], reverse=True)

[{'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 421},
 {'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 514}]

### Fusion de deux tables

* Un premier exemple de fusion est la **concaténation verticale** de deux tables ayant les même colonnes.  
  Cela correspond à concaténer les deux listes

In [9]:
table1 = [{'nom':'dupont','prenom':'chloe'}]
table2 = [{'nom': 'dupons', 'prenom': 'camille'},{'nom': 'dupond', 'prenom': 'emile'}]
table_fusion = table1 + table2

table_fusion

[{'nom': 'dupont', 'prenom': 'chloe'},
 {'nom': 'dupons', 'prenom': 'camille'},
 {'nom': 'dupond', 'prenom': 'emile'}]

L'objectif d'une recherche peut-être de vérifier que certaines données ne sont pas répétées,   
afin de supprimer éventuellement les doublons.  
> Écrire une fonction $\texttt{ajout}$ permettant ici, la concaténation verticale de deux tables ayant des descripteurs identiques, en évitant les doublons. Attention aussi à la **cohérence** l'ajout  n'est  possible  seulement  si  cela ne  cause pas une contradiction avec les enregistrements précédents.

* Un deuxième exemple de fusion est la "**concaténation horizontale**" de deux tables n'ayant pas les mêmes colonnes.

**Rappel :** un <a href="http://lycee.lagrave.free.fr/nsi/programmation/11_Elements_programmation_diapo.pdf" target="_blank">dictionnaire est un ensemble</a> d'associations entre une clé et une valeur et $\texttt{Python}$ garantit qu'il ne retient que les éléments distincts.  

On peut utiliser $\texttt{**}$ pour forcer l'<a href="http://sametmax.com/operateur-splat-ou-etoile-en-python/" target="_blank">unpacking</a> des dictionnaires.  
Les valeurs du dictionnaire deviennent les valeurs des paramètres, mais cette association se fait par nom :  
chaque clé du dictionnaire doit correspondre à un nom de paramètre. Ainsi :

In [10]:
elements = {"elem1": "eau", "elem2": "feu", "elem3": "air"}
{**elements,"elem1": "eau","elem4": "terre"}

{'elem1': 'eau', 'elem2': 'feu', 'elem3': 'air', 'elem4': 'terre'}

* On peut supposer qu'au moins une colonne est commune aux deux, et qu'on a trié par rapport à cette colonne dans chacune des deux tables, de sorte que la $i-$ème ligne de la première table doit bien être associée à la $i-$ème ligne de la deuxième table.



In [13]:
table1 = [{'nom':'dupont','prenom':'chloe'},{'nom': 'dupons', 'prenom': 'camille'},{'nom':'dupond','prenom':'emile'}]
table2 = [{'nom':'dupont','nb_voix':632},{'nom': 'dupons', 'nb_voix': 514},{'nom':'dupond','nb_voix':421}]

print(table1[0]," Union ",table2[0])
print({**table1[0],**table2[0]})

table_fusion = [{**table1[i], **table2[i]} for i in range(len(table1))]
table_fusion

{'nom': 'dupont', 'prenom': 'chloe'}  Union  {'nom': 'dupont', 'nb_voix': 632}
{'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632}


[{'nom': 'dupont', 'prenom': 'chloe', 'nb_voix': 632},
 {'nom': 'dupons', 'prenom': 'camille', 'nb_voix': 514},
 {'nom': 'dupond', 'prenom': 'emile', 'nb_voix': 421}]

### Conclusion  
Ce qu'il faut savoir faire à l'issue de cette partie :  (retenir/utiliser)
* Importer une table depuis un fichier texte tabulé ou un fichier CSV. 
   * En utilisant un tableau doublement indexé ou un tableau de $p-$uplets qui partagent les mêmes descripteurs.
* Les <a href="http://lycee.lagrave.free.fr/nsi/programmation/11_Elements_programmation_diapo.pdf" target="_blank">$p-$uplets nommés</a> permettent les **enregistrements de valeurs de types différents** dans des champs nommés.  
  En $\texttt{Python}$, ils  sont implémentés par des **dictionnaires**.
* Recherche dans une table
  * Rechercher les lignes d'une table vérifiant des critères exprimés en logique propositionnelle.
  * Recherche de doublons - tests de cohérence.

* Tri d'une table
  * Trier une table suivant une colonne.
  * Une fonction de tri intégrée au système ou à une bibliothèque peut être utilisée.

* Fusion de tables
  * Construire une nouvelle table en combinant les données de deux tables.