# Traitement de données en table (Révisions de 1NSI) - <span style="color:blue;">CORRECTION</span>

**Ressources** : <a href="https://webge.synology.me/dokuwiki/doku.php?id=python:accueilpython" target="_blank"><input type="button" value="Wiki Python sur WebGE"></a>

**Sommaire**
* 1. Présentation
* 2. Organisation d'une table
* 3. Objectifs
* 4. Construction et interrogation d'une table
* 4.1 Construction
* 4.2 Interrogation
----

## 1. Présentation
<table>
    <tr>
        <td style="text-align:left; font-size:14px"><p>L'<strong>organisation tabulaire des données</strong> est très répandue et très ancienne. Les tables documentées les plus anciennes sont des livres de comptes déjà présents dans l'Égypte ancienne. </p><p><strong>Aujourd'hui</strong>, cette organisation est utilisée par les bulletins scolaires, les résultats de match ou les relevés d'un compte bancaire qui indiquent pour chaque opération, sa date, son montant et sa nature (débit ou crédit).</p><p>En informatique, la manipulation de données en tables depuis un langage de programmation est utilisée dans de nombreux domaines : <strong>calcul scientifique, intelligence artificielle, programmation Web, bio-informatique, informatique financière, etc</strong>. </p> 
        </td>
        <td> <img src="img/papyrus.png"></td>
    </tr> 
</table>

## 2. Organisation d'une table
Dans ce notebook, les tables représentent des **collections d'éléments**. Chaque **ligne** représente un élément enregistré dans la collection ou **enregistrement**. Les **colonnes** représentent les **attributs** d'un élément (égalements notées champs). La première ligne est le **schéma de la table**.

![table.png](img/table.png)

## 3. Objectifs
**Construire** la table de données ci-dessous à partir d'un fichier CSV. **Coder** des requêtes en Python qui répondent à des interrogations telles que :
* Le prénom "Brian" est-il présent dans la table?
* Quels scientifiques ont pour prénom Alan ?
* Quel est le nom et le prénom des scientifiques nés entre 1900 et 1920,
etc.

![table.png](img/scientifiques.png)

## 4. Construction et interrogation d'une table
### 4.1 Construction
La première opération concernant les données en table est le **chargement des données**. Les données sont souvent chargées à partir d'un fichier au format <a href="https://fr.wikipedia.org/wiki/Comma-separated_values" target="_blank">CSV</a> (**comma-separated values**) relativement simple :
* les fichiers CSV sont des fichiers texte;
* chaque ligne du fichier correspond à une ligne de la table;
* chaque ligne est séparée en champs au moyen d'une virgule, d'un point-virgule ou d'une barre verticale;
* toutes les lignes du fichier ont le même nombre d'attributs;
* la première ligne peut représenter des noms d'attributs ou commencer directement avec les données;
* on peut utiliser des guillemets pour délimiter le contenu des attributs.

La **bibliothèque standard** Python propose un module **csv** contenant des fonctions pour lire et écrire des fichiers CSV.

In [None]:
# IMPORTANT : si l'exécution du notebook se fait dans colab, télécharger le fichier "scientifiques.csv" sur votre PC
# cas 1, à l'extérieur du lycée : utiliser le lien http://p.mariano.free.fr/doc/tnsi/tp/scientifiques.csv dans un navigateur
# cas 2, accès au NAS_SIN de la salle de classe : voir prof
# puis exécutez le code ci-dessous pour importer "scientifiques.csv" dans le répertoire colab Notebooks de votre compte Google
from google.colab import files
data_to_load = files.upload()

Le code ci-dessous charge le fichier *scientifique.csv* dans une variable nommée *table*. **Exécutez-le**.

In [None]:
import csv
# Construction d'une table (indexation à partir d'un fichier CSV)
fichier = open("scientifiques.csv")
table = list(csv.DictReader(fichier, delimiter=";"))
print(table)

----

<span style="color:blue;font-weight:bold">Remarques</span> : la fonction *DictReader* renvoie des dictionnaires "<a href="https://docs.python.org/fr/3/library/collections.html" target="_blank">ordonnés</a>" que nous utiliserons comme des dictionnaires. La variable **table** contient donc un tableau de dictionnaires. On constate que le **schéma de la table** n'est pas stocké dans le tableau, mais a été utilisé pour **créer les clés des dictionnaires**.

----

### 4.2 Interrogation
Une fois qu'un ensemble de données est chargé dans une table, il devient possible d'**exploiter ces données** à l'aide des opérations de manipulation de tableaux. On va pouvoir extraire des données de la table, tester la présence de certaines données ou faire des statistiques. Ces opérations sont appelées des **requêtes**.

>**Activité 1. Création d'une requête de sélection (recherche de la présence d'une valeur dans la table)** <br>
> On souhaite répondre à la question : "*Un prénom particulier est-il présent dans la table*" ? <br>
>
>**Complétez** la fonction *present(prenom, table)* ci-dessous pour qu'elle renvoie Vrai si le prénom passé en paramètre est présent dans la table et Faux sinon.
>
> *Exemples de résultats attendus (=> indique le résultat renvoyé)*<br>
> - Entrer un prénom : Brian <br>
>      => Brian est dans la table. <br>
> - Entrer un prénom : Audrey <br>
>      => Audrey n'est pas dans la table. <br>

In [None]:
# Remarque : Python est un langage à typage dynamique, c'est-à-dire qu'il n'est pas nécessaire de préciser le type des données.
# Depuis la version 3.5, il est possible de fournir des indicateurs de type lors de la définition des fonctions. 
# Cette possibilité est utilisée dans ce notebook pour faciliter la compréhension du code.
#
# Requête à compléter
def present(prenom: str, table: list) -> bool: # prenom est de type chaîne de caractères, table est de type liste, 
                                               # la fonction renvoie un booléen
    for enregistrement in table:               # Sélection des enregistrements dans la table
        if enregistrement["prenom"] == prenom: # Si le prénom est celui passé en paramètre 
            return True                        # on renvoie Vrai
    return False                               # Si le prénom passé en paramètre n'est pas dans la table, on renvoie Faux

# Tests
prenom = input("Entrer un prénom : ")
if (present(prenom, table)):
    print(f"{prenom} est dans la table.")
else:
    print(f"{prenom} n'est pas dans la table.")

>**Activité 2. Création d'une requête de sélection (récupération d'une donnée à partir d'un attribut particulier)**<br>
> On souhaite répondre à la question : "*Quels sont le ou les noms des scientifiques ayant pour prénom ... ?*" <br>
>
> La **requête** à créer peut s'exprimer par : **Sélection** de l'attribut *nom* **issu de** la *table* **où** l'attribut *prénom = valeur*<br>
>
> **Créez** la fonction *nom(prenom, table)* qui renvoie la liste des noms des scientifiques ayant le prénom passé en paramètre.
>
> *Exemples de résultats attendus*<br>
> - Entrer un prénom : Brian => ['Kernighan'] <br>
> - Entrer un prénom : Alan => ['Turing', 'Perlis'] <br>
> - Entrer un prénom : Audrey => []

In [None]:
# Requête à compléter
def nom(prenom: str, table: list) -> list:
    t = []  # tableau contenant la ou les valeurs de attribut1
    for enregistrement in table:
        if enregistrement["prenom"] == prenom:
            t.append(enregistrement["nom"])
    return t

# Tests
prenom = input("Entrer un prénom : ")
print(nom(prenom, table))

> **Activité 3. Création d'une requête de sélection (récupération d'une donnée à partir de la valeur d'un attribut)** <br>
> On souhaite répondre aux questions suivantes avec la même requête : <br>
> * *Quel est le prénom des scientifiques nés en juin ?* 
> * *Quel est le nom des scientifiques dont le prénom est Alan ?*
> * *Quel est le nom des scientifiques né le premier jour du mois ? etc.* <br>
>
> La **requête** à créer peut s'exprimer par : **Sélection** d'un *premier attribut* **issu de** la *table* **où** *un second attribut = valeur*
>
>**Créez** la fonction *selection(attribut1,table,attribut2,valeur)* qui renvoie les valeurs de attribut1 qui correspondent à la valeur de attribut2 passée en paramètre.
>
> *Exemples de résultats attendus*<br>
> - Prénom des scientifiques nés en juin => ['Alan', 'Blaise'] <br>
> - Nom des scientifiques dont le prénom est Alan => ['Turing', 'Perlis'] <br>
> - Nom des scientifiques nés le premier jour du mois => ['Kernighan', 'Perlis']

In [None]:
# Requête à compléter
def selection(attribut1: str, table: list, attribut2: str, valeur: str) -> list:
    t = []  # tableau contenant la ou les valeurs de attribut1 pour attribut2 = valeur
    for enregistrement in table:
        if enregistrement[attribut2] == valeur:
            t.append(enregistrement[attribut1])
    return t

# Tests
# Prénom des scientifiques nés en juin
print(selection("prenom", table, "mois", "6"))
# Nom des scientifiques dont le prénom est Alan
print(selection("nom",table,"prenom","Alan"))
# Nom des scientifiques nés le premier jour du mois
print(selection("nom", table, "jour", "1"))


> **Activité 4. Création d'une requête de sélection (récupération de plusieurs données à partir de la valeur d'un attribut)**  <br>
> On souhaite répondre à une question comme : "*Quels sont le nom et le prénom des scientifiques nés le premier jour du mois ?*"
>
> La **requête** à créer peut s'exprimer par : **Sélection** de plusieurs attributs **issus de** la *table* **où** *un attribut = valeur*
>
>**Créez** la fonction *selection2(lstattrib,table,attribut,valeur)* qui renvoie les valeurs des attributs situés dans *lsattrib* qui correspondent à la valeur de l'attribut passé en paramètre.
>
> *Exemples de résultats attendus*<br>
> - Nom et prénom des scientifiques nés le premier jour du mois => [['Kernighan', 'Brian'], ['Perlis', 'Alan']]<br>
> - Nom, prénom et projet des scientifiques nés en juin => [['Turing', 'Alan', 'codes secrets'], ['Pascal', 'Blaise', 'machine arithmetique']]

In [None]:
# Requête à compléter
def selection2(lstattrib: list, table: list, attribut: str, valeur: str) -> list:
    t = []
    tt = []
    for enregistrement in table:
        if enregistrement[attribut] == valeur:
            for atbut in lstattrib:
                t.append(enregistrement[atbut])
            tt.append(t.copy())
            t.clear()
    return tt

# Tests
# Nom et prénom des scientifiques nés le premier jour du mois
t_attributs=["nom","prenom"]
print(selection2(t_attributs,table,"jour", "1"))
# Nom, prénom et projet des scientifiques nés en juin
t_attributs=["nom","prenom","projet"]
print(selection2(t_attributs,table,"mois", "6"))

----

<span style="color:blue;font-weight:bold">Remarques</span> : la fonction **DictReader** charge les données dans la table sous la forme de **chaînes de caractères**. Jusqu'à présent, cela n'a pas posé de problèmes pour rédiger les requêtes, mais on doit transtyper les attributs *jour*, *mois* et *année* si l'on souhaite les utiliser comme des nombres.

On propose le code ci-dessous. **Exécutez-le**.

----

In [None]:
def valide(enregistrement):  # Validation des données (modification des types)
    nom = enregistrement['nom']
    prenom = enregistrement["prenom"]
    jour = int(enregistrement["jour"])
    mois = int(enregistrement["mois"])
    annee = int(enregistrement["annee"])
    projet = enregistrement["projet"]
    return{"nom": nom, "prenom": prenom, "jour": jour, "mois": mois, "annee": annee, "projet": projet}


table2 = [valide(enregistrement) for enregistrement in table]
print(table2)

> **Activité 5. Création d'une requête de sélection (récupération de plusieurs données à partir de la valeur d'un attribut, différents types de données dans la table)** <br>
> On souhaite répondre à une question comme : "*Quels sont le nom et le prénom des scientifiques nés avant 1900 ?*"
>
> La **requête** à créer peut s'exprimer par : **Sélection** de plusieurs attributs **issus de** la table **où** un attribut est **comparé à une valeur**. Les comparaisons à prendre en compte sont : **>, <, ==, >=, <=**.
>
>**Créez** la fonction *selection3(lstattrib,table,attribut,opcomparaison,valeur)* <br>
> - *opcomparaison* : opération de comparaison
>
> *Exemples de résultats attendus*<br>
> - Nom et prénom des scientifiques nés avant 1900 => [['Pascal', 'Blaise'], ['Jacquard', 'Joseph Marie']] <br>
> - Nom et prénom des scientifiques nés après 1920 => [['Kernighan', 'Brian'], ['Torvald', 'Linus'], ['Knuth', 'Donald'], ['Hamilton', 'Margaret'], ['Perlis', 'Alan']] <br>
> - Nom, prénom et projet des scientifiques nés en juin => [['Turing', 'Alan', 'codes secrets'], ['Pascal', 'Blaise', 'machine arithmetique']]

In [None]:
# Requête à compléter
# Attention, utiliser table2 dans les tests
# selection 3 Version 1 non optimisée
def selection3(lstattrib: list, table: list, attribut: int, opcomparaison: int, valeur: int) -> list:
    t = []
    tt = []
    for enregistrement in table:
        if opcomparaison == 1:  # égale
            if enregistrement[attribut] == valeur:
                for atbut in lstattrib:
                    t.append(enregistrement[atbut])
                tt.append(t.copy())
                t.clear()
        elif opcomparaison == 2:  # supérieur
            if enregistrement[attribut] > valeur:
                for atbut in lstattrib:
                    t.append(enregistrement[atbut])
                tt.append(t.copy())
                t.clear()
        elif opcomparaison == 3:  # inférieur
            if enregistrement[attribut] < valeur:
                for atbut in lstattrib:
                    t.append(enregistrement[atbut])
                tt.append(t.copy())
                t.clear()
        # etc.
    return tt

# Tests
t_attributs = ["nom", "prenom"]
# Nom et prénom des scientifiques nés avant 1900
print(selection3(t_attributs, table2, "annee", 3, 1900))
# Nom et prénom des scientifiques nés après 1920
print(selection3(t_attributs, table2, "annee", 2, 1920))
# Nom, prénom et projet des scientifiques nés en juin
t_attributs=["nom","prenom","projet"]
print(selection2(t_attributs,table,"mois", "6"))

In [None]:
# Requête à compléter
# Attention, utiliser table2 dans les tests
# selection3 Version 2
tt = [] # liste de listes contenant le résultat de la requête

def addenreg(enregistrement: dict, attribut: int, lstattrib: list) -> list:
    t = [] # Une sélection prise dans un enregistrement satisfaisant la comparaison
           # faite dans selection3
    for atbut in lstattrib:
        t.append(enregistrement[atbut])
    tt.append(t.copy())
    t.clear()

def selection3(lstattrib: list, table: list, attribut: int, opcomparaison: int, valeur: int) -> list:
    for enregistrement in table:
        if opcomparaison == 1:  # égal
            if enregistrement[attribut] == valeur:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaison == 2:  # supérieur
            if enregistrement[attribut] > valeur:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaison == 3:  # inférieur
            if enregistrement[attribut] < valeur:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaison == 4:  # supérieur ou égal
            if enregistrement[attribut] >= valeur:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaison == 5:  # supérieur ou égal
            if enregistrement[attribut] <= valeur:
                addenreg(enregistrement, attribut, lstattrib)
    return tt

# Tests
operation = {"egal": 1, "sup": 2, "inf": 3, "supegal": 4, "infegal": 5}
t_attributs = ["nom", "prenom"]
# Nom et prénom des scientifiques nés avant 1900
print(selection3(t_attributs, table2, "annee", operation["inf"], 1900))
tt.clear()
# Nom et prénom des scientifiques nés après 1920
print(selection3(t_attributs, table2, "annee", operation["sup"], 1920))
tt.clear()
# Nom, prénom et projet des scientifiques nés en juin
t_attributs=["nom","prenom","projet"]
print(selection2(t_attributs,table,"mois", "6"))

> **Activité 6. Création d'une requête de sélection (récupération de plusieurs données à partir de la valeur d'un attribut, différents types de données dans la table)** <br>
> On souhaite répondre à une question comme : "*Quels sont le nom et le prénom des scientifiques nés entre 1900 et 1920 ?*"
>
> La **requête** à créer peut s'exprimer par : **Sélection** de plusieurs attributs **issus de** la table **où** un attribut est **comparé à un intervalle de valeurs**. Les comparaisons à prendre en compte sont : **>, <, ==, >=, <=**. <br>
>
>**Créez** la fonction *selection4(lstattrib,table,attribut,opcomparaisoninf,opcomparaisonsup,valeurmin,valeurmax)* <br>
> - *opcomparaisoninf* : opération de comparaison avec la borne inférieure. <br>
> - *opcomparaisonsup* : opération de comparaison avec la borne supérieure. <br>
>
> *Exemples de résultats attendus*<br>
> - Nom et prénom des scientifiques nés avant 1900 => [['Pascal', 'Blaise'], ['Jacquard', 'Joseph Marie']] <br>
> - Nom et prénom des scientifiques nés entre 1900 et 1920 => [['Hopper', 'Grace'], ['Turing', 'Alan']] <br>
> - Nom, prénom et date de naissance des scientifiques nés entre le premier (compris) et le 15 (exclus) du mois
>     => [['Kernighan', 'Brian', 1, 1, 1942], ['Hopper', 'Grace', 9, 12, 1906], ['Knuth', 'Donald', 10, 1, 1938], ['Perlis', 'Alan', 1, 4, 1922], ['Jacquard', 'Joseph Marie', 7, 7, 1752]]

In [None]:
# Requête à compléter
# Attention, utiliser table2 dans les tests

tt = []

def addenreg(enregistrement: dict, attribut: int, lstattrib: list) -> list:
    t = []
    for atbut in lstattrib:
        t.append(enregistrement[atbut])
    tt.append(t.copy())
    t.clear()

def selection4(lstattrib: list, table: list, attribut: int, opcomparaisoninf: int, opcomparaisonsup:int, 
               valeurmin: int, valeurmax: int) -> list:
    for enregistrement in table:
        if opcomparaisoninf == 1 and opcomparaisonsup==0:  # égal
            if enregistrement[attribut] == valeurmin:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 2 and opcomparaisonsup==0:  # supérieur
            if enregistrement[attribut] > valeurmin:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 3 and opcomparaisonsup==0:  # inférieur
            if enregistrement[attribut] < valeurmin:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 4 and opcomparaisonsup==0:  # supérieur ou égal
            if enregistrement[attribut] >= valeurmin:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 5 and opcomparaisonsup==0:  # supérieur ou égal
            if enregistrement[attribut] <= valeurmin:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 3 and opcomparaisonsup==3:  # supérieur ou égal
            if valeurmin < enregistrement[attribut] and enregistrement[attribut] < valeurmax:
                addenreg(enregistrement, attribut, lstattrib)
        elif opcomparaisoninf == 5 and opcomparaisonsup==3:  # supérieur ou égal
            if valeurmin <= enregistrement[attribut] and enregistrement[attribut] < valeurmax:
                addenreg(enregistrement, attribut, lstattrib)
    return tt

# Tests
comparaisons = {"aucune":0, "egal": 1, "sup": 2, "inf": 3, "supegal": 4, "infegal": 5}
t_attributs = ["nom", "prenom"]
# Nom et prénom des scientifiques nés avant 1900
print(selection4(t_attributs, table2, "annee", comparaisons["inf"], comparaisons["aucune"], 1900,0))
tt.clear()
# Nom et prénom des scientifiques nés après 1920
print(selection4(t_attributs, table2, "annee", comparaisons["sup"], comparaisons["aucune"], 1920 , 0))
tt.clear()
# Nom et prénom des scientifiques nés entre 1900 et 1920
print(selection4(t_attributs, table2, "annee", comparaisons["inf"], comparaisons["inf"], 1900 , 1920))
tt.clear()
# Nom, prénom et date de naissance des scientifiques nés entre le premier (compris) et le 15 (exclus) du mois
t_attributs = ["nom", "prenom","jour","mois","annee"]
print(selection4(t_attributs, table2, "jour", comparaisons["infegal"], comparaisons["inf"], 1 , 15))       
tt.clear()