# Données en tables : recherches, fusions et tris (partie 1)

Les données sur lesquelles nous travaillons sont présentées en général dans des **tableaux** ou dans des **dictionnaires**. Nous allons aborder (ou revoir) les principaux traitements susceptibles d'êtres effectués sur des données : 
* **valider** les informations afin d'éliminer les valeurs incohérentes et de les rendre exploitables
* **rechercher** les objets répondant à un ou plusieurs critères ;
* **fusionner** plusieurs tables en une seule, sous certaines conditions (par exemple : éviter les doublons, ne conserver que les descripteurs communs, etc.) ;
* **trier** la table suivant un ou plusieurs critères (le cas des tris fera l'objet d'un chapitre à part entière).

# 1 - Lecture du fichier csv et récupération des données

Pour ces trois premières parties, nous allons utiliser la base de données des **passagers du Titanic**, disponible sous forme d'un fichier *csv*.

Le code ci-dessous se charge d'importer le fichier texte. On propose **deux versions différentes** de parcours du fichier afin de charger en mémoire les données. Après avoir exécuté les deux codes, nous comparerons les résultats obtenus.

## Méthode 1 - utilisation de *csv.reader()*

In [None]:
# version 1

import csv

fichier = open('titanic.csv', 'r')      # ouverture en lecture du fichier
table1 = list(csv.reader(fichier, delimiter=';'))

**Question 1** - Afficher le contenu de *table1*. Quel est le type du contenu de la variable *table1* ?

**Question 2** - Afficher les descripteurs de la table (sous la forme d'un tableau).
À quel indice du tableau *table1* trouve-t-on le premier passager ?

**Question 3** - Traduire par un court paragraphe en français le résultat de la commande ci-dessous.

In [None]:
table1[819]

**Question 4** - Ecrire une commande pour afficher le nom du passager correspondant à l'enregistrement numéro 819 (c'est-à-dire pour l'indice 819 du tableau).

## Méthode 2 - Utilisation de *csv.DictReader()*

In [None]:
# version 2

import csv

fichier = open('titanic.csv', 'r')      # ouverture en lecture du fichier
table2 = list(csv.DictReader(fichier, delimiter=';'))

La variable *table2* contient un tableau d'objets d'un type encore jamais rencontré : le type **OrderedDict**. C'est  une variante du type **dictionnaire** qui garde en mémoire l'ordre dans lequel les entrées ont été ajoutées. En pratique, nous traiterons ces objets comme des objets de type dictionnaire.

In [2]:
# exemple : table2 est un tableau.
# L'enregistrement à l'indice n° 20 contient un objet de type OrderedDict
table2[20]

NameError: name 'table2' is not defined

In [None]:
# on accède aux valeurs comme pour un type dictionnaire, en précisant la clé :
table2[20]['tarif']

**Question 5** - Ecrire une commande pour afficher le nom de la passagère présentée à la question 4, en utilisant la variable *table2*. Attention à l'indice et à la manière d'afficher une entrée de dictionnaire, différente de celle d'un tableau.

**Question 6** - Laquelle des deux méthodes vous paraît la plus judicieuse pour récupérer la table à partir du fichier *csv* ? Pourquoi ?

# 2  - Validation des données

Nous travaillerons désormais sur la table extraite à l'aide de *csv.DictReader()*. Pour plus de simplicité, on renomme **table** la variable *table2*.

In [None]:
table = table2

Les données récupérées dans la table ne sont pas toutes exploitables. Dans notre exemple de liste des passagers, les champs **age** et **tarif** sont typiquement des nombres entiers, or ils ont été récupérés comme des chaînes de caractères, ce qui peut compliquer leur exploitation ultérieure (test d'égalité avec un autre nombre, comparaison, etc.). Il est donc souhaitable de modifier la table avant son exploitation.

In [None]:
# compléter le code ci-dessous et écrire au moins un test
for p in table:
    # transformation de l'âge : on laisse '' s'il est inconnu, sinon on convertit en un nombre entier
    if p['age'] != '':
        p['age'] = int(p['age'])
    # transformation du tarif : on laisse '' s'il est inconnu, sinon on convertit en un nombre entier
    # ... à compléter...
  

# 3 - Recherche dans une table

Une fois les données chargées dans une table, il est possible de les exploiter pour en extraire certaines en fonction de différents critères ou bien pour produire des statistiques. Dans le domaine des bases de données, de telles manipulations sont appelées des **requêtes**.

## 3.1 - Recherche en fonction d'un attribut clé

Exécuter le code ci-dessous pour définir la fonction *app*. Analyser son code ou exécuter quelques appels pour la tester : décrire ce que fait cette fonction. 

In [None]:
def app(v, t):
    for e in t:
        if e['age'] == v:
            return True
    return False

app(120, table2)

**Question 7** - En s'inspirant fortement de la fonction précédente, écrire une nouvelle fonction *app_cle* qui reçoit en argument :
* le nom d'un champ **n**, par exemple 'survie' ou 'sexe'
* une valeur **v** (nombre ou chaîne), par exemple '1'
* une table **t** sous forme de tableau de dictionnaires
et qui retourne *True* si la valeur **v** est présente au moins une fois dans la colonne **n** de la table **t**, *False* sinon.

In [None]:
# définition de la fonction app_cle
def app_cle(n, v, t):
    # ...

Tester votre fonction à l'aide des commandes ci-dessous :

In [None]:
# tests
app_cle('nom', 'Lam, Mr. Ali', table)
app_cle('age', 79, table)

## 3.2 - Recherche d'une donnée simple

**Question 8** - Ecrire le code d'une fonction *rech* qui reçoit en argument :
* la table **t**
* la valeur **surv** pour le champ 'survie' (qui peut donc être soit '0' soit '1')
* la valeur **cl** pour le champ 'classe' ('1', '2' ou '3')
* la valeur **age** pour l'âge (nombre)

et qui retourne le nom du passager de la classe **cl**, d'âge **age** et ayant le statut de survie **surv**.

In [None]:
# définition
def rech(t, surv, cl, age):
    #
    
    

# tests de la fonction
rech(table, '1', '1', 80)
rech(table, '1', '1', 49)

**Question 9** - Que se passe-t-il si plusieurs passagers vérifient les mêmes critères d'âge, de classe et de survie ? 

**Question 10** - Ecrire une nouvelle fonction *rech2* qui renvoie un tableau des noms des passagers répondant aux mêmes critères.

In [None]:
# définition de rech2
def rech2(t, surv, cl, age):
    #
    
    
# tests de la fonction
rech2(table, '1', '1', 80)
rech2(table, '1', '1', 49)

## 3.3 - Statistiques

**Question 11** - Ecrire une fonction qui calcule et retourne l'âge moyen de tous les passagers.

In [None]:
# 
def moyenne(t):
    
    
moyenne(table)

**Question 12** - Ecrire une fonction qui calcule et retourne l'âge moyen des passagers d'une classe donnée.

In [None]:
#
def moyenne_cla(t, classe):
    #
    
    
moyenne_cla(table, '1')
moyenne_cla(table, '2')
moyenne_cla(table, '3')

**Question 13** - La fonction ci-dessous calcule le taux moyen de survie de tous les passagers.

In [None]:
# calcul du taux de survie moyen
def taux_survie(t):
    somme = 0
    for p in t:
        somme = somme + int(p['survie'])
    return somme/len(t)

taux_survie(table)

Le taux de survie chez les passagers du Titanic était donc proche de 38 %. 

**Question 14** - Ecrire une fonction calculant le taux moyen de survie en fonction de la classe et du sexe.

In [None]:
# calcul du taux de survie en fonction de la classe et du sexe
def taux_survie2(t, classe, sexe):
    # 
    
    
# tests
taux_survie2(table, '1', '2')
taux_survie2(table, '3', '1')


## 3.4 - Sélection de lignes

La fonction ci-dessous retourne un tableau contenant uniquement les enregistrements correspondant à la classe et à la survie passées en argument.

Il faut remarquer la construction utilisée dans cette fonction, qui est une construction **par compréhension** (*cf.* cours sur les tableaux).

In [None]:
# sélection des lignes
def selection1(t, classe, survie):
    return [p for p in t if p['classe'] == classe and p['survie'] == survie]

# test
selection1(table, '3' ,'1')

**Question 15** - Ecrire une fonction qui retourne un tableau contenant uniquement les enregistrements correspondant au sexe et à l'intervalle d'âge passé en argument :

In [None]:
# fonction de sélection par âge et sexe
def selection2(t, sexe, age_mini, age_maxi):
    #
    
    
    
# test
table_h = selection2(table, '1', 18, 60)
len(table_h)

**Question 16** - Utiliser cette fonction et la fonction *taux_survie2* pour vérifier si les femmes, tous âges confondus, ont davantage survécus que les hommes (sans considérer les enfants ni les hommes âgés).

## 3.5 - Sélection de lignes et de colonnes

**Question 17** - En reprenant le code de la fonction *selection2*, écrire une fonction qui retourne une table contenant uniquement les enregistrements répondant aux critères, mais avec uniquement les champs 'classe', 'survie' et 'nom'.

# 4 - Fusionner deux tables

Nous allons maintenant travailler sur des données issues de la surveillance du trafic aérien. On dispose de plusieurs fichiers *csv* contenant les données récupérées à partir du trafic aérien tel que présenté par le site Opensky.org. Ces fichiers correspondent à différents états du trafic, capturés à quelques minutes d'intervalles les uns des autres.

Les données extraites sont les suivantes :
* ***icao24*** : un **identifiant unique** de l'avion, sous forme de code à 6 caractères hexadécimaux
* ***callsign*** : l'indicatif radio de l'avion
* **baro_altitude** : l'altitude (en m)
* **heading** : le cap (en degrés)
* **last_contact** : le *timestamp* du dernier contact radar
* **latitude**
* **longitude**
* **on_ground** : True si l'avion est au sol, False sinon
* **origin_country** : le pays d'origine de l'avion
* ***squawk*** : le code transpondeur de l'avion, sous forme de code à 4 caractères octaux
* **time_position** : le *timestamp* associé à la position indiquée
* **velocity** : la vitesse de l'avion par rapport au sol (en m/s)
* **vertical_rate** : la vitesse verticale (en m/s)

L'objectif de ce micro-projet est de construire, à partir de ces différents fichiers, une table des avions observés contenant :
* ***icao24*** : un **identifiant unique** de l'avion, sous forme de code à 6 caractères hexadécimaux
* ***callsign*** : l'indicatif radio de l'avion
* ***squawk*** : le code transpondeur de l'avion, sous forme de code à 4 caractères octaux
* **last_contact** : le *timestamp* du dernier contact radar
* **origin_country** : le pays d'origine de l'avion
* un tableau de dictionnaires **t_altitudes** où chaque clé est le *timestamp* **time_position** et la valeur associée est **baro_altitude** correspondante
* un tableau de dictionnaires **t_heading** où chaque clé est le *timestamp* **time_position** et la valeur associée est **heading**
* un tableau de dictionnaires **t_position** où chaque clé est le *timestamp* **time_position** et la valeur associée est un tuple **(latitude, longitude)**
* un tableau de dictionnaires **t_speed** où chaque clé est le *timestamp* **time_position** et la valeur associée est un tuple **(velocity, vertical_rate)**

In [None]:
# fichiers trafic
FILES = ['1255.csv', '1258.csv', '1301.csv', '1305.csv', '1309.csv', '1311.csv']