# Aéroports du monde


En prenant pour prétexte un fichier de données recensant un très grands nombre d'aéroports, nous allons travailler les méthodes vues en cours pour : 
- importer un fichier csv
- sélectionner des données
- trier des données

Pour fonctionner, ce notebook doit être dans le même répertoire (ou dossier) que le dossier `./airports/` qui contient deux fichiers CSV : `./airports/airports.csv` et `./airports/countries.csv`

# 1) Pour commencer : fichier que nous allons exploiter

In [None]:
import csv
from pprint import pprint

def charger_fichier( nom_fic ):
    """
    Permet de lire un fichier CSV en utilisant la ligne d'entêtes
    Retourne une liste de dictionnaires.
    """
    table = []
    fichier_csv = open( nom_fic , "r", newline ="", encoding ="utf-8" )
    lecteur_fichier = csv.DictReader( fichier_csv , delimiter =",")    
    for enreg in lecteur_fichier :
        table.append (dict ( enreg )) # enreg est de type OrderedDict on le remet en dict
    fichier_csv.close()    
    return table

In [None]:
table_aeroports = charger_fichier('./airports/airports.csv')

In [None]:
table_aeroports[0]

<div class = "alert alert-warning">  


**Question**  


Exécuter les trois cellules de code ci-dessus : 
    
- Quel est l'encodage du fichier CSV utilisé ?

- Quel est le séparateur du fichier CSV utilisé ?
    
- Quel est le nom de variable de la table qui a été créée dans python ?
    
- Combien de champs (ou colonnes) comporte cette table ? Quels sont les descripteurs ?
    

**Réponses:**
- Le fichier est encodé en utf-8.
- Le séparateur est "," (delimiter).
- Le nom de la table créée est table_aeroports.

<div class = "alert alert-warning">  


**Question**  

En exécutant une instruction bien choisie, déterminer combien d'enregistrements (c-à-d de lignes) contient cette table ?

In [None]:
#Réponse: (penser à passer la cellule en "Code")
len(table_aeroports)

<div class = "alert alert-warning">  


**Question**  
- Afficher tout l'enregistrement d'indice 1111 de cette table. 


- Quel est le code du pays de cet aéroport ? D'après vous à quel pays cela correspond-il ?
    

- Quelle est son altitude (attention elle est exprimée en pieds)?

In [None]:
table_aeroports[1111]

**Réponses:**
Le code est 'NG'. C'est l'aéroport du Nigéria.

<div class = "alert alert-warning">  


**Question**  

Afficher uniquement le nom de l'aéroport de l'enregistrement d'indice 1234 de cette table.

In [None]:
table_aeroports[1234]['Name']

<div class = "alert alert-danger">

MISE EN GARDE N°1

Rappelez vous que les valeurs de tous les champs sont de type `str` et qu'il faut les convertir en `float` ou en `int` si besoin (et le besoin sera très souvent là).  
    

MISE EN GARDE N°2

On appellera **table** une `list` de `dict` python (c'est à dire un tableau de p-uplets nommés en langage "algorithmique").

# 2) rechercher des données

<div class = "alert alert-warning">  


**Question**  

En une seule instruction, à partir de la table `table_aeroports`, creer la liste `liste_des_types` des types de tous les aéroports figurant dans la table (un même type pourra figurer plusieurs fois dans la liste).

In [None]:
#Méthode valable dans tous les langages :
liste_des_types=[]
for aeroport in table_aeroports:
    liste_des_types.append(aeroport['Type'])

In [None]:
#Plus simple en python : utiliser la création de liste 'en compréhension'
#en utilisant la variable aeroport qui parcourt toutes les valeurs de table_aeroports
liste_des_types=[aeroport['Type'] for aeroport in table_aeroports]

<div class = "alert alert-warning">  
    
    
**Question**  
Les types d'aéroports apparaissent plusieurs fois dans cette liste. Ce qui est gênant.  
Compléter la fonction `enlever_doublons_liste` qui prend en argument une liste `avec_doublons` et renvoie une autre liste `sans_doublons` dont les éléments sont les éléments de `avec_doublons` mais présents une seule fois (et en conservant l'ordre des indices de première apparition de gauche à droite).  
Quelques assertions que devra satisfaire votre fonction sont données plus bas

In [None]:
def enlever_doublons_liste(avec_doublons):
    sans_doublons = []
    for element in avec_doublons:
        if element not in sans_doublons:
            sans_doublons.append(element)
    return sans_doublons

In [None]:
assert enlever_doublons_liste(['a', 'c', 'b', 'a', 'a', 'z', 'k', 'b']) == ['a', 'c', 'b', 'z', 'k']
assert enlever_doublons_liste([10, 9, 10, 10, -99, 99, -99]) == [10, 9, -99, 99]

In [None]:
liste_des_types = enlever_doublons_liste(liste_des_types)
liste_des_types

On peut le faire astucieusement en utilisant le type <code>set</code>, qui signifie 'ensemble' et supprime lui-même les doublons :

In [None]:
liste_des_types=[aeroport['Type'] for aeroport in table_aeroports]
print("Liste complète : ",liste_des_types[:20],"\n")
print("Ensemble :",set(liste_des_types))
print("Liste sans doublons :",list(set(liste_des_types)))


<div class = "alert alert-warning">  


**Question**  

En une seule instruction, à partir de la table `table_aeroports`, créer la **table** `table_large_airports` de tous les aéroports de type `large_airport`.
    
    
Combien y'en a-t-il ?

In [None]:
table_large_airports=[aeroport for aeroport in table_aeroports if aeroport["Type"]=="large_airport"]
f"Il y a {len(table_large_airports)} grands aéroports"

<div class = "alert alert-warning">  


**Question**  

En une seule instruction, à partir de la table `table_aeroports`, créer la **table** `table_large_airports_FR` de tous les aéroports de type `large_airport` situés en France (`Country_Code` égal à `FR`).
    
    
Combien y'en a-t-il ? Quels sont leurs noms ?

In [None]:
table_large_airports=[aeroport for aeroport in table_aeroports if aeroport["Type"]=="large_airport" and aeroport["Country_Code"]=="FR"]
f"Il y a {len(table_large_airports)} grands aéroports en France"

Bon, puisque vous voulez leur nom les voilà :

In [None]:
Grands_aeroports_Français=[aeroport["Name"] for aeroport in table_large_airports]
for aero in Grands_aeroports_Français:
    print(aero)

# 3) trier des données

<div class = "alert alert-warning">  


**Question**  

Créer la table `table_alt_decroissantes` des aéroports triés par ordre décroissant d'altitude.
    
Penser à faire une fonction clef de tri auparavant 
    
**Attention aux conversions de type, sinon vous allez trier par ordre alphabétique au lieu de trier par ordre numérique. Voir Mise en garde n°1 au début du notebook**

In [None]:
def cle_Altitude(aeroport):
    return int(aeroport["Altitude"])

table_alt_decroissantes=sorted(table_aeroports,key=cle_Altitude,reverse=True)

for aero in table_alt_decroissantes[:5]:
    print(aero)

<div class = "alert alert-warning">  


**Question**  

Créer la liste des `Country_Code` des 20 aéroports les plus hauts.  
    
Quel pays est le plus présent dans cette liste (ou quel code de pays si vous ne maîtrisez pas les codes de pays) ?

In [None]:
table_plus_hauts = table_alt_decroissantes[:20]
dico_occurences_pays=dict()
for pays in [aero["Country_Code"] for aero in table_plus_hauts]:
    if pays not in dico_occurences_pays:
        dico_occurences_pays[pays]=1
    else:
        dico_occurences_pays[pays]+=1
print(dico_occurences_pays)

In [None]:
f"C'est la Chine qui gagne avec {dico_occurences_pays['CN']} aéroports sur 20."

<div class = "alert alert-warning">  


**Question**  

Créer la table `table_triee_par_lieu` des aéroports triés par ordre alphabétique de `City` croissant puis par ordre alphabétique de `Country_Code` croissant.  

Quel est le nom de l'aéroport situé à l'indice 5555 de cette table triée ?

In [None]:
def cle_City(aeroport):
    return aeroport["City"]

def cle_Country_Code(aeroport):
    return aeroport["Country_Code"]              

table_CCode=sorted(table_aeroports,key=cle_Country_Code)
table_City_CCode=sorted(table_CCode,key=cle_City)

#Pour l'affichage j'enlève les enregistrements dans lesquelles des infos sont manquantes (City ou Code)
pprint([(aero["City"],aero["Country_Code"]) for aero in table_City_CCode[:1000] if aero["City"]!="" and aero["Country_Code"]!=""])