# Analyse et visualisation de données avec Python
## Collection de jeux de données Vega - Partie 2
Cette page contient des exercices basés sur les données de la collection Vega.


* Dépôt GitHub de [Vega Datasets](https://github.com/vega/vega-datasets).
  * [Origine](https://github.com/vega/vega-datasets/blob/master/SOURCES.md) des différents fichiers.
* Les exercices ci-dessous supposent que la copie locale partage le même dossier parent que `analyse-donnees-python`.

In [None]:
import os
import pandas as pd

dossier_data = os.path.join(".." if os.path.basename(os.getcwd()) == "solutions" else ".",
                            "..", "..", "vega-datasets", "data")
print(dossier_data)

## Exercice 4 - Automatisation
Pour chaque capitale d'état aux États-Unis, trouvez l'aéroport le plus près, et ce, à l'aide des longitudes et des latitudes. Pour chaque aéroport trouvé, sauvegardez dans un fichier CSV les vols d'arrivée et de départ. Le nom de chaque fichier doit avoir le code de deux lettres de l'état dans lequel se situe l'aéroport, le nom de la capitale et le code IATA de l'aéroport, le tout séparé d'un trait d'union.

Par exemple : `XY-Nom Ville-ABC.csv`

Enfin, ces fichiers seront sauvegardés dans le dossier `aero_cap`.

a) Chargez les données et étudiez les différentes variables (colonnes).

In [None]:
# Charger les données
capitales = pd.###(os.path.join(dossier_data, "us-state-capitals.json"))
aeroports = pd.###(os.path.join(dossier_data, "airports.csv"))
vols      = pd.###(os.path.join(dossier_data, "flights-3m.csv"))

In [None]:
capitales.head()

In [None]:
aeroports.###

In [None]:
vols.###

b) Limitez les aéroports à ceux présents dans le DataFrame `vols`.

In [None]:
# Recueillir les différents aéroports d'origine et de destination
orig = vols['origin']###
dest = vols['destination']###

# Ne garder que les aéroports d'origine et de destination
aeroports = aeroports[aeroports['iata']### ###
                      aeroports['iata']###]

# Test unitaire : devrait retourner 59 aéroports
len(aeroports)

c) Créez le dossier `aero_cap` :
* Créez la fonction `creer_dossier()` qui reçoit un `nom_dossier` en argument.
* Validez que le dossier existe avant de le créer.
* Testez la fonction `creer_dossier()` à deux reprises

In [None]:
###
    """Crée un dossier s'il n'existe pas
    
    nom_dossier -- Nom du dossier (str)
    """

    if nom_dossier ###
        print(f'Le dossier "{nom_dossier}" existe déjà!')
    ###:
        os.mkdir(nom_dossier)
        print(f'Nouveau dossier: "{nom_dossier}"!')

In [None]:
dossier_cible = ###

creer_dossier(dossier_cible)
os.listdir('.')

d) Créez la fonction `dist_ang2(lat1, long1, lat2, long2)` qui reçoit deux paires de coordonnées et qui calcule le carré de la distance entre ces coordonnées.

In [None]:
###
    """Retourne le carré de la distance angulaire
    
    lat1, lat2 -- Latitudes (scalaire ou vecteur)
    long1, long2 -- Longitudes (scalaire ou vecteur)
    """
    
    # Différences calculées élément par élément
    delta_lat = lat2 - lat1
    delta_long = ###
    
    # Retourne le carré de la distance angulaire
    return delta_lat * delta_lat + ###

In [None]:
# Test unitaire : doit retourner 25 = (5-2)*(5-2)+(7-3)*(7-3)
dist_ang2(2, 3, 5, 7)

e) Créez la fonction `trouver_aeroport()` avec les arguments décrits dans le Docstring. Complétez la fonction en tenant compte des commentaires.

In [None]:
###
    """Retourne le code IATA de l'aéroport le plus proche
    
    aeroports -- DataFrame des aeroports
    latitude -- degré de latitude
    longitude -- degré de longitude
    """
    
    # Copier les colonnes iata, latitude et longitude
    iata_long_lat = aeroports[###].###()
    
    # Appeler dist_ang2() avec les coordonnées des aéroports
    # et les coordonnées reçues en argument
    iata_long_lat['dist_ang2'] = dist_ang2(
        iata_long_lat['latitude'], iata_long_lat['###'], latitude, ###)
    
    # Obtenir la distance minimale
    dist_ang2_min = iata_long_lat['dist_ang2']###
    
    # Garder la ou les rangées de cette distance minimale
    aero_locales = iata_long_lat[iata_long_lat['dist_ang2'] ###]
    
    # Réinitialiser l'index et retourner le premier code IATA
    return aero_locales.###().loc[###]

In [None]:
# Test unitaire : doit retourner 'OMA'
trouver_aeroport(aeroports, 40, -100)

f) Créez la fonction `trouver_code_etat()` avec les arguments décrits dans le Docstring. Complétez la fonction en tenant compte des commentaires.

In [None]:
###
    """Retourne le code d'état selon le code IATA
    
    aeroports -- DataFrame des aeroports
    code_iata -- Typiquement un code de 3 lettres
    """
    
    # Copier la rangée où le code IATA correspond
    aeroport = aeroports[aeroports['iata'] ###].###()
    
    # Réinitialiser l'index et retourner le premier code IATA
    return aeroport.###().loc[###]

g) Complétez la boucle sur chaque `capitale` des états :
* L'itérable est donnée par la méthode [`df.itertuples()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.itertuples.html).
* Appelez la fonction `trouver_aeroport()` pour obtenir le code IATA.
* Appelez la fonction `trouver_code_etat()` pour obtenir le code d'état.
* Sélectionnez les `vols` dont l'origine **ou** la destination est le code IATA.
* Sauvegardez cette sélection dans le fichier CSV.

In [None]:
# Pour chaque capitale
### capitales.itertuples(name="Capitale", index=False):
    # Obtenir le code IATA pour ensuite obtenir le code d'état
    code_iata = trouver_###(aeroports, capitale.lat, capitale.lon)
    code_etat = trouver_###(aeroports, ###)
    
    # Sélectionner les vols concernant l'aéroport choisi
    vols_cap = vols[(vols['origin'] ###) ###
                    (vols['destination'] ###)]
    
    # Syntaxe du nom de fichier : "XY-Nom Ville-ABC.csv"
    nom_fichier = code_### + "-" + capitale.city + "-" + code_### + ".csv"
    
    # Sauvegarder vols_cap dans un fichier CSV dans dossier_cible
    ###(os.path.join(dossier_cible, nom_###))

os.listdir(dossier_cible)