# Analyse et visualisation de données avec Python
## Collection de jeux de données Vega
Cette page contient des exercices basés sur les données de la collection Vega.


* Dépôt GitHub de [Vega Datasets](https://github.com/vega/vega-datasets).
  * [Origine](https://github.com/vega/vega-datasets/blob/master/SOURCES.md) des différents fichiers.
* Les exercices ci-dessous supposent que la copie locale partage le même dossier parent que `analyse-donnees-python`.

In [None]:
import glob
import os
import pandas as pd

dossier_data = os.path.join(".." if os.path.basename(os.getcwd()) == "solutions" else ".",
                            "..", "..", "vega-datasets", "data")
print(dossier_data)

### Les différents fichiers CSV

In [None]:
# Afficher uniquement les fichiers *.csv
glob.glob(os.path.join(dossier_data, "*.csv"))

In [None]:
# Exemple de chargement des données
pd.read_csv(os.path.join(dossier_data, "airports.csv"))

### Les différents fichiers JSON

In [None]:
# Afficher uniquement les fichiers *.json
glob.glob(os.path.join(dossier_data, "*.json"))

In [None]:
# Exemple de chargement des données
pd.read_json(os.path.join(dossier_data, "cars.json"))

## Exercice 1 - Grouper des données
Dans le tableau ci-dessous, il y a en première colonne une sélection de fichiers de données. Pour chacun de ces fichiers, le tableau suggère trois variables à considérer pour le calcul d'une statistique descriptive. Veuillez vous référer à ce tableau pour les prochaines étapes de l'exercice.

 Fichier           | `variable1`   | `variable2`       | `variable3`   | Statistique
------------------ | ------------- | ----------------- | ------------- | -----------
`birdstrikes.csv`  | `Time of day` | `Phase of flight` | `Flight Date` | `count()`
`cars.json`        | `Cylinders`   | `Origin`          | `Miles_per_Gallon` | `median()`
`flights-20k.json` | `origin`      | `destination`     | `delay`       | `max()`
`football.json`    | `division`    | `home_score`      | `away_score`  | `mean()`
`jobs.json`        | `year`        | `sex`             | `perc`        | `sum()`
`movies.json`      | `Creative Type` | `MPAA Rating`   | `US Gross`    | `mean()`
`penguins.json`    | `Island`      | `Species`         | `Body Mass (g)` | `count()`
`population.json`  | `year`        | `age`             | `people`      | `sum()`
`weather.csv`      | `weather`     | `location`        | `wind`        | `max()`

a) Choisissez un fichier de données et chargez les données dans un DataFrame Pandas.

In [None]:
fic_ind = -1
fic_var = [
    {'f': "birdstrikes.csv",  'v1': 'Time of day', 'v2': 'Phase of flight', 'v3': 'Flight Date'},
    {'f': "cars.json",        'v1': 'Cylinders',   'v2': 'Origin',     'v3': 'Miles_per_Gallon'},
    {'f': "flights-20k.json", 'v1': 'origin',      'v2': 'destination',     'v3': 'delay'},
    {'f': "football.json",    'v1': 'division',    'v2': 'home_score',      'v3': 'away_score'},
    {'f': "jobs.json",        'v1': 'year',        'v2': 'sex',             'v3': 'perc'},
    {'f': "movies.json",      'v1': 'Creative Type', 'v2': 'MPAA Rating',   'v3': 'US Gross'},
    {'f': "penguins.json",    'v1': 'Island',      'v2': 'Species',         'v3': 'Sex'},
    {'f': "population.json",  'v1': 'year',        'v2': 'age',             'v3': 'people'},
    {'f': "weather.csv",      'v1': 'weather',     'v2': 'location',        'v3': 'wind'}]

nom_fichier = fic_var[fic_ind]['f']
print("Nom du fichier retenu :", nom_fichier)

In [None]:
if ".csv" in nom_fichier:
    df = pd.read_csv(os.path.join(dossier_data, nom_fichier))
elif ".json" in nom_fichier:
    df = pd.read_json(os.path.join(dossier_data, nom_fichier))
df

b) Groupez les données selon `variable1` et `variable2`.

In [None]:
selon_v1v2 = df.groupby([fic_var[fic_ind]['v1'], fic_var[fic_ind]['v2']])

c) Calculez la statistique descriptive de la variable `variable3`.

In [None]:
stat_v3 = selon_v1v2[fic_var[fic_ind]['v3']].max()
stat_v3

d) Créez un "bar-plot" montrant la statistique selon les deux variables choisies. Pour plus de visibilité avec certaines données, les barres seront empilées (*stacked*).

In [None]:
stat_v3_tableau = stat_v3.unstack()
stat_v3_tableau.plot(kind='bar', title=fic_var[fic_ind]['v3'], stacked=True)

## Exercice 2 - Sélection des données
Choisir un des fichiers ci-dessous, charger les données dans un DataFrame et résoudre le problème correspondant.

* `birdstrikes.csv`
* `cars.json`
* `flights-3m.csv`
* `football.json`
* `jobs.json`
* `movies.json`
* `penguins.json`
* `weather.csv`

In [None]:
fic_ind = -1
fic_list = [
    "birdstrikes.csv",
    "cars.json",
    "flights-3m.csv",
    "football.json",
    "jobs.json",
    "movies.json",
    "penguins.json",
    "weather.csv"]

nom_fichier = fic_list[fic_ind]
print("Nom du fichier retenu :", nom_fichier)

In [None]:
if ".csv" in nom_fichier:
    df = pd.read_csv(os.path.join(dossier_data, nom_fichier))
elif ".json" in nom_fichier:
    df = pd.read_json(os.path.join(dossier_data, nom_fichier))
df

### Pour `birdstrikes.csv`
Calculez la somme des `Cost Repair` pour chaque `Aircraft Airline Operator` lorsque le `Cost Other` est plus grand que 0$, et ce, pour les vols d'avant 2001.

In [None]:
selection = df[(df['Flight Date'] < "2001") & (df['Cost Other'] > 0)]
selection.groupby('Aircraft Airline Operator')['Cost Repair'].sum()

### Pour `cars.json`
Affichez le nom de modèle et l'accélération des automobiles de dernière année parmi tous les modèles japonais ou ceux ayant une efficacité d'au moins 30 `Miles_per_Gallon`.

In [None]:
econo = df[(df['Origin'] == 'Japan') | (df['Miles_per_Gallon'] >= 30)]
econo[econo['Year'] == econo['Year'].max()][['Name', 'Acceleration']]

### Pour `flights-3m.csv`
On veut calculer le délai moyen pour toutes les paires d'aéroports `(origin,destination)` qui sont parmi les aéroports `ABQ`, `LAX`, `PHX` et `SAN`:
* Sélectionnez les enregistrements lorsque l'origine et la destination font partie des quatre aéroports mentionnés.
* Calculez le délai moyen selon chaque paire d'aéroports.
* Transformez le résultat en tableau pour que chaque destination soit une colonne.

In [None]:
codes_iata = ['ABQ', 'LAX', 'PHX', 'SAN']
enregistrements = df[df['origin'].isin(codes_iata) & df['destination'].isin(codes_iata)]
moyennes = enregistrements.groupby(['origin', 'destination'])['delay'].mean()
moyennes.unstack()

### Pour `football.json`
Pour chaque paire d'équipes `(home_team,away_team)` de la division `Primera Division`, comptez le nombre de défaites de l'équipe locale. Transformez ce résultat sous forme d'un tableau contenant des nombres entiers : les `away_team` sont les colonnes et les valeurs nulles doivent être remplacées par des zéros.

In [None]:
selection = df[(df['division'] == "Primera Division") & (df['home_score'] < df['away_score'])]
tableau = selection.groupby(['home_team', 'away_team'])['date'].count().unstack()
tableau.fillna(0).astype(int)

### Pour `jobs.json`
Faites afficher la liste des métiers qui sont de plus en plus populaires auprès des femmes de la dernière année de recensement. Le critère de popularité croissante est basé sur la médiane de `count` : on veut les métiers pour lesquels le `count` est entre la médiane et deux fois la médiane.

In [None]:
selection = df[(df['sex'] == "women") & (df['year'] == df['year'].max())]
mediane = selection['count'].median()
selection[(mediane < selection['count']) & (selection['count'] < 2 * mediane)]['job']

### Pour `movies.json`
Pour chaque distributeur, obtenez le nombre de films ayant à la fois :
* une note de 80 ou plus sur `Rotten Tomatoes Rating`,
* une note de 8.0 ou plus sur `IMDB Rating` lorsque le nombre de votes est supérieur à 100000,
* des revenus mondiaux excédant le budget de production.

In [None]:
df[(df['Rotten Tomatoes Rating'] >= 80) &
   (df['IMDB Rating'] >= 8.0) & (df['IMDB Votes'] > 100000) &
   (df['Worldwide Gross'] > df['Production Budget'])].groupby('Distributor')['Title'].count()

### Pour `penguins.json`
Sélectionnez les pingouins dont la longueur du bec (`Beak`) est plus de trois fois la profondeur du bec. Ne gardez que les enregistrements pour lesquel le `Sex` est non-nul. Sauvegardez le tout dans le fichier `pointus.csv`, mais sans l'index par défaut.

In [None]:
pointus = df[(df['Beak Length (mm)'] > 3 * df['Beak Depth (mm)']) &
             ~(pd.isnull(df['Sex']))]
pointus.to_csv("pointus.csv", index=False)

### Pour `weather.csv`
* Pendant tout l'hiver de l'année 2012 (jusqu'au 21 mars inclusivement), quelle est la quantité totale de neige qui est tombée dans chacune des villes concernées?
* Pour chaque ville, à quelle date est tombée la dernière neige d'hiver ou de printemps en 2012?

In [None]:
df[(df['date'] <= "2012-03-21") &
   (df['weather'] == "snow")].groupby('location')['precipitation'].sum()

In [None]:
df[(df['date'] <= "2012-06-21") &
   (df['weather'] == "snow")].groupby('location')['date'].max()

## Exercice 3 - Combiner des données
Les clés de jonction compatibles étant rares dans les différents jeux de données Vega, il n'y a que deux paires de DataFrames à considérer (au choix). On va débuter par charger les trois fichiers concernés :

* `airports.csv`
* `flights-3m.csv`
* `zipcodes.csv`

In [None]:
aeroports = pd.read_csv(os.path.join(dossier_data, "airports.csv"))
vols =      pd.read_csv(os.path.join(dossier_data, "flights-3m.csv"))
zipcodes =  pd.read_csv(os.path.join(dossier_data, "zipcodes.csv"))

### Pour `vols` et `aeroports`
On veut calculer le délai moyen des vols pour toutes les paires d'aéroports `(origin,destination)` qui sont parmi les aéroports `ABQ`, `LAX`, `PHX` et `SAN`, sauf que le résultat final doit maintenant avoir le nom complet des villes concernées. Ces noms de ville sont disponibles dans le DataFrame `aeroports`. Indice : en joignant deux tables à répétition, les colonnes qui se répètent auront un suffixe unique.
* Réduisez les informations dans `aeroports` pour ne garder que les rangées et les colonnes nécessaires.
* Effectuez les jonctions en fonction des codes d'origine et de destination.
* Calculez le délai moyen selon chaque paire de villes.
* Transformez le résultat en tableau pour que chaque destination soit une colonne.

In [None]:
codes_iata = ['ABQ', 'LAX', 'PHX', 'SAN']
aeroports_4x2 = aeroports[aeroports['iata'].isin(codes_iata)][['iata', 'city']]

# Ajouter le nom des villes d'origine
villes_o =  pd.merge(left=vols, left_on='origin', right=aeroports_4x2, right_on='iata')

# Ajouter le nom des villes de destination
villes_od = pd.merge(left=villes_o, left_on='destination', right=aeroports_4x2, right_on='iata')

moyennes = villes_od.groupby(['city_x', 'city_y'])['delay'].mean()
moyennes.unstack()

### Pour `aeroports` et `zipcodes`
Pour chaque aéroport, trouvez un code postal (`zip_code`) qui est le plus petit code associé à la combinaison `(city, state)` de l'aéroport. Le résultat final doit être un tableau ayant les colonnes `iata`, `name` et `zip_code`. Indice : l'index de rangées peut redevenir des colonnes à l'aide de la méthode `reset_index()`.
* Effectuez la jonction entre les aéroports et les codes postaux selon la double clé de jonction `['city', 'state']`.
* Calculez le code minimal pour chaque aéroport et remettre les colonnes `iata` et `name` à leur place.

In [None]:
aero_zip = pd.merge(left=aeroports, right=zipcodes, on=['city', 'state'])
aero_zip.groupby(['iata','name'])['zip_code'].min().reset_index()