# Analyse et visualisation de données avec Python
## Collection de jeux de données Vega
Cette page contient des exercices basés sur les données de la collection Vega.


* Dépôt GitHub de [Vega Datasets](https://github.com/vega/vega-datasets).
  * [Origine](https://github.com/vega/vega-datasets/blob/master/SOURCES.md) des différents fichiers.
* Les exercices ci-dessous supposent que la copie locale partage le même dossier parent que `analyse-donnees-python`.

In [None]:
import glob
import os
import pandas as pd

dossier_data = os.path.join(".." if os.path.basename(os.getcwd()) == "solutions" else ".",
                            "..", "..", "vega-datasets", "data")
print(dossier_data)

### Les différents fichiers CSV

In [None]:
# Afficher uniquement les fichiers *.csv
glob.glob(os.path.join(dossier_data, "*.csv"))

In [None]:
# Exemple de chargement des données
pd.read_csv(os.path.join(dossier_data, "airports.csv"))

### Les différents fichiers JSON

In [None]:
# Afficher uniquement les fichiers *.json
glob.glob(os.path.join(dossier_data, "*.json"))

In [None]:
# Exemple de chargement des données
pd.read_json(os.path.join(dossier_data, "cars.json"))

## Exercice 1 - Grouper des données
Dans le tableau ci-dessous, il y a en première colonne une sélection de fichiers de données. Pour chacun de ces fichiers, le tableau suggère trois variables à considérer pour le calcul d'une statistique descriptive. Veuillez vous référer à ce tableau pour les prochaines étapes de l'exercice.

 Fichier           | `variable1`   | `variable2`       | `variable3`   | Statistique
------------------ | ------------- | ----------------- | ------------- | -----------
`birdstrikes.csv`  | `Time of day` | `Phase of flight` | `Flight Date` | `count()`
`cars.json`        | `Cylinders`   | `Origin`          | `Miles_per_Gallon` | `median()`
`flights-20k.json` | `origin`      | `destination`     | `delay`       | `max()`
`football.json`    | `division`    | `home_score`      | `away_score`  | `mean()`
`jobs.json`        | `year`        | `sex`             | `perc`        | `sum()`
`movies.json`      | `Creative Type` | `MPAA Rating`   | `US Gross`    | `mean()`
`penguins.json`    | `Island`      | `Species`         | `Body Mass (g)` | `count()`
`population.json`  | `year`        | `age`             | `people`      | `sum()`
`weather.csv`      | `weather`     | `location`        | `wind`        | `max()`

a) Choisissez un fichier de données et chargez les données dans un DataFrame Pandas.

In [None]:
fic_ind = -1
fic_var = [
    {'f': "birdstrikes.csv",  'v1': 'Time of day', 'v2': 'Phase of flight', 'v3': 'Flight Date'},
    {'f': "cars.json",        'v1': 'Cylinders',   'v2': 'Origin',     'v3': 'Miles_per_Gallon'},
    {'f': "flights-20k.json", 'v1': 'origin',      'v2': 'destination',     'v3': 'delay'},
    {'f': "football.json",    'v1': 'division',    'v2': 'home_score',      'v3': 'away_score'},
    {'f': "jobs.json",        'v1': 'year',        'v2': 'sex',             'v3': 'perc'},
    {'f': "movies.json",      'v1': 'Creative Type', 'v2': 'MPAA Rating',   'v3': 'US Gross'},
    {'f': "penguins.json",    'v1': 'Island',      'v2': 'Species',         'v3': 'Sex'},
    {'f': "population.json",  'v1': 'year',        'v2': 'age',             'v3': 'people'},
    {'f': "weather.csv",      'v1': 'weather',     'v2': 'location',        'v3': 'wind'}]

nom_fichier = fic_var[fic_ind]['f']
print("Nom du fichier retenu :", nom_fichier)

In [None]:
if ".csv" in nom_fichier:
    df = pd.read_csv(os.path.join(dossier_data, nom_fichier))
elif ".json" in nom_fichier:
    df = pd.read_json(os.path.join(dossier_data, nom_fichier))
df

b) Groupez les données selon `variable1` et `variable2`.

In [None]:
selon_v1v2 = df.groupby([fic_var[fic_ind]['v1'], fic_var[fic_ind]['v2']])

c) Calculez la statistique descriptive de la variable `variable3`.

In [None]:
stat_v3 = selon_v1v2[fic_var[fic_ind]['v3']].max()
stat_v3

d) Créez un "bar-plot" montrant la statistique selon les deux variables choisies. Pour plus de visibilité avec certaines données, les barres seront empilées (*stacked*).

In [None]:
stat_v3_tableau = stat_v3.unstack()
stat_v3_tableau.plot(kind='bar', title=fic_var[fic_ind]['v3'], stacked=True)