# Avant-propos : Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour utiliser la méthode `pd.read_csv()`, il faudra rajouter quelques lignes de codes supplémentaires pour pouvoir charger un fichier, les voici.


```python
# Première cellule jupyter
from google.colab import files
uploaded = files.upload()
```

```python
# Seconde cellule jupyter
import io
import pandas as pd
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```

- [Voir plus  d'informations sur le chargement de fichiers externes avec Google colab](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

Le but de cette pratique, notée, est de d'analyser un DataFrame (issu d'un fichier .csv/.xls(x) ou encore .sql) que vous aurez choisi  (sauf ceux qu'on a utilisés) et d'en tirer des conclusions. Autrement dit, vous devez vous poser des questions sur votre sujet pour ensuite en tirer des résultats (variables ou DataFrame).

Si vous ne savez pas où trouver des datasets, vous pourrez en trouver ici :

- [Voir site des données ouvertes du gouvernement](https://www.data.gouv.fr/)
- [Voir site des données ouvertes de l'insee](https://www.insee.fr/fr/statistiques?categorie=1)
- [Voir moteur de recherche de Google dédié aux datasets](https://datasetsearch.research.google.com/)
- [Voir site des données ouvertes de l'éducation nationale](https://data.education.gouv.fr/)
- [Voir ensemble de datasets récoltés pour le cours](https://github.com/DanYellow/cours/tree/main/big-data-s4/datasets)
  - Note : il y a un fichier txt parfois, il explique les colonnes quand elles sont trop sibyllines. [Plus d'infos ici](https://raw.githubusercontent.com/DanYellow/cours/main/big-data-s4/datasets/__guide-datasets.txt)
- [Voir ensemble de sites pour datasets](https://github.com/DanYellow/cours/blob/main/big-data-s4/datasets/_liste-sites-source-pour-datasets.txt)

## Rendu attendus

- Une archive nommée nom-prénom contenant :
  - Votre notebook 
  - Votre dataset

# Votre liste à faire
- [x] Lire les consignes
- [ ] Trouver un jeu de données pertinent
- [ ] Explorer le jeu de données
- [ ] Trouver des questions (5) pertinentes 
- [ ] Filtrer le jeu de données pour répondre à vos questions
- [ ] Rédiger les conclusions
- [ ] Faire une archive nommée avec mon nom-prénom contenant :
  - [ ] Votre notebook
    - [ ] L'option "Run All" fonctionne sans problème, Jupyter n'affiche aucune erreur
  - [ ] Votre dataset (pas grave s'il est dans un sous-dossier)
  - [ ] Le barème (fichier .ods). N'oubliez pas de renommer la cellule associée avec notre nom-prénom

# Phase 1 : Récupération / Chargement du fichier

In [None]:
import pandas as pd

df = pd.read_csv("chemin-vers-dataset")

# Phase 2 : Exploration des données

But : s'approprier le DataFrame, voir brièvement ce qu'on peut en tirer. Comprendre sa structure, voici les méthodes (liste non exhaustives) qui **peuvent** vous aider :
- A quoi ressemble notre DataFrame ? # `df.head()` ou `df.tail()` ou `display(df)` / `display(df)` équivaut à faire `df.head()` et `df.tail()`
- Combien de lignes/colonnes possède-t-il ? # `df.shape`
- Quel est le type des données ? # `df.dtypes.values.tolist()`
- Quels sont les noms des colonnes ? # `df.columns.values.tolist()`
- Existe-il des données absentes ou nulles ? # `df.isnull().sum()` ou `df.isna().sum()`
- Quelles données statistiques ressortent de mon jeu de données ? # `df.describe()`
- Combien de valeurs uniques existe-t-il ? # `df.value_counts()`
- Quelle est valeur min/max de certaines colonnes ? # `df['colonne'].min()/.max()`
- Quelles sont les valeurs uniques pour une colonne / dataset ? # `df['colonne'].unique() / df.unique()`


# Phase 3 : Nettoyage des données

But : retirer toutes les valeurs qui pourraient nous poser problème et/ou les formatter

# Phase 4 : Modélisation
But : Définir les informations qui peuvent nous intéresser. Se poser des questions pertinentes et y répondre avec des DataFrame ou encore des valeurs et en tirer quelque chose. Et bien évidemment explorer ce nouveau Dataframe nettoyé pour vous assurer que tout est bon.
Notes : Vos questions (minimum 4) doivent être écrites dans le Dataframe

# Phase 5 : Interprétation

But : Interpréter vos modélisations, le résultat de vos Dataframe