In [None]:
import exercice_1_utils

# Exercice 1 : charger des données

## Avant tout : récupérer les outils (bibliothèques) nécessaires

Pour manipuler les données nous allons faire appel à la bibliothèque appelée ```pandas```. Comme nous allons l'utiliser très (très très) souvent, pour ne pas avoir à réécrire pandas à on lui donne un alias plus court ```pd```.

Ainsi plutôt qu'écrire :

```python
import pandas
pandas.une_fonctionnalite_tres_utile()
c = pandas.une_autre_fonctionnalite_encore_plus_utile()
```
On écrira :

```python
import pandas as pd
pd.une_fonctionnalite_tres_utile()
c = pd.une_autre_fonctionnalite_encore_plus_utile()
```

In [None]:
import pandas as pd

## Lire des données

En l'occurrence ```pandas``` fournit des outils pour lire des données. C'est le cas notamment les fonctions **```pd.read_excel()```** pour lire des fichiers xlsx ou ods et **```pd.read_csv()```** pour lire un fichier csv.

Ces fonctions auront besoin du chemin d'accès vers le fichier que l'on souhaite lire. Exemple : ``` 'mon_repertoire_de_donnees/mon_fichier_lire.xlsx' ```.

Pour plus d'informations, vous pouvez vous référer à la documentation (très bien faite mais en anglais...) :
- [pd.read_excel()](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html)
- [pd.read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

Ces fonctions restituent les données sous la forme d'un tableau de données (```DataFrame```). Le fait que les données soient stockées dans un tableau de données facilitera leur manipulation et leur exploration. La documentation est disponible en ligne : [pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

### Application 1.1 : lire un fichier excel

Le premier exercice consiste à lire un fichier Excel (xlsx).
Le fichier en question est le fichier nommé ```batiments_00.xlsx```. Il se trouve dans le dossier ```data/batiments```.

Nous rangerons les informations dans une variable appelée ```batiments```


In [None]:
batiments =  # <- Ici, à vous de jouer !

exercice_1_utils.correction_exercice_1_1.check(batiments)

Pour vérifier la lecture, et découvrir les données plusieurs fonctionnalités vont être utiles :

- [info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) qui affiche un résumé des données

In [None]:
batiments.info()

- [head(n)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) qui affiche les n premières lignes (par défaut 5).

In [None]:
batiments.head(10)

Une exploration plus 'manuelle' est également disponible avec les outils intégrés à l'IDE. 
[utilisation du greffon jupyter](static/screenshot_jupyter_.png)

## Application 1.2 : lire un fichier csv

Le second exercice consiste à lire un fichier csv (Comma-separated values).
Le fichier en question est le fichier nommé ```laposte_hexasmal.csv```. Il se trouve dans le dossier ```data```.

Nous rangerons les informations dans une variable appelée ```code_postal```.

> ⚠️ Si le caractère séparant les cases n'est pas la virgule (```,```), il est nécessaire d'ajouter le paramètre ```sep```.
>
> Exemple, si les champs sont séparés par un 'pipe' (|), il faudra ecrire :
> ``` python
>   mes_donnees = pd.read_csv('mon_chemin/dacces', sep = '|')
> ```

>  ⚠️ La lecture des caractères accentués peut poser des problèmes. Il pourra être nécessaire de préciser l'encodage.

In [None]:
la_poste =  # <- Ici, à vous de jouer !

exercice_1_utils.correction_exercice_1_2.check(la_poste)

## Application 1.3 : Lire un ensemble de fichiers

Le dernier exercice de cette séquence consiste à récupérer l'ensemble des fichiers contenus dans un dossier.
Pour simplifier, on part du principe que tous les fichiers ont la même structure.
Les fichiers en questions sont contenus dans le dossier ```data/batiments```. Il y en a 20, tous au format ```.xlsx```.

Dans un premier temps, il sera nécessaire de faire la liste des fichiers présents dans le dossier. Pour cela nous allons utiliser la bibliothèque `pathlib` et surtout un objet spécifique qu'elle contient `Path`. 

`Path` permet d'utiliser de manière plus aisée le système de fichier, quel que soit le système d'exploitation. Le documentation est disponible [en ligne](https://docs.python.org/3/library/pathlib.html#pathlib.Path).

In [None]:
from pathlib import Path

Créons un objet `Path` correspondant au chemin d'accès à nos données. Cette commande prend cette forme :
```python
chemin_vers_lendroit_qui_m_interresse = Path('dossier1/sous_dossier2')
```

In [None]:
mon_chemin_dacces =  # <- Ici, à vous de jouer !

exercice_1_utils.correction_exercice_1_3_1.check(mon_chemin_dacces)

Il est ensuite possible d'identifier les chemins "enfants" (ie tous les éléments présents dans ce dossier) avec la fonction glob ([informations](https://docs.python.org/3/library/pathlib.html#pathlib.Path.glob))
```python
contenu = chemin_vers_lendroit_qui_m_interresse.glob('*')
```

Cette fonction prend en paramètre un schéma. Dans notre cas, nous souhaitons n'obtenir que les fichiers dont l'extension est `.xlsx`, aussi nous appellerons la fonction glob avec le paramètre `'*.xlsx'`.

La fonction retourne un générateur. Sans rentrer dans les détails, un générateur va pouvoir se comporter en de nombreux points comme une liste.

In [None]:
liste_des_fichiers =   # <- Ici, à vous de jouer !

exercice_1_utils.correction_exercice_1_3_2.check(liste_des_fichiers)

Pour récupérer toutes ces données nous allons les lire et les stocker dans une liste.

Pour se faire nous allons utiliser une syntaxe assez spécifique à python : la compréhension de liste. Imaginons que nous voulons appliquer la fonction `fnc` à chaque élément d'une liste `x = [x1,x2,x3 .... ]` tel que le résultat sera `[fnc(x1),fnc(x2),fnc(x3)]`. Python nous permet de l'écrire sous la forme suivante :
```python
resultat = [fnc(element) for element in x]
```

En l’occurrence, la liste que nous souhaitons traiter est `liste_des_fichiers` et la fonction que nous souhaitons appliquer à ses éléments est `pd.read_excel()`.

Le résultats est une liste de DataFrame, qu'il est enfantin de rassembler en un seul avec la fonction `pd.concat()`

In [None]:
liste_de_donnees =   # <- Ici, à vous de jouer !

donnees = pd.concat(liste_de_donnees)

exercice_1_utils.correction_exercice_1_3_3.check(donnees)


In [None]:
donnees.info()