# Pratique 1 : Analyse avec pandas

Dans ce tutoriel pratique, nous allons apprendre à charger et explorer des ensembles de données à l'aide de la bibliothèque pandas.

Dans ce module, nous supposons que `pandas` est déjà installé. Vous pouvez consulter le [site officiel de pandas](https://pandas.pydata.org/docs/getting_started/install.html) pour les instructions d'installation, si nécessaire.

### Chargement de données à partir de fichiers plats

La première étape avant de pouvoir analyser nos données consiste à les charger. Il existe plusieurs formats de fichiers que nous pouvons importer dans Python, tels que les fichiers texte simples ou les fichiers Excel.

Nous pouvons charger des ensembles de données sauvegardés soit sur notre ordinateur local, soit disponibles en ligne. Ce module abordera ces deux méthodes.

Avant d’utiliser les fonctions et méthodes offertes par `pandas`, nous devons d'abord l’importer. Voici la commande pour importer la bibliothèque pandas :


In [1]:
# importer pandas
import pandas as pd

Pour charger nos données, nous devons indiquer à notre script où se trouvent ces données. Cela se fait en fournissant à nos fonctions le chemin d'accès vers notre ensemble de données. Nous pouvons ensuite utiliser les fonctions de pandas pour lire les données et les stocker dans une variable.

Voici deux commandes fréquemment utilisées pour lire des données avec pandas :  
* `read_csv()` ([cliquez ici](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) pour plus d'informations)  
* `read_excel()` ([cliquez ici](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html) pour plus d'informations)  

La fonction `read_csv()` permet de lire les fichiers au format `CSV` (où les données sont séparées par des virgules) ainsi que les fichiers texte.


In [None]:
# Importer des données à partir d'un fichier .csv avec la fonction .read_csv  
cars_csv_df = pd.read_csv("./cars.csv")

In [None]:
# importer données à partir d'un fichier .txt - .read_csv marche pour .txt aussi!
cars_txt_df = pd.read_csv('./cars.txt')

Pandas utilise une bibliothèque externe appelée `openpyxl` pour lire les fichiers `Excel`. Cette bibliothèque a déjà été chargée dans cet environnement Jupyter Notebook. 

Pour installer `openpyxl` sur votre propre machine, exécutez la commande suivante dans le terminal (assurez-vous d’avoir Python, Jupyter et PIP installés) :  
**`pip install openpyxl`**


In [None]:
# Importer des données à partir de fichiers Excel avec l'extension .xlsx  
cars_xlsx_df = pd.read_excel("./cars.xlsx")

Maintenant que nous avons chargé notre fichier Excel, examinons notre ensemble de données à l'aide de la commande ci-dessous.


In [None]:
cars_xlsx_df.head()

Vous avez peut-être remarqué que les noms de colonnes semblent se trouver dans la première ligne au lieu de l'en-tête. Cela peut être facilement corrigé en utilisant le paramètre `header`, qui spécifie le nombre de lignes en haut du fichier à ignorer. Ce cas est fréquent, car les fichiers de données contiennent souvent quelques lignes de texte avant les lignes contenant les valeurs du tableau, et nous souhaitons que pandas ignore ces lignes.

Ajoutez l'argument `header` et observez la différence :  
`cars_xlsx_df = pd.read_excel("./cars.xlsx", header=1)`


<hr style="border:2px solid gray"> </hr>

#### Essayez vous-même !

**Chargez le fichier `car_stock.csv` depuis votre répertoire de travail (données issues de [IEA](https://www.iea.org/data-and-statistics/charts/global-electric-passenger-car-stock-2010-2020)) et stockez ces données dans une variable appelée 'car_stock'. Affichez les premières lignes de votre DataFrame.**


<details>  
  <summary><b><u>Besoin d'indication ? Cliquez ici</u></b></summary>  
  
Remplacez les underscores (`_`) par le nom de votre fichier de données !  

Consultez également le fichier CSV pour vérifier combien de lignes d'en-tête doivent être prises en compte.  
</details>


In [None]:
car_stock = pd.read_csv(_____, header = ____)
car_stock.head()


<hr style="border:2px solid gray"> </hr>

### Récupérer des données depuis Internet

Maintenant que nous avons appris à lire des données stockées sur notre ordinateur local avec Python, voyons comment charger des données depuis Internet en utilisant pandas.

Essayons de charger le même ensemble de données [cars](https://raw.githubusercontent.com/rashida048/Datasets/master/cars.csv) dans Python, mais cette fois directement depuis le web. La source de cet ensemble de données est disponible [ici](https://github.com/rashida048/Datasets/blob/master/cars.csv).

Nous pouvons charger cet ensemble de données directement depuis Internet en fournissant l'URL à la fonction `read_csv`. Notez que l’URL doit pointer vers les **données brutes** et non vers une page web générale !


In [None]:
# Importer des données à partir d'un fichier CSV en ligne  
cars_csv_df = pd.read_csv("https://raw.githubusercontent.com/rashida048/Datasets/master/cars.csv")

# Examinons les premières lignes de nos données avec la commande ci-dessous  
cars_csv_df.head()

<hr style="border:2px solid gray"> </hr>


### Exploration de vos données

Maintenant que nous avons chargé nos données dans Python, explorons-les !

Utilisez la commande `df.head()` ci-dessous pour afficher les 10 premières lignes de notre ensemble de données. Vous pouvez modifier le nombre de lignes affichées en remplaçant le chiffre 10 dans la commande par le nombre de lignes que vous souhaitez visualiser.

Vous pouvez consulter la documentation de `df.head()` [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html).


In [None]:
cars_csv_df.head(10)

Utilisez la commande ci-dessous pour afficher les 5 dernières lignes de notre ensemble de données. Avec `df.tail()`, vous pouvez modifier le nombre de lignes affichées en ajustant l'argument de la commande. Par exemple, si vous souhaitez voir 5 lignes, vous indiquez 5 en entrée.

Vous pouvez consulter la documentation de `df.tail()` [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html).


In [None]:
# Afficher les 5 dernières lignes  
cars_csv_df.tail(5)

Nous pouvons en apprendre davantage sur l'ensemble de données chargé dans Python en utilisant plusieurs méthodes, telles que :  

- `info()` : Cette méthode permet d’obtenir diverses informations sur notre ensemble de données, comme le nombre de lignes, le nombre de colonnes, les noms des colonnes, la taille de l’ensemble de données, et bien plus encore !  

- `shape` : Cette méthode nous donne uniquement le nombre de lignes et de colonnes.  

- `columns` : Cette méthode nous fournit uniquement les noms des colonnes.  

Apprenons comment utiliser ces méthodes !


In [None]:
# Nous pouvons utiliser la méthode info() pour obtenir une vue d'ensemble complète des propriétés de notre ensemble de données.  
cars_csv_df.info()


In [None]:
# Nous pouvons utiliser la méthode shape lorsque nous nous intéressons uniquement au nombre de lignes et de colonnes  
cars_csv_df.shape

In [None]:
# Nous pouvons extraire uniquement le nombre de lignes de notre ensemble de données à partir de la méthode shape.  
cars_csv_df.shape[0]

In [None]:
# Nous pouvons extraire uniquement le nombre de colonnes de notre ensemble de données à partir de la méthode shape.  
cars_csv_df.shape[1]  

In [None]:
# Nous pouvons utiliser la méthode columns pour obtenir les noms des colonnes de notre ensemble de données.  
cars_csv_df.columns

<hr style="border:2px solid gray"> </hr>

#### Essayez vous-même !

**Quelle est le nombre de lignes et de colonnes du dataframe `car_stock` que nous avons créé précédemment ? Combien de lignes et de colonnes contient-il ?**


In [None]:
#

Ce dataframe contient ... lignes et ... colonnes.  

<hr style="border:2px solid gray"> </hr>


### Sélection de colonnes et de lignes

Nous pouvons extraire les données d'une ou plusieurs colonnes **par leur nom** dans notre ensemble de données.

Exerçons-nous à extraire des données de colonnes spécifiques.

In [None]:
# Extraire les données d'une seule colonne
cars_csv_df.Model

In [None]:
# Une autre méthode pour extraire les données d'une colonne
cars_csv_df["Model"]

In [None]:
# La commande ci-dessous permet d'extraire les données de plusieurs colonnes
cars_csv_df[['Model', 'Size']]

In [None]:
# Nous pouvons limiter l'affichage aux 5 premières lignes en utilisant .head() comme nous l'avons appris précédemment
cars_csv_df[['Model', 'Size']].head(5)

### Utilisation de la méthode `.loc`

Nous pouvons utiliser la méthode `.loc` pour sélectionner une colonne spécifique (ou même plusieurs) **par leur nom**. `loc` permet également de sélectionner des données sur les lignes qui nous intéressent en utilisant le "slicing". Le "slicing" consiste à extraire certaines parties spécifiques de vos données.

Pour plus d’informations, consultez la documentation Pandas sur `.loc` [ici](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html), ainsi que la documentation générale sur l'indexation [ici](https://pandas.pydata.org/docs/user_guide/indexing.html).


In [None]:
# Sélectionner toutes les lignes d'une seule colonne
cars_csv_df.loc[:, ['YEAR']]


In [None]:
# Sélectionner toutes les lignes de plusieurs colonnes
cars_csv_df.loc[:, ['YEAR', 'Make']]

Nous pouvons également sélectionner des lignes provenant de colonnes spécifiques ou même de l'ensemble des colonnes en une seule fois.


In [None]:
# Sélectionner les indices de lignes 7 à 10 (lignes 8 à 11, car l'indexation commence à 0) pour toutes les colonnes  
cars_csv_df.loc[7:10,]


In [None]:
# Sélectionner les indices de lignes 15 à 18 pour les colonnes nommées 'YEAR' et 'Make'  
cars_csv_df.loc[15:18, ['YEAR', 'Make']]


### Méthode `.iloc`

La méthode `.iloc` fonctionne de la même manière que `.loc`, à la différence que nous utilisons **les indices numériques correspondant aux colonnes au lieu de leurs noms**. L'indice de la première colonne est 0, celui de la deuxième colonne est 1, et ainsi de suite.

`.iloc` peut être utile lorsque nous devons utiliser une boucle `for`, car nous pouvons parcourir plusieurs lignes en utilisant les indices numériques.

Pour plus d'informations sur cette méthode, consultez la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) de Pandas sur `.iloc`.


In [None]:
# Commande pour sélectionner une colonne entière  
# L'indice de 'YEAR' est 0 car il s'agit de la première colonne  

cars_csv_df.iloc[:, 0]


In [None]:
# Sélectionner toutes les lignes des colonnes correspondant aux indices de 0 à 6  

cars_csv_df.iloc[:, 0:6]


In [None]:
# Sélectionner les lignes correspondant aux indices 15 à 17 et les colonnes nommées 'YEAR' et '(kw)'  
# qui se trouvent aux indices 0 et 4  

cars_csv_df.iloc[15:18, [0, 4]]


<hr style="border:2px solid gray"> </hr>

#### Essayez vous-même !

**Décommentez le code correct pour afficher la consommation en ville et sur autoroute (unité kWh/100 km) dans vos données.**


In [None]:
# Décommentez le bon code

# cars_csv_df.loc[:, ['HWY (kWh/100 km)']]

# cars_csv_df.loc[:, ['COMB (Le/100 km)', '(g/km)']]

cars_csv_df.loc[:, ['CITY (kWh/100 km)', 'HWY (kWh/100 km)']]


**Écrivez le code ci-dessous pour utiliser la méthode appropriée pour sélectionner des lignes ou des colonnes. Sélectionnez toutes les lignes des colonnes nommées 'Size' et 'RATING'.**

<br>

<details>
  <summary><b><u>Besoin d'indication ? Cliquez ici</u></b></summary>

  <p>
          Quelle est la méthode appropriée (`loc` ou `iloc`) ? Remplacez les underscores `_ _ _` dans le code par la méthode correcte.
  </p>
</details>


In [None]:
cars_csv_df.____[:,['Size', 'RATING']]


**Sélectionnez les colonnes 'Make', 'Model' et 'YEAR' par leurs noms, et sélectionnez les lignes 1 à 6.**

<hr style="border:2px solid gray"> </hr>

## Exercice pratique

Travaillons avec un nouvel ensemble de données contenant des informations sur le nombre de vélos traversant l'East River à New York. Cet ensemble de données se trouve dans le fichier `nyc-east-river-bicycle-counts.csv`. 

Chargeons cet ensemble de données dans Python et utilisons-le pour répondre aux questions ci-dessous.
#### 1. Importez la bibliothèque pandas sous le nom `pd` et utilisez la fonction appropriée pour charger notre ensemble de données. Lisez cet ensemble de données dans une variable appelée `bikes`.


In [None]:
# votre code ici

#### 2. Affichez les 5 premières lignes du dataframe

In [None]:
# votre code ici

#### 3. Quelle est la structure des données (nombre de lignes, colonnes, noms, etc.) ?


In [None]:
# votre code ici

Il y a ... colonnes et ... lignes d'observations. Les noms de colonnes incluent des informations telles que ...


#### 4. Combien de traversées de ponts sont enregistrées dans notre ensemble de données ?


In [None]:
# votre code ici

#### 5. Complétez le code ci-dessous pour afficher le nombre de colonnes et leurs noms.

Par exemple, votre sortie devrait ressembler à ceci :  
`Le nombre de colonnes dans mes données est : 3  
La liste des colonnes dans mes données est : ['Date', 'Day', 'Bridge', ...]`

In [None]:
# votre code ici

#### 6. Sélectionnez les 5 premières lignes en utilisant `loc` et `iloc`

In [None]:
# votre code ici

#### 7. Sélectionnez les 5 premières lignes des colonnes nommées 'Day' et 'Brooklyn Bridge' en utilisant `.loc` et `.iloc`


In [None]:
# votre code ici