# Atelier Théorique #3 - **Charger des données**

## Comment télécharger les données

Avant d'être utilisées, les données doivent être téléchargés dans le Notebook.

Le format le plus couramment utilisé pour enregistrer des données est .CSV. 

Par contre, il est courant de rencontrer des fichiers de types différents.

## Objectifs de l'atelier:
1. Télécharger des jeux de données à partir d'un fichier avec l'extension .CSV 
2. Expérimenter le téléchargement de données avec Pandas.
3. Effectuer une modification simple sur le jeu de données de base.

## Jeu de données

Diabète chez les Indiens Pima : https://archive.ics.uci.edu/ml/datasets/diabetes

### Téléchargement avec Pandas
Tel que vu dans l'atelier précédent, Pandas est une librarie très utilisée en apprentissage automatique. 

Nous allons donc l'utiliser pour effectuer le téléchargement initial des données.

In [None]:
import pandas as pd

### Téléchargement des données

La fonction **read_csv()** de Pandas sera utilisée.

Il est utile de jeter un coup d'oeil aux jeux de données avant de l'importer pour connaître ses caractéristiques. L'application bloc note est utile dans cette situation.





#### Méthode 1 - Les données sont disponibles localement / **Version manuelle**

*Suivre les instructions dans le Power Point de cette leçon.*

In [None]:
# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

In [None]:
print(data)

     Pregnancies  Glucose  ...  Age  Outcome
0              6      148  ...   50        1
1              1       85  ...   31        0
2              8      183  ...   32        1
3              1       89  ...   21        0
4              0      137  ...   33        1
..           ...      ...  ...  ...      ...
763           10      101  ...   63        0
764            2      122  ...   27        0
765            5      121  ...   30        0
766            1      126  ...   47        1
767            1       93  ...   23        0

[768 rows x 9 columns]


#### Méthode 2 - Les données sont disponibles localement /  **Version code**

**Étapes à suivre**
1. Télécharger le jeu de données sur votre ordinateur local.
2. Importer le jeu de données en mémoire dans le Notebook.
3. Télécharger le jeu de données dans l'environnement de travail du Notebook.

In [None]:
# Importer le jeu de données à partir de votre ordinateur local
from google.colab import files
uploaded = files.upload()

Saving diabetes.csv to diabetes (1).csv


In [None]:
# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

In [None]:
print(data)

     Pregnancies  Glucose  ...  Age  Outcome
0              6      148  ...   50        1
1              1       85  ...   31        0
2              8      183  ...   32        1
3              1       89  ...   21        0
4              0      137  ...   33        1
..           ...      ...  ...  ...      ...
763           10      101  ...   63        0
764            2      122  ...   27        0
765            5      121  ...   30        0
766            1      126  ...   47        1
767            1       93  ...   23        0

[768 rows x 9 columns]


### Vérifier l'intégrité des données

Pour s'assurer qu'on a bel et bien téléchargé les données correctement, il est possible de vérifier la taille complète du jeu de données. Cette stratégie permet de confirmer que les données sont complètes.

In [None]:
# Pour connaître la taille du jeu de données
print(data.shape)

# Pour imprimer la taille avec une description
print(f'Taille du jeu de données Diabète: {data.shape}')

(768, 9)
Taille du jeu de données Diabète: (768, 9)


In [None]:
# Pour extraire séparément le nombre de lignes et de colonnes
print(f'Nombre de lignes: {data.shape[0]}')
print(f'Nombre de colonnes: {data.shape[1]}')

Nombre de lignes: 768
Nombre de colonnes: 9


### Obtenir un aperçu du jeu de données

Lorsqu'on importe un jeu de données pour la première fois, la première étape est de visualiser les données pour commencer à développer une compréhension des données. 

Pour obtenir un aperçu visuel du jeu de données qu'on vient de télécharger, la méthode `head()` de Pandas permet d'extraire par défaut les 5 premières lignes.

In [None]:
# Pour avoir un aperçu des premières lignes du jeu de données (5 par défaut)
data.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# Pour avoir un plus grand aperçu, ajouter l'argument 'nombre de lignes' entre les parenthèses
# Dans l'exemple suivant, inscrire 8 entre parenthèse indique le nombre de lignes à imprimer
data.head(8)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0


In [None]:
# Pour avoir un aperçu des dernieres lignes du jeu de données (5 par défaut)
data.tail(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
767,1,93,70,31,0,30.4,0.315,23,0


On peut donc avoir un aperçu du nombre de lignes désirées avec cette méthode. Très pratique!

### Manipuler les noms de colonnes

On observe que les noms de colonnes sont en général très longs. Ce n'est pas pratique en programmation d'avoir à constamment écrire de longs termes. 

Pour éviter ce problème, il est possible de changer le nom des colonnes pour les rendre plus facile à utiliser.

Quelques pratiques à suivre pour choisir un bon nom de colonne:
1. Ne pas mettre de majuscules.
2. Ne pas laisser d'espaces et utiliser des traits de soulignement ("underscore").
  * **Mauvais** exemple : `Longueur main`
  * **Bon** exemple : `longuer_main`
  
3. Utiliser des noms courts, précis et informatifs.
  * **Mauvais** exemple : `la_longueur_de_la_main`
  * **Bon** exemple : `longueur_main`

Équivalence des colonnes :

| Nom original             | Nom raccourci |
|:--------------------------|---------------|
| Pregnancies              | preg          |
| Glucose                  | plas          |
| BloodPressure            | pres          |
| SkinThickness            | skin          |
| Insulin                  | test          |
| BMI                      | mass          |
| DiabetesPedigreeFunction | pedi          |
| Age                      | age           |
| Outcome                  | class         |

La colonne `class` correspond au diagnostic associé à l'individu sur cette ligne, soit...
* **0  = pas de diabète**
* **1 = affecté par le diabète** 

In [None]:
# Définir les nouveaux noms des colonnes dans une liste (en ordre)
colnames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

In [None]:
# Assigner les nouveaux noms de colonnes dans le jeu de données
data.columns = colnames

In [None]:
print(data.columns)

Index(['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'], dtype='object')


In [None]:
# Vérifier les changements sur les deux premières lignes
data.head(2)

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


### Sommaire

On a vu comment télécharger des données dans un tableau avec Pandas ainsi qu'une technique pour changer les noms de colonnes.

Nouvelles méthodes apprises :
* pd.read_csv()
* data.shape
* data.head()
* data.columns

## **LEÇON #3 - EXERCICE CONTINU**

> *Utiliser votre notebook individuel `chapitre_3_pratique_classification_binaire.ipynb`*

### Description
Télécharger le jeu de données sur les billets de banque (*banknote.csv*) qui est disponible dans le dossier du cours sur Google Classroom. 

### Tâches à accomplir :
1. Télécharger le jeu de données.
2. Vérifier la taille du jeu de données.
3. Explorer visuellement les 10 premières lignes du jeu de données.
4. Modifier le nom des colonnes en leur attribuant les noms pratiques mentionnés dans la description des données ci-haut. 