<a href="https://www.bigdatauniversity.com"><img src = "logo2.png" width = 750, align = "center"></a> 
<h1 align=center><font size = 5>Maîtriser l'art de la Science des Données avec Python</font></h1>

# Module 1 Introduction
### Bienvenue!
Dans cette section, vous apprendrez à aborder l'acquisition de données de différentes manières et à obtenir les informations nécessaires à partir d'un ensemble de données. À la fin de cet atelier, vous réussirez à charger les données dans Jupyter Notebook et à obtenir des informations fondamentales via la bibliothèque Pandas.


## Table des matières

<div class="alert alert-block alert-info" style="margin-top: 20px">
<li><a href="#ref1">Acquisition de données</a>
<li><a href="#ref2">Aperçu de base de l'ensemble de données</a></li>
<p></p>
</div>
<hr>

<a id="ref1"></a>
# Acquisition de données 
Il existe différents formats pour un jeu de données, .csv, .json, .xlsx  etc. L'ensemble de données peut être stocké à différents endroits, sur votre local, votre machine ou parfois en ligne(Bases de données).
Dans cette section, vous apprendrez à charger un jeu de données dans notre Jupyter Notebook.
Dans notre cas, le jeu de données Automobile est une source en ligne, et il est au format CSV (valeurs séparées par des virgules). Utilisons cet ensemble de données comme exemple pour pratiquer la lecture des données.
Source de données: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
Type de données: csv.
La bibliothèque Pandas est un outil utile qui nous permet de lire divers ensembles de données dans une trame de données(DATA frame). Notre Jupyter Notebook dispose d'une **bibliothèque Pandas** intégrée, de sorte que tout ce que nous avons à faire est d'importer Pandas sans l'installer.


In [None]:
# importer pandas library
import pandas as pd

## Lire des données
On utilise la fonction **"pandas.read_csv()"**  pour lire un fichie csv. Entre parenthèses, nous mettons le chemin du fichier avec un guillemet, afin que le pandas lit le fichier dans une trame de données à partir de cette adresse. Le chemin d'accès au fichier peut être soit une URL, soit l'adresse de votre fichier local.
Étant donné que les données n'incluent pas d'en-têtes, nous pouvons ajouter un argument **" header = None"**  à l'intérieur de la methode **"read_csv()"**,afin que Pandas ne définit pas automatiquement la première ligne comme en-tête.
Vous pouvez également affecter l'ensemble de données à n'importe quelle variable que vous créez.

In [None]:
# importer la bibliothèque Pandas
import pandas as pd
# lire le fichier en ligne par l'URL fournie ci-dessus et l'affecter à la variable "df"
path="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

df = pd.read_csv(path,header=None)
print("Done")

Après avoir lu le jeu de données, nous pouvons utiliser la méthode **`dataframe.head(n)`** pour vérifier les 'n' premières lignes de la trame de données, où n est un entier. Contrairement à **`dataframe.head(n)`**, **`dataframe.tail(n)`** vous montrera les n lignes dernières de la trame de données.


In [None]:
# afficher les 5 premières lignes en utilisant la méthode dataframe.head()
df.head(5)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question #1: </h1>
<b>Vérifiez les 10 dernières lignes de la trame de données "df":</b>
</div>

In [None]:
df.shape

In [None]:
df.columns

## Ajouter des en-têtes
Jetez un œil à notre ensemble de données ; pandas définit automatiquement l'en-tête par un entier à partir de 0.
<div>
Pour mieux décrire nos données, nous pouvons introduire un en-tête. Ces informations sont disponibles sur :  https://archive.ics.uci.edu/ml/datasets/Automobile</div>
<p></p>
<div>Ainsi, nous devons ajouter les en-têtes manuellement.</div>
<div>Tout d'abord, nous créons une liste "en-têtes" qui inclut tous les noms de colonnes dans l'ordre.</div>
<div>Ensuite, on utilise **`dataframe.columns = headers`** pour remplacer les en-têtes par la liste que nous avons créée.</div>

In [None]:
# créer une liste d'en-têtes
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
headers

 Nous remplaçons les en-têtes et revérifions notre trame de données :

In [None]:
df.columns = headers
df.head(5)

Maintenant, nous avons lu avec succès l'ensemble de données brutes et ajouter les en-têtes corrects dans la trame de données.

 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question #2: </h1>
<b>Trouver le nom des colonnes du dataframe:</b>
</div>

  <div align="right">
<a href="#q3" class="btn btn-default" data-toggle="collapse">Cliquez ici pour la solution</a>

</div>
<div id="q3" class="collapse">
```
df.columns
```
</div>


## Enregistrer le jeu de données

De même, Pandas nous permet d'enregistrer l'ensemble de données au format csv en utilisant la methode **`dataframe.to_csv()`**. Vous pouvez ajouter le chemin et le nom du fichier avec des guillemets entre parenthèses.

Par exemple, si vous enregistrez la trame de données "df" sous le nom "automobile.csv" sur votre ordinateur local, vous pouvez utiliser la syntaxe ci-dessous :
~~~~
df.to_csv("automobile.csv")
~~~~



Nous pouvons également lire et enregistrer d'autres formats de fichiers, et nous pouvons utiliser des fonctions similaires pour **`pd.read_csv()`** et **`df.to_csv()`** pour les autres formats de données. Les fonctions sont listées dans le tableau suivant :


## Lire/enregistrer d'autres formats de données



| Data Formate  | Read           | Save             |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |

In [None]:
df.to_csv('automobile.csv')

<a id="ref2"></a>
# Aperçu de base de l'ensemble de données
Après avoir lu les données dans la base de données Pandas, il est temps pour nous d'explorer l'ensemble de données.
Il existe plusieurs façons d'obtenir des informations essentielles sur les données pour nous aider à mieux comprendre notre ensemble de données.

## Types de données
Les données ont une variété de types.
Les principaux types stockés dans les dataframes Pandas sont `object`, `float`, `int`, `bool`, et `datetime64`. Afin de mieux connaître chaque attribut, il est toujours bon pour nous de connaître le type de données de chaque colonne. Chez Pandas :
~~~~
dataframe.dtypes
~~~~
Renvoie une série avec le type de données de chaque colonne.

In [None]:
# vérifier le type de données de la trame de données "df" en .dtypes
df.dtypes

En conséquence, comme indiqué ci-dessus, il est clair que les types de données "symboling" et "curb-weight" sont `int64`, "normalized-losses" est `object` et "wheel-base" est ` float64', etc.
Ces types de données peuvent être modifiés, et nous apprendrons comment y parvenir dans un module ultérieur.

## Describe
Si nous souhaitons obtenir un résumé statistique de chaque colonne, tel que le nombre, la valeur moyenne de la colonne, l'écart type de la colonne, etc., nous utilisons la méthode describe :
~~~~
dataframe.describe()
~~~~
Cette méthode fournira diverses statistiques récapitulatives, à l'exclusion des valeurs "NaN" (Not a Number) :

In [None]:
df.describe()

Cela montre le résumé statistique de toutes les colonnes de type numérique (int, float).
Par exemple, l'attribut "symboling" a 205 comptes, la valeur moyenne de cette colonne est 0,83, l'écart type est 1,25, la valeur minimale est -2, le 25e centile est 0, le 50e centile est 1, le 75e centile est 2, et la valeur maximale est 3.

Cependant, que se passe-t-il si nous souhaitons également vérifier toutes les colonnes, y compris celles qui sont de type objet ?

Vous pouvez ajouter un argument `include = "all"` à l'intérieur de la parenthèse. Essayons à nouveau :

In [None]:
# décrire toutes les colonnes dans "df" 
df.describe(include = "all")

Maintenant, il fournit le résumé statistique de toutes les colonnes, y compris les attributs de type objet.
Nous pouvons maintenant voir le nombre de valeurs uniques (ligne du haut) et la fréquence de la valeur du haut dans la troisième ligne.
Certaines valeurs du tableau ci-dessus s'affichent sous la forme "NaN", car ces chiffres ne sont pas disponibles pour un type de colonne particulier.

 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Question #3: </h1>

<p>Vous pouvez sélectionner les colonnes d'un bloc de données en indiquant le nom de chaque colonne. Par exemple, vous pouvez sélectionner les trois colonnes comme suit:</p>
<p></p>
<p>dataframe[[' column 1 ',column 2', 'column 3'] ]</p>
<p></p>
<p>Où "column" est le nom de la colonne, vous pouvez appliquer la méthode ".describe()" pour obtenir les statistiques de ces colonnes comme suit :</p>
<p></p>
<p>dataframe[[' column 1 ',column 2', 'column 3'] ].describe() </p>
<p></p>

Appliquez la méthode à ".describe()" aux colonnes 'length' et 'compression-ratio'.
</div>

  <div align="right">
<a href="#q4" class="btn btn-default" data-toggle="collapse">Cliquez ici pour la solution</a>

</div>
<div id="q4" class="collapse">
```
 df[['length','compression-ratio']].describe()
```
</div>

## Info
Une autre méthode que vous pouvez utiliser pour vérifier votre jeu de données est :
~~~~
dataframe.info
~~~~
Il fournit un résumé concis de votre DataFrame.

In [None]:
# regarde les infos de "df"
df.info

Ici, nous pouvons voir les informations de notre dataframe, avec les 30 premières lignes et les 30 dernières lignes.
Il nous montre également que l'ensemble du bloc de données comporte 205 lignes et 26 colonnes au total.

vous pouvez également utiliser les informations de méthode comme suit

In [None]:
df.info()

In [None]:
# Excellent! Vous venez de terminer le Notebook de l'introduction :) !