# Introduction à Pandas

Pandas est une lib python massivement utilisée dans l'analyse de données. En gros c'est la maison de vos données. Grâce a pandas, vous vous familiariserez avec vos données en les nettoyant, en les transformant et en les analysant.

Par exemple, supposons que vous souhaitiez explorer un ensemble de données stocké dans un fichier CSV sur votre ordinateur. Pandas extraira les données de ce CSV dans un DataFrame (une feuille de calcul Excel en gros), puis vous permettra d'exécuter des actions, de calculer des statisques, ou de répondre à des question sur vos données, tels que :

* Quelles sont la moyenne, la médiane, le maximum ou le minimum de chaque colonne ?
* La colonne A est-elle corrélée avec la colonne B ?
* À quoi ressemble la distribution des données dans la colonne C ?
* Nettoyer les données en supprimant les valeurs manquantes et en filtrant les lignes ou les colonnes selon certains critères.
* Visualiser les données avec l'aide de Matplotlib : tracer des barres, des lignes, des histogrammes, des bulles, etc.
* Stocker les données nettoyées et transformées dans un CSV, un autre fichier ou une base de données

# Récupérer les données

Vous pouvez télécharger le fichier CSV sur [Kaggle](https://www.kaggle.com/datasnaek/youtube-new?select=FR_category_id.json) ou sur notre [repo](https://github.com/AI-Pools/DATA-REPO/raw/master/data_welcome/FRvideos.csv).

Remplacez ensuite le chemin dans le bloc de code ci-dessous par le chemin du dataset sur votre PC.

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd

df = pd.read_csv("FRvideos.csv", error_bad_lines=False)

head () est un moyen pratique de visualiser ce que vous avez chargé. Vous pouvez lui passer le nombre spécifique de lignes au début de votre DataFrame que vous souhaitez visualiser 

In [None]:
df.head(10)

J'imagine que vous comprenez à quoi sert son inverse `tail()`

In [None]:
df.tail(4)

On parle souvent de la "forme" de votre DataFrame. Ce ne sont que ses dimensions (Combien de lignes et combien de colonnes dans le cas d'un excel à 2 dimensions).

In [None]:
df.shape

La taille totale du DataFrame correspond aux lignes * colonnes.

In [None]:
df.size

La fonction len () vous donne le nombre de lignes dans un DataFrame.

In [None]:
len(df)

Si votre DataFrame a des colonnes nommées vous pouvez en récupérer un tableau.

In [None]:
df.columns

Vous pouvez extraire une seule colonne de votre DataFrame comme ceci. Cela vous renvoie une "Série" qui représente une seul colonne d'un DataFrame dans Pandas.

In [None]:
df['title']

Vous pouvez également extraire une plage de lignes d'une colonne comme ceci. (Renseignez vous sur le slicing en python).

In [None]:
df['title'][:5]

Vous pouvez extraire une valeur unique en précisant à la fois la colonne et la ligne.

In [None]:
df['title'][5]

Pour extraire plusieurs colonnes, il suffit de donner un tableau de noms de colonnes au lieu d'un seul nom.

In [None]:
df[['title', 'views']]

À vous de deviner ce que fait ce slicing. Appelez un Encadrant quand vous aurez trouvé.

In [None]:
df[['title', 'views']][:5]

Vous pouvez trier votre DataFrame selon une colonne spécifique comme ceci.

In [None]:
df.sort_values(['likes'])

À vous de deviner ce que fait ce code. Appelez un encadrant quand vous aurez trouvé.

In [None]:
degree_counts = df['comments_disabled'].value_counts()
degree_counts

Vous pouvez afficher vos résultats sous forme de diagramme grâce a matplotlib.

In [None]:
degree_counts.plot(kind='bar')

## Exercise

Essayez d'extraire les lignes 500 à 1000 de notre DataFrame, en ne conservant que les colonnes "likes" et "views".
Stockez les dans une variable et calculez la corrélation entre les deux colonnes.