# Introduction

Dans ce micro-cours, vous apprendrez tout sur pandas, la bibliothèque Python la plus populaire pour l'analyse de données.

En cours de route, vous effectuerez plusieurs exercices pratiques avec des données réelles. Nous vous recommandons de travailler sur les exercices tout en lisant les tutoriels correspondants.

Dans ce tutoriel, vous apprendrez à créer vos propres données, ainsi qu'à travailler avec des données qui existent déjà.

# Pour commencer

Pour utiliser pandas, vous commencerez généralement par la ligne de code suivante :

In [10]:
import pandas as pd

## Création de données

Il y a deux objets principaux dans pandas : DataFrame et Series.

### Dataframe

Un DataFrame est un tableau. Il contient un tableau d'entrées individuelles, chacune d'entre elles ayant une certaine valeur. Chaque entrée correspond à une ligne (ou enregistrement) et à une colonne.

Prenons par exemple le simple DataFrame suivant :

In [11]:
pd.DataFrame({'Yes': [50, 21, 32], 'No': [131, 2, 10]})

Unnamed: 0,Yes,No
0,50,131
1,21,2
2,32,10


Dans cet exemple, l'entrée "0, Non" a la valeur de 131. L'entrée "0, Oui" a une valeur de 50, et ainsi de suite.

Les entrées de DataFrame ne sont pas limitées aux nombres entiers. Par exemple, voici une DataFrame dont les valeurs sont des chaînes de caractères :

In [12]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Nous utilisons le constructeur `pd.DataFrame()` pour générer ces objets DataFrame. La syntaxe pour en déclarer un nouveau est un dictionnaire dont les clés sont les noms de colonnes (Bob et Sue dans cet exemple), et dont les valeurs sont une liste d'entrées. C'est la façon standard de construire un nouveau DataFrame, et celle que vous êtes le plus susceptible de rencontrer.

Le constructeur de listes de dictionnaires attribue des valeurs aux étiquettes de colonnes, mais utilise uniquement un compteur croissant à partir de 0 (0, 1, 2, 3, ...) pour les étiquettes de lignes. Parfois, cela ne pose pas de problème, mais souvent, nous voulons attribuer ces étiquettes nous-mêmes.

La liste des étiquettes de lignes utilisées dans une DataFrame est connue sous le nom d'Index. Nous pouvons lui attribuer des valeurs en utilisant un paramètre d'index dans notre constructeur :

In [13]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


### Series

Une Serie, en revanche, est une séquence de valeurs de données. Si un DataFrame est un tableau, une Serie est une liste. Et en fait, vous pouvez en créer une avec rien de plus qu'une liste :

In [14]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Une Serie est, par essence, une seule colonne d'un DataFrame. Vous pouvez donc attribuer des valeurs de colonne à la Serie de la même manière qu'auparavant, en utilisant un paramètre d'index. Cependant, une Serie n'a pas de nom de colonne, elle n'a qu'un seul nom global :

In [15]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

La Serie et le DataFrame sont intimement liés. Il est utile de penser qu'un DataFrame n'est en fait qu'un ensemble de Series "collées ensemble". Nous y reviendrons dans la prochaine section de ce tutoriel.

## Lecture de fichiers de données

Il est pratique de pouvoir créer un DataFrame ou une Serie à la main. Mais, la plupart du temps, nous ne créerons pas nos propres données à la main. Nous travaillerons plutôt avec des données qui existent déjà.

Les données peuvent être stockées sous différentes formes et dans différents formats. Le plus simple d'entre eux est de loin le modeste fichier CSV. Lorsque vous ouvrez un fichier CSV, vous obtenez quelque chose qui ressemble à ceci :

Un fichier CSV est donc un tableau de valeurs séparées par des virgules. D'où le nom : "Comma-Separated Values", ou CSV.

Mettons maintenant de côté nos jeux de données jouets et voyons à quoi ressemble un vrai jeu de données lorsque nous le lisons dans un DataFrame. Nous utiliserons la fonction `pd.read_csv()` pour lire les données dans un DataFrame. C'est ainsi que cela se passe :

In [16]:
wine_reviews = pd.read_csv("C:/Users/utilisateur/Desktop/Formation Développeur IA/Brief/4_Notebooks Pandas/wine-reviews/winemag-data-130k-v2.csv")

Nous pouvons utiliser l'attribut shape pour vérifier la taille de la DataFrame résultante :

In [17]:
wine_reviews.shape

(129971, 14)

Notre nouveau DataFrame compte donc 130 000 enregistrements répartis sur 14 colonnes différentes. Cela représente près de 2 millions d'entrées !

Nous pouvons examiner le contenu de la DataFrame résultante en utilisant la commande `head()`, qui saisit les cinq premières lignes :

In [18]:
wine_reviews.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


La fonction `pd.read_csv()` est bien fournie, avec plus de 30 paramètres optionnels que vous pouvez spécifier. Par exemple, vous pouvez voir dans cet ensemble de données que le fichier CSV possède un index intégré, que pandas n'a pas repris automatiquement. Pour que pandas utilise cette colonne pour l'index (au lieu d'en créer un nouveau à partir de zéro), nous pouvons spécifier un `index_col`.

In [19]:
wine_reviews = pd.read_csv("C:/Users/utilisateur/Desktop/Formation Développeur IA/Brief/4_Notebooks Pandas/wine-reviews/winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
