## Introduction à Pandas  

Pandas est une bibliothèque open-source de traitement de données pour le langage de programmation Python. Elle est largement utilisée dans la communauté scientifique et industrielle pour manipuler et analyser des **données structurées**. Pandas fournit des structures de données et des outils pour manipuler et analyser des données tabulaires (séries temporelles, tables relationnelles, etc.). En outre, il fournit des outils pour manipuler des données manquantes et des séries temporelles.

Pandas fournit deux structures de données principales: les séries et les dataframes. Les séries sont des tableaux unidimensionnels indexés contenant des données de tout type (entiers, chaînes de caractères, flottants, objets Python, etc.). Les dataframes sont des tableaux bidimensionnels, avec des colonnes de types différents (int, float, str, etc.). Un dataframe est similaire à une table SQL ou à une feuille de calcul Excel.

Dans ce notebook, nous allons explorer les principales fonctions de Pandas.

## Importation de Pandas  
La première étape consiste à importer la bibliothèque Pandas. Nous allons également utiliser l'alias pd pour Pandas pour faciliter son utilisation ultérieure.

In [27]:
import pandas as pd

##  1- la logique de pandas

L'objet central dans la logique `pandas` est le `DataFrame`.
Il s'agit d'une structure particulière de données
à deux dimensions alignant des lignes et colonnes. Les colonnes
peuvent être de types différents.

Un DataFrame est composé des éléments suivants:

* l'indice de la ligne ;
* le nom de la colonne ;
* la valeur de la donnée ;

Structuration d'un DataFrame pandas, emprunté à <https://medium.com/epfl-extension-school/selecting-data-from-a-pandas-dataframe-53917dc39953>:

![](https://miro.medium.com/max/700/1*6p6nF4_5XpHgcrYRrLYVAw.png)


Les trois règles sont les suivantes:

* Chaque variable possède sa propre colonne
* Chaque observation possède sa propre ligne
* Une valeur, matérialisant la valeur d'une observation d'une variable,
se trouve sur une unique cellule.

### Création de séries
La fonction pd.Series() permet de créer une série à partir d'un tableau unidimensionnel, d'une liste ou d'un dictionnaire.

In [28]:
# Création d'une série à partir d'un tableau unidimensionnel
s1 = pd.Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [29]:
# Création d'une série à partir d'un dictionnaire
s3 = pd.Series({'a': 1, 'b': 2, 'c': 3})
s3

a    1
b    2
c    3
dtype: int64

Remarquez qu'une série est indexée explicitement (les indexs sont visibles et donc modifiables)

A l'instar d'une liste python, on peut accéder à un élément d'une serie via l'indexing

In [30]:
s1[0]

np.int64(1)

In [31]:
s3['a']

np.int64(1)

### Création de dataframes  

La fonction pd.DataFrame() permet de créer un dataframe à partir d'un tableau bidimensionnel, d'une liste de dictionnaires ou d'une liste de séries.

In [32]:
# Création d'un dataframe à partir d'un tableau bidimensionnel (une liste de liste)
df1 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['A', 'B', 'C'], index=["a", "b", "c"])
df1

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6
c,7,8,9


In [33]:
# Création d'un dataframe à partir d'une liste de dictionnaires
df2 = pd.DataFrame([{'A': 1, 'B': 2}, {'A': 3, 'B': 4, 'C': 5}])
df2

Unnamed: 0,A,B,C
0,1,2,
1,3,4,5.0


In [34]:
# Création d'un dataframe à partir d'une liste de séries
s1 = pd.Series([1, 2, 3])
s2 = pd.Series(['a', 'b', 'c'])
df3 = pd.DataFrame({'col1': s1, 'col2': s2})
df3

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c


In [35]:
# Création d'un dataframe à partir d'un dictionnaire composé de listes
df4 = pd.DataFrame({'sexe': ["m", 'f', 'm'], 'nom':['Jean', 'Marie','Charlie'], 'age': [5, 24, 18]})
df4

Unnamed: 0,sexe,nom,age
0,m,Jean,5
1,f,Marie,24
2,m,Charlie,18


In [36]:
# On peut également créer un dataframe en explicitant l'index et le noms des colonnes

df5 = pd.DataFrame(data=[[1,2], [3,4]], index=['a', 'b'], columns=['col1', 'col2'])
df5

Unnamed: 0,col1,col2
a,1,2
b,3,4


In [37]:
# On peut mixer plusieurs techniques

df6 = pd.DataFrame({'col1':[10, 20, 30, 40], 'col2':[100, 200, 300, 400]}, index=['a', 'b', 'c', 'd'])
df6

Unnamed: 0,col1,col2
a,10,100
b,20,200
c,30,300
d,40,400


### iloc, loc et at

Pour faire de l'indexing sur un dataframe il faut utiliser .loc et .iloc

In [38]:
# Avec iloc(), indexation positionnelle, c'est la position de la ligne dans le dataframe (le première ligne porte l'index 0)
df6.iloc[-1]

col1     40
col2    400
Name: d, dtype: int64

In [39]:
# Avec loc(), indexation par label, c'est l'index explicite du data frame (ici ['a', 'b', 'c', 'd'])
df6.loc['a', 'col1'] = 3000

In [40]:
df6

Unnamed: 0,col1,col2
a,3000,100
b,20,200
c,30,300
d,40,400


In [41]:
# Pour localiser une donnée en particulier, on peut utiliser at, avec l'index de la ligne et le nom de la colonne

df6.at['a', 'col1'] = 5000

In [42]:
# On peut accéder aux données d'une colonne soit avec la notation pointée soit avec les crochets

df6.col1

a    5000
b      20
c      30
d      40
Name: col1, dtype: int64

In [43]:
df6['col1']

a    5000
b      20
c      30
d      40
Name: col1, dtype: int64

In [44]:
# On peut faire du slicing également (uniquement si l'index est numéraire), on précise en premier les lignes et en second les colonnes (séparé par une virgule)

df4.loc[0:1, 'nom']

0     Jean
1    Marie
Name: nom, dtype: object

Remarquez que ce qui est renvoyée est une série !

## 2- Importation de csv

Pour importer un csv, il faut utiliser la fonction read_csv()

In [45]:
cardata = pd.read_csv('cardata.csv')

In [46]:
cardata.shape

(299, 9)

In [47]:
cardata.head()

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0
4,swift,2014,4.6,6.87,42450,Diesel,Dealer,Manual,0


In [48]:
cardata['age'] = 2025 - cardata['Year']

In [49]:
cardata.head()

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0,11
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0,12
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0,14
4,swift,2014,4.6,6.87,42450,Diesel,Dealer,Manual,0,11


## 3- Filtre

Pour filtrer un dataframe on utilise le boolean indexing, c'est à dire que l'on applique une expression booléenne qui va renvoyer un masque composé de valeurs booléennes, on appliquer alors le masque avec [] sur la dataframe

### Filtre basé sur une condition
On peut filtrer les données d'un dataframe en utilisant une condition.

In [50]:
# Par exemple, pour filtrer les lignes où la valeur de la colonne "Fuel_Type" est égal à "Petrol":

cardata[cardata['Fuel_Type'] == 'Petrol']

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0,11
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0,14
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0,10
10,alto 800,2017,2.85,3.60,2135,Petrol,Dealer,Manual,0,8
...,...,...,...,...,...,...,...,...,...,...
291,city,2010,3.25,9.90,38000,Petrol,Dealer,Manual,0,15
292,amaze,2014,3.75,6.80,33019,Petrol,Dealer,Manual,0,11
295,brio,2015,4.00,5.90,60000,Petrol,Dealer,Manual,0,10
296,city,2009,3.35,11.00,87934,Petrol,Dealer,Manual,0,16


In [51]:
# Le filtre en question

cardata.Fuel_Type == 'Petrol'

0       True
1      False
2       True
3       True
4      False
       ...  
294    False
295     True
296     True
297    False
298     True
Name: Fuel_Type, Length: 299, dtype: bool

In [52]:
# Par exemple, pour filtrer les lignes où la valeur de la colonne "Fuel_Type" est égal à "Petrol":

cardata[cardata.Fuel_Type == 'Petrol']

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0,11
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0,14
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0,10
10,alto 800,2017,2.85,3.60,2135,Petrol,Dealer,Manual,0,8
...,...,...,...,...,...,...,...,...,...,...
291,city,2010,3.25,9.90,38000,Petrol,Dealer,Manual,0,15
292,amaze,2014,3.75,6.80,33019,Petrol,Dealer,Manual,0,11
295,brio,2015,4.00,5.90,60000,Petrol,Dealer,Manual,0,10
296,city,2009,3.35,11.00,87934,Petrol,Dealer,Manual,0,16


In [53]:
cardata.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Car_Name       299 non-null    object 
 1   Year           299 non-null    int64  
 2   Selling_Price  299 non-null    float64
 3   Present_Price  299 non-null    float64
 4   Kms_Driven     299 non-null    int64  
 5   Fuel_Type      299 non-null    object 
 6   Seller_Type    299 non-null    object 
 7   Transmission   299 non-null    object 
 8   Owner          299 non-null    int64  
 9   age            299 non-null    int64  
dtypes: float64(2), int64(4), object(4)
memory usage: 23.5+ KB


In [54]:
# Pour filtrer les lignes où la valeur de la colonne "Selling_Price" est supérieur à 5:

cardata[cardata.Selling_Price > 5]

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
5,vitara brezza,2018,9.25,9.83,2071,Diesel,Dealer,Manual,0,7
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0,10
7,s cross,2015,6.50,8.61,33429,Diesel,Dealer,Manual,0,10
8,ciaz,2016,8.75,8.89,20273,Diesel,Dealer,Manual,0,9
...,...,...,...,...,...,...,...,...,...,...
290,jazz,2016,6.40,8.40,12000,Petrol,Dealer,Manual,0,9
293,city,2015,8.55,13.09,60076,Diesel,Dealer,Manual,0,10
294,city,2016,9.50,11.60,33988,Diesel,Dealer,Manual,0,9
297,city,2017,11.50,12.50,9000,Diesel,Dealer,Manual,0,8


In [55]:
# Pour filtrer les lignes où la valeur de la colonne "Selling_Price" est supérieur à 11 ET pour le Fuel_Type égal à 'Petrol':

cardata[(cardata.Selling_Price > 11) & (cardata.Fuel_Type == 'Petrol')]

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
65,innova,2017,19.75,23.15,11000,Petrol,Dealer,Automatic,0,8
68,corolla altis,2016,14.25,20.91,12000,Petrol,Dealer,Manual,0,9
95,corolla altis,2017,17.0,18.64,8700,Petrol,Dealer,Manual,0,8
210,creta,2016,11.25,13.6,22671,Petrol,Dealer,Manual,0,9
230,elantra,2015,11.45,14.79,12900,Petrol,Dealer,Automatic,0,10


### Filtre basé sur une liste de valeurs  
On peut également filtrer les données d'un dataframe en utilisant une liste de valeurs.

In [56]:
# Par exemple, pour filtrer les lignes où la valeur de la colonne "Year" est soit 2014 soit 2015:

cardata[cardata['Year'].isin([2014, 2015])]

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0,11
4,swift,2014,4.60,6.87,42450,Diesel,Dealer,Manual,0,11
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0,10
7,s cross,2015,6.50,8.61,33429,Diesel,Dealer,Manual,0,10
9,ciaz,2015,7.45,8.92,42367,Diesel,Dealer,Manual,0,10
...,...,...,...,...,...,...,...,...,...,...
288,amaze,2014,4.50,6.40,19000,Petrol,Dealer,Manual,0,11
289,brio,2015,5.40,6.10,31427,Petrol,Dealer,Manual,0,10
292,amaze,2014,3.75,6.80,33019,Petrol,Dealer,Manual,0,11
293,city,2015,8.55,13.09,60076,Diesel,Dealer,Manual,0,10


# Exercices

Trouver les voitures âgées de ≥ 8 ans, avec Present_Price dans le top 25% du parc, et Kms_Driven inférieur à la médiane.

In [70]:
Q3 = cardata['Selling_Price'].quantile(0.75)
mediane = cardata['Kms_Driven'].median()

cardata[(cardata['age'] >= 8) & (cardata['Selling_Price'] >= Q3) & (cardata['Kms_Driven'] < mediane)]


Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
6,ciaz,2015,6.75,8.12,18796,Petrol,Dealer,Manual,0,10
8,ciaz,2016,8.75,8.89,20273,Diesel,Dealer,Manual,0,9
12,ciaz,2015,7.5,9.94,15000,Petrol,Dealer,Automatic,0,10
13,ertiga,2015,6.1,7.71,26000,Petrol,Dealer,Manual,0,10
26,swift,2017,6.0,6.49,16200,Petrol,Individual,Manual,0,8
44,ciaz,2014,7.5,12.04,15000,Petrol,Dealer,Automatic,0,11
51,innova,2017,18.0,19.77,15000,Diesel,Dealer,Automatic,0,8
63,fortuner,2017,33.0,36.23,6000,Diesel,Dealer,Automatic,0,8
65,innova,2017,19.75,23.15,11000,Petrol,Dealer,Automatic,0,8


Garder les voitures qui ne sont pas outliers simultanément sur Kms_Driven et Present_Price (IQR rule).

https://online.stat.psu.edu/stat200/lesson/3/3.2

In [73]:
Q1_km = cardata['Kms_Driven'].quantile(0.25)
Q3_km = cardata['Kms_Driven'].quantile(0.75)
IQR_km = Q3_km - Q1_km

Q1_price = cardata['Present_Price'].quantile(0.25)
Q3_price = cardata['Present_Price'].quantile(0.75)
IQR_price = Q3_price - Q1_price

mask_km = (cardata['Kms_Driven'] >= Q1_km - 1.5 * IQR_km) & (cardata['Kms_Driven'] <= Q3_km + 1.5 * IQR_km)
mask_price = (cardata['Present_Price'] >= Q1_price - 1.5 * IQR_price) & (cardata['Present_Price'] <= Q3_price + 1.5 * IQR_price)

cardata[mask_km & mask_price]

Unnamed: 0,Car_Name,Year,Selling_Price,Present_Price,Kms_Driven,Fuel_Type,Seller_Type,Transmission,Owner,age
0,ritz,2014,3.35,5.59,27000,Petrol,Dealer,Manual,0,11
1,sx4,2013,4.75,9.54,43000,Diesel,Dealer,Manual,0,12
2,ciaz,2017,7.25,9.85,6900,Petrol,Dealer,Manual,0,8
3,wagon r,2011,2.85,4.15,5200,Petrol,Dealer,Manual,0,14
4,swift,2014,4.60,6.87,42450,Diesel,Dealer,Manual,0,11
...,...,...,...,...,...,...,...,...,...,...
294,city,2016,9.50,11.60,33988,Diesel,Dealer,Manual,0,9
295,brio,2015,4.00,5.90,60000,Petrol,Dealer,Manual,0,10
296,city,2009,3.35,11.00,87934,Petrol,Dealer,Manual,0,16
297,city,2017,11.50,12.50,9000,Diesel,Dealer,Manual,0,8


Pour chaque Seller_Type, garder les voitures dont Selling_Price est strictement supérieure à la moyenne du groupe, et qui ont Owner == 0.

In [74]:
cardata.groupby('Seller_Type')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f49b1e53b60>

Trouver les voitures Transmission == 'Manual' dont Kms_Driven est entre le 10ᵉ et 40ᵉ percentile

Pour chaque combinaison (Fuel_Type, Transmission), sélectionner la voiture la plus économe en kilométrage (Kms_Driven minimal) parmi celles ayant Present_Price dans le top 50% de ce sous-groupe.