<h3>2. Dataframes</h3>

En Pandas, une <font color=red>matrice</font> ou <font color=red>tableau bidimensionnel</font> est représenté par la classe `DataFrame`.

Cette strcuture des données est utile pour représenter une population d'individus (ayant les mêmes informations de types différents).

Un Dataframe est créé comme un objet de la classe `pd.DataFrame`.

Il peut être créé de plusieurs façons :
- A partir d'un dictionnaire : le dictionnaire contient les colonnes : leurs noms et leurs valeurs
- A partir d'une liste de listes :  la liste contient les lignes
- A partir d'un fichier CSV

Il possède plusieurs propriétés ainsi que des fonctions utiles.

<b>2.1. DataFrame à partir d'un dictionnaire</b>

Un Dataframe est créé comme un objet de la classe `pd.DataFrame`.

On passe :
- un `dictionnaire` dont les clés sont les labels des colonnes et les valeurs sont les valeurs des colonnes
- Argument `index` qui représente les labels des lignes.

Exemple:

    df_employes=pd.DataFrame({'age':[28,30,25,41],'salaire':[1200.65,2100.76,1500.98,2500.76]},
                            index=['Ali','Sonia','Rahma','Walid'])


In [None]:
df_employes=#?
df_employes

Unnamed: 0,age,salaire
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


<b>2.2. DataFrame à partir d'une liste des listes</b>

Un Dataframe est créé comme un objet de la classe `pd.DataFrame`.

On passe :
- une `liste des listes`, càd une liste des lignes de la matrice.
- Argument `columns` qui contient les labels des colonnes.
- Argument `index` qui représente les labels des lignes.

Exemple:

    df_employes=pd.DataFrame([[28,1200.65], 
                          [30,2100.76],
                          [25,1500.98], 
                          [41,2500.76]],
                          columns=['age','salaire'],
                          index=['Ali','Sonia','Rahma','Walid'],
                          )


In [None]:
df_employes=#?
df_employes

Unnamed: 0,age,salaire
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


<b>2.3. Création d'un dataframe à partir d'un CSV</b>

Généralement, les données d'une population sont stockées dans un `fichier CSV` (ou un format similaire).

Pour le faire en pandas, on utilise la fonction `pd.read_csv()`

<u>Chargement basique</u>

Exemple:

    df_employes=pd.read_csv('employes.csv')

In [None]:
df_employes=#?
df_employes

Unnamed: 0,nom,age,salaire
0,Ali,28,1200.65
1,Sonia,30,2100.76
2,Rahma,25,1500.98
3,Walid,41,2500.76


<u>Chargement en spécifiant l'index avec set_index( ):</u>

On peut rendre une colonne bien déterminée l'index de dataframe

Pour le faire, on utilise la fonction  `set_index()`

Exemple:

    df_employes.set_index('nom')

In [None]:
# Une copie de dataframe modifié est retourné
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


In [None]:
df_employes

Unnamed: 0,nom,age,salaire
0,Ali,28,1200.65
1,Sonia,30,2100.76
2,Rahma,25,1500.98
3,Walid,41,2500.76


Avec `set_index()`, on met à jour le dataframe en spécifiant `inplace=True`

In [None]:
df_employes.#?

In [None]:
df_employes

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


<u>Chargement en spécifiant index_col:</u>

Avec `pd.read_csv()`, on peut spécfier la colonne qui joue le role d'index avec l'option `index_col`

Exemple:

    df_employes=pd.read_csv('employes.csv', index_col=0)

In [None]:
df_employes=#?
df_employes

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


<u>Remise à zero de l'index :</u>

On peut remettre à zero l'index avec la fonction `reset_index()`, ainsi, Pandas va :
- Rendre l'index une colonne noramale
- Associe un index automatique nuémrique au dataframe

Exemple:

    df_employes.reset_index(inplace=True)

In [None]:
df_employes.#?
df_employes

Unnamed: 0,nom,age,salaire
0,Ali,28,1200.65
1,Sonia,30,2100.76
2,Rahma,25,1500.98
3,Walid,41,2500.76


<b>2.4. Propriétés de Dataframe</b>

Les propriétés de base d'un dataframe sont :
- `shape`
- `dtypes`
- `index`
- `columns`
- `values`
- ...

In [None]:
df_employes.shape

(4, 2)

In [None]:
df_employes.dtypes

age          int64
salaire    float64
dtype: object

In [None]:
df_employes.index

Index(['Ali', 'Sonia', 'Rahma', 'Walid'], dtype='object', name='nom')

In [None]:
df_employes.columns

Index(['age', 'salaire'], dtype='object')

In [None]:
df_employes.values

array([[  28.  , 1200.65],
       [  30.  , 2100.76],
       [  25.  , 1500.98],
       [  41.  , 2500.76]])

<b>2.5. Opérations de base sur dataframes</b>

Les deux opérations de base pour manipuler un dataframe sont :
- <font color='red'>Indexation</font>
- <font color='red'>Slicing</font>

Elles sont effectuées en utilisant :
- Opérateur `iloc[]` avec les indices numériques
- Opérateur `loc[]` avec les labels

De plus, on peut effectuer le <font color='red'>Filtrage</font> d'un dataframe en utilisant :
- Opérateur `loc[]` en passant une expression lambda
- Fonction `query()` en passant une condition

<b>2.5.1. Indexation :</b>

<u>Indexation avec l'opérateur iloc :</u>

Exemple:

Deux premiers employés (2 premières lignes) 

En utilisant `df_employes.iloc[:2,:]`

In [None]:
# 2 premiers employés
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76


En utilisant `df_employes.iloc[[0,1],:]`

In [None]:
# 2 premiers employés
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76


Exemple:

Age et Salaire (2 premières colonnes) 

En utilisant `df_employes.iloc[:,:2]`

In [None]:
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


En utilisant `df_employes.iloc[:,[0,1]]`

In [None]:
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


Exemple:

L'age de deux premiers employés

En utilisant `df_employes.iloc[:2,[0]]`

In [None]:
df_employes.#?

Unnamed: 0_level_0,age
nom,Unnamed: 1_level_1
Ali,28
Sonia,30


<u>Indexation avec l'opérateur loc :</u>

Juste utiliser les labels au lieu des indices numériques :

Exemple :

L'age de deux premiers employés :

In [None]:
# Employé 'Ali' (ligne ayant index='Ali)
df_employes.#?

Unnamed: 0_level_0,age
nom,Unnamed: 1_level_1
Ali,28
Sonia,30


<b>2.5.2. Slicing :</b>

On peut le faire avec `iloc[]` ou bien `loc[]`

Exemple :

Extraire les infos d'employés 'Ali' et 'Sonia'

In [None]:
# Extraire les lignes de 'Ali' et 'Sonia'
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76


Exemple:

Extraire salaire et age de tous les employés

In [None]:
# Extraire les colonnes  de 'salaire' et 'age'
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Sonia,30,2100.76
Rahma,25,1500.98
Walid,41,2500.76


<b>2.5.3. Filtrage</b>

<u>Filtrage avec l'opérateur loc et expression lambda</u>

Exemple:

Extraire les employés ayant age<30
    
    df_employes.loc[lambda e : e['age']<30]

In [None]:
# extraire les employés ayant age<30
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Rahma,25,1500.98


Exemple:

Extraire les employés ayant age<30 et salaire <2000

Astuce : Utiliser l'opérateur &

    df_employes.loc[lambda e : (e['age']<30) & (e['salaire']<2000)]

In [None]:
# Extraire les employés ayant age<30 et salaire <2000
# Utiliser l'opérateiur &
df_employes.#?

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Rahma,25,1500.98


Exemple:

Extraire l'age des employés ayant age<30 et salaire <2000

In [None]:
# Extraire l'age employés ayant age<30 et salaire <2000
# Utiliser l'opérateiur &
df_employes.#?

Unnamed: 0_level_0,age
nom,Unnamed: 1_level_1
Ali,28
Rahma,25


<u>Filtrage avec la fonction query :</u>

On peut spécifier des conditions de même style qu'avec WHERE en SQL

On utilise la fonction `query()`

Exemple:

Déterminer les employés ayant age<30 et salaire<2000

    df_employes.query('age<30 and salaire<2000')

In [None]:
df_employes.query(#?)

Unnamed: 0_level_0,age,salaire
nom,Unnamed: 1_level_1,Unnamed: 2_level_1
Ali,28,1200.65
Rahma,25,1500.98


Exemple:

Déterminer employés dont l'age est soit 30 soit 40

Utiliser l'opérateur in :

    df_employes.query('age in [30,40]')

In [None]:
# condition avec l'oéprateur "in"
df_employes.query(#?)

Unnamed: 0,age,salaire
Sonia,30,2100.76


<b>2.6. Fonctions utiles de dataframe</b>

Des fonctions utiles (mean, max, sum, ....) sont associées au dataframe.
- On peut les appeler sans des arguments
- On peut les appeler avec l'argument axis : soit 0 pour faire le calcul sur l'axe vertical soit 1 pour faire le calcul sur l'axe horizontale

Exemple:

Calculer l'age et le salaire moyens des employés :

In [None]:
df_employes.mean(axis=0) # La moyenne par propriété/colonne (pertinent)

age          29.000
salaire    1650.705
dtype: float64

Déterminer l'age et le salaire maximaux :

In [None]:
df_employes.max(axis=0)

age          41.00
salaire    2500.76
dtype: float64