# Pandas Python

**[Pandas](https://pandas.pydata.org/)** est une bibliothèque Python fournissant un outil de structures de données rapide, flexible, pratique et expressif conçu pour rendre le travail avec des données « relationnelles » ou « étiquetées » à la fois simple et intuitif. Il vise à être le bloc de construction fondamental de haut niveau pour effectuer une analyse pratique et réelle de données complexes en Python.

pandas est bien adapté à de nombreux types de données :

* Données tabulaires avec des colonnes typées de manière hétérogène, comme dans une table SQL ou une feuille de calcul Excel
* Données de séries chronologiques ordonnées et non ordonnées (pas nécessairement à fréquence fixe).
* Données matricielles arbitraires avec des étiquettes de ligne et de colonne
* Toute autre forme d'ensembles de données observationnelles/statistiques.

# DataFrame

Dans cette leçon, vous apprendrez pandas DataFrame. Il couvre les bases de DataFrame, ses attributs, ses fonctions et comment utiliser DataFrame pour l'analyse de données.

DataFrame est la structure de données la plus utilisée dans pandas. Vous pouvez l'imaginer comme un tableau dans une base de données ou une feuille de calcul.

Imaginez que vous avez une salle d'exposition automobile et que vous souhaitez analyser les données des voitures pour élaborer des stratégies commerciales. Par exemple, vous devez vérifier combien de véhicules vous avez dans votre salle d'exposition de type berline, ou les voitures qui donnent un bon kilométrage. Pour une telle analyse, pandas DataFrame est utilisé.

## Qu'est-ce qu'un DataFrame ?

Dataframe est une représentation tabulaire (lignes, colonnes) de données. Il s'agit d'une structure de données bidimensionnelle avec des données potentiellement hétérogènes.

Dataframe est une structure variable en taille, ce qui signifie que des données peuvent y être ajoutées ou supprimées, contrairement aux séries de données, qui n'autorisent pas les opérations qui modifient sa taille.

<div>
<img src="img/dataframe.png" width="600"/>
</div>

## Création de DataFrame

Les données sont disponibles sous différentes formes et types tels que CSV, table SQL, JSON ou structures Python telles que liste, dict, etc. Nous devons convertir tous ces différents formats de données en un DataFrame afin de pouvoir utiliser les bibliothèques pandas pour analyser ces données efficacement.

Pour créer un DataFrame, nous pouvons utiliser soit le constructeur DataFrame, soit les fonctions intégrées de pandas. Voici quelques exemples.

### DataFrame constructor

```python
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

#### Paramètres:

* **`data`**: il prend l'entrée **`dict`**,**`list`**,**`set`**,**`ndarray`**,**`iterable`**, ou **DataFrame**. Si l'entrée n'est pas fournie, il crée un DataFrame vide. L'ordre des colonnes résultant suit l'ordre d'insertion.


* **`index`** : (facultatif) il prend la liste des index de ligne pour le DataFrame. La valeur par défaut est une plage d'entiers 0, 1,…n.
* **`columns`** : (Facultatif) Il prend la liste des colonnes pour le DataFrame. La valeur par défaut est une plage d'entiers 0, 1,…n.


* **`dtype`** : (facultatif) par défaut, il déduit le type de données à partir des données, mais cette option applique tout type de données spécifique à l'ensemble du DataFrame.
* **`copy`** : (facultatif) copiez les données des entrées. Booléen, Faux par défaut. N'affecte que les entrées DataFrame ou de type tableau 2D

Reportez-vous aux notebooks suivants pour plus de détails :

* **[Créer des pandas DataFrame à partir du dictionnaire Python]( 001_Python_Pandas_Methods/001_Python_Pandas_DataFrame_from_Dictionary.ipynb)**
* **[Créer des pandas DataFrame à partir de la liste Python]( 001_Python_Pandas_Methods/002_Python_Pandas_DataFrame_from_List.ipynb)**

### Dataframe a partir d'un dict

Lorsque nous avons des données dans **`dict`** ou dans toute structure de données par défaut en Python, nous pouvons les convertir en DataFrame à l'aide du constructeur DataFrame.

Pour construire un DataFrame à partir d'un objet **`dict`**, nous pouvons le passer au constructeur DataFrame **`pd.DataFrame(dict)`**. Il crée DataFrame en utilisant le dictionnaire, où les clés de **`dict`** seront les étiquettes de colonne, et les valeurs de **`dict`** seront les données des colonnes. Nous pouvons également utiliser la fonction **`DataFrame.from_dict()`** pour **[Create DataFrame from dict](001_Python_Pandas_Methods/001_Python_Pandas_DataFrame_from_Dictionary.ipynb)**.

**Clé et importations :**

| Opérateur | Description |
|:----: |:---- |
| **`df`** | **objet Pandas DataFrame** |
| **`s`** | **objet série pandas** |

In [2]:
# Example: 

student_dict = {'Name':['Diallo','Bah'], 'Age':[23,22], 'Marks':[85.10, 77.80]}
student_dict

{'Name': ['Diallo', 'Bah'], 'Age': [23, 22], 'Marks': [85.1, 77.8]}

**'Name'**, **'Age'** et **'Marks'** sont les clés dans le **`dict`** lors de la conversion, ils deviendront les étiquettes de colonne du DataFrame.

In [8]:
import pandas as pd

# Objet dict Python
student_dict = {'Name': ['Diallo', 'Bah'], 'Age': [23, 22], 'Marks': [85.10, 77.80]}
#print(student_dict)

# Creer un dataframe à partir d'un dictionnaire
student_df = pd.DataFrame(student_dict)
print(student_df)

     Name  Age  Marks
0  Diallo   23   85.1
1     Bah   22   77.8


In [4]:
# Exemple

import pandas as pd

# Nous passons un dictionnaire de {column name: column values}
df = pd.DataFrame({'X':[78,85,96,80,86], 'Y':[84,94,89,83,86],'Z':[86,97,96,72,83]});
print(df)

    X   Y   Z
0  78  84  86
1  85  94  97
2  96  89  96
3  80  83  72
4  86  86  83


In [5]:
# Exemple

import pandas as pd

df = pd.DataFrame({
                    'A': [1, 2, 3], 'B': [True, True, False],
                    'C': [0.496714, -0.138264, 0.647689]
                  },index=['a', 'b', 'c'])  
df

Unnamed: 0,A,B,C
a,1,True,0.496714
b,2,True,-0.138264
c,3,False,0.647689


### Indexation

Notre première amélioration par rapport aux tableaux numpy est l'indexation étiquetée. Nous pouvons sélectionner des sous-ensembles par colonne, ligne ou les deux. La sélection de colonne utilise la machinerie python régulière **`__getitem__`**. Transmettez une étiquette de colonne unique **`'A'`** ou une liste d'étiquettes **`['A', 'C']`** pour sélectionner des sous-ensembles de l'original  **`DataFrame`**.

In [6]:
# Colonne unique, réduite à une série
df['A']

a    1
b    2
c    3
Name: A, dtype: int64

In [7]:
cols = ['A', 'C']
df[cols]

Unnamed: 0,A,C
a,1,0.496714
b,2,-0.138264
c,3,0.647689


Pour une sélection par ligne, utilisez l'accesseur spécial **`.loc`**.

In [8]:
df.loc[['a', 'b']]

Unnamed: 0,A,B,C
a,1,True,0.496714
b,2,True,-0.138264


Vous pouvez utiliser des plages pour sélectionner des lignes ou des colonnes.

In [9]:
df.loc['a':'b']

Unnamed: 0,A,B,C
a,1,True,0.496714
b,2,True,-0.138264


Notez que la tranche est *inclusive* des deux côtés, contrairement à votre découpage typique d'une liste. Parfois, vous préférez découper par *position* au lieu de l'étiquette. **`.iloc`** est la pour cela :

In [10]:
df.iloc[[0, 1]]

Unnamed: 0,A,B,C
a,1,True,0.496714
b,2,True,-0.138264


In [11]:
df.iloc[:2]

Unnamed: 0,A,B,C
a,1,True,0.496714
b,2,True,-0.138264


Cela suit les règles habituelles de découpage en python : fermé à gauche, ouvert à droite.

Comme je l'ai mentionné, vous pouvez découper à la fois les lignes et les colonnes. Utilisez **`.loc`** pour l'étiquette ou **`.iloc`** pour l'indexation de position.

In [12]:
df.loc['a', 'B']

True

Pandas, comme NumPy, réduiront les dimensions lorsque cela est possible. Sélectionnez une seule colonne et vous récupérez une `Series` (voir ci-dessous). Sélectionnez une seule ligne et une seule colonne, vous obtenez un scalaire.

Vous pouvez obtenir assez de fantaisie:

In [13]:
df.loc['a':'c', ['A', 'C']]

Unnamed: 0,A,C
a,1,0.496714
b,2,-0.138264
c,3,0.647689


In [14]:
df.loc['b':'b',['B','C']]

Unnamed: 0,B,C
b,True,-0.138264


#### Résumé

- Utilisez **`[]`** pour sélectionner les colonnes
- Utilisez **`.loc[row_lables, column_labels]`** pour l'indexation basée sur les étiquettes
- Utilisez **`.iloc[row_positions, column_positions]`** pour l'index de position

J'ai laissé de côté l'indexation booléenne et hiérarchique, que nous verrons plus tard.

## Série

Vous avez déjà vu quelques **séries** ci-dessus. C'est l'analogue unidimensionnel du DataFrame. Chaque colonne d'un **DataFrame** est en quelque sorte une **Series**. Vous pouvez sélectionner une **Série** à partir d'un DataFrame de plusieurs manières :

In [15]:
# __getitem__ comme avant
df['A']

a    1
b    2
c    3
Name: A, dtype: int64

In [16]:
# .loc, comme avant
df.loc[:, 'A']

a    1
b    2
c    3
Name: A, dtype: int64

In [17]:
# En utilisant `.` attribut lookup
df.A

a    1
b    2
c    3
Name: A, dtype: int64

In [18]:
df['mean'] = ['a', 'b', 'c']
df

Unnamed: 0,A,B,C,mean
a,1,True,0.496714,a
b,2,True,-0.138264,b
c,3,False,0.647689,c


In [19]:
df['mean']

a    a
b    b
c    c
Name: mean, dtype: object

In [20]:
# Creer un DataSeries:

import pandas as pd
s = pd.Series([2, 4, 6, 8, 10])
print(s)

0     2
1     4
2     6
3     8
4    10
dtype: int64


Il faudra être prudent avec le dernier. Cela ne fonctionnera pas si le nom de votre colonne n'est pas un identifiant python valide (disons qu'il a un espace) ou s'il est en conflit avec l'une des (nombreuses) méthodes sur **DataFrame**. L'accesseur **`.`** est cependant extrêmement pratique pour une utilisation interactive.

Vous ne devez jamais *assigner* une colonne avec **`.`** par ex. ne fais pas

```python
# mauvais
df.A = [1, 2, 3]
```

Il n'est pas clair si vous attachez la liste **`[1, 2, 3]`** en tant qu'attribut de **`df`**, ou si vous la voulez en tant que colonne. C'est mieux de dire juste

```python
df['A'] = [1, 2, 3]
# ou
df.loc[:, 'A'] = [1, 2, 3]
```

**Series** partage bon nombre de méthodes avec **DataFrame**s.

## Index

**`Index`** sont une particularité des pandas.
Tout d'abord, ce ne sont pas les types d'index que vous trouverez dans SQL, qui sont utilisés pour aider le moteur à accélérer certaines requêtes.
Dans pandas, **`Index`** concerne les étiquettes. Cela facilite la sélection (comme nous l'avons fait ci-dessus) et l'alignement automatique lors de l'exécution d'opérations entre deux **DataFrames** ou **Series**.

Vous pouvez accéder à l'index d'un **DataFrame** ou **Series** avec l'attribut **`.index`**.

In [21]:
df.index

Index(['a', 'b', 'c'], dtype='object')

In [22]:
df.columns

Index(['A', 'B', 'C', 'mean'], dtype='object')

Il existe des types particuliers d'« Index » que vous rencontrerez. Certains d'entre eux sont

- **`MultiIndex`** pour les étiquettes multidimensionnelles (hiérarchiques)
- **`DatetimeIndex`** pour les dates et heures
- **`Float64Index`** pour les flottants
- **`CategoricalIndex`** pour, vous l'avez deviné, les **Catégoriques**

* **Comment découper un DataFrame par étiquette de ligne ?**
    - Utilisez **`.loc[étiquette]`**. Pour une utilisation basée sur la position **`.iloc[integer]`**.
* **Comment sélectionner une colonne d'un DataFrame ?**
    - Standard **`__getitem__`**:**`df[column_name]`**
* **L'Index est-il une colonne dans le DataFrame ?**
    - Non. Il n'est inclus dans aucune opération (**`mean`**, etc). Il peut être inséré comme une colonne régulière avec **`df.reset_index()`**.

### Dataframe à partir de CSV

Dans le domaine de la science des données, les fichiers **[CSV](https://en.wikipedia.org/wiki/Comma-separated_values)** sont utilisés pour stocker de grands ensembles de données. Pour analyser efficacement ces ensembles de données, nous devons les convertir en pandas DataFrame.

Pour créer un DataFrame à partir de CSV, nous utilisons la fonction **`read_csv('file_name')`** qui prend le nom du fichier en entrée et renvoie DataFrame en sortie.

**Exemple 1 :**

Voyons comment lire le fichier **[stockprice_data.csv](stockprice_data.csv)** dans le DataFrame puis le convertir en Pandas Série

<div>
<img src="img/csvfile1.png" width="300" />
</div>

In [1]:
import pandas as pd
data = pd.read_csv("stockprice_data.csv")
data

Unnamed: 0,Date,Closing price,Return
0,1/1/2020,100,0.01
1,2/1/2020,120,0.2
2,3/1/2020,130,0.083333
3,4/1/2020,98,-0.246154
4,5/1/2020,50,-0.489796
5,6/1/2020,102,1.04
6,7/1/2020,104,0.019608
7,8/1/2020,150,0.442308
8,9/1/2020,160,0.066667
9,10/1/2020,109,-0.31875


In [2]:
type(data)

pandas.core.frame.DataFrame

In [3]:
data1 = data.iloc[:,2]  # Convertir  Pandas DataFrame en Pandas Series
data1

0     0.010000
1     0.200000
2     0.083333
3    -0.246154
4    -0.489796
5     1.040000
6     0.019608
7     0.442308
8     0.066667
9    -0.318750
10   -0.128440
Name: Return, dtype: float64

In [4]:
type(data1)

pandas.core.series.Series

**Exemple 2 :**

Voyons comment lire le fichier **[automobile_data.csv](automobile_data.csv)** dans le DataFrame.

<div>
<img src="img/csvfile.png" width="500"/>
</div>

In [5]:
cars = pd.read_csv("automobile_data.csv") 
print(cars)

    index      company   body-style  wheel-base  length engine-type  \
0       0  alfa-romero  convertible        88.6   168.8        dohc   
1       1  alfa-romero  convertible        88.6   168.8        dohc   
2       2  alfa-romero    hatchback        94.5   171.2        ohcv   
3       3         audi        sedan        99.8   176.6         ohc   
4       4         audi        sedan        99.4   176.6         ohc   
..    ...          ...          ...         ...     ...         ...   
56     81   volkswagen        sedan        97.3   171.7         ohc   
57     82   volkswagen        sedan        97.3   171.7         ohc   
58     86   volkswagen        sedan        97.3   171.7         ohc   
59     87        volvo        sedan       104.3   188.8         ohc   
60     88        volvo        wagon       104.3   188.8         ohc   

   num-of-cylinders  horsepower  average-mileage    price  
0              four         111               21  13495.0  
1              four        

In [6]:
cars

Unnamed: 0,index,company,body-style,wheel-base,length,engine-type,num-of-cylinders,horsepower,average-mileage,price
0,0,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,13495.0
1,1,alfa-romero,convertible,88.6,168.8,dohc,four,111,21,16500.0
2,2,alfa-romero,hatchback,94.5,171.2,ohcv,six,154,19,16500.0
3,3,audi,sedan,99.8,176.6,ohc,four,102,24,13950.0
4,4,audi,sedan,99.4,176.6,ohc,five,115,18,17450.0
...,...,...,...,...,...,...,...,...,...,...
56,81,volkswagen,sedan,97.3,171.7,ohc,four,85,27,7975.0
57,82,volkswagen,sedan,97.3,171.7,ohc,four,52,37,7995.0
58,86,volkswagen,sedan,97.3,171.7,ohc,four,100,26,9995.0
59,87,volvo,sedan,104.3,188.8,ohc,four,114,23,12940.0


## Options de trame de données

Lorsque DataFrame est vaste et que nous ne pouvons pas afficher toutes les données lors de l'impression. Dans ce cas, nous devons modifier la façon dont DataFrame s'affiche sur la console à l'aide de la fonction **`print()`**. Pour cela, pandas a fourni de nombreuses options et fonctions pour personnaliser la présentation du DataFrame.

### Pour personnaliser l'affichage de DataFrame lors de l'impression

Lorsque nous affichons le DataFrame en utilisant la fonction **`print()`** par défaut, il affiche 10 lignes (top 5 et bottom 5). Parfois, nous pouvons avoir besoin d'afficher plus ou moins de lignes que la vue par défaut du DataFrame.

Nous pouvons modifier le paramètre en utilisant les fonctions **`pd.options`** ou **`pd.set_option()`**. Les deux peuvent être utilisés de manière interchangeable.

L'exemple ci-dessous montrera un maximum de 20 et un minimum de 5 lignes lors de l'impression de DataFrame.

In [29]:
import pandas as pd

# maximum de ligne a afficher 
pd.options.display.max_rows = 20

# minimum de ligne a afficher
pd.set_option("display.min_rows", 5)

# Print DataFrame
print(cars)

    index      company   body-style  wheel-base  length engine-type  \
0       0  alfa-romero  convertible        88.6   168.8        dohc   
1       1  alfa-romero  convertible        88.6   168.8        dohc   
..    ...          ...          ...         ...     ...         ...   
59     87        volvo        sedan       104.3   188.8         ohc   
60     88        volvo        wagon       104.3   188.8         ohc   

   num-of-cylinders  horsepower  average-mileage    price  
0              four         111               21  13495.0  
1              four         111               21  16500.0  
..              ...         ...              ...      ...  
59             four         114               23  12940.0  
60             four         114               23  13415.0  

[61 rows x 10 columns]


## Métadonnées DataFrame

Parfois, nous devons obtenir les métadonnées du DataFrame et non le contenu qu'il contient. Ces informations de métadonnées sont utiles pour comprendre le DataFrame car elles donnent plus de détails sur le DataFrame que nous devons traiter.

Dans cette section, nous couvrons les fonctions qui fournissent ces informations sur le DataFrame.

Prenons un exemple de DataFrame étudiant qui contient **'Name'**, **'Age'** et **'Marks'** des étudiants comme indiqué ci-dessous :

```python
    Name      Age  Marks
0   Diallo   20    85.10
1   Bah      21    77.80
2   Deme     19    91.54
```

### Informations sur les métadonnées de DataFrame

**`DataFrame.info()`** est une fonction de DataFrame qui donne les métadonnées de DataFrame. Qui comprend,

* Nombre de lignes et sa plage d'index
* Nombre total de colonnes
* Liste des colonnes
* Compte du nombre total de valeurs non nulles dans la colonne
* Type de données de la colonne
* Nombre de colonnes dans chaque type de données
* Utilisation de la mémoire par le DataFrame

In [9]:
# Example: Dans l'exemple ci-dessous, nous avons obtenu les informations de métadonnées de l'étudiant DataFrame.

student_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    2 non-null      object 
 1   Age     2 non-null      int64  
 2   Marks   2 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 180.0+ bytes


### Obtenir les statistiques de DataFrame

**`DataFrame.describe()`** est une fonction qui donne des statistiques mathématiques des données dans DataFrame. Mais, cela s'applique aux **colonnes qui contiennent des valeurs numériques**.

Dans notre exemple de DataFrame étudiant, il donne des statistiques descriptives des colonnes **'Age'** et **'Marks'** uniquement, qui incluent :

1. **count** : nombre total de valeurs non nulles dans la colonne
2. **mean** : une moyenne de nombres
3. **std** : une valeur d'écart type
4. **min** : valeur minimale
5. **25 %** : 25e centile
6. **50 %** : 50e centile
7. **75 %** : 75e centile
8. **max** : valeur maximale

>**Remarque :** La sortie de la fonction **`DataFrame.describe()`** varie en fonction de l'entrée DataFrame.

In [10]:
# Exemple

student_df.describe()

Unnamed: 0,Age,Marks
count,2.0,2.0
mean,22.5,81.45
std,0.707107,5.16188
min,22.0,77.8
25%,22.25,79.625
50%,22.5,81.45
75%,22.75,83.275
max,23.0,85.1


## Attributs DataFrame

DataFrame a fourni de nombreux attributs intégrés. Les attributs ne modifient pas les données sous-jacentes, contrairement aux fonctions, mais ils sont utilisés pour obtenir plus de détails sur le DataFrame.

Voici les attributs principalement utilisés du DataFrame :

| Attribut | Description |
|:---- |:---- |
| **`DataFrame.index`** | **Il donne la plage de l'index de ligne** |
| **`DataFrame.columns`** | **Il donne une liste d'étiquettes de colonnes** |
| **`DataFrame.dtypes`** | **Il donne les noms des colonnes et leur type de données** |
| **`DataFrame.values`** | **Il donne toutes les lignes de DataFrame** |
| **`DataFrame.empty`** | **Il est utilisé pour vérifier si le DataFrame est vide** |
| **`DataFrame.size`** | **Il donne un nombre total de valeurs dans DataFrame** |
| **`DataFrame.shape`** | **C'est un nombre de lignes et de colonnes dans DataFrame** |

In [11]:
# Exemple:

import pandas as pd

# Creer  un Dataframe a partir d'un dictionnaire
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)

print("DataFrame :\n ", student_df)

print("DataFrame Index : ", student_df.index)
print("DataFrame Columns : ", student_df.columns)

print("DataFrame Column types : ", student_df.dtypes)

print("DataFrame is empty? : ", student_df.empty)

print("DataFrame Shape : ", student_df.shape)
print("DataFrame Size : ", student_df.size)

print("DataFrame Values : ", student_df.values)

DataFrame :
       Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
DataFrame Index :  RangeIndex(start=0, stop=3, step=1)
DataFrame Columns :  Index(['Name', 'Age', 'Marks'], dtype='object')
DataFrame Column types :  Name      object
Age        int64
Marks    float64
dtype: object
DataFrame is empty? :  False
DataFrame Shape :  (3, 3)
DataFrame Size :  9
DataFrame Values :  [['Diallo' 20 85.1]
 ['Bah' 21 77.8]
 ['Ndiaye' 19 91.54]]


## Sélection de DataFrame

Lorsqu'il traite de vastes données dans DataFrame, un analyste de données doit toujours sélectionner une ligne ou une colonne particulière pour l'analyse. Dans de tels cas, les fonctions qui peuvent choisir un ensemble de lignes ou de colonnes telles que les lignes supérieures, les lignes inférieures ou les données dans une plage d'index jouent un rôle important.

Voici les fonctions qui aident à sélectionner le sous-ensemble du DataFrame :

| Attribut | Description |
|:---- |:---- |
| **`DataFrame.head(n)`** | **Il est utilisé pour sélectionner les 'n' premières lignes dans DataFrame.** |
| **`DataFrame.tail(n)`** | **Il est utilisé pour sélectionner les 'n' dernières lignes dans DataFrame.** |
| **`DataFrame.at`** | **Il est utilisé pour obtenir et définir la valeur particulière de DataFrame à l'aide d'étiquettes de ligne et de colonne.** |
| **`DataFrame.iat`** | **Il est utilisé pour obtenir et définir la valeur particulière de DataFrame en utilisant les positions d'index de ligne et de colonne.** |
| **`DataFrame.get(key)`** | **Il est utilisé pour obtenir la valeur d'une clé dans DataFrame où Key est le nom de la colonne.** |
| **`DataFrame.loc()`** | **Il est utilisé pour sélectionner un groupe de données en fonction des étiquettes de ligne et de colonne. Il est utilisé pour le découpage et le filtrage du DataFrame.** |
| **`DataFrame.iloc()`** | **Il est utilisé pour sélectionner un groupe de données en fonction de la position de l'index de ligne et de colonne. Utilisez-le pour découper et filtrer le DataFrame.** |

In [31]:
# Exemple

import pandas as pd

# Creer un DataFrame a partir d'un dict
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)

# afficher un dataframe
print("DataFrame : ", student_df)

# selectionner les deux premières
print(student_df.head(1))

# selectionner les deux dernières lignes
print(student_df.tail(1))

# selectionner la valeur a row index 0 et column 'Name'
print(student_df.at[0, 'Name'])

# selectionner la valeur à la premeire ligne et premiere colonne
print(student_df.iat[0, 0])

# selectionner les valeurs de la colonne 'Name'
print(student_df.get('Age'))

# selectionner les valeurs de la ligne 0 à la ligne 2 et la colonne 'Name' 
print(student_df.loc[0:2, ['Name']])

# selectionner les valeurs de la ligne 0 à 2(exclusive) et la colonne position 0 à 2(exclusive)
print(student_df.iloc[0:2, 0:2])

DataFrame :       Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Age  Marks
0  Diallo   20   85.1
     Name  Age  Marks
2  Ndiaye   19  91.54
Diallo
Diallo
0    20
1    21
2    19
Name: Age, dtype: int64
     Name
0  Diallo
1     Bah
2  Ndiaye
     Name  Age
0  Diallo   20
1     Bah   21


## Modification du DataFrame


DataFrame est similaire à n'importe quelle feuille Excel ou à une table de base de données où nous devons insérer de nouvelles données ou **[drop columns (supprimer des colonnes)](001_Python_Pandas_Methods/004_Python_Pandas_DataFrame_drop_columns.ipynb)** et des lignes si ce n'est pas nécessaire. De telles opérations de manipulation de données sont très courantes sur un DataFrame.

Dans cette section, nous discutons des fonctions de manipulation de données du DataFrame.

### Insérer des colonnes

Parfois, il est nécessaire d'ajouter une nouvelle colonne dans le DataFrame. **`DataFrame.insert()`** La fonction est utilisée pour insérer une nouvelle colonne dans DataFrame à la position spécifiée.

Dans l'exemple ci-dessous, nous insérons une nouvelle colonne **'Class'** en tant que troisième nouvelle colonne dans le DataFrame avec la valeur par défaut '**A**' en utilisant la syntaxe :

```python
df.insert(loc = col_position, colonne = nouveau_col_nom, valeur = valeur_par_défaut)
```

In [40]:
# Exemple:

import pandas as pd

# Creer un DataFrame a partir d'un dict
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}
student_df = pd.DataFrame(student_dict)
print(student_df)

# inserer une nouvelle colonne dans dataframe et afficher
student_df.insert(loc=2, column="Class", value='A')
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Age Class  Marks
0  Diallo   20     A  85.10
1     Bah   21     A  77.80
2  Ndiaye   19     A  91.54


### Supprimer les colonnes

DataFrame peut contenir des données redondantes, dans de tels cas, nous devrons peut-être supprimer ces données qui ne sont pas nécessaires. 
**`DataFrame.drop()`** La fonction est utilisée pour **[delete the columns from DataFrame](001_Python_Pandas_Methods/004_Python_Pandas_DataFrame_drop_columns.ipynb)**. 

Consultez les notebooks suivants pour obtenir plus de détails

* **[Supprimer les doublons](001_Python_Pandas_Methods/005_Python_Pandas_DataFrame_drop_duplicates.ipynb)**
* **[Supprimer les colonnes avec NA](001_Python_Pandas_Methods/006_Python_Pandas_DataFrame_drop_columns_with_NA.ipynb)**

Dans l'exemple ci-dessous, nous supprimons la colonne "**Age**" du DataFrame étudiant en utilisant **`df.drop(columns=[col1,col2...])`** .

In [33]:
import pandas as pd

# Creer un DataFrame a partir d'un dict
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)
print(student_df)

# supprimer une colonne a partir du dataframe
student_df=student_df.drop(columns='Age')
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Marks
0  Diallo  85.10
1     Bah  77.80
2  Ndiaye  91.54


### Appliquer une condition

Nous devrons peut-être mettre à jour la valeur dans le DataFrame en fonction de certaines conditions. La fonction **`DataFrame.where() `** est utilisée pour remplacer la valeur de DataFrame, où la condition est **`False`**.

**Syntaxe :**
```python
where(filter, other=new_value)
```

Il applique la condition de filtre sur toutes les lignes du DataFrame, comme suit :

* Si la condition de filtre renvoie **`False`**, elle met à jour la ligne avec la valeur spécifiée dans le paramètre **`other`**.
* Si la condition de filtre renvoie **`True`**, la ligne n'est pas mise à jour.

Dans l'exemple ci-dessous, nous voulons remplacer les notes de l'élève par '0' lorsque les notes sont inférieures à 80. Nous passons une condition de filtre **`df['Marks']> 80`** à la fonction.

In [45]:
import pandas as pd

# Creer un DataFrame a partir d'un dict
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)
print(student_df)

# Définir la condition du filtre
filter = student_df['Marks'] > 80

student_df['Marks'].where(filter, other=0, inplace=True)
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21   0.00
2  Ndiaye   19  91.54


## Colonnes de filtre DataFrame

Les ensembles de données contiennent des données massives qui doivent être analysées. Mais, parfois, nous pouvons vouloir analyser les données pertinentes et filtrer toutes les autres données. Dans un tel cas, nous pouvons utiliser la fonction **`DataFrame.filter() `** pour récupérer uniquement les données requises à partir de DataFrame.

Il renvoie le sous-ensemble du DataFrame en appliquant des conditions sur chaque index de ligne ou étiquette de colonne comme spécifié à l'aide de la syntaxe ci-dessous.

**Syntaxe :**
```python
df.filter(like = filter_cond, axis = 'columns' ou 'index')
```

Il applique la condition sur chaque index de ligne ou étiquette de colonne.

* Si la condition est réussie, elle inclut cette ligne ou colonne dans le DataFrame résultant.
* Si la condition a échoué, cela signifie qu'elle n'a pas cette ligne ou cette colonne dans le DataFrame résultant.

>**Remarque :** Il applique le filtre sur l'index de ligne ou l'étiquette de colonne, et non sur les données réelles.

Dans l'exemple ci-dessous, nous incluons uniquement la colonne avec une étiquette de colonne qui commence par "**N**".

In [35]:

import pandas as pd

# Creer un dataframe a partir d'un dictionnaire
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)
print(student_df)

# appliquer le filtre sur le dataframe
student_df = student_df.filter(like='N', axis='columns')
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name
0  Diallo
1     Bah
2  Ndiaye


## DataFrame renommer les colonnes

Lorsque vous travaillez avec DataFrame, nous devrons peut-être **[renommer la colonne](001_Python_Pandas_Methods/007_Python_Pandas_DataFrame_rename_columns.ipynb)** ou un index de ligne. Nous pouvons utiliser la fonction **`DataFrame.rename()`** pour modifier les étiquettes de ligne ou de colonne.

Nous devons transmettre un dictionnaire de paires clé-valeur en entrée à la fonction. Où la clé de **`dict`** est l'étiquette de colonne existante et la valeur de **`dict`** est la nouvelle étiquette de colonne.

```python
df.rename(columns = {'old':'new'})
```

Il peut être utilisé pour renommer une ou plusieurs colonnes et étiquettes de ligne.

Dans l'exemple ci-dessous, nous renommons la colonne '**Marks**' en '**Percentage**' dans le DataFrame étudiant.

In [34]:
import pandas as pd

# Create DataFrame from dict
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}

student_df = pd.DataFrame(student_dict)
print(student_df)

# rename column
student_df = student_df.rename(columns={'Marks': 'Percentage'})
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Age  Percentage
0  Diallo   20       85.10
1     Bah   21       77.80
2  Ndiaye   19       91.54


## Joindre DataFrame

Dans la plupart des cas d'utilisation de Data Analytics, les données sont collectées à partir de plusieurs sources et nous devons combiner ces données pour une analyse plus approfondie. Dans de tels cas, des opérations de jointure et de fusion sont nécessaires.

**`DataFrame.join()`** La fonction est utilisée pour joindre un DataFrame avec un autre DataFrame en tant que **`df1.join(df2)`**

Dans l'exemple ci-dessous, nous avons joint deux DataFrames différents pour créer un nouveau DataFrame résultant.

In [37]:
import pandas as pd

# creer un dataframe a partir d'un dictionnaire 
student_dict = {'Name': ['Diallo', 'Bah'], 'Age': [20, 21]}
student_df = pd.DataFrame(student_dict)
print(student_df)

# creer un dataframe a partir d'un dictionnaire 
marks_dict = {'Marks': [85.10, 77.80]}
marks_df = pd.DataFrame(marks_dict)
print(marks_df)

# joindre les dfs
joined_df = student_df.join(marks_df)
print(joined_df)

     Name  Age
0  Diallo   20
1     Bah   21
   Marks
0   85.1
1   77.8
     Name  Age  Marks
0  Diallo   20   85.1
1     Bah   21   77.8


## DataFrame GroupBy

L'opération **`GroupBy`** consiste à diviser les données, puis à les combiner en fonction de certaines conditions. Les données volumineuses peuvent être divisées en groupes logiques pour les analyser.

La fonction **`DataFrame.groupby()`** regroupe le DataFrame par ligne ou par colonne en fonction de la condition.

Si nous voulons analyser les notes moyennes de chaque classe, nous devons combiner les données des élèves en fonction de la colonne "Classe" et calculer sa moyenne en utilisant **`df.groupby(col_label).mean()`** comme montré dans l'exemple ci-dessous.

In [21]:
import pandas as pd

# Creer un dataframe a partir d'un dictionnaire
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Class': ['A', 'B', 'A'], 'Marks': [85.10, 77.80, 91.54]}
student_df = pd.DataFrame(student_dict)
print(student_df)

# appliquer group by 
student_df.groupby('Class')['Marks'].mean()
print(student_df)

     Name Class  Marks
0  Diallo     A  85.10
1     Bah     B  77.80
2  Ndiaye     A  91.54
     Name Class  Marks
0  Diallo     A  85.10
1     Bah     B  77.80
2  Ndiaye     A  91.54


## Itération de DataFrame

L'itération DataFrame signifie visiter chaque élément du DataFrame un par un. Lors de l'analyse d'un DataFrame, nous devrons peut-être parcourir chaque ligne du DataFrame.

Il existe plusieurs façons d'itérer un DataFrame. Nous verrons la fonction **`DataFrame.iterrows()`**, qui peut boucler une DataFrame ligne par ligne. Il renvoie l'index et la ligne du DataFrame à chaque itération de la boucle for.

In [39]:
import pandas as pd

# Creer un dictionnaire a partir d'un dictionnaire
student_dict = {'Name': ['Diallo', 'Bah'], 'Age': [20, 21], 'Marks': [85, 77]}
student_df = pd.DataFrame(student_dict)

# Iterer toutes les lignes du dataframe
for index, row in student_df.iterrows():
    print(index, row)

0 Name     Diallo
Age          20
Marks        85
Name: 0, dtype: object
1 Name     Bah
Age       21
Marks     77
Name: 1, dtype: object


## Tri des dataframes

Le Data Analyst doit toujours effectuer différentes opérations sur les données sous-jacentes telles que la fusion, le tri, la concaténation, etc. L'opération la plus fréquemment utilisée est le tri des données. Les données triées deviennent faciles à analyser et à déduire.

La fonction **`DataFrame.sort_values()`** est utilisée pour trier le DataFrame en utilisant une ou plusieurs colonnes dans l'ordre croissant (par défaut) ou décroissant.

Dans l'exemple ci-dessous, nous trions les données des étudiants en fonction des '**Marks**'.

In [22]:
import pandas as pd

# Creer un dataframe a partir d'un dictionnaire
student_dict = {'Name': ['Diallo', 'Bah', 'Ndiaye'], 'Age': [20, 21, 19], 'Marks': [85.10, 77.80, 91.54]}
student_df = pd.DataFrame(student_dict)
print(student_df)

# trier par la colonne 'Marks'
student_df = student_df.sort_values(by=['Marks'])
print(student_df)

     Name  Age  Marks
0  Diallo   20  85.10
1     Bah   21  77.80
2  Ndiaye   19  91.54
     Name  Age  Marks
1     Bah   21  77.80
0  Diallo   20  85.10
2  Ndiaye   19  91.54


## Conversion de DataFrame

Après tout le traitement sur DataFrame, nous obtiendrons les données attendues dans le DataFrame. Mais, nous pouvons avoir besoin de reconvertir le DataFrame dans ses formats d'origine comme le fichier CSV ou **`dict`**, ou nous pouvons avoir besoin de le convertir dans un autre format pour une action ultérieure comme le stocker dans la base de données en tant que Format de tableau SQL.

Pandas fournit de nombreuses fonctions pour convertir les DataFrames dans de nombreux formats différents.

Par exemple, la fonction **`DataFrame.to_dict()`** est utilisée pour convertir le **[DataFrame en un dictionnaire Python](001_Python_Pandas_Methods/008_Python_Pandas_DataFrame_to_Python_dictionary.ipynb)** objet.

Vous trouverez ci-dessous l'exemple d'un DataFrame que nous devons convertir en Python **`dict`**.

```python
    Name  Class Marks
0    Joe     A  85.10
1    Nat     B  77.80
2  Harry     A  91.54
```

Voyons comment nous pouvons utiliser la fonction **`DataFrame.to_dict()`** pour convertir le DataFrame dans le dictionnaire Python. Par défaut, il crée le dictionnaire avec des clés comme étiquettes de colonne et des valeurs comme mappage de l'index de ligne et des données.

In [52]:
# convertir un dataframe en dictionnaire
dict = student_df.to_dict()
print(dict)



{'Name': {2: 'Ndiaye', 0: 'Diallo', 1: 'Bah'}, 'Age': {2: 19, 0: 20, 1: 21}, 'Marks': {2: 91.54, 0: 85.1, 1: 77.8}}


# Résumé:

## Créer des objets de test

| Opérateur | Description |
|:---- |:---- |
| **`pd.DataFrame(np.random.rand(20,5))`** | **5 colonnes et 20 lignes de flottants aléatoires** |
| **`pd.Series(my_list)`** | **Créer une série à partir d'une my_list itérable** |
| **`df.index = pd.date_range('1900/1/30', périodes=df.shape[0])`** | **Ajouter un index de date** |

## Affichage/Inspection des données

| Opérateur | Description |
|:---- |:---- |
| **`df.head(n)`** | **Premières n lignes du DataFrame** |
| **`df.tail(n)`** | **Dernières n lignes du DataFrame** |
| **`df.shape`** | **Nombre de lignes et de colonnes** |
| **`df.info()`** | **Informations sur l'index, le type de données et la mémoire** |
| **`df.describe()`** | **Statistiques récapitulatives pour les colonnes numériques** |
| **`s.value_counts(dropna=False)`** | **Afficher les valeurs et les nombres uniques** |
| **`df.apply(pd.Series.value_counts)`** | **Valeurs et nombres uniques pour toutes les colonnes** |

## Sélection

| Opérateur | Description |
|:---- |:---- |
| **`df[col]`** | **Renvoie la colonne avec l'étiquette col comme Series** |
| **`df[[col1, col2]]`** | **Renvoie les colonnes sous la forme d'un nouveau DataFrame** |
| **`s.iloc[0]`** | **Sélection par position** |
| **`s.loc['index_one']`** | **Sélection par index** |
| **`df.iloc[0,:]`** | **première ligne** |
| **`df.iloc[0,0]`** | **Premier élément de la première colonne** |

## Nettoyage des données

| Opérateur | Description |
|:---- |:---- |
| **`df.columns = ['a','b','c']`** | **Renommer les colonnes** |
| **`pd.isnull()`** | **Vérifie les valeurs nulles, renvoie un tableau booléen** |
| **`pd.notnull()`** | **Opposé de pd.isnull()** |
| **`df.dropna()`** | **Supprimer toutes les lignes contenant des valeurs nulles** |
| **`df.dropna(axis=1)`** | **Supprimer toutes les colonnes contenant des valeurs nulles** |
| **`df.dropna(axis=1,thresh=n)`** | **Supprimer toutes les lignes ont moins de n valeurs non nulles** |
| **`df.fillna(x)`** | **Remplacer toutes les valeurs nulles par x** |
| **`s.fillna(s.mean())`** | **Remplacer toutes les valeurs nulles par la moyenne** |
| **`s.astype(float)`** | **Convertir le type de données de la série en float** |
| **`s.replace(1,'one')`** | **Remplacer toutes les valeurs égales à 1 par 'one'** |
| **`s.replace([2,3],['two', 'three'])`** | **Remplacer tous les 2 par 'two' et 3 par 'three'** |
| **`df.rename(columns=lambda x: x + 1)`** | **Renommage en masse des colonnes** |
| **`df.rename(columns={'old_name': 'new_ name'})`** | **Renommage sélectif** |
| **`df.set_index('column_one')`** | **Modifier l'index** |
| **`df.rename(index=lambda x : x + 1)`** | **Renommer en masse l'index** |

## Filtrer, Trier et Regrouper

| Opérateur | Description |
|:---- |:---- |
| **`df[df[col] > 0.6]`** | **Lignes où la colonne col est supérieure à 0.6** |
| **`df[(df[col] > 0.6) & (df[col] < 0.8)]`** | **Lignes où 0.8 > col > 0.6** |
| **`df.sort_values(col1)`** | **Trier les valeurs par col1 dans l'ordre croissant** |
| **`df.sort_values(col2,ascending=False)`** | **Trier les valeurs par col2 dans l'ordre décroissant.5** |
| **`df.sort_values([col1,col2],ascending=[True,False])`** | **Trier les valeurs par col1 dans l'ordre croissant puis col2 dans l'ordre décroissant** |
| **`df.groupby(col)`** | **Renvoie un objet groupby pour les valeurs d'une colonne** |
| **`df.groupby([col1,col2])`** | **Renvoie l'objet groupby pour les valeurs de plusieurs colonnes** |
| **`df.groupby(col1)[col2]`** | **Renvoie la moyenne des valeurs de col2, regroupées par les valeurs de col1** |
| **`df.pivot_table(index=col1,values=[col2,col3],aggfunc=mean)`** | **Créer un tableau croisé dynamique qui regroupe par col1 et calcule la moyenne de col2 et col3** |
|**`df.groupby(col1).agg(np.mean)`**|**Trouvez la moyenne sur toutes les colonnes pour chaque groupe col1 unique**|
|**`df.apply(np.mean)`**|**Appliquer la fonction np.mean() sur chaque colonne** |
|**`nf.apply(np.max,axis=1)`** |**Appliquez la fonction np.max() sur chaque ligne** |

## Joindre/Combiner

| Opérateur | Description |
|:---- |:---- |
| **`df1.append(df2)`** | **Ajouter les lignes de df1 à la fin de df2 (les colonnes doivent être identiques)** |
| **`pd.concat([df1, df2],axis=1)`** | **Ajouter les colonnes de df1 à la fin de df2 (les lignes doivent être identiques)** |
| **`df1.join(df2,on=col1, how='inner')`** | **Joindre de style SQL les colonnes de df1 avec les colonnes de df2 où les lignes pour col ont des valeurs identiques. Le 'how' peut être 'gauche', 'droit', 'extérieur' ou 'intérieur'** |

## Statistiques

| Opérateur | Description |
|:---- |:---- |
| **`df.describe()`** | **Statistiques récapitulatives pour les colonnes numériques** |
| **`df.mean()`** | **Renvoie la moyenne de toutes les colonnes** |
| **`df.corr()`** | **Renvoie la corrélation entre les colonnes d'un DataFrame** |
| **`df.count()`** | **Renvoie le nombre de valeurs non nulles dans chaque colonne DataFrame** |
| **`df.max()`** | **Renvoie la valeur la plus élevée dans chaque colonne** |
| **`df.min()`** | **Renvoie la valeur la plus basse dans chaque colonne** |
| **`df.median()`** | **Renvoie la médiane de chaque colonne** |
| **`df.std()`** | **Renvoie l'écart type de chaque colonne** |

## Importation de données

| Opérateur | Description |
|:---- |:---- |
| **`pd.read_csv(filename)`** || **Depuis un fichier CSV** |
| **`pd.read_table(filename)`** | **À partir d'un fichier texte délimité (comme TSV)** |
| **`pd.read_excel(filename)`** | **Depuis un fichier Excel** |
| **`pd.read_sql(query, connection_object)`** | **Lire depuis une table/base de données SQL** |
| **`pd.read_json(json_string)`** | **Lire à partir d'une chaîne, d'une URL ou d'un fichier au format JSON.** |
| **`pd.read_html(url)`** | **Analyse une URL HTML, une chaîne ou un fichier et extrait des tables vers une liste de dataframes** |
| **`pd.read_clipboard()`** | **Prend le contenu de votre presse-papiers et le passe à read_table()** |
| **`pd.DataFrame(dict)`** | **À partir d'un dict, clés pour les noms de colonnes, valeurs pour les données sous forme de listes** |

## Exportation de données

| Opérateur | Description |
|:---- |:---- |
| **`df.to_csv(filename)`** | **Écrire dans un fichier CSV** |
| **`df.to_excel(filename)`** | **Écrire dans un fichier Excel** |
| **`df.to_sql(table_name, connection_object)`** | **Écrire dans une table SQL** |
| **`df.to_json(filename)`** | **Écrire dans un fichier au format JSON** |