***
# **<center>COURS PYTHON 2IMACS #7</center>**
# ***<center>Pandas</center>***

***

Pandas est une bibliothèque utilisée pour la manipulation et l'analyse des données. Elle offre des structures de données efficaces (les DataFrames) pour organiser, filtrer, trier et agréger les données. Pandas facilite également l'importation et l'exportation de données à partir de divers formats, tels que CSV, Excel et bases de données.

In [None]:
import pandas as pd

# 7-1 Charger les données et premier apperçu

Chargeons les données à partir du fichier CSV. Pandas prend en charge de nombreux format des données dont le csv

In [None]:
df = pd.read_csv('fichiers_cours/pandas/WineQT.csv')

*Remarque: Ces données peuvent être téléchargées parmi des centaines de dataset sur le site https://www.kaggle.com/datasets .  
Ce site contient également de nobreux notebooks d'explorations de ces datasets, vous pouvez également y faire de compétitions de science des données!!!*

Affichons un aperçu des premières lignes du DataFrame

In [None]:
df.head()

Ce dataset contient des informations sur des vins portugais de type "Vinho Verde". Il a pour but de relier des propriétés chimiques à la qualité du vin.

| No. | Feature              | Type               | Description                                                                                                                  |
|-----|----------------------|--------------------|------------------------------------------------------------------------------------------------------------------------------|
| 1   | Fixed Acidity        | Numeric, Continuous | Amount of non-volatile acids present, contributes to the overall balance and freshness of wine's taste.                      |
| 2   | Volatile Acidity     | Numeric, Continuous | The portion of the wine's acidity that can be detected by smell.                                                             |
| 3   | Citric Acid          | Numeric, Continuous | Sometimes added to increase acidity and enhance flavor; also used in wine collection and filter cleaning.                     |
| 4   | Residual Sugar       | Numeric, Continuous | Sugar from the grapes that was not fermented into alcohol during the wine-making process.                                     |
| 5   | Chlorides            | Numeric, Continuous | Minerals that can influence the wine's taste, including salinity.                                                            |
| 6   | Free Sulfur Dioxide  | Numeric, Continuous | A preservative used for its antioxidant and antimicrobial properties; prevents growth of harmful microorganisms.             |
| 7   | Total Sulfur Dioxide | Numeric, Continuous | The total amount of sulfur dioxide present in the wine, whether free or bound to other compounds.                            |
| 8   | Density              | Numeric, Continuous | Determined by its alcohol and sugar concentrations. Most wines have a density less than water.                                |
| 9   | pH                   | Numeric, Continuous | A measure of the acidity of the wine. Wines typically have a pH level between 2.9 and 4.2.                                  |
| 10  | Sulphates            | Numeric, Continuous | A byproduct of the yeast fermentation process and are naturally present in all wines.                                       |
| 11  | Alcohol              | Numeric, Continuous | Influenced by factors such as the grape variety, the sugar content in the grapes, the production process, etc.               |
| 12  | Quality              | Numeric, Discrete  | An expert rating of the wine's overall quality.                                                                              |


On peut aller voir d'autres lignes avec iloc, par exemple de la 5<sup>ème</sup> à la 19<sup>ème</sup>.

In [None]:
df.iloc[5:20]

Demandons les dimensions du tableau (nombre de lignes et de colonnes). Ce code renvoie un tuple contenant le nombre de lignes et de colonnes du DataFrame

In [None]:
df.shape

Et le nom des colonnes du DataFrame. Le tableau est de type numpy.ndarray.

In [None]:
df.columns.values 

Pour obtenir une vision plus complète du jeu de données, demandons des statistiques sur les valeurs.

In [None]:
df.describe()

| Statistique | Description |
|---|---|
| count |Le nombre de valeurs non nulles dans chaque colonne. |
| mean |La moyenne des valeurs dans chaque colonne. |
| std |L'écart type des valeurs dans chaque colonne. |
| min |La valeur minimale dans chaque colonne. |
| 25% |La valeur située au 25ème percentile dans chaque colonne. C'est-à-dire la valeur qui est supérieure à 25 % des valeurs de la colonne et inférieure à 75 % des valeurs de la colonne. |
| 50% |La valeur médiane dans chaque colonne. C'est-à-dire la valeur qui est supérieure à 50 % des valeurs de la colonne et inférieure à 50 % des valeurs de la colonne. |
| 75% |La valeur située au 75ème percentile dans chaque colonne. C'est-à-dire la valeur qui est supérieure à 75 % des valeurs de la colonne et inférieure à 25 % des valeurs de la colonne. |
| max |La valeur maximale dans chaque colonne. |

Les informations générales, en particulier les types de données contenus dans le dataframe

In [None]:
df.info() 

Les données sont pour la plupart des floats, sauf la qualité et le numero qui sont des entiers. On remarque que l'on a 1139 valeurs dans fixed acidity et 1143 dans les autres. Il peut arriver que les jeux de données ne soient pas complets, de valeurs peuvent manquer. Vérifions avec **df.isnull**

# 7-2 Gestion des données manquantes

Comptons les valeurs manquantes par colonne

In [None]:
df.isnull().sum()

Nous avons plusieurs options:


| Opération                              | Description                                                                                    |
|----------------------------------------|------------------------------------------------------------------------------------------------|
| `df.dropna()`                          | Supprime les lignes contenant des valeurs manquantes.                                        |
| `df.dropna(axis=1)`                    | Supprime les colonnes contenant des valeurs manquantes.                                      |
| `df.fillna(method='bfill')`            | Remplace les valeurs manquantes par les valeurs suivantes de chaque colonne.                  |
| `df.fillna(method='ffill')`            | Remplace les valeurs manquantes par les valeurs précédentes de chaque colonne.                |
| `df.fillna(method='mean')`             | Remplace les valeurs manquantes par la moyenne des valeurs non manquantes de chaque colonne.   |
| `df.fillna(method='median')`           | Remplace les valeurs manquantes par la médiane des valeurs non manquantes de chaque colonne.  |


Dans notre cas, les valeur manquantes concernent 4 lignes sur 1143, supprimons les lignes contenant des valeurs manquante

In [None]:
print('dimensions avant : ',df.shape)
df.dropna(inplace=True)# remplacer le dataframe par sa version sans valeurs manquantes
print('dimensions avant : ',df.shape)

# 7-3 Suppression de colonne ou lignes et tris

## 7-3-1 Suppression de colonnes

Dans notre dataset, on remarque que on a une colonne Id qui semble être un numero d'identication. Ici, il ne nous apportera pas d'information, supprimons cette colonne

In [None]:
print('Avant: ')
df.head()

In [None]:
df = df.drop("Id", axis=1)

In [None]:
print('Après: ')
df.head()

## 7-3-3 Suppression de lignes

Nous avons vu comment supprimer des lignes dans le cas où elles contiennent des valeurs manquantes. Il est aussi possible de supprimer des lignes suivant leur numero (ou indice). Dans certains tableau les lignes peuvent avoir un nom, dans ce cas, on pourra appliquer drop à partir de ce nom.

In [None]:
print(df.shape)
df_sup_lig = df.drop(index=2)
print(df_sup_lig.shape)

## 7-3-4 Selection de lignes suivant des conditions

Sélectionnons, par exemple, les lignes du DataFrame df où la teneur en chlorures est inférieure à 0,1 et la teneur en alcool est supérieure à 12.

In [None]:
print(df.shape)
df_condition1 = df.query("chlorides < 0.1 & alcohol > 12")
print(df_condition1.shape)

In [None]:
df_condition1.describe()

Une autre option est d'utiliser la fonction **where** qui conserve les lignes mais supprime les valeurs et les remplace par **NaN** (Not a Number). Il faudra ensuite supprimer les lignes contenant les données manquantes.

In [None]:
print(df.shape)
# on définit la partie du tableau répondant aux conditions
df_condition2 =  df.where((df['chlorides'] < 0.1) & (df['alcohol'] > 12)) 
print(df_condition2.shape)

In [None]:
df_condition2.describe()

In [None]:
df_condition2.iloc[90:100]

## 7-3-5 Tris

On peut trier les lignes suivant la valeur d'une colonne. Trions par exemple les données par notes de qualité croissantes

In [None]:
df_sorted = df.sort_values('quality')
df_sorted.head()

On peut choisir, en cas d'égalité de trier par la valeur de 'alcohol'

In [None]:
df_sorted = df.sort_values(['quality', 'alcohol'])
df_sorted.head()

On peut choisir de trier dans l'ordre decroissant

In [None]:
df_sorted = df.sort_values(['quality', 'alcohol'], ascending=[False, False])
df_sorted.head()

[Exercice 1](exercices/Exercices7.ipynb)

# 7-4 Répartitions des données

Regardons maintenant comment se repartissent les qualités avec un histogramme. Traçons ici l'histogramme des qualités, de manière à visualiser le nombre d'occurence de chaque note.

In [None]:
import matplotlib.pyplot as plt

# Créer la figure et les axes
fig, ax = plt.subplots()

# Tracer l'histogramme
ax.hist(df['quality'], bins=11)

# Ajouter des labels aux axes
ax.set_xlabel('Quality')
ax.set_ylabel('Frequency')

# Personnaliser les intervalles de l'axe des x
x_ticks = range(0, 11)  # Plage de 0 à 10
plt.xticks(x_ticks)

# Afficher la figure
plt.show()


Comptons le nombre d'occurence pour chaque note de qualité avec **value_counts**

In [None]:
for i in range(11): 
    
    counts = df['quality'].value_counts().get(i, 0)

    print("Nombre d'occurrences avec quality",i,"=", counts)

Regardons la répartition des valeurs pour chaque colonne. **df.hist()** permet une visualisation de l'ensemble des données.

In [None]:
df.hist(bins=30, figsize=(10,15)) # bins représente le nombre de barres de l'histogramme
plt.show()

Utilisons les boxplot pour une visualisation des données complementaires.

In [None]:

# Créer la figure et les sous-graphiques
fig, axes = plt.subplots(4, 3, figsize=(12, 12))

# Boucle pour tracer les boîtes à moustaches de chaque colonne
for i, column in enumerate(df.columns):
    # Calcul des indices de la position du sous-graphique
    row = i // 3
    col = i % 3
    
    # Tracer la boîte à moustaches de la colonne sur le sous-graphique correspondant
    axes[row, col].boxplot(df[column])
    axes[row, col].set_xlabel(column)
    axes[row, col].set_ylabel('Value')
    axes[row, col].set_title('Boxplot of ' + column)

# Ajuster l'espacement entre les sous-graphiques
plt.tight_layout()

# Afficher la figure
plt.show()


Pour la lecture des Boxplots:

![boxplot](fichiers_cours/pandas/boxplot.png)

- La boîte représente l'étendue interquartile (IQR) des données, c'est-à-dire la plage entre le premier quartile (Q1) et le troisième quartile (Q3). La longueur de la boîte indique la dispersion des données dans cette plage.
    - Le premier quartile (Q1) est la valeur qui divise les données en deux parties, où environ 25% des données sont inférieures à Q1. Cela signifie que 25% des valeurs se trouvent en dessous de Q1.

    - Le troisième quartile (Q3) est la valeur qui divise les données en deux parties, où environ 75% des données sont inférieures à Q3. Cela signifie que 75% des valeurs se trouvent en dessous de Q3.

- La médiane : La ligne orange à l'intérieur de la boîte représente la médiane, qui est la valeur qui divise l'échantillon en deux parties égales. Elle indique la valeur centrale de la distribution.

- Les moustaches : Les moustaches s'étendent à partir de la boîte et représentent la dispersion des données en dehors de l'IQR (inter quartile range). Les moustaches peuvent être dessinées de différentes manières, mais généralement elles s'étendent jusqu'aux valeurs minimale et maximale des données qui ne sont pas des valeurs aberrantes.

- Les points ou les cercles : Les points ou les cercles qui se trouvent en dehors des moustaches représentent les valeurs aberrantes, c'est-à-dire les valeurs qui sont éloignées des autres données. Elles peuvent indiquer des observations inhabituelles ou des valeurs extrêmes.
    

# 7-5 Correlation des données

La matrice de corrélation est un outil statistique qui mesure la force de la relation entre deux variables. Elles sont généralement représentées sous forme d'une matrice où chaque cellule contient le coefficient de corrélation linéaire entre deux variables.

Les coefficients de corrélation peuvent prendre des valeurs comprises entre -1 et 1. Une valeur de 1 indique une corrélation parfaite positive, ce qui signifie que les deux variables augmentent ou diminuent ensemble. Une valeur de -1 indique une corrélation parfaite négative, ce qui signifie que les deux variables augmentent ou diminuent en sens inverse.

Une valeur de 0 indique qu'il n'y a pas de corrélation entre les deux variables.

Calculer la matrice de corrélation de notre dataframe:

In [None]:
corr_matrix = df.corr()
print(corr_matrix)

Utilisons un tracé plus visuel...

In [None]:
# Créer une figure et un axe pour le tracé
fig, ax = plt.subplots(figsize=(10, 8))

# Tracer la matrice de corrélation avec imshow
im = ax.imshow(corr_matrix, cmap='coolwarm')

# Ajouter une barre de couleur
cbar = ax.figure.colorbar(im, ax=ax)

# Ajouter les étiquettes des axes
ax.set_xticks(range(len(corr_matrix.columns)))
ax.set_yticks(range(len(corr_matrix.columns)))
ax.set_xticklabels(corr_matrix.columns, rotation=90)
ax.set_yticklabels(corr_matrix.columns);

Faisons le plot cette fois avec seaborn pour un affichage donnant plus de précision

In [None]:
import seaborn as sns

# Créer une figure et un axe pour le tracé
fig, ax = plt.subplots(figsize=(10, 8))

# Tracer la matrice de corrélation avec heatmap
sns.heatmap(corr_matrix, cmap='coolwarm', annot=True, ax=ax)

# Configurer les étiquettes des axes

ax.set_xticklabels(ax.get_xticklabels(), rotation=45, horizontalalignment='right')
plt.tight_layout()
# Afficher la figure
plt.show()


Que peut on en conclure? Regarder notamment la correlation entre pH et fixed acidity.

Traçons des représentations graphiques des ces correlations, d'abord avec Seaborn

In [None]:
sns.set(style="ticks")

# Créer une matrice de scatter plots
sns.pairplot(df)

# Afficher le graphique
plt.show()

Pandas a aussi des fonctions de plot utilisons **plotting.scatter_matrix** pour réaliser l'équivalent de l'opération précédente

In [None]:
# Tracer la matrice de scatter plots
pd.plotting.scatter_matrix(df, figsize=(16, 16))

# Ajuster les espacements entre les sous-graphiques
plt.tight_layout()


# Afficher le graphique
plt.show()


# 7-6 Création et fusion de dataframes

Créeons un dataframe

In [None]:
import numpy as np
# Créer un tableau NumPy
data_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
# Créer un DataFrame à partir du tableau NumPy
df = pd.DataFrame(data_array)
# Afficher le DataFrame
print(df)

Ajoutons des noms de lignes et de colonnes

In [None]:
df.index = ['ligne1', 'ligne2', 'ligne3', 'ligne4']
df.columns = ['colonne1', 'colonne2', 'colonne3']
print(df)

On a aussi la possibité de réaliser la création et le remplissage en étape avec l'utilisation d'un dictionnaire

In [None]:
data = {'ligne1': [1, 2, 3], 'ligne2': [4, 5, 6], 'ligne3': [7, 8, 9], 'ligne4': [10, 11, 12]}
df = pd.DataFrame.from_dict(data,orient='index', columns=['colonne1', 'colonne2', 'colonne3'])
# Afficher le DataFrame
print(df)

Ajoutons maintenant une ligne à df

In [None]:
nouvelle_ligne = [13, 14, 15]
# Ajouter la nouvelle ligne en utilisant la méthode loc
df.loc['ligne5'] = nouvelle_ligne
print(df)

Créeons maintenant un deuxieme dataframe 

In [None]:
data_array2 = np.array([[100, 200, 300], [400, 500, 600], [700, 800, 900]])
df2 = pd.DataFrame(data_array2)
df2.index = ['ligne1_1', 'ligne2_1', 'ligne3_1']
df2.columns = ['colonne1', 'colonne2', 'colonne3']
print(df2)


Faisons la concaténation des lignes des deux DataFrames

In [None]:
# Concaténer les lignes des deux DataFrames
df_concatenated = pd.concat([df, df2])#, ignore_index=True)

# Afficher le DataFrame concaténé
print(df_concatenated)

Ajoutons maintenant une colonne à df_concatenated

In [None]:
df_concatenated['colonne 4'] = [1, 2, 3, 4, 5, 6, 7, 8]

# Afficher le DataFrame avec la nouvelle colonne
print(df_concatenated)

# 7-7 Quelques fonctions suplémentaires

Créons un dataframe d'exemple

In [None]:
data = {
    "Sex": ['M', 'F', 'M', 'F', 'M'],
    "Age": [24, 32, 28, 29, 35],
    "Weight": [75, 62, 80, 55, 70],
    "Height": [180, 165.5, 175, 170.3, 185.6]  # Tailles en cm, certains en int, d'autres en float
}

df = pd.DataFrame(data)

print(df)

## 7-7-1 Remplacer des valeurs

Remplaçons les valeurs sex par des valeurs numeriques avec

In [None]:
df['Sex'] = df['Sex'].replace({'M': 0, 'F': 1})
print(df)

## 7-7-2 Compter un nombre d'occurences

In [None]:
nombre_de_femmes = df['Sex'].value_counts()[1]
print(nombre_de_femmes)

[Exercice 2](exercices/Exercices7.ipynb)