<a href="https://colab.research.google.com/github/Bastien-Boucherat/GEO6361/blob/main/GEO6361_semaine_06_complet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aperçu de Pandas**

**GEO6361, semaine 6 : Pandas (les Series et les DataFrames)**
Cette semaine, nous découvrons le module externe Pandas, et ses structures de données : les **Series** et les **DataFrames** (DF).
Nous verrons comment :
1. créer des **Series** et des **DataFrames**,
2. comment **localiser** et **extraire des sous-ensembles** de données,
3. **créer de nouvelles colonnes**,
4. **filtrer les données**,
5. **grouper** par attributs,
6. **calculer des statistiques**, et
7. **exporter** une DataFrame.

In [None]:
# En tout premier lieu, on importe Pandas puisque c'est un module externe
# Étant donné sa popularité, Pandas est préinstallé dans les notebooks Google Colab.
import pandas as pd

# On importe également NumPy dont on aura besoin pendant les démonstrations :
import numpy as np

# **1. Les Series Pandas**

## **1.1. Créer des Series Pandas**

Les séries Pandas sont contruites sur la base d'arrays Numpy, auxquelles on peut appliquer des étiquettes ("label" ou "index").

In [None]:
# Créons une liste Python standard...
ma_liste = [1, 2, 3, 4]

# Convertissons-la en "serie" Pandas
s = pd.Series(ma_liste) # par défaut, Pandas attribue des étiquettes numériques à chaque valeur
print("Série (sans étiquettes) créée à partir d'une liste Python :")
print(s)

# On peut faire la même chose à partir d'un array NumPy :
import numpy as np
arr = np.array([1, 2, 3, 4])
s = pd.Series(arr)
print("\nSérie (sans étiquettes) créée à partir d'un array NumPy :")
print(s)

# On peut attribuer des étiquettes spécifiques aux valeurs :
mes_etiquettes = ['rangée_une', 'rangée_deux', 'rangée_trois', 'rangée_quatre']
s = pd.Series(ma_liste, index=mes_etiquettes)
print('\nEn ajoutant des étiquettes :')
print(s)

# On peut également créer une série à partir d'un dictionnaire (les clés correspondront alors aux étiquettes) :
dico = {'a': 2.7,
          'b': 1.3,
          'c': 6.5,
          'd': 3.1}
s = pd.Series(dico)
print('\nÀ partir d\'un dictionnaire Python :')
print(s)

In [None]:
# Les séries Pandas peuvent contenir différents types de données:
s = pd.Series(['un', 'deux', 'trois', 'quatre'], ['label_un', 'label_deux', 'label_trois', 'label_quatre'])
print(s, type(s['label_un']))
print('\n')

s = pd.Series([True, False, False, True], ['label_un', 'label_deux', 'label_trois', 'label_quatre'])
print(s, type(s['label_un']))
print('\n')

s = pd.Series([2.7, 1.3, 6.5, 3.1], ['label_un', 'label_deux', 'label_trois', 'label_quatre'])
print(s, type(s['label_un']))
print('\n')

s = pd.Series([1, 3, 2, 10], ['label_un', 'label_deux', 'label_trois', 'label_quatre'])
print(s, type(s['label_un']))
print('\n')

## **1.2. Accéder et modifier des éléments des séries**

In [None]:
# Avec la présence d'étiquettes, les séries Pandas peuvent être interrogées comme des dictionnaires
print(s['label_un']) # on appelle la valeur par son label
print(s['label_quatre'])
print('\n')

In [None]:
# On peut également changer des valeurs :
print(s)
print('\n')

s['label_un'] = 10 # on affecte la valeur 10 à l'étiquette label_un
print(s)
print('\n')

In [None]:
# On peut supprimer des valeurs avec "drop"
s = pd.Series([2.7, 1.3, 6.5, 3.1], ['label_un', 'label_deux', 'label_trois', 'label_quatre'])
print(s)
print('\n')

s = s.drop('label_deux')
print(s)

## **1.3. Effectuer des opérations**

In [None]:
# On peut effectuer des opérations entre des séries (du moment que les labels se correspondent)
notes_devoir_1 = pd.Series([76, 86, 67], ['Alex', 'Val', 'Toni'])
notes_devoir_2 = pd.Series([93, 84, 89], ['Alex', 'Val', 'Toni'])
print(notes_devoir_1 + notes_devoir_2)
print('\n')

# S'il ne correspondent pas parfaitement :
notes_devoir_2 = pd.Series([93, 84, 89, 96], ['Alex', 'Val', 'Toni','Dom'])
print(notes_devoir_1 + notes_devoir_2)

# **2. Les DataFrames Pandas**

## **2.1. Créer une DataFrame Pandas**

Commençons par créer une DataFrame contenant des données aléatoires

In [None]:
# Nous pouvons créer une DataFrame de la manière suivante : df = pd.DataFrame(liste_valeurs, liste_noms_lignes, liste_noms_colonnes)

colonnes = ['Col 1', 'Col 2', 'Col 3'] # création de la liste des noms de colonnes
lignes = ['Li 1', 'Li 2', 'Li 3', 'Li 4'] # création de la liste des étiquettes des lignes
valeurs = [[1 ,2 ,3],
           [4 ,5 ,6],
           [7 ,8 ,9],
           [10 ,11 ,12]] # création de la matrice des valeurs (de taille len(lignes) x len(colonnes))
df = pd.DataFrame(valeurs, lignes, colonnes) # création de la DataFrame
print(df)


In [None]:
# Pour les données plus volumineuses, nous pouvons importer des fichiers externes :

# df = pd.read_excel('data.xlsx') # Excel
df = pd.read_csv('data.csv') # CSV
df

In [None]:
# On remarque les labels n'ont pas été attribués (ils ont été importés sous forme de colonne).
# Nous pouvons corriger ça en désignant une colonne pour les noms de labels :
df = df.set_index('index')
df

## **2.2. Localiser et extraire des sous-ensembles de données**

### **Extraire une ou plusieurs colonnes**

In [None]:
# Extraire une colonne :
df['Var 2'] # crée une série

# Ce que l'on peut vérifier comme ceci:
#print('\n', type(df['Var 2']))

In [None]:
# Extraire plusieurs colonnes :
df[['Var 1', 'Var 3']] # crée une DF

# Ce que l'on peut vérifier comme ceci:
#print('\n', type(df[['Var 1', 'Var 3']]))

### **Extraire une ou plusieurs lignes**

#### Pour accéder aux lignes par leurs étiquettes, nous pouvons utiliser **loc**.

In [None]:
# Extraire une ou plusieurs lignes avec la méthode "loc" en invoquant l'étiquette de la ligne :
df.loc['Obs 1'] # remarquez que l'on obtient une série

In [None]:
df.loc[['Obs 1', 'Obs 3', 'Obs 6']] # pour extraire plusieurs colonnes, passer une liste (notez les crochets)

#### Pour accéder aux lignes par leurs index, nous pouvons utiliser **iloc**.

In [None]:
# Extraire une ou plusieurs lignes avec la méthode "iloc" (permet d'invoquer l'indice) :
df.iloc[0]

In [None]:
df.iloc[3:6] # par tranche

In [None]:
df.iloc[0:6:2] # par tranche avec un pas de 2

#### Pour accéder à un sous ensemble de lignes et de colonnes.

In [None]:
# On peut également utiliser loc pour aller chercher une valeur par ses coordonnées
df.loc['Obs 6', 'Var 1'] # passer entre crochets le label de la ligne, puis le nom de la colonne

In [None]:
 # Extraire un sous-ensemble
s_df = df.loc[['Obs 1', 'Obs 3', 'Obs 6'], ['Var 1', 'Var 3']]
s_df

## **2.3. Créer et supprimer des lignes et des colonnes**

In [None]:
# Créer de nouveaux champs
df['Var 1 (normalisée)'] = (df['Var 1'] - df['Var 1'].min()) / (df['Var 1'].max() - df['Var 1'].min()) # Juste pour l'exemple, on normalise linéairement les valeurs de Var 1
df

In [None]:
# On peut ré-arranger les colonnes en passant simplement la liste des colonnes dans l'ordre que l'on souhaite
df = df[['Var 1', 'Var 1 (normalisée)', 'Var 2', 'Var 3']]
df

In [None]:
# Supprimer des lignes :
df.drop('Obs 3')

In [None]:
# Supprimer des colonnes :
df.drop(['Var 1', 'Var 3'], axis='columns')

In [None]:
# Vérifions le contenu de df
df

Pour rendre toutes ces opérations permanentes, il faut assigner le résultat de ces opérations à un nom de variable :

In [None]:
# on assigne le résultat dans une nouvelle DF
n_df = df.drop('Var 3', axis='columns')
n_df

## **2.4. Filtrer des DataFrames**

In [None]:
# Si on souhaite extraire un sous-ensemble de données dont les valeurs sont supérieures ou égales à 4
df >= 4 # crée une DF de valeur booléennes indiquant si la condition est, ou non, remplie

In [None]:
# Je peux utiliser cette DF de valeurs booléennes pour afficher les valeurs du tableau
df[df >= 4] # nous obtenons des NaN (Not a Number) qu'il s'agira de traiter par la suite

In [None]:
# On peut aussi filtrer tout une DF en fonction du filtre appliqué à une seule colonne (pratique dans bien des cas)
df[df['Var 1'] >= 4]

In [None]:
# On peut alors effectuer d'autres opérations à partir de ce DF résultant
df[df['Var 1'] >= 4]['Var 3'].mean() # on a ajouté 1) ['Var 3'] pour extraire cette colonne, puis .mean() pour obtenir la moyenne.
# On peut donc effectuer une chaîne de commande ou chaque commande utilise le résultat de la précédente.

In [None]:
# Appliquons maintenant plus d'une condition :
df[(df['Var 1'] >= 4) & (df['Var 3'] < 4)] # il faut mettre chaque condition entre parenthèses, et les articuler avec des "et" (&) ou des "ou" (|), selon les mêmes règles logiques qu'en Python pur.

In [None]:
df[(df['Var 1'] >= 4) | (df['Var 3'] < 4)] # pour le "ou"

### **4.1 Comment traiter les données manquantes ?**

Selon le contexte de nos analyses, on a le choix entre :
1. Ignorer les données manquantes
2. Effacer les lignes ou les colonnes qui contiennent des données manquantes
3. Remplacer les données manquantes par d'autres valeurs

In [None]:
# créons une nouvelle colonne (de nombres aléatoires distribués normalement) sur laquelle il nous sera pratique de filtrer
np.random.seed(4)
df['Var 4'] = np.random.randn(len(df))
df

In [None]:
ndf = df[df > 0]
ndf

Éliminer les lignes ou les colonnes contenant des données manquantes :

In [None]:
# On utilise la méthode dropna() pour éliminer des données
ndf.dropna() # sans paramètres, dropna() élimine toutes les lignes qui contiennent au moins UNE donnée manquante

In [None]:
ndf.dropna(axis='columns') # avec le paramètre 'columns', dropna() élimine toutes les colonnes pour lesquelles il y a au moins une donnée manquante

In [None]:
ndf.dropna(axis='columns', thresh=10) # si au moins 10 valeurs ne sont pas NaN, alors la colonne est préservée

In [None]:
portion = 0.5 # un nombre entre 0 et 1 représentant le seuil exprimé en pourcentage
seuil = round(len(ndf) * portion) # si au moins 50% des valeurs ne sont pas NaN, alors les colonnes sont préservées
print(f"Le seuil de préservation sera de {seuil} valeurs ({round(portion * 100)}% des valeurs)")
ndf.dropna(axis='columns', thresh=seuil)

In [None]:
# On peut remplacer les NaN par des valeurs de notre choix
ndf.fillna('Donnée modifiée')

In [None]:
# Ici, on remplit avec la moyenne ou la somme des valeurs de la colonne 'Var 4' (C'est un peu dangereux, mais selon le nombre de valeurs manquante, cela peut être très utile)
ndf['Var 4'] = ndf['Var 4'].fillna(ndf['Var 4'].mean())
ndf['Var 1 (normalisée)'] = ndf['Var 1 (normalisée)'].fillna(ndf['Var 1 (normalisée)'].sum())
ndf

## **2.5. Grouper des données**

Lorsque nos données possède un champ catégoriel, il est souvent utile de grouper ces données par catégorie pour effectuer des analyses. Voyons comment effectuer cela avec Pandas et sa méthode GroupBy.

In [None]:
# Créons une nouvelle colonne catégorielle à partir de laquelle nous pourrons grouper nos données
np.random.seed(2)
df['Année'] = np.random.choice([2024, 2023, 2022, 2021], len(df))
df

In [None]:
# Trier des donnnées :
df.sort_values('Année')

In [None]:
# Grouper par années, et conserver la moyenne (par années)
df.groupby(['Année']).mean()

In [None]:
# On peut même grouper selon plusieurs attributs :

df['Catégorie'] = np.random.choice(['A', 'B'], len(df)) # On ajoute une nouvelle colonne (catégorie)

df.groupby(['Année', 'Catégorie']).mean()

## **2.6. Quelques statistiques descriptives**

In [None]:
df.columns # Pour obtenir un objet listant les colonnes de la DF

In [None]:
df.index # même chose pour les étiquettes

In [None]:
# Pour obtenir un array des valeurs uniques d'une colonne :
df['Catégorie'].unique()

In [None]:
# Pour obtenir le décompte du nombre d'occurence d'une valeur dans une colonne :
df['Année'].value_counts()

In [None]:
ndf =  df[['Var 1', 'Var 1 (normalisée)','Var 2','Var 3','Var 4']]
ndf.mean(axis=1) # Méthode pour obtenir la moyenne des lignes


In [None]:
ndf.mean(axis = 0) # Méthode pour obtenir la moyenne des colonnes

In [None]:
ndf.median(axis = 0) # Méthode pour obtenir la médiane des colonnes

In [None]:
# Statistiques descriptives du DF :
ndf.describe()

In [None]:
# On peut conjuguer GroupBy et describe de manière efficace :
df.groupby('Année').describe()

## **2.7. Exporter des données**

In [None]:
# Pour exporter une DF vers un fichier CSV (ou autre : https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)
df.to_csv('data2.csv')
df['Var 1'].to_csv('Var_1.csv')
df.groupby('Année').describe().to_csv('Stats_par_années.csv')