# Introduction à Pandas

# Avant de commencer...
- Chargez les données nécessaires sur Google Colab
  - Cliquez sur l'icône de dossier à gauche de la fenêtre.
  - Cliquez sur la page avec la flèche vers le haut : une fenêtre s'ouvre.
  - Allez dans le dossier de ce cours dans votre ordinateur.
  - Ouvrez le dossier `Session_3_pandas`.
  - Sélectionnez les fichiers `data.csv` et `student.xlsx`.

- Lancez la cellule de code ci-dessous : il ne doit pas y avoir de message d'erreur. S'il y a un message d'erreur, appelez-moi.

In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np

# Chargement des fichiers
data_run = pd.read_csv('data.csv')
data_student = pd.read_excel('student.xlsx')

# Qu'est-ce que Pandas ?
Pandas est une puissante bibliothèque de manipulation de données pour Python.
Elle propose des structures de données telles que Series et DataFrame pour une analyse de données efficace.

# 1. Principes de base des structures de données de Pandas

## 1.1 Series
Une Serie pandas est un objet semblable à un tableau unidimensionnel contenant des données et des étiquettes. \
Lien utile : [documentation](https://pandas.pydata.org/docs/reference/series.html) sur les Series pandas.



### 1.1.1 Création de Series pandas
On peut créer une Series pandas à partir d'une liste Python.

In [None]:
data = [1, 3, 5, 7, 9]
series = pd.Series(data)
print(series)

Les éléments de la Serie peuvent être de tout type Python.

In [None]:
databis = [1, 'texte', 0.3, np.nan, [2, 4, 5]]
seriesbis = pd.Series(databis)
print(seriesbis)

### 1.1.2 Opérations sur les Series pandas

On peut accéder aux valeurs d'une Serie grâce à l'attribut `values`. Le vecteur retourné par `values` est un NumPy array (voir Session 2).

In [None]:
print('Values:', series.values)
print('Type of values:', type(series.values))

On peut également accéder uniquement aux index d'une Serie grâce à l'attribut `index`. Les indexes ont des types propres en Python.

In [None]:
print('Index:', series.index)

On peut faire des opérations sur les Series, dans le même esprit que les opérations sur les NumPy arrays.
- Accéder à un élément en utilisant l'index
- Accéder à des éléments consécutifs en utilisant le slicing
- Opérations sur les éléments d'une série
- Concaténation
- Opérations entre deux séries, à condition que les types de leurs éléments le permettent.\
En voici quelques exemples d'usage, voir la [documentation](https://pandas.pydata.org/docs/reference/series.html) sur les Series pour la liste exhaustive des opérations possibles.

In [None]:
# Accès à l'élément d'une Serie en utilisant l'index (voir NumPy)
print("Index 2: \n", series[2])

# Slicing
print("\nIndex 2 à 4: \n", series[2:5])

# Multiplication des éléments d'une Serie
print("\nMultiplication: \n", series * 2)  # Multiplier chaque élément par 2

In [None]:
# Addition entre deux Series pandas
data = [3, 8, 9, 2, 1]
series2 = pd.Series(data)
print('Series\n', series)
print('\nSeries2:\n', series2)
sum = series + series2
print("\nSeries1 + Series2:\n", sum)

**Question :** que fait l'opération + dans le code ci-dessus ?

**Réponse :**

## 1.2 DataFrame
Un DataFrame est une table de données bidimensionnelle avec des lignes et des colonnes. \
Lien utile : [documentation](https://pandas.pydata.org/docs/reference/frame.html) des DataFrames pandas.

### 1.2.1 Création d'un DataFrame

On peut créer un DataFrame à partir d'un dictionnaire Python.

In [None]:
# Création d'un DataFrame à partir d'un dictionnaire Python.
data = {'Nom': ['Alice', 'Bob', 'Charlie', 'Daphné', 'Robert', 'David', 'Capucine'],
        'Âge': [25, 30, 35, 40, 12, 27, 93],
        'Ville': ['New York', 'San Francisco', 'Los Angeles', 'New York', 'New York', 'Chicago', 'Londres'],
        'Taille': [180, 165, 165, 160, np.nan, 160, np.nan]}
df = pd.DataFrame(data)
print(df)

Pandas peut aussi charger un DataFrame depuis diverses sources : csv, Excel etc. Voir la [documentation](https://pandas.pydata.org/docs/reference/io.html) input/output de pandas pour la liste exhaustive des sources possibles.

In [None]:
# Chargement d'un DataFrame depuis un fichier CSV
data_run = pd.read_csv('data.csv')

# Chargement d'un DataFrame depuis un fichier Excel
data_student = pd.read_excel('student.xlsx')

Après avoir chargé un DataFrame, il est conseillé d'utiliser la fonction `head()` permet d'en afficher les cinq premières lignes.

In [None]:
print('Premières lignes du DataFrame data_run:\n', data_run.head())
print('\nDataFrame entier:\n', data_run)

### 1.2.2 Opérations sur un DataFrame

Nous pouvons accéder aux colonnes et aux lignes d'un DataFrame en utilisant les noms de colonnes et/ou les index.

In [None]:
# Accès à une colonne avec son nom
print(df['Nom'])

**Question :** Quel est le type Python de la colonne accédée ?

**Réponse :** C'et une Series pandas.

In [None]:
# Accès à une ligne avec son index
print(df.loc[2])

**Question :** Quel est le type Python de la ligne accédée ?


**Réponse**: C'est une Series pandas.

In [None]:
# Accès à un élément avec son index et son nom de colonne
print(df.loc[2, 'Nom'])  # Elément d'index 2, de la colonne 'Nom'.

On peut aussi modifier l'élément d'un DataFrame en y accédant.\  
/!\ Attention : si l'on souhaite modifier les valeurs d'un DataFrame, il faut toujours le faire sur une copie du DataFrame et pas sur le DataFrame original. Ici, nous allons créer `df_copy`, qui est une copie de `df`. Toutes les modifications doivent être faites sur `df_copy`, pas sur `df`.

In [None]:
df_copy = df.copy()  # Copie du DataFrame d'origine
print('Copie du DataFrame:')
print(df_copy)
df_copy.loc[2, 'Nom'] = 'Stéphanie'
print('\nDataFrame après changement:')
print(df_copy)

**Exercice :** Dans `df_copy`, changer la ville associée à Alice à "Paris". Afficher le DataFrame mis à jour.

Un DataFrame prend en charge diverses opérations, y compris des statistiques de base.

In [None]:
print(df.describe())  # Statistiques de base pour les colonnes numériques uniquement

**Question :** A quoi correspondent les grandeurs affichées par la fonction `describe()` ? Vous pouvez vous aider de la [documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) correspondante pour répondre.

**Réponse :**

# 2. Gestion des données

## 2.1 Filtrage et tri des données
Dans certains cas, le filtrage et le tri des lignes d'un DataFrame sont essentiels pour extraire des informations significatives.\
Le filtrage se fait sous la forme df[df[Nom de la colonne] condition].



In [None]:
# A compléter

In [None]:
# Exemple de filtrage basé sur une colonne
print(df[df['Âge'] > 30])  # Filtrage basé sur une condition 'supérieur numériquement'
print(df[df['Ville'] == 'New York'])  # Filtrage basé sur une condition 'égal'
# Exemple de tri basé sur une colonne
print(df.sort_values(by='Âge'))  # Tri par Âge

**Exercice :** Afficher les lignes de `df` dont la taille est inférieure à 170.

## 2.2 Gestion des donnés manquantes
Traiter les valeurs manquantes est une étape cruciale dans le nettoyage des données. Les valeurs manquantes sont en général indiquées par un `NaN` (Not A Number). Une bonne pratique est de se débarasser des valeurs manquantes, soit en supprimant les lignes contenant des valeurs manquantes, soit en remplaçant les valeurs manquantes par une valeur pertinente.

In [None]:
# Supprimer les lignes avec des valeurs manquantes
print('DataFrame \n', df_copy)
df_nonan = df_copy.dropna(inplace=False)
print('\nDataFrame nettoyé \n', df_nonan)

In [None]:
# Remplacer les valeurs manquantes par 0
df_nantozero = df_copy.fillna(0, inplace=False)
print('\n DataFrame: \n', df_nantozero)

**Exercice :** Il ne semble pas pertinent ici de remplacer la valeur manquante par zéro : peu de gens ont une taille de zéro centimètres... \
Une stratégie courante est de remplacer les valeurs manquantes par la moyenne des autres valeurs (non manquantes) de la même colonne. Ecrivez du code pour calculer la moyenne des tailles du DataFrame, remplacer la valeur manquante du DataFrame par cette moyenne, et afficher le DataFrame obtenu.

In [None]:
# A compléter

In [None]:
# A compléter

## 2.3 Regroupement
Pandas permet de regrouper des données pour une analyse avancée.

In [None]:
grouped_df = df.groupby('Ville')
print(grouped_df.mean()) # Calcul de la moyenne de chaque colonne *numérique* par taille.

**Exercice :** Grouper le DataFrame par taille. Pour chaque taille, calculer la médiane de chaque colonne

In [None]:
# A compléter

## 2.4 Fusion et jointures de DataFrames
Quelquefois, on a affaire à plusieurs tableaux provenant de sources différentes. Il peut être pertinent de joindre ces tableaux pour une analyse complète. Dans ce cas, il faut indiquer à pandas la colonne sur laquelle la fusion va se faire. Cette colonne doit être commune aux deux tableaux. Attention, la jointure de tableaux peut causer la perte de lignes, voir exemple ci-dessous.

In [None]:
df2 = pd.DataFrame({'Ville': ['New York', 'San Francisco'], 'Population': [8500000, 884000]})
merged_df = pd.merge(df, df2, on='Ville')
print(merged_df)

**_Exercice_ :** Fusionner le DataFrame suivant avec `df`, à partir de la colonne qu'ils ont en commun. Afficher le résultat.

In [None]:
df3 = pd.DataFrame({'Nom': ['Alice', 'Charlie', 'Capucine'], 'Pays':['Etats-Unis', 'Etats-Unis', 'Royaume-Uni']})
# A compléter

# 3. Exercices pratiques

## 3.1 Chargement de données et exploration
a. Chargez le fichier `data.csv` en utilisant Pandas. \
b. Affichez les cinq premières lignes du DataFrame. \
c. Afficher les lignes du DataFrame où la durée est 60 minutes.\
d. Affichez les informations sur le DataFrame: quelles sont les noms et types de chaque colonne ? Combien de lignes y a-t-il ?


In [None]:
# A compléter

## 3.2 Nettoyage de données
a. Remplacez les valeurs manquantes de la colonne `Calories` par la médiane de la colonne. Affichez le DataFrame obtenu.\
b. Pourquoi la stratégie de a. ne peut-elle pas être appliquée pour la valeur manquante de la colonne `Date` ?\
c. Proposez et implémentez une stratégie pour gérer la valeur manquante dans la colonne `Date`. Affichez le DataFrame obtenu.

In [None]:
# A compléter


## 3.3 Analyse
a. Calculez des statistiques sur les colonnes à valeurs numériques \
b. Groupez le DataFrame par la colonne `Duration` et calculez la moyenne de du `Pulse` pour chaque durée.


In [None]:
# A compléter

## 3.4 Défi (optionnel)
Trouvez une question intéressante à explorer dans le jeu de données.
Utilisez les fonctionnalités de Pandas pour répondre à cette question.
Présentez vos résultats.

In [None]:
# A compléter (optionnel)

# Et c'est tout pour le moment !

# Références
- [Documentation](https://pandas.pydata.org/docs/reference/index.html#api) officielle de pandas.
- [Tutoriels](https://pandas.pydata.org/docs/getting_started/intro_tutorials/) officiels de pandas.
- [Dataset](https://www.kaggle.com/datasets/themrityunjaypathak/pandas-practice-dataset/) kaggle.

