# Débuter avec la bibliothèque pandas

<div style="width: 50%; margin: 0 auto;">
    <img src="../images/logos/pandas.svg" alt="Pandas" style="width: 100%; height: auto;">
</div>

## Présentation de la bibliothèque pandas

Pandas est une bibliothèque open-source très populaire en Python pour la **manipulation** et l'**analyse des données**. Elle offre des structures de données puissantes et flexibles pour travailler avec des **données tabulaires** et des **séries temporelles**. Deux structures de données principales sont utilisées dans pandas : les "DataFrames" et les "Series".

Les DataFrames sont des tableaux bidimensionnels, similaires à une feuille de calcul ou une table de base de données, où chaque colonne peut contenir des données de différents types (nombres, chaînes de caractères, dates, etc.). Les Series sont des tableaux à une dimension, semblables aux listes ou aux tableaux unidimensionnels en Python, mais avec des fonctionnalités supplémentaires.

Pandas offre également des fonctionnalités puissantes pour lire et écrire des données depuis et vers différents formats de fichiers, tels que CSV, Excel, SQL, et bien plus encore. Il est également largement utilisé pour nettoyer, transformer et analyser des données avant de les utiliser pour des tâches de modélisation ou de visualisation.

## Installation de pandas

Avant de commencer à utiliser pandas, assurez-vous de l'installer. Vous pouvez le faire en utilisant **pip**, si vous ne l'avez pas déjà installé. Exécutez la commande suivante dans votre terminal ou votre invite de commande :

**pip install pandas**

## Exemples d'utilisation de pandas en Python

### Créer un DataFrame
Pour créer un DataFrame, l'une des manières les plus courantes consiste à utiliser un dictionnaire Python :

In [None]:
import pandas as pd
data = {
    'Nom': ['Ali', 'Mohamed', 'Samir', 'Sofien','khalil','imen','ridha','ahmed','eya','adam'],
    'Age': [25, 30, 35, 40,22,13,25,31,18,51],
    'Ville': ['Sfax', 'Tunis', 'Gabes', 'Mahdia','Sfax','Mednine','Monsatir','Bizerte','Kef','Gafsa']
}

df = pd.DataFrame(data)
print(df)

### Charger des données à partir d'un fichier

Pandas peut également être utilisé pour lire des données à partir de fichiers. Par exemple, pour lire des données à partir d'un fichier CSV :

In [None]:
import pandas as pda
df = pd.read_csv('test_data.csv')
print(df)

### Explorer les données

Une fois que vous avez un DataFrame, il y a plusieurs opérations que vous pouvez effectuer pour explorer vos données :
# head()
Lorsque vous appelez la méthode df.head() sur un DataFrame df de pandas, elle affiche les premières lignes du DataFrame par défaut. Par défaut, les cinq premières lignes du DataFrame sont affichées. Si le DataFrame est assez grand, cette méthode vous permet d'obtenir un aperçu rapide des premières données sans afficher tout le DataFrame.

# info()
Lorsque vous appelez la méthode df.info() sur un DataFrame df de pandas, elle affiche des informations utiles sur le DataFrame, notamment :

    Le nombre total de lignes (entrées) dans le DataFrame.
    Le nombre total de colonnes dans le DataFrame.
    Le nom et le type de données de chaque colonne.
    Le nombre de valeurs non nulles dans chaque colonne.
    La consommation de mémoire par le DataFrame.

# describe()
Lorsque vous appelez la méthode df.describe() sur un DataFrame df de pandas, elle affiche des statistiques descriptives pour les colonnes numériques du DataFrame. Les statistiques fournies incluent :

    Le compte (count) : Le nombre de valeurs non nulles pour chaque colonne numérique.
    La moyenne (mean) : La moyenne arithmétique des valeurs pour chaque colonne numérique.
    L'écart type (std) : L'écart type des valeurs pour chaque colonne numérique, qui mesure la dispersion des données par rapport à la moyenne.
    La valeur minimale (min) : La valeur minimale pour chaque colonne numérique.
    Le premier quartile (25%) : Le premier quartile des valeurs pour chaque colonne numérique, qui représente le point en dessous duquel se situe le quart des données les plus petites.
    La médiane (50%) : La médiane des valeurs pour chaque colonne numérique, qui représente la valeur centrale lorsque les données sont triées par ordre croissant.
    Le troisième quartile (75%) : Le troisième quartile des valeurs pour chaque colonne numérique, qui représente le point en dessous duquel se situe les trois quarts des données les plus petites.
    La valeur maximale (max) : La valeur maximale pour chaque colonne numérique.

In [None]:
# Afficher toutes les lignes du DataFrame
df.sort_values(by="Moyenne")
print("Toutes données:\n:",df.sort_values(by="Moyenne"))
print("-----------------------------------------------------------")
# Afficher les premières lignes du DataFrame
print("df.head():\n:",df.head())
print("-----------------------------------------------------------")
# Afficher les dernières lignes du DataFrame
print("df.tail():\n:",df.tail())
print("-----------------------------------------------------------")
# Afficher les informations sur les colonnes et les types de données
print("df.info():\n:",df.info())
print("-----------------------------------------------------------")
# Effectuer des statistiques descriptives sur les colonnes numériques
print("df.describe():\n:",df.describe())


## Sélectionner des données

Vous pouvez sélectionner des colonnes spécifiques ou des lignes en utilisant des opérations de découpage :

In [None]:
# Sélectionner une colonne spécifique
print("La liste des noms:")
print(df['Nom'])

In [None]:
# Sélectionner plusieurs colonnes
print("La colonne nom et moyenne:")
print(df[['Nom', 'Moyenne']])

In [None]:
# Sélectionner une ligne spécifique
print("La ligne 2:")
print(df.iloc[2])

In [None]:
# Sélectionner des lignes en utilisant des conditions
print("Les lignes dont la moyenne est >15")
print(df[df['Moyenne'] > 15])

In [None]:
# Sélectionner des lignes en utilisant des conditions
print("Les lignes dont la moyenne est <16 pour la ville 'Sfax'")
print(df[(df['Moyenne'] < 16)&(df['Ville'] == 'Sfax')])

In [None]:
# Sélectionner des lignes dont la moyenne est null
print("Les lignes dont la moyenne est nulle")
print(df[df['Moyenne'].isna()])

In [None]:
# Sélectionner des lignes qui contiennent une valeur nulle
print("Les lignes qui contiennent une valeur nulle")
print(df[df.isna().any(axis=1)])

## Supprimer colonne, ligne

![drop](./images/drop.jpg)

Supprimer une ligne

In [None]:
import pandas as pd
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
print("------------------------------------")
df = df.drop(1)
print(df)

Supprimer plusieurs lignes

In [None]:
import pandas as pd
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
print("------------------------------------")
df = df.drop(labels=[1,5,10])
print(df)

In [None]:
Supprimer des colonnes

In [None]:
import pandas as pd
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
print("------------------------------------")
df = df.drop(labels=["Moyenne","Ville"],axis=1)
print(df)

## Manipuler les données

Nous allons essayer de remplacer la valeur manquante de la colonne "Moyenne" par trois méthodes différentes :

### En supprimant les lignes des valeurs manquantes

In [None]:
import pandas as pd
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
df = df.dropna()
print(df)

Vous observez que les index des lignes contenant une valeur manquante ont été supprimés. Il est nécessaire de régénérer les index pour garantir que les indexes soient continus, ordonnés

In [None]:
df.reset_index(drop=True, inplace=True)
print(df)

### En utilisant la moyenne générale de la colonne "Moyenne" 

In [None]:
import pandas as pda
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
moyenne = df['Moyenne'].mean()
print("La moyenne:",moyenne)
df['Moyenne'].fillna(moyenne, inplace=True)
print(df)

### En utilisant la moyenne de la colonne "Moyenne" de la ville sfax

In [None]:
import pandas as pda
df = pd.read_csv('test_data.csv')
print("Les données d'orgine:")
print(df)
print("Ligne qui correspondent à la ville sfax:")
print(df[df["Ville"]=='Sfax'])
moyenne_sfax = df[df['Ville'] == 'Sfax']['Moyenne'].mean()

print("La moyenne de la ville sfax:",moyenne_sfax)
df['Moyenne'].fillna(moyenne_sfax, inplace=True)
print(df)

## Groupement et agrégation des données

In [15]:
import pandas as pd

# Créer le DataFrame à partir des données fournies
data = {
    'Nom': ['Ali', 'Mohamed', 'Samir', 'Ridha', 'Sofien', 'Mariem', 'Majdi', 'Mohsen', 'Saif', 'Hanen', 'Sami', 'Saida'],
    'Moyenne': [16.50, 13.40, 14.00, None, 12.00, 15.5, 13.5, 11, 15.00, 15.20, 14.00, 13.50],
    'Ville': ['Sfax', 'Tunis', 'Gabes', 'Sfax', 'Mahdia', 'Sfax', 'Gabes', 'Gabes', 'Sfax', 'Tunis', 'Mahdia', 'Tunis']
}
df = pd.DataFrame(data)

Liste des villes

In [None]:
df["Ville"].unique()

Nombre d'étudiant par ville

In [17]:
df.groupby('Ville')['Nom'].count()

Ville
Gabes     3
Mahdia    2
Sfax      4
Tunis     3
Name: Nom, dtype: int64

Moyenne par ville

In [18]:
df.groupby('Ville')['Moyenne'].mean()

Ville
Gabes     12.833333
Mahdia    13.000000
Sfax      15.666667
Tunis     14.033333
Name: Moyenne, dtype: float64

In [None]:
# Afficher le DataFrame initial
print("DataFrame initial:")
print(df)
print()

# Grouper les données par la colonne "Ville" et calculer la moyenne de chaque groupe
groupe_par_ville = df.groupby('Ville')
moyenne_par_ville = groupe_par_ville['Moyenne'].mean()

# Afficher les moyennes par ville
print("Moyenne des Moyennes par ville:")
print(moyenne_par_ville)
print()

# Grouper les données par la colonne "Ville" et compter le nombre d'étudiants dans chaque groupe
nombre_etudiants_par_ville = groupe_par_ville['Nom'].count()

# Afficher le nombre d'étudiants par ville
print("Nombre d'étudiants par ville:")
print(nombre_etudiants_par_ville)

Pour plus d'information **[Site pandas](https://pandas.pydata.org/docs/user_guide/index.html)**

### 