# TP : Maîtriser la Bibliothèque Pandas en Python

## Introduction

Pandas est une bibliothèque puissante en Python pour la manipulation et l’analyse de données. Elle fournit des structures de données comme les Series (unidimensionnelles) et les DataFrame (bidimensionnelles) qui sont essentielles pour gérer des données structurées.

Ce TP vous guidera à travers les concepts fondamentaux de Pandas : création et chargement de données, inspection, sélection et filtrage, nettoyage, transformation, analyse statistique, et exercices pratiques. Aucun autre bibliothèque que Pandas ne sera utilisée pour les manipulations de données.

Prérequis

Connaissance de base en Python

Pandas installé (pip install pandas)

### Partie 1 : Création et Chargement de Données

#### 1.1 Création de Series et DataFrames

Une Series est un tableau unidimensionnel avec des étiquettes, tandis qu’un DataFrame est une structure bidimensionnelle semblable à une table.

In [1]:
import pandas as pd

# Création d'une Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

# Création d'un DataFrame
df = pd.DataFrame({
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 35],
    'Ville': ['Paris', 'Lyon', 'Marseille']
})
print(df)

a    1
b    2
c    3
d    4
dtype: int64
       Nom  Âge      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille


### 1.2 Chargement de Données depuis un Fichier CSV

Pour ce TP, nous utiliserons un fichier nommé livres.csv

Chargez ce fichier dans un DataFrame :

In [2]:
df = pd.read_csv('livres.csv')
print(df)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald          1925.0   
1                  To Kill a Mockingbird           Harper Lee          1960.0   
2                                   1984        George Orwell             NaN   
3                    Pride and Prejudice          Jane Austen          1813.0   
4                 The Catcher in the Rye       J. D. Salinger          1951.0   
5                            Animal Farm        George Orwell          1945.0   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling          1997.0   
7                             The Hobbit       J.R.R. Tolkien          1937.0   
8                       The Great Gatsby  F. Scott Fitzgerald          1925.0   

       Genre  Number of Pages  Rating  
0    Fiction            180.0     4.5  
1    Fiction            281.0     4.8  
2  Dystopian            328.0     4.7  
3    Romance              NaN

## Partie 2 : Inspection des Données

### 2.1 Visualisation des Données

head(n) : Affiche les n premières lignes (5 par défaut)

tail(n) : Affiche les n dernières lignes

info() : Fournit des informations sur le DataFrame (types, valeurs non nulles)

describe() : Statistiques descriptives des colonnes numériques

In [8]:
# Affichage des 3 premières lignes, des informations et des statistiques descriptives
print(df.head(3))
df.info()
print(df.describe())
print(df.tail(3))

                   Title               Author  Year Published      Genre  \
0       The Great Gatsby  F. Scott Fitzgerald          1925.0    Fiction   
1  To Kill a Mockingbird           Harper Lee          1960.0    Fiction   
2                   1984        George Orwell             NaN  Dystopian   

   Number of Pages  Rating  
0            180.0     4.5  
1            281.0     4.8  
2            328.0     4.7  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Title            9 non-null      object 
 1   Author           9 non-null      object 
 2   Year Published   8 non-null      float64
 3   Genre            9 non-null      object 
 4   Number of Pages  8 non-null      float64
 5   Rating           8 non-null      float64
dtypes: float64(3), object(3)
memory usage: 564.0+ bytes
       Year Published  Number of Pages    Rating
count

### 2.2 Vérification des Valeurs Manquantes

isnull().sum() : Compte les valeurs manquantes par colonne

In [9]:
print(df.isnull().sum())

Title              0
Author             0
Year Published     1
Genre              0
Number of Pages    1
Rating             1
dtype: int64


## Partie 3 : Sélection et Filtrage des Données

### 3.1 Sélection de Colonnes





df['nom_colonne'] : Sélectionne une colonne (retourne une Series)



df[['col1', 'col2']] : Sélectionne plusieurs colonnes (retourne un DataFrame)

In [12]:
print(" Title: \n",df['Title'])
print(" Details: \n",df[['Title', 'Author']])

 Title: 
 0                         The Great Gatsby
1                    To Kill a Mockingbird
2                                     1984
3                      Pride and Prejudice
4                   The Catcher in the Rye
5                              Animal Farm
6    Harry Potter and the Sorcerer's Stone
7                               The Hobbit
8                         The Great Gatsby
Name: Title, dtype: object
 Details: 
                                    Title               Author
0                       The Great Gatsby  F. Scott Fitzgerald
1                  To Kill a Mockingbird           Harper Lee
2                                   1984        George Orwell
3                    Pride and Prejudice          Jane Austen
4                 The Catcher in the Rye       J. D. Salinger
5                            Animal Farm        George Orwell
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling
7                             The Hobbit       J.R.R. Tolkien
8     

### 3.2 Sélection de Lignes





loc[label] : Sélection par étiquette



iloc[position] : Sélection par position entière

In [13]:
print(df.loc[0])       # Première ligne
print(df.iloc[0:2])    # Deux premières lignes

Title                 The Great Gatsby
Author             F. Scott Fitzgerald
Year Published                  1925.0
Genre                          Fiction
Number of Pages                  180.0
Rating                             4.5
Name: 0, dtype: object
                   Title               Author  Year Published    Genre  \
0       The Great Gatsby  F. Scott Fitzgerald          1925.0  Fiction   
1  To Kill a Mockingbird           Harper Lee          1960.0  Fiction   

   Number of Pages  Rating  
0            180.0     4.5  
1            281.0     4.8  


### 3.3 Filtrage avec Indexation Booléenne

Filtrez les lignes selon des conditions :

In [14]:
print(df[df['Author'] == 'George Orwell'])  # Livres de George Orwell

         Title         Author  Year Published      Genre  Number of Pages  \
2         1984  George Orwell             NaN  Dystopian            328.0   
5  Animal Farm  George Orwell          1945.0     Satire            112.0   

   Rating  
2     4.7  
5     4.3  


## Partie 4 : Nettoyage des Données

### 4.1 Gestion des Valeurs Manquantes

Vérifiez d’abord les valeurs manquantes :

In [15]:
print(df.isnull().sum())

Title              0
Author             0
Year Published     1
Genre              0
Number of Pages    1
Rating             1
dtype: int64


### Remplacez les valeurs manquantes :





Year Published avec la médiane



Number of Pages avec la moyenne



Rating avec 0

In [16]:
median_year = df['Year Published'].median() # Remplacer les valeurs manquantes par la médiane
mean_pages = df['Number of Pages'].mean()   # Remplacer par la moyenne
df['Year Published'].fillna(median_year, inplace=True) 
df['Number of Pages'].fillna(mean_pages, inplace=True)
df['Rating'].fillna(0, inplace=True) # Remplacer les valeurs manquantes par 0
print(df)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald          1925.0   
1                  To Kill a Mockingbird           Harper Lee          1960.0   
2                                   1984        George Orwell          1941.0   
3                    Pride and Prejudice          Jane Austen          1813.0   
4                 The Catcher in the Rye       J. D. Salinger          1951.0   
5                            Animal Farm        George Orwell          1945.0   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling          1997.0   
7                             The Hobbit       J.R.R. Tolkien          1937.0   
8                       The Great Gatsby  F. Scott Fitzgerald          1925.0   

       Genre  Number of Pages  Rating  
0    Fiction           180.00     4.5  
1    Fiction           281.00     4.8  
2  Dystopian           328.00     4.7  
3    Romance           241.75

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Year Published'].fillna(median_year, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Number of Pages'].fillna(mean_pages, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we ar

### 4.2 Suppression des Doublons

Supprimez les lignes dupliquées (ex. "The Great Gatsby") :

In [17]:
df = df.drop_duplicates()
print(df)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald          1925.0   
1                  To Kill a Mockingbird           Harper Lee          1960.0   
2                                   1984        George Orwell          1941.0   
3                    Pride and Prejudice          Jane Austen          1813.0   
4                 The Catcher in the Rye       J. D. Salinger          1951.0   
5                            Animal Farm        George Orwell          1945.0   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling          1997.0   
7                             The Hobbit       J.R.R. Tolkien          1937.0   

       Genre  Number of Pages  Rating  
0    Fiction           180.00     4.5  
1    Fiction           281.00     4.8  
2  Dystopian           328.00     4.7  
3    Romance           241.75     4.6  
4    Fiction           234.00     0.0  
5     Satire           112.00 

### 4.3 Renommage des Colonnes

Renommez Number of Pages en Pages :

In [18]:
df.rename(columns={'Number of Pages': 'Pages'}, inplace=True)
print(df)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald          1925.0   
1                  To Kill a Mockingbird           Harper Lee          1960.0   
2                                   1984        George Orwell          1941.0   
3                    Pride and Prejudice          Jane Austen          1813.0   
4                 The Catcher in the Rye       J. D. Salinger          1951.0   
5                            Animal Farm        George Orwell          1945.0   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling          1997.0   
7                             The Hobbit       J.R.R. Tolkien          1937.0   

       Genre   Pages  Rating  
0    Fiction  180.00     4.5  
1    Fiction  281.00     4.8  
2  Dystopian  328.00     4.7  
3    Romance  241.75     4.6  
4    Fiction  234.00     0.0  
5     Satire  112.00     4.3  
6    Fantasy  309.00     4.9  
7    Fantasy  310.00  

### 4.4 Changement de Types de Données

Convertissez Year Published en entier (après avoir rempli les valeurs manquantes) :

In [19]:
df['Year Published'] = df['Year Published'].astype(int)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 0 to 7
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Title           8 non-null      object 
 1   Author          8 non-null      object 
 2   Year Published  8 non-null      int32  
 3   Genre           8 non-null      object 
 4   Pages           8 non-null      float64
 5   Rating          8 non-null      float64
dtypes: float64(2), int32(1), object(3)
memory usage: 416.0+ bytes
None


## Partie 5 : Transformation des Données

### 5.1 Application de Fonctions

Ajoutez une colonne Century calculée à partir de Year Published :

In [20]:
def get_century(year):
    return (year // 100) + 1

df['Century'] = df['Year Published'].apply(get_century)
print(df)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald            1925   
1                  To Kill a Mockingbird           Harper Lee            1960   
2                                   1984        George Orwell            1941   
3                    Pride and Prejudice          Jane Austen            1813   
4                 The Catcher in the Rye       J. D. Salinger            1951   
5                            Animal Farm        George Orwell            1945   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling            1997   
7                             The Hobbit       J.R.R. Tolkien            1937   

       Genre   Pages  Rating  Century  
0    Fiction  180.00     4.5       20  
1    Fiction  281.00     4.8       20  
2  Dystopian  328.00     4.7       20  
3    Romance  241.75     4.6       19  
4    Fiction  234.00     0.0       20  
5     Satire  112.00     4.3  

### 5.2 Groupement des Données

Groupez par Genre et calculez la moyenne de Rating :

In [21]:
genre_rating = df.groupby('Genre')['Rating'].mean()
print(genre_rating)

Genre
Dystopian    4.70
Fantasy      4.85
Fiction      3.10
Romance      4.60
Satire       4.30
Name: Rating, dtype: float64


### 5.3 Fusion de DataFrames

Créez un DataFrame avec les nationalités des auteurs et fusionnez-le :

In [22]:
authors = pd.DataFrame({
    'Author': ['F. Scott Fitzgerald', 'Harper Lee', 'George Orwell', 'Jane Austen', 'J. D. Salinger', 'J.K. Rowling', 'J.R.R. Tolkien'],
    'Nationality': ['American', 'American', 'British', 'British', 'American', 'British', 'British']
})

df_merged = pd.merge(df, authors, on='Author', how='left')
print(df_merged)

                                   Title               Author  Year Published  \
0                       The Great Gatsby  F. Scott Fitzgerald            1925   
1                  To Kill a Mockingbird           Harper Lee            1960   
2                                   1984        George Orwell            1941   
3                    Pride and Prejudice          Jane Austen            1813   
4                 The Catcher in the Rye       J. D. Salinger            1951   
5                            Animal Farm        George Orwell            1945   
6  Harry Potter and the Sorcerer's Stone         J.K. Rowling            1997   
7                             The Hobbit       J.R.R. Tolkien            1937   

       Genre   Pages  Rating  Century Nationality  
0    Fiction  180.00     4.5       20    American  
1    Fiction  281.00     4.8       20    American  
2  Dystopian  328.00     4.7       20     British  
3    Romance  241.75     4.6       19     British  
4    Ficti

## Partie 6 : Analyse Statistique

### 6.1 Statistiques Résumées

Calculez des statistiques simples :

In [23]:
print(df['Rating'].mean())  # Moyenne des notes
print(df['Pages'].max())    # Nombre maximum de pages
print(df['Pages'].min())    # Nombre minimum de pages
print(df['Pages'].sum())    # Somme des pages
print(df['Pages'].count())  # Nombre total de livres
print(df['Rating'].count())  # Nombre total de notes
print(df['Rating'].std())    # Écart type des notes
print(df['Rating'].var())    # Variance des notes
print(df['Rating'].median())  # Médiane des notes
print(df['Rating'].mode())    # Mode des notes


4.075
328.0
112.0
1995.75
8
8
1.6576661735274514
2.7478571428571423
4.65
0    4.8
Name: Rating, dtype: float64


### 6.2 Corrélation

Analysez la corrélation entre les colonnes numériques :

In [24]:
print(df[['Year Published', 'Pages', 'Rating']].corr())

                Year Published     Pages    Rating
Year Published        1.000000  0.184299 -0.091919
Pages                 0.184299  1.000000  0.190226
Rating               -0.091919  0.190226  1.000000


## Conclusion
Ce TP couvre de manière exhaustive les concepts clés de Pandas avec des exemples concrets et des exercices adaptés au fichier livres.csv.