## **Atelier 2 : Manipulation des données avec DataFrame**


**1- Importation de la bibliothèque Pandas**

Pandas est une bibliothèque Python open source. Elle permet de structurer et analyser les données volumineuses et complexes.

**pip install pandas**


**2- Les Series**

Une Series représente des données unidimensionnelles (similaires à une colonne dans un tableau ou un tableau à une dimension). Elle peut contenir différents types de données,(entiers, des chaînes de caractères, des nombres flottants, des objets Python,etc.).

**Création d’une Series à partir d'une liste**

Pandas attribue automatiquement un index par défaut (0, 1, 2, 3...).


In [1]:
import pandas as pd
# Liste d'entiers
data = [10, 20, 30, 40]
series = pd.Series(data)
print(series)

0    10
1    20
2    30
3    40
dtype: int64


**Création d’une Series à partir d'un dictionnaire**

Les clés du dictionnaire deviennent les index de la Series.


In [2]:
data = {'a': 1, 'b': 2, 'c': 3}
series = pd.Series(data)
print(series)

a    1
b    2
c    3
dtype: int64


**Création d’une Series avec un index personnalisé**


In [3]:
data = [10, 20, 30]
index = ['a', 'b', 'c']
series = pd.Series(data, index=index)
print(series)

a    10
b    20
c    30
dtype: int64


**Accès aux éléments d'une Series**


In [4]:
data = [10, 20, 30]
index = ['a', 'b', 'c']
series = pd.Series(data, index=index)
print(series[0])
print(series['c'])

10
30


  print(series[0])


**3- Les DataFrames**

Un DataFrame est une collection d'objets Series alignés sur des colonnes partagées, avec des index pour chaque ligne. Il est utilisé pour manipuler et analyser des données tabulaires.

Un DataFrame est composé des éléments suivants :

− Indice de la ligne

− Nom de la colonne

− Valeur de la donnée


**3.1. Informations liées au DataFrame**

Pour afficher les N premières et dernières lignes de la base de données, on utilise les fonctions « head(N) » et « tail(N) ».

Pour afficher quelques attributs/Variables d’un DataFrame, on peut utiliser :

**df.axes**

**df.columns**

**df.index**

Pour connaître les dimensions d’un DataFrame, on peut utiliser :

**df.ndim**

**df.shape**

**df.size**

Pour déterminer le nombre de valeurs uniques d’une variable, on utilise la méthode « nunique »

**df["Commune"].nunique()** # Récupérer le nombre de valeurs uniques d’une variable


**3.2. Création d'un DataFrame**

**Création d'un DataFrame à partir d'un dictionnaire de listes**

Chaque clé du dictionnaire devient une colonne et les listes associées deviennent les
valeurs des colonnes.


In [7]:
data = {
'Nom': ['Alex', 'Bruno', 'Charle'],
'Âge': [20, 30, 55],
'Ville': ['Paris', 'Nantes', 'Berlin']
}
df = pd.DataFrame(data)
print(df)

      Nom  Âge   Ville
0    Alex   20   Paris
1   Bruno   30  Nantes
2  Charle   55  Berlin


**Création d'un DataFrame à partir d'une liste de dictionnaires**

Chaque dictionnaire représente une ligne de données.


In [9]:
data = [
{'Nom': 'Alice', 'Âge': 25, 'Ville': 'Paris'},
{'Nom': 'Bob', 'Âge': 30, 'Ville': 'Londres'},
{'Nom': 'Charlie', 'Âge': 35, 'Ville': 'Berlin'}
]
df = pd.DataFrame(data)
print(df)

       Nom  Âge    Ville
0    Alice   25    Paris
1      Bob   30  Londres
2  Charlie   35   Berlin


**Question 1** : Quand utilisez une Series plutôt qu'un DataFrame ? Et vice-versa ?


on utilise une série lorsque on veux présenter une seule colonne des données et On utilise un DataFrame lorsqu’on a plusieurs colonnes à organiser ensemble, comme un tableau ou une feuille Excel


**Création d'un DataFrame à partir d'un fichier CSV**

Il est possible de créer un DataFrame à partir de fichiers CSV (ou Excel, SQL, etc.).

**df = pd.read_csv('file.csv')**


**3.3. Accès aux données dans un DataFrame**

**Accès à une colonne**

On accède aux colonnes comme à des objets Series.

**print(df['Nom'])**


**Accès à une ligne**

On accède à une ligne par son index avec :

− iloc : accéder à une ligne par son index numérique (la position numérique).

− loc : accéder à une ligne par son label d'index.

Accéder à la première ligne

**print(df.iloc[0])**

Accéder à une ligne par son label d'index

**ligne = df.loc['B']**


**Accès à une cellule**

**print(df.iloc[0, 1])** # Première ligne, deuxième colonne


**Question 2** :
Expliquez la différence entre les sélections basées sur (.loc[]) et celles basées sur (.iloc[]). Dans quels cas utiliser l'une plutôt que l'autre ?


.loc[] sélectionne des lignes/colonnes par leurs labels (noms).

→ On l’utilise quand on connaît les noms des lignes ou des colonnes.

.iloc[] sélectionne des lignes/colonnes par leur position (indices numériques).

→ On l’utilise quand on veut accéder par index numérique : 0, 1, 2, etc.


**3.4. Manipulation des données**

**Ajout d’une colonne**

Pour ajouter une nouvelle colonne, il faut assigner une nouvelle colonne à l'objet DataFrame.

**df['Salaire'] = [50000, 60000, 70000]**

**Suppression d’une colonne**

La méthode « drop() » permet de supprimer une colonne ou une ligne

Supprimer une colonne

**df = df.drop('Salaire', axis=1)**

**Renommer des variables**

La méthode « rename » permet de renommer des varaiables/attributs. Pour renommer des colonnes, il faut préciser le paramètre axis = 'columns' ou axis=1 (Par défaut, l’indice sur lequel les opérations sont faites est l’indice des lignes).

df = df.rename({"Energie": "eneg", "Agriculture": "agr"}, axis=1)

**Filtrage des données**

Le filtrage permet d’extraire certaines lignes du dataFrame.

Filtrer pour obtenir seulement les personnes âgées de plus de 30 ans

**df_filtree = df[df['age'] > 30]**


**Question 3** : Les boucles (for loops) sont-elles une bonne pratique pour itérer sur les
lignes d'un DataFrame ? Pourquoi ? Quelle est l’alternative ?


Non, les boucles for ne sont pas une bonne pratique pour parcourir les lignes d’un DataFrame, car elles sont lentes : Pandas n’est pas optimisé pour l’itération ligne par ligne

L’alternative recommandée est d’utiliser les opérations vectorisées ou les méthodes Pandas comme apply(), qui sont beaucoup plus rapides car elles exploitent des optimisations internes en C.


**Réordonner les données**

La méthode « sort_values » permet de réordonner les observations d’un DataFrame, en
laissant l’ordre des colonnes identiques.

**df = df.sort_values("Résidentiel", ascending=False)**


**3.5. Opérations sur les DataFrames**

**Opérations arithmétiques**

Les opérations sur les colonnes sont effectuées élément par élément

**df['age'] = df['age'] + 1**

**Statistiques de base**

Pandas propose des fonctions statistiques comme « mean() », « sum() », « min() », « max() », etc. La méthode la plus générique est « describe() ».

Moyenne d'âge

**print(df['age'].mean())**

Statistiques générales pour tout le DataFrame

**print(df.describe())**

**3.5. Indexation et slicing**

Les DataFrames supportent l'indexation avancée et le slicing (découpage de sous-ensembles)

Extraire les deux premières lignes

**print(df[:2])**

Extraire les colonnes "Nom" et "Ville"

**print(df[['Nom', 'Ville']])**

**3.6. Fusionner des DataFrames**

On peut fusionner plusieurs DataFrames de manière similaire aux jointures en SQL.

**Fusionner avec merge()**


In [10]:
df1 = pd.DataFrame({
'ID': [1, 2, 3],
'Nom': ['Alice', 'Bob', 'Charlie']
})
df2 = pd.DataFrame({
'ID': [1, 2, 4],
'Salaire': [50000, 60000, 80000]
})
df_merged = pd.merge(df1, df2, on='ID', how='inner')
print(df_merged)

   ID    Nom  Salaire
0   1  Alice    50000
1   2    Bob    60000


Concaténer avec **concat()**


In [11]:
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
df_concat = pd.concat([df1, df2])
print(df_concat)

    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


## **Exercice**


1. Importer le jeu de données « prêts » sous forme de dataframe Pandas.


In [5]:
import pandas as pd

df = pd.read_csv("prets.csv")   # si ton fichier est au format CSV


2. Explorer la structure du dataFrame en affichant :

− Les attributs liés au jeu de données « prêts »

− Les dimensions du jeu de données

− La distribution des clients en calculant le nombre de villes uniques.


In [6]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   identifiant    244 non-null    int64  
 1   ville          244 non-null    object 
 2   CP             244 non-null    int64  
 3   revenu         244 non-null    float64
 4   remboursement  244 non-null    float64
 5   duree          244 non-null    int64  
 6   type           244 non-null    object 
 7   taux           244 non-null    float64
dtypes: float64(3), int64(3), object(2)
memory usage: 15.4+ KB


In [7]:
df.shape


(244, 8)

In [8]:
df['ville'].nunique()


6

3. Créer un nouvel attribut « taux_endettement » qui calcule le taux d'endettement de
   chaque individu. Ce taux correspond au pourcentage du revenu remboursé chaque
   mois par un individu (arrondir le résultat à 2 chiffres après la virgule).
   Formule : remboursement \* 100 / revenu


In [9]:
df["taux_endettement"] = (df["remboursement"] * 100 / df["revenu"]).round(2)


In [10]:
print(df)

     identifiant      ville     CP  revenu  remboursement  duree        type  \
0              0   TOULOUSE  31100  3669.0        1130.05    240  immobilier   
1              1      PARIS  75009  5310.0         240.00     64  automobile   
2              1      PARIS  75009  5310.0        1247.85    300  immobilier   
3              2  MARSEILLE  13010  1873.0         552.54    240  immobilier   
4              3  MARSEILLE  13010  1684.0         586.03    180  immobilier   
..           ...        ...    ...     ...            ...    ...         ...   
239          224      PARIS  75008  5118.0        1248.79    300  immobilier   
240          224      PARIS  75008  5118.0         238.20     25  automobile   
241          225   BORDEAUX  33100  2356.0         876.43    180  immobilier   
242          226      PARIS  75002  5098.0        2910.96    240  immobilier   
243          227      PARIS  75015  2348.0         434.38    300  immobilier   

      taux  taux_endettement  
0    1.1

4. Renommez la variable « taux » en « taux_interet ».


In [11]:
df = df.rename(columns={"taux": "taux_interet"})


**5. Créer deux autres variables** :

− cout_total : le cout total du prêt à partir du remboursement et de la durée

− benefices : les bénéfices mensuels réalisés par la banque sur le prêt

**bénéfices = (C∗T)/24 avec : C = cout total du prêt ; T = taux d'intérêt**


In [None]:
df["cout_total"] = df["remboursement"] * df["duree"]


In [13]:
df["benefices"] = (df["cout_total"]* df["taux_interet"])/24

In [14]:
print(df)

     identifiant      ville     CP  revenu  remboursement  duree        type  \
0              0   TOULOUSE  31100  3669.0        1130.05    240  immobilier   
1              1      PARIS  75009  5310.0         240.00     64  automobile   
2              1      PARIS  75009  5310.0        1247.85    300  immobilier   
3              2  MARSEILLE  13010  1873.0         552.54    240  immobilier   
4              3  MARSEILLE  13010  1684.0         586.03    180  immobilier   
..           ...        ...    ...     ...            ...    ...         ...   
239          224      PARIS  75008  5118.0        1248.79    300  immobilier   
240          224      PARIS  75008  5118.0         238.20     25  automobile   
241          225   BORDEAUX  33100  2356.0         876.43    180  immobilier   
242          226      PARIS  75002  5098.0        2910.96    240  immobilier   
243          227      PARIS  75015  2348.0         434.38    300  immobilier   

     taux_interet  taux_endettement  co

**6. Afficher les 5 prêts ayant le plus de bénéfices**


**nlargest(n, colonne)** permet de récupérer les n lignes qui ont les plus grandes valeurs dans une colonne donnée.


In [15]:
df.nlargest(5, "benefices")


Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices
8,7,NICE,6000,5486.0,2956.95,300,immobilier,1.184,53.9,887085.0,43762.86
23,22,NICE,6300,5838.0,3018.25,240,immobilier,1.229,51.7,724380.0,37094.2925
186,173,PARIS,75006,6784.0,3744.77,180,immobilier,1.248,55.2,674058.6,35051.0472
242,226,PARIS,75002,5098.0,2910.96,240,immobilier,1.14,57.1,698630.4,33184.944
181,168,PARIS,75003,6366.0,2807.41,240,immobilier,1.176,44.1,673778.4,33015.1416


7. Récupérer le nombre de personnes ayant dépassé 40% du taux d’endettement
   autorisé. Sauvegarder la liste dans une nouvelle variable nommé « clients_risque »


In [16]:
clients_risque = df[df["taux_endettement"] > 40]
clients_risque.shape[0] 

26

8. Ajouter une variable nommée « risque » qui a comme valeur « Oui » si le client est
   risqué (taux d’endettement > 40%), « Non » sinon.


In [17]:
df["risque"] = df["taux_endettement"].apply(lambda x: "Oui" if x > 40 else "Non")


9. Récupérer le nombre de prêts automobiles accordés ? Quel est le coût total moyen de
   ces derniers ?


In [20]:
nb_pret_auto = df[df["type"] == "automobile"].shape[0]
cout_moyen_auto = df[df["type"] == "automobile"]["cout_total"].mean()

10. Afficher le bénéfice mensuel total réalisé par l’agence Parisienne.


In [24]:
benefice_paris = df[df["ville"] == "PARIS"]["benefices"].sum()
print(benefice_paris)

1001633.0605333335
