# TD PANDAS

Commençons par générer les données factices avec la bibliothèque `faker`.

In [1]:
from faker import Faker
import pandas as pd
import numpy as np

# Fixer la graine (seed)
seed_value = 123
Faker.seed(seed_value)

# Initialiser l'objet Faker
fake = Faker()

# Générer 50 noms de personnes aléatoires
noms = [fake.name() for _ in range(50)]

# Générer 50 âges aléatoires entre 20 et 60
ages = [fake.random_int(min=20, max=60) for _ in range(50)]

# Générer 50 villes aléatoires parmi Paris, Londres, New York
villes = [fake.random_element(elements=('Paris', 'Londres', 'New York')) for _ in range(50)]

# Générer 50 salaires aléatoires entre 30,000 et 100,000
salaires = [fake.random_int(min=30000, max=100000) for _ in range(50)]

# Créer le DataFrame
data = {'Nom': noms, 'Age': ages, 'Ville': villes, 'Salaire': salaires}
df = pd.DataFrame(data)

### Exercice 1
Affichez les cinq premières lignes du DataFrame.


In [2]:
# Exercice 1
df.head()

Unnamed: 0,Nom,Age,Ville,Salaire
0,Brandon Russell,40,Londres,36392
1,Steven Johnson,36,Londres,53882
2,Evelyn Christian,45,Paris,46166
3,George Cook,22,Londres,32609
4,Aaron Graham,52,Londres,86114


### Exercice 2
Affichez le nombre total de lignes et de colonnes dans le DataFrame.


In [3]:
# Exercice 2
print("Nombre de lignes et de colonnes :", df.shape)

Nombre de lignes et de colonnes : (50, 4)


### Exercice 3
Affichez les statistiques descriptives pour la colonne 'Age'.


In [4]:
# Exercice 3
print(df['Age'].describe())

count    50.000000
mean     41.380000
std      12.355103
min      20.000000
25%      32.000000
50%      42.000000
75%      52.000000
max      60.000000
Name: Age, dtype: float64


### Exercice 4
Sélectionnez uniquement les lignes où l'âge est supérieur à 40.


In [5]:
# Exercice 4
print(df[df['Age'] > 40])

                 Nom  Age     Ville  Salaire
2   Evelyn Christian   45     Paris    46166
4       Aaron Graham   52   Londres    86114
7      Charles Tyler   52   Londres    92563
12     James Hammond   56   Londres    78467
15      Jade Johnson   58   Londres    90739
18       James Jones   41   Londres    31826
19    Kenneth Rogers   55     Paris    72024
20    Brandon Fuller   54   Londres    80659
22       Misty Stout   54  New York    38209
24      Cynthia Webb   50     Paris    67367
25   William Wallace   51   Londres    52022
26     Amanda Taylor   45     Paris    84533
29      Arthur Kelly   56   Londres    35689
30     Jeffrey Smith   51     Paris    31700
31      Angel Benson   41   Londres    95117
32     William Baker   45  New York    51596
34       Mark Booker   52   Londres    36110
36  Jacqueline Young   59  New York    98782
37       Shawn Brown   60   Londres    51748
39    Sydney Parsons   58   Londres    55435
40   Cameron Proctor   58  New York    69682
41        

### Exercice 5
Calculez la moyenne du salaire pour chaque ville.


In [6]:
# Exercice 5
print(df.groupby('Ville')['Salaire'].mean())

Ville
Londres     69570.400000
New York    62001.461538
Paris       60936.333333
Name: Salaire, dtype: float64


### Exercice 6
Ajoutez une nouvelle colonne 'Prime' avec des valeurs aléatoires entre 500 et 2000.

In [7]:
# Exercice 6
df['Prime'] = np.random.randint(500, 2000, size=50)
df.head()

Unnamed: 0,Nom,Age,Ville,Salaire,Prime
0,Brandon Russell,40,Londres,36392,522
1,Steven Johnson,36,Londres,53882,1601
2,Evelyn Christian,45,Paris,46166,1468
3,George Cook,22,Londres,32609,1952
4,Aaron Graham,52,Londres,86114,989


### Exercice 7
Supprimez la colonne 'Nom' du DataFrame.

In [8]:
# Exercice 7
df.drop('Nom', axis=1, inplace=True)

### Exercice 8
Triez le DataFrame par âge de manière décroissante.

In [9]:
# Exercice 8
df.sort_values('Age', ascending=False, inplace=True)
df.head(50)

Unnamed: 0,Age,Ville,Salaire,Prime
37,60,Londres,51748,916
36,59,New York,98782,1438
15,58,Londres,90739,1379
40,58,New York,69682,1043
39,58,Londres,55435,747
43,57,Paris,59378,779
29,56,Londres,35689,879
12,56,Londres,78467,1136
19,55,Paris,72024,1573
22,54,New York,38209,1756


### Exercice 9
Groupez le DataFrame par ville et calculez la somme du salaire pour chaque ville.

In [10]:
# Exercice 9
print(df.groupby('Ville')['Salaire'].sum())

Ville
Londres     1739260
New York     806019
Paris        731236
Name: Salaire, dtype: int64


### Exercice 10
Sauvegardez le DataFrame dans un fichier CSV appelé 'donnees.csv'.

In [11]:
# Exercice 10
df.to_csv('donnees.csv', index=False)

### Exercice 11
Importez le DataFrame à partir du fichier CSV 'donnees.csv' que vous venez de créer.

In [12]:
# Exercice 11
df_importe = pd.read_csv('donnees.csv')
df_importe.head()

Unnamed: 0,Age,Ville,Salaire,Prime
0,60,Londres,51748,916
1,59,New York,98782,1438
2,58,Londres,90739,1379
3,58,New York,69682,1043
4,58,Londres,55435,747


### Exercice 12
Remplacez les valeurs de la colonne 'Salaire' par la racine carrée de ces valeurs.

In [13]:
# Exercice 12
df['Salaire'] = np.sqrt(df['Salaire'])
df.head()

Unnamed: 0,Age,Ville,Salaire,Prime
37,60,Londres,227.481867,916
36,59,New York,314.296039,1438
15,58,Londres,301.229149,1379
40,58,New York,263.973484,1043
39,58,Londres,235.446385,747


### Exercice 13
Sélectionnez les lignes où la ville est 'Paris' et l'âge est inférieur à 30.

In [14]:

# Exercice 13
print(df[(df['Ville'] == 'Paris') & (df['Age'] < 30)])

    Age  Ville     Salaire  Prime
35   28  Paris  255.571908   1952
5    25  Paris  308.335856   1052
17   25  Paris  260.463049   1534


### Exercice 14
Créez une nouvelle colonne 'Groupe_Age' en catégorisant l'âge en 'Jeune' (<30), 'Adulte' (30-50), et 'Senior' (>50).

In [15]:

# Exercice 14
bins = [0, 30, 50, np.inf]
labels = ['Jeune', 'Adulte', 'Senior']
df['Groupe_Age'] = pd.cut(df['Age'], bins=bins, labels=labels)
df.head(50)

Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age
37,60,Londres,227.481867,916,Senior
36,59,New York,314.296039,1438,Senior
15,58,Londres,301.229149,1379,Senior
40,58,New York,263.973484,1043,Senior
39,58,Londres,235.446385,747,Senior
43,57,Paris,243.676014,779,Senior
29,56,Londres,188.915325,879,Senior
12,56,Londres,280.119617,1136,Senior
19,55,Paris,268.372875,1573,Senior
22,54,New York,195.471226,1756,Senior


### Exercice 15
Calculez la moyenne du salaire pour chaque groupe d'âge dans le DataFrame.

In [16]:

# Exercice 15
print(df.groupby('Groupe_Age')['Salaire'].mean())

Groupe_Age
Jeune     262.947711
Adulte    245.280809
Senior    253.287575
Name: Salaire, dtype: float64


  print(df.groupby('Groupe_Age')['Salaire'].mean())


### Exercice 16
Créez une nouvelle colonne 'Classement' qui attribue le rang à chaque personne en fonction du salaire, en ordre décroissant. Gérez les égalités en attribuant la même valeur de classement à des salaires égaux.

In [17]:
# Exercice 16
df['Classement'] = df['Salaire'].rank(ascending=False, method='min')
df.sort_values('Salaire', ascending=False, inplace=True)
df.head(50)

Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age,Classement
38,20,Londres,315.640618,1222,Jeune,1.0
45,23,Londres,314.930151,1594,Jeune,2.0
36,59,New York,314.296039,1438,Senior,3.0
16,40,Londres,309.959675,1670,Adulte,4.0
41,51,New York,309.053393,510,Senior,5.0
31,41,Londres,308.410441,540,Adulte,6.0
5,25,Paris,308.335856,1052,Jeune,7.0
7,52,Londres,304.24168,1196,Senior,8.0
9,21,Londres,302.7276,938,Jeune,9.0
42,41,Londres,302.094356,931,Adulte,10.0


### Exercice 17
Calculez la moyenne mobile sur trois périodes pour la colonne 'Salaire'. La moyenne mobile est la moyenne des valeurs actuelle, précédente et suivante dans la série.

In [18]:

# Exercice 17
df['Moyenne_Mobile'] = df['Salaire'].rolling(window=3, min_periods=1).mean()
df.head(10)

Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age,Classement,Moyenne_Mobile
38,20,Londres,315.640618,1222,Jeune,1.0,315.640618
45,23,Londres,314.930151,1594,Jeune,2.0,315.285385
36,59,New York,314.296039,1438,Senior,3.0,314.955603
16,40,Londres,309.959675,1670,Adulte,4.0,313.061955
41,51,New York,309.053393,510,Senior,5.0,311.103036
31,41,Londres,308.410441,540,Adulte,6.0,309.14117
5,25,Paris,308.335856,1052,Jeune,7.0,308.599897
7,52,Londres,304.24168,1196,Senior,8.0,306.995992
9,21,Londres,302.7276,938,Jeune,9.0,305.101712
42,41,Londres,302.094356,931,Adulte,10.0,303.021212


### Exercice 18
Ajoutez une colonne 'Nom_Majuscule' qui contient le nom en majuscules uniquement pour les personnes dont l'âge est supérieur à la moyenne d'âge du DataFrame.

In [19]:

# Exercice 18
df['Nom'] = noms
moyenne_age = df['Age'].mean()
print(moyenne_age)
df['Nom_Majuscule'] = np.where(df['Age'] > moyenne_age, df['Nom'].str.upper(), df['Nom'])
df.head()

41.38


Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age,Classement,Moyenne_Mobile,Nom,Nom_Majuscule
38,20,Londres,315.640618,1222,Jeune,1.0,315.640618,Brandon Russell,Brandon Russell
45,23,Londres,314.930151,1594,Jeune,2.0,315.285385,Steven Johnson,Steven Johnson
36,59,New York,314.296039,1438,Senior,3.0,314.955603,Evelyn Christian,EVELYN CHRISTIAN
16,40,Londres,309.959675,1670,Adulte,4.0,313.061955,George Cook,George Cook
41,51,New York,309.053393,510,Senior,5.0,311.103036,Aaron Graham,AARON GRAHAM


### Exercice 19
Créez une nouvelle colonne 'Difference_Age' qui contient la différence d'âge entre chaque personne et la personne suivante dans le DataFrame.

In [20]:

# Exercice 19
df['Difference_Age'] = df['Age'].diff().shift(-1).abs()
df.head(100)

Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age,Classement,Moyenne_Mobile,Nom,Nom_Majuscule,Difference_Age
38,20,Londres,315.640618,1222,Jeune,1.0,315.640618,Brandon Russell,Brandon Russell,3.0
45,23,Londres,314.930151,1594,Jeune,2.0,315.285385,Steven Johnson,Steven Johnson,36.0
36,59,New York,314.296039,1438,Senior,3.0,314.955603,Evelyn Christian,EVELYN CHRISTIAN,19.0
16,40,Londres,309.959675,1670,Adulte,4.0,313.061955,George Cook,George Cook,11.0
41,51,New York,309.053393,510,Senior,5.0,311.103036,Aaron Graham,AARON GRAHAM,10.0
31,41,Londres,308.410441,540,Adulte,6.0,309.14117,Kyle Jones,Kyle Jones,16.0
5,25,Paris,308.335856,1052,Jeune,7.0,308.599897,Jerome Whitehead,Jerome Whitehead,27.0
7,52,Londres,304.24168,1196,Senior,8.0,306.995992,Charles Tyler,CHARLES TYLER,31.0
9,21,Londres,302.7276,938,Jeune,9.0,305.101712,Thomas Berry,Thomas Berry,20.0
42,41,Londres,302.094356,931,Adulte,10.0,303.021212,Ryan Mack,Ryan Mack,17.0


### Exercice 20
Effectuez une jointure externe entre le DataFrame actuel et un nouveau DataFrame généré aléatoirement, contenant des informations factices sur les personnes. La jointure doit être basée sur la colonne 'Nom'.

In [21]:

# Exercice 20
data_nouveau = {
    'Nom': noms[:25] + [fake.name() for _ in range(25)],
    'Info_Factice': [fake.random_element(elements=('A', 'B', 'C')) for _ in range(50)],
}

df_nouveau = pd.DataFrame(data_nouveau)
df_joint = pd.merge(df, df_nouveau, on='Nom', how='outer')

In [22]:
df_joint.head(50)

Unnamed: 0,Age,Ville,Salaire,Prime,Groupe_Age,Classement,Moyenne_Mobile,Nom,Nom_Majuscule,Difference_Age,Info_Factice
0,20.0,Londres,315.640618,1222.0,Jeune,1.0,315.640618,Brandon Russell,Brandon Russell,3.0,B
1,23.0,Londres,314.930151,1594.0,Jeune,2.0,315.285385,Steven Johnson,Steven Johnson,36.0,A
2,59.0,New York,314.296039,1438.0,Senior,3.0,314.955603,Evelyn Christian,EVELYN CHRISTIAN,19.0,C
3,40.0,Londres,309.959675,1670.0,Adulte,4.0,313.061955,George Cook,George Cook,11.0,B
4,51.0,New York,309.053393,510.0,Senior,5.0,311.103036,Aaron Graham,AARON GRAHAM,10.0,A
5,41.0,Londres,308.410441,540.0,Adulte,6.0,309.14117,Kyle Jones,Kyle Jones,16.0,A
6,25.0,Paris,308.335856,1052.0,Jeune,7.0,308.599897,Jerome Whitehead,Jerome Whitehead,27.0,A
7,52.0,Londres,304.24168,1196.0,Senior,8.0,306.995992,Charles Tyler,CHARLES TYLER,31.0,A
8,21.0,Londres,302.7276,938.0,Jeune,9.0,305.101712,Thomas Berry,Thomas Berry,20.0,B
9,41.0,Londres,302.094356,931.0,Adulte,10.0,303.021212,Ryan Mack,Ryan Mack,17.0,C
