In [79]:
import pandas as pd
import numpy as np
data = {
    "Prénom": ['Beryl', 'Sarah', 'Kevin', 'Parfait'],
    "Age": [26, 22, 33, 20],
    "Filière": ['A', 'A', 'C', 'B']
}
df = pd.DataFrame(data)
df


Unnamed: 0,Prénom,Age,Filière
0,Beryl,26,A
1,Sarah,22,A
2,Kevin,33,C
3,Parfait,20,B


In [39]:
# map() : Remplacement des codes filières
df['Filière'] = df['Filière'].map({'A': 'Maths', 'B': 'Physique', 'C': 'Info'})
df

Unnamed: 0,Prénom,Age,Filière
0,Beryl,26,Maths
1,Sarah,22,Maths
2,Kevin,33,Info
3,Parfait,20,Physique


In [40]:
#set_index() - Prénom comme index
df.set_index('Prénom', inplace=True)
df

Unnamed: 0_level_0,Age,Filière
Prénom,Unnamed: 1_level_1,Unnamed: 2_level_1
Beryl,26,Maths
Sarah,22,Maths
Kevin,33,Info
Parfait,20,Physique


In [41]:
#apply() - Ajouter 1 an à chaque âge
df['Age'] = df['Age'].apply(lambda x: x + 1)
df

Unnamed: 0_level_0,Age,Filière
Prénom,Unnamed: 1_level_1,Unnamed: 2_level_1
Beryl,27,Maths
Sarah,23,Maths
Kevin,34,Info
Parfait,21,Physique


In [42]:
#mean() - Moyenne d’âge
print("Moyenne d'âge :", df['Age'].mean())

Moyenne d'âge : 26.25


In [44]:
#sort_values() - Trier par âge
df.sort_values(by='Age', inplace=True)
df

Unnamed: 0_level_0,Age,Filière
Prénom,Unnamed: 1_level_1,Unnamed: 2_level_1
Parfait,21,Physique
Sarah,23,Maths
Beryl,27,Maths
Kevin,34,Info


In [45]:
#pivot_table() - Moyenne par filière
print("\nPivot Table :")
print(df.pivot_table(values='Age', index='Filière', aggfunc='mean'))


Pivot Table :
           Age
Filière       
Info      34.0
Maths     25.0
Physique  21.0


In [46]:
#groupby() + max() - Âge max par filière
print("\nMax âge par filière :")
print(df.groupby('Filière')['Age'].max())


Max âge par filière :
Filière
Info        34
Maths       27
Physique    21
Name: Age, dtype: int64


In [47]:
#query() - Âge > 25 et filière Maths
print("\nQuery filtré :")
print(df.query("Age > 25 and Filière == 'Maths'"))


Query filtré :
        Age Filière
Prénom             
Beryl    27   Maths


In [48]:
#isin() - Appartenance à une liste
print("\nFilière Maths ou Info :")
print(df[df['Filière'].isin(['Maths', 'Info'])])


Filière Maths ou Info :
        Age Filière
Prénom             
Sarah    23   Maths
Beryl    27   Maths
Kevin    34    Info


In [66]:
# drop_duplicates() - Retirer les doublons
df_dupli = df.copy()
df_dupli.loc['Copie'] = df_dupli.iloc[0]
df_dupli = df_dupli.drop_duplicates()
print(df_dupli)

    Prénom  Age Filière
0    Beryl   26       A
1    Sarah   22       A
2    Kevin   33       C
3  Parfait   20       B


In [None]:

# Copie du DataFrame
df_nan = df.copy()
# Ajouter une ligne avec des NaN pour toutes les colonnes
df_nan.loc['Inconnu'] = [np.nan] * len(df_nan.columns)
# Supprimer les lignes avec NaN
df_dropna = df_nan.dropna()
# Remplacer les NaN par défaut
df_fillna = df_nan.fillna({'Age': 0, 'Filière': 'Inconnue', 'Tranche': 'Inconnue'})
# Vérification
print(df_nan)


          Prénom   Age Filière
0          Beryl  26.0       A
1          Sarah  22.0       A
2          Kevin  33.0       C
3        Parfait  20.0       B
Inconnu      NaN   NaN     NaN


In [65]:
#concat() - Ajouter un autre tableau
autres = pd.DataFrame({
    'Prénom': ['soso', 'nina'],
    'Age': [19, 28],
    'Filière': ['Info', 'Maths']
}).set_index('Prénom')
df_concat = pd.concat([df, autres])
print(autres)

        Age Filière
Prénom             
soso     19    Info
nina     28   Maths


In [67]:
# merge() - Fusion par colonne 'Prénom'
notes = pd.DataFrame({
    'Prénom': ['Beryl', 'Sarah', 'Kevin', 'Parfait'],
    'Note': [15, 18, 13, 17]
})
df_merged = df.reset_index().merge(notes, on='Prénom')
print(notes)

    Prénom  Note
0    Beryl    15
1    Sarah    18
2    Kevin    13
3  Parfait    17


In [70]:
#join() - Fusion par index
df_notes = notes.set_index('Prénom')
df_joined = df.join(df_notes)
print(df_notes)

         Note
Prénom       
Beryl      15
Sarah      18
Kevin      13
Parfait    17


In [72]:
#cut() - Tranches d’âge
df['Tranche'] = pd.cut(df['Age'], bins=[0, 25, 30, 40], labels=['Jeune', 'Intermédiaire', 'Sénior'])
df

Unnamed: 0,Prénom,Age,Filière,Tranche
0,Beryl,26,A,Intermédiaire
1,Sarah,22,A,Jeune
2,Kevin,33,C,Sénior
3,Parfait,20,B,Jeune


In [74]:
#explode() - Séparer les listes
df_lang = pd.DataFrame({
    'Nom': ['Alice', 'Bob'],
    'Langages': [['Python', 'R'], ['SQL', 'Python']]
})
df_exploded = df_lang.explode('Langages')
print(df_lang)

     Nom       Langages
0  Alice    [Python, R]
1    Bob  [SQL, Python]


In [75]:
#stack() et unstack()
stacked = df[['Age', 'Filière']].stack()
unstacked = stacked.unstack()
print(stacked)
print(unstacked)

0  Age        26
   Filière     A
1  Age        22
   Filière     A
2  Age        33
   Filière     C
3  Age        20
   Filière     B
dtype: object
  Age Filière
0  26       A
1  22       A
2  33       C
3  20       B


In [85]:
data = {
    "Prénom": ['Beryl', 'Sarah', 'Kevin', 'Parfait'],
    "Age": [26, 22, 33, 20],
    "Filière": ['A', 'A', 'C', 'B']
}
df = pd.DataFrame(data)
df['Filière'] = df['Filière'].map({'A': 'Maths', 'B': 'Physique', 'C': 'Info'})
df.set_index('Prénom', inplace=True)

print(df.loc['Beryl', 'Age'])


26


In [84]:
#Détection des outliers
Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['Age'] < Q1 - 1.5 * IQR) | (df['Age'] > Q3 + 1.5 * IQR)]
print("\nOutliers détectés :")
print(outliers)


Outliers détectés :
Empty DataFrame
Columns: [Age, Filière]
Index: []
