In [3]:
import pandas as pd

# L'une des données est textuelle "16"
df = pd.DataFrame({
    'maths' : [12, 8 , 15],
    'francais' : [14, 9 , "16"],
    'histoire' : [13, 10 , 15],
    'bac' : [ 15, 18, 9]
})

In [None]:
# 3 manières de nettoyer des données

In [4]:
# 1. Nettoyer un typage incohérent
# -> remplacer un typage par un autre (tout en numérique) avec .apply() (retourne un nouveau df):
    # .to_numeric: pout tout passer en numérique
    # errors='coerce': errors s'il n'arrive pas laisser null (NaN)
df_clean = df.apply(pd.to_numeric, errors='coerce')

print(df_clean)

# Possibilité de viser une colonne spécifique plutôt que de prendre le risque de faire sur tout:
    # ajouter la colonne visée en argument:

    # et remplacer seulement la colonne voulue dans le nouveau pf déjà généré
df_clean = df
df_clean['francais'] = pd.to_numeric(df['francais'], errors='coerce')
    # ou remplacer directement la colonne voulue dans le pf de base
df['francais'] = pd.to_numeric(df['francais'], errors='coerce')

   maths  francais  histoire  bac
0     12        14        13   15
1      8         9        10   18
2     15        16        15    9


In [33]:
# 2. Nettoyer une donnée manquante
# -> fillna = remplir les données manquantes

# L'une des données est manquante, le 15 en histoire
df = pd.DataFrame({
    'maths' : [12, 8 , 15],
    'francais' : [14, 9 , 16],
    'histoire' : [13, 10, ""],
    'bac' : [ 15, 18, 9]
})
# D'abord tout passer en numérique pour avoir NaN
df1 = df.apply(pd.to_numeric, errors='coerce')
    # En tant normal, via un .csv par exemple, on aura déjà des NaN, ici c'est parce que c'est fait à la main
print(df1)
print('------------------------------------')
# puis: fillna retourne une copie et a besoin de savoir par quoi on remplace les données nulles, ici 0 :
df2 = df
df2 =  df2.fillna(0)
print(df2)
print('------------------------------------')
# on tente de mettre la moyenne d'histoire sur la note manquante :
# juste pour montrer qu'on peut mettre des calculs dans .fillna()
    # d'abord tout avoir en numérique et avoir NaN
df3 = df.apply(pd.to_numeric, errors='coerce')
    # rempalcer NaN par 0
df3['histoire'] = df3['histoire'].fillna(0)
print(df3)
    # Calculer la moyenne sur les colonnes > 0
    # avec .loc pour récupérer des cellules selon condition
moyenne = df3.loc[df3['histoire']> 0, 'histoire'].mean()
print(f'moyenne des > 0:  {moyenne}')
    # Remplacer la note concernée par cette moyenne
    # sachant que .loc modifie que les colonnes qui le concernent
df3.loc[df3['histoire'] == 0, 'histoire'] = moyenne
print(df3)

   maths  francais  histoire  bac
0     12        14      13.0   15
1      8         9      10.0   18
2     15        16       NaN    9
------------------------------------
   maths  francais histoire  bac
0     12        14       13   15
1      8         9       10   18
2     15        16             9
------------------------------------
   maths  francais  histoire  bac
0     12        14      13.0   15
1      8         9      10.0   18
2     15        16       0.0    9
moyenne des > 0:  11.5
   maths  francais  histoire  bac
0     12        14      13.0   15
1      8         9      10.0   18
2     15        16      11.5    9


In [34]:
# 3. Renommer une colonne

# avec .rename() qui fait une copie aussi
df_ren = df.rename(columns={'histoire': 'bidule'})
print(df_ren)

   maths  francais bidule  bac
0     12        14     13   15
1      8         9     10   18
2     15        16           9


In [38]:
# 4. Supprimer des lignes nulles

# avec .dropna() qui fait une copie aussi, et a besoin de NaN, pas de vide
print(df)
df_na = df.apply(pd.to_numeric, errors='coerce')
print(df_na)
df_dr = df_na.dropna()
print(df_dr)

# on peut forcer de metter un NaN avec "np.nan" là où onn souhaite

   maths  francais histoire  bac
0     12        14       13   15
1      8         9       10   18
2     15        16             9
   maths  francais  histoire  bac
0     12        14      13.0   15
1      8         9      10.0   18
2     15        16       NaN    9
   maths  francais  histoire  bac
0     12        14      13.0   15
1      8         9      10.0   18
