# Table des matières
Pensez aussi à utiliser la section **OUTLINE** (colonne de gauche, en bas, au dessus de TIMELINE)

1. [Remplacer les valeurs absentes par 42](#remplacer-les-valeurs-absentes-par-42)
1. [Remplacer une valeur par une autre](#remplacer-une-valeur-par-une-autre)
1. [N'afficher que les lignes où le PIB est vide](#nafficher-que-les-lignes-où-le-pib-est-vide)
1. [Afficher les lignes d'une même catégorie](#afficher-les-lignes-dune-même-catégorie)
1. [Afficher les catégories où le % de valeurs manquantes est non nul](#afficher-les-catégories-où-le--de-valeurs-manquantes-est-non-nul)
1. [Créer des colonnes avec le contenu d'une colonne](#créer-des-colonnes-avec-le-contenu-dune-colonne)
1. [Calculer de nouvelles colonnes](#calculer-de-nouvelles-colonnes)
1. [Créer une colonne qui contient des catégories](#créer-une-colonne-qui-contient-des-catégories)
1. [Difference entre `apply()` et `transform()`](#difference-entre-apply-et-transform)
  1. [aply()](#apply)
  1. [transform()](#transform)
1. [Extraire les nombres d'une chaîne et créer une colonne](#extraire-les-nombres-dune-chaîne-et-créer-une-colonne)
1. [Extraire les valeurs d'une chaine, remplir une colone avec leur moyenne](#extraire-les-valeurs-dune-chaine-remplir-une-colone-avec-leur-moyenne)
[Transform (s'applique à un groupe)](#transform-sapplique-à-un-groupe)
1. [groupby : remplacer valeurs manquantes par moyenne de la catégorie](#groupby--remplacer-valeurs-manquantes-par-moyenne-de-la-catégorie)
1. [groupby : remplacer valeurs manquantes par moyenne de la catégorie - V2](#groupby--remplacer-valeurs-manquantes-par-moyenne-de-la-catégorie---v2)
1. [Supprimer une colonne](#supprimer-une-colonne)
1. [Supprimer des colonnes en fonction d'un motif dans le titre](#supprimer-des-colonnes-en-fonction-dun-motif-dans-le-titre)
1. [Merger 2 fichiers csv ou dataframe](#merger-2-fichiers-csv-ou-dataframe)
1. [Sauver une Dataframe](#sauver-un-dataframe)
1. [Merge avancé de 2 DataFrames](#merge-avancé-de-2-dataframes)



# Remplacer les valeurs absentes par 42

In [67]:
import pandas as pd
from sklearn.impute import SimpleImputer

df = pd.DataFrame({'A': [1, None, 3], 'B': [4, 5, 6]})
print("Table avant : \n", df.head(), "\n")
df['A'].fillna(42, inplace=True)
print("Table après : \n", df.head(), "\n")

df = pd.DataFrame({'A': [1, None, 3], 'B': [4, 5, 6]})
print("Table avant : \n", df.head(), "\n")
Zoubida = SimpleImputer(strategy="constant", fill_value=42)
Marcel_ndarray = Zoubida.fit_transform(df)
# ! fit_transform() retroune un ndarray et PAS un DataFrame
print("Table après : \n", Marcel_ndarray, "\n")



Table avant : 
      A  B
0  1.0  4
1  NaN  5
2  3.0  6 

Table après : 
       A  B
0   1.0  4
1  42.0  5
2   3.0  6 

Table avant : 
      A  B
0  1.0  4
1  NaN  5
2  3.0  6 

Table après : 
 [[ 1.  4.]
 [42.  5.]
 [ 3.  6.]] 



# Remplacer une valeur par une autre

In [68]:
import pandas as pd

df = pd.DataFrame({'A': [1, 42, 3], 'B': [4, 5, 42]})
print("Table avant : \n", df.head(), "\n")

df['A'].replace([42], '24', inplace=True)
print("Table après : \n", df.head(), "\n")

Table avant : 
     A   B
0   1   4
1  42   5
2   3  42 

Table après : 
     A   B
0   1   4
1  24   5
2   3  42 



# N'afficher que les lignes où le PIB est vide

In [69]:
import pandas as pd

df = pd.DataFrame({
  'Pays': ["FR", "UK", "US"], 
  'PIB': [44, None, 0]
})
print("Table : \n", df.head(), "\n")
print(df.loc[df['PIB'].isnull()])


Table : 
   Pays   PIB
0   FR  44.0
1   UK   NaN
2   US   0.0 

  Pays  PIB
1   UK  NaN


# Afficher les lignes d'une même catégorie

In [70]:
import pandas as pd
df = pd.DataFrame({
  'Pays': ["FR", "UK", "FR"], 
  'Valeurs': [44, 58, 33]
})
print(df.loc[df['Pays'] == 'FR'])


  Pays  Valeurs
0   FR       44
2   FR       33


# Afficher les catégories où le % de valeurs manquantes est non nul

In [71]:
import pandas as pd
df = pd.DataFrame({
  'Pays': ["FR", "UK", "US", "FR"], 
  'Feature-1': [10, 58, None, 20],
  'Feature-2': [100, 580, 10, 2000],
  'Feature-3': [10, 58, None, None],
})

print("Table : \n", df.head(), "\n")

Bob = df.isna().sum() / len(df) * 100
print("Les % de valeurs manquantes dans les colonnes sont :\n",Bob, "\n")

print("Il y a des valeurs manquantes dans les colonnes suivantes : \n", Bob.loc[Bob.ne(0)])


Table : 
   Pays  Feature-1  Feature-2  Feature-3
0   FR       10.0        100       10.0
1   UK       58.0        580       58.0
2   US        NaN         10        NaN
3   FR       20.0       2000        NaN 

Les % de valeurs manquantes dans les colonnes sont :
 Pays          0.0
Feature-1    25.0
Feature-2     0.0
Feature-3    50.0
dtype: float64 

Il y a des valeurs manquantes dans les colonnes suivantes : 
 Feature-1    25.0
Feature-3    50.0
dtype: float64


# Créer des colonnes avec le contenu d'une colonne

In [107]:
import pandas as pd

df = pd.DataFrame({'Colonne': ['Chaine1-Chaine2', 'A-B', 'X-Y']})
print("Table avant : \n", df.head(), "\n")

df[['Colonne1', 'Colonne2']] = df['Colonne'].str.split('-', expand=True)
print("Table après : \n", df.head(), "\n")

Table avant : 
            Colonne
0  Chaine1-Chaine2
1              A-B
2              X-Y 

Table après : 
            Colonne Colonne1 Colonne2
0  Chaine1-Chaine2  Chaine1  Chaine2
1              A-B        A        B
2              X-Y        X        Y 



# Calculer de nouvelles colonnes

In [73]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print("Table avant : \n", df.head(), "\n")

df['Somme'] = df['A'] + df['B']
df['Hypothénuse'] = np.sqrt(df['A']**2 + df['B']**2)

taux = 0.5
df["Prix-US"]=df["A"]*taux

print("Table après : \n", df.head(), "\n")


Table avant : 
    A  B
0  1  4
1  2  5
2  3  6 

Table après : 
    A  B  Somme  Hypothénuse  Prix-US
0  1  4      5     4.123106      0.5
1  2  5      7     5.385165      1.0
2  3  6      9     6.708204      1.5 



# Créer une colonne qui contient des catégories

In [108]:
import pandas as pd

df = pd.DataFrame({
  'Id'        : ["Riri", "Fifi", "Loulou", "Avasarala", "Holden", "Naomi", "Razorback", "Apollo", "Soyouz"],
  'Prix'      : [0, 25, 99, 80, 66, 13, 100, 56, 110] 
})
print("Table avant :\n", df.head(10), "\n")

# Les bornes des intervalles
# (0-25, 25-50, 50-75, 75-100) 
intervalles = [0, 25, 50, 75, 100]

# Les étiquettes de chaque catégorie
categories = ['A', 'B', 'C', 'D']

# Utilise cut() pour créer la colonne 'Catégorie'
# include_lowest=True => la 1ere catégorie inclura les valeurs égales à la borne inf de l'intervalle
df['Catégorie'] = pd.cut(df['Prix'], bins=intervalles, labels=categories, include_lowest=True)

print("Table après :\n", df.head(10), "\n")


Table avant :
           Id  Prix
0       Riri     0
1       Fifi    25
2     Loulou    99
3  Avasarala    80
4     Holden    66
5      Naomi    13
6  Razorback   100
7     Apollo    56
8     Soyouz   110 

Table après :
           Id  Prix Catégorie
0       Riri     0         A
1       Fifi    25         A
2     Loulou    99         D
3  Avasarala    80         D
4     Holden    66         C
5      Naomi    13         A
6  Razorback   100         D
7     Apollo    56         C
8     Soyouz   110       NaN 



# Difference entre `apply()` et `transform()`


## `apply()`
* `apply()` est plus générique que `transform()`
* Utilisée pour appliquer une fonction sur des DataFrames entiers, des colonnes ou des lignes spécifiques
* La fonction passée à `apply()` peut retourner un scalaire, une Serie ou un DataFrame

In [74]:
import pandas as pd

df = pd.DataFrame({
  'A': [1, 2, 3], 
  'B': [4, 5, 6]
})

def moyenne(row):
  return (row['A']+ row['B'])/2

print("Table avant : \n", df.head(), "\n")

df["sqrt(A)"] = df['A'].apply(lambda x: x **.5)     # fonction lambda
df["Moyenne"] = df.apply(moyenne, axis=1)
print("Table après : \n", df.head(), "\n")

result = df['A'].apply(lambda x: x **2)                 
print("Serie A après\n", result, "\n")

Table avant : 
    A  B
0  1  4
1  2  5
2  3  6 

Table après : 
    A  B   sqrt(A)  Moyenne
0  1  4  1.000000      2.5
1  2  5  1.414214      3.5
2  3  6  1.732051      4.5 

Serie A après
 0    1
1    4
2    9
Name: A, dtype: int64 



## `transform()`
* **`transform()`** est spécifiquement conçue pour effectuer des opérations sur des groupes de données.
* La fonction de transformation doit renvoyer une série de la même longueur que l'entrée, et elle est appliquée à chaque groupe de données.
* Utile pour effectuer des opérations de groupe (par exemple, remplacer les valeurs manquantes par la moyenne du groupe).

In [75]:
import pandas as pd

df = pd.DataFrame({
  'Groupe': ['A', 'A', 'B', 'B', 'A', 'B'], 
  'Valeur': [None, 2, None, 4, 5, None]
})
print("Table avant : \n", df.head(), "\n")

# Rempli les valeurs manquantes avec la moyenne du groupe
moyennes_par_groupe = df.groupby('Groupe')['Valeur'].transform('mean')
df['Valeur'] = df['Valeur'].fillna(moyennes_par_groupe)
print("Table après : \n", df.head(), "\n")

Table avant : 
   Groupe  Valeur
0      A     NaN
1      A     2.0
2      B     NaN
3      B     4.0
4      A     5.0 

Table après : 
   Groupe  Valeur
0      A     3.5
1      A     2.0
2      B     4.0
3      B     4.0
4      A     5.0 



# Extraire les nombres d'une chaîne et créer une colonne 

In [76]:
import pandas as pd
import re                                    # regular expression

df = pd.DataFrame({
  'Id'       : ["Riri", "Fifi", "Loulou"],
  'Feature-0': ["Val1", "Val2", "Val3"], 
  'Feature-1': ["Marcel11", "Robert2", "Antoine3"],
  'Feature-2': ["NE-555", "20-USA-48", "Russia"],
})

def get_digit(mystr):
  chiffres = re.findall(r'\d+', str(mystr))  # Trouver tous les chiffres
  try:
    return int(''.join(chiffres))
  except:
    return 0                                 # on peut aussi retourner np.nan

print("Table avant : \n", df.head(), "\n")

df['Feature-3'] = df['Feature-2'].apply(get_digit)         # voir le apply()
df['Feature-1'] = df['Feature-1'].apply(get_digit)
# df['Feature-0'] = df['Feature-0'].apply(keep_numbers)

print("Table après : \n", df.head(), "\n")

Table avant : 
        Id Feature-0 Feature-1  Feature-2
0    Riri      Val1  Marcel11     NE-555
1    Fifi      Val2   Robert2  20-USA-48
2  Loulou      Val3  Antoine3     Russia 

Table après : 
        Id Feature-0  Feature-1  Feature-2  Feature-3
0    Riri      Val1         11     NE-555        555
1    Fifi      Val2          2  20-USA-48       2048
2  Loulou      Val3          3     Russia          0 



# Extraire les valeurs d'une chaine, remplir une colone avec leur moyenne

In [77]:
import pandas as pd

def moy(x):
  try : 
    return np.mean([float(i) for i in x.split("~")])
  except: 
    return np.nan     # on peut aussi retrouner une valeur : 42...

df = pd.DataFrame({
  'Id'       : ["Riri", "Fifi", "Loulou"],
  'Feature-0': ["11~13", "10~20~30", "50~100"], 
  'Feature-1': ["18~20", "10~20", "50**100"],
})
print("Avant : \n", df.head(), "\n")

df['Feature-0'] = df['Feature-0'].apply(moy)          # voir le apply()
df['Moy Feature-1'] = df['Feature-1'].apply(moy)

print("Après : \n", df.head())


Avant : 
        Id Feature-0 Feature-1
0    Riri     11~13     18~20
1    Fifi  10~20~30     10~20
2  Loulou    50~100   50**100 

Après : 
        Id  Feature-0 Feature-1  Moy Feature-1
0    Riri       12.0     18~20           19.0
1    Fifi       20.0     10~20           15.0
2  Loulou       75.0   50**100            NaN


# Transform (s'applique à un groupe)

In [78]:
import pandas as pd

data = {'Groupe': ['A', 'A', 'B', 'B', 'A', 'B'],
        'Valeur': [None, 15, None, 25, 30, None]}
df = pd.DataFrame(data)
print("Avant : \n", df.head(), "\n")

# Calculer la moyenne par groupe
moyennes_par_groupe = df.groupby('Groupe')['Valeur'].transform('mean')         # voir le transform sur le groupe
print("Moyennes :\n", moyennes_par_groupe, "\n")

# Remplacer les valeurs manquantes par la moyenne correspondante
df['Valeur'] = df['Valeur'].fillna(moyennes_par_groupe)

# Afficher le DataFrame après transformation
print("Après : \n", df.head(), "\n")

Avant : 
   Groupe  Valeur
0      A     NaN
1      A    15.0
2      B     NaN
3      B    25.0
4      A    30.0 

Moyennes :
 0    22.5
1    22.5
2    25.0
3    25.0
4    22.5
5    25.0
Name: Valeur, dtype: float64 

Après : 
   Groupe  Valeur
0      A    22.5
1      A    15.0
2      B    25.0
3      B    25.0
4      A    30.0 



# groupby : remplacer valeurs manquantes par moyenne de la catégorie

* Marche pas dans tous les cas
* Il faut que chaque catégorie ait une moyenne à calculer
* Si une catégorie n'a aucune moyenne à calculer rien n'est fait


In [79]:
data = {
  'Pays': ['A', 'A', 'B', 'B', 'A', 'B'],
  'PIB': [None, None, 10, 25, None, 45]
}
df = pd.DataFrame(data)

print("Avant : \n", df.head(), "\n")
moyennes_par_pays = df.groupby('Pays')['PIB'].mean()
df['PIB'] = df.apply(lambda row: moyennes_par_pays[row['Pays']] if pd.isna(row['PIB']) else row['PIB'], axis=1)
print("Après : \n", df.head(), "\n")


Avant : 
   Pays   PIB
0    A   NaN
1    A   NaN
2    B  10.0
3    B  25.0
4    A   NaN 

Après : 
   Pays   PIB
0    A   NaN
1    A   NaN
2    B  10.0
3    B  25.0
4    A   NaN 



# groupby : remplacer valeurs manquantes par moyenne de la catégorie - V2

* Met 0 si la moyenne n'a pas pu être calculée

In [80]:
data = {
  'Pays': ['A', 'A', 'B', 'B', 'A', 'B'],
  'PIB': [None, None, 10, 25, None, 45]
}
df = pd.DataFrame(data)

print("Avant : \n", df.head(), "\n")
moyennes_par_pays = df.groupby('Pays')['PIB'].mean()
moyennes_par_pays.fillna(0.0, inplace=True)
df['PIB'] = df.apply(lambda row: moyennes_par_pays[row['Pays']] if pd.isna(row['PIB']) else row['PIB'], axis=1)
print("Après : \n", df.head(), "\n")



Avant : 
   Pays   PIB
0    A   NaN
1    A   NaN
2    B  10.0
3    B  25.0
4    A   NaN 

Après : 
   Pays   PIB
0    A   0.0
1    A   0.0
2    B  10.0
3    B  25.0
4    A   0.0 



# Supprimer une colonne

In [94]:
import pandas as pd
df = pd.DataFrame({
  'Id'      : ["Riri", "Fifi", "Loulou"],
  'Feature0': [1, 2, 3], 
  'Feature1': [10, 20, 30], 
  'Feature2': [100, 200, 300], 
})
print("Table avant : \n", df.head(), "\n")
df.drop("Feature1", inplace=True, axis=1)
print("Table après : \n", df.head(), "\n")


Table avant : 
        Id  Feature0  Feature1  Feature2
0    Riri         1        10       100
1    Fifi         2        20       200
2  Loulou         3        30       300 

Table après : 
        Id  Feature0  Feature2
0    Riri         1       100
1    Fifi         2       200
2  Loulou         3       300 



# Supprimer des colonnes en fonction d'un motif dans le titre

In [81]:
import pandas as pd
df = pd.DataFrame({
  'Id'      : ["Riri", "Fifi", "Loulou"],
  'Feature0': [1, 2, 3], 
  'Feature1': [4, 5, 6],
  'Feature2': [7, 8, 9],
  'Feature3': [1, 2, 3],
  'Feature4': [4, 5, 6],
  'Feature5': [7, 8, 9],
  'Feature6': [1, 2, 3]
})
print("Table avant : \n", df.head(1), "\n")
columns_to_drop=[f'Feature{i}' for i in range (2,5)]
df.drop(columns=columns_to_drop, inplace=True)
print("Table après : \n", df.head(1), "\n")


Table avant : 
      Id  Feature0  Feature1  Feature2  Feature3  Feature4  Feature5  Feature6
0  Riri         1         4         7         1         4         7         1 

Table après : 
      Id  Feature0  Feature1  Feature5  Feature6
0  Riri         1         4         7         1 



# Merger 2 fichiers csv ou dataframe

In [82]:
import pandas as pd

# Charger les deux fichiers CSV
# df1 = pd.read_csv('fichier1.csv', delimiter=";")
# df2 = pd.read_csv('fichier2.csv', delimiter=";")
df1 = pd.DataFrame({
  'Id' : [101, 1001, 200, 2000, 300],
  'Valeur1' : ['a', 'b', 'c', 'd', 'e'],
  'Valeur2' : ['aa', 'bb', 'cc', 'dd', 'ee']
})

df2 = pd.DataFrame({
  'Id' : [101, 102, 200, 201, 300, 500],
  'Valeur1' : [1,2,3,4,5,10],
  'Valeur2' : [11,12,13,14,15,100]
})

# Effectue le merge sur la colonne 'Id'
resultat_merge = pd.merge(df1, df2, on='Id')

# Afficher le résultat
print(resultat_merge)

    Id Valeur1_x Valeur2_x  Valeur1_y  Valeur2_y
0  101         a        aa          1         11
1  200         c        cc          3         13
2  300         e        ee          5         15


# Sauver un Dataframe

In [83]:
df.to_csv("mon-fichier.csv", index=False)

# Merge avancé de 2 Dataframes
[top](#table-des-matières)
* La seconde table contient des Types dont on veut calculer la moyennes des features
* Voir le contenu de la Table 3
* Une des features de la Table 1 est le type
* On veut étendre la Table 1, avec pour chaque ligne, en fonction du type, les moyennes calculées avec la Table 2 


In [84]:
df2 = pd.DataFrame({
  'Id'        : ["Riri", "Fifi", "Loulou", "Avasarala", "Holden", "Naomi", "Razorback", "Apollo", "Soyouz"],
  'Type'      : ["Type1", "Type2", "Type3", "Type1", "Type2", "Type3", "Type1", "Type2", "Type3"], 
  'Feature-1' : [0, 1, 2, 3, 4, 5, 6, 7, 8],
  'Value'     : [10, 20, 30, 11, 21, 31, 12, 22, 32],
})
print("Table 2 :\n", df2.head(10), "\n")

# df3 = df2.groupby('Type')["Value"].transform("mean")
# df3 = df2.groupby('Type')["Value"].mean()
# print("Table 3 : Depuis Table 2, les moyennes de Value par Type\n", df3, "\n")

df3 = df2.groupby('Type')[["Feature-1", "Value"]].mean()
print("Table 3 : Depuis Table 2, les moyennes de Value et Feature-1 par Type\n", df3, "\n")

df1 = pd.DataFrame({
  'Id'        : ["Riri", "Avasarala", "Apollo", "Soyouz"],
  'Colonne-00': ["BB", "SF", "Space", "Space"], 
  'Colonne-01': [3.14, 42, 2.718, 1.618],
  'Colonne-02': ["Type1", "Type2", "Type2", "Type1"],
})
print("Table 1 :\n", df1.head(), "\n")

# Voir que dans le join les colonnes n'ont pas le même nom
df4 = pd.merge(df1, df3, left_on='Colonne-02', right_on='Type', how='inner' )
# df4 = pd.merge(df1, df2.groupby('Type')[["Feature-1","Value"]].mean(),left_on='Colonne-02', right_on='Type', how='inner' )
print("Merge de Table 1 et Table 3 sur le Type :\n", df4.head(10), "\n")


Table 2 :
           Id   Type  Feature-1  Value
0       Riri  Type1          0     10
1       Fifi  Type2          1     20
2     Loulou  Type3          2     30
3  Avasarala  Type1          3     11
4     Holden  Type2          4     21
5      Naomi  Type3          5     31
6  Razorback  Type1          6     12
7     Apollo  Type2          7     22
8     Soyouz  Type3          8     32 

Table 3 : Depuis Table 2, les moyennes de Value et Feature-1 par Type
        Feature-1  Value
Type                   
Type1        3.0   11.0
Type2        4.0   21.0
Type3        5.0   31.0 

Table 1 :
           Id Colonne-00  Colonne-01 Colonne-02
0       Riri         BB       3.140      Type1
1  Avasarala         SF      42.000      Type2
2     Apollo      Space       2.718      Type2
3     Soyouz      Space       1.618      Type1 

Merge de Table 1 et Table 3 sur le Type :
           Id Colonne-00  Colonne-01 Colonne-02  Feature-1  Value
0       Riri         BB       3.140      Type1        3.0 