# Remplacer les valeurs manquantes par la moyenne de la catégorie

* Marche pas dans tous les cas

In [31]:
#
# ! Attention si dès le départ le pays n'a aucun PIB alors on remplace aucune valeur
import pandas as pd
df = pd.read_csv("gdp.csv")

# print(df.loc[df['Pays'] == "Afghanistan"])
print(df.isna().sum())

moyennes_par_pays = df.groupby('Pays')['PIB'].mean()
df['PIB'] = df.apply(lambda row: moyennes_par_pays[row['Pays']] if pd.isna(row['PIB']) else row['PIB'], axis=1)

# print(df.isna().sum())
# print(df.loc[df['Pays'] == "Afghanistan"])

print(df.loc[df['PIB'].isnull()])



Pays      0
PIB     282
dtype: int64
         Pays  PIB
3371  Bahamas  NaN
3372  Bahamas  NaN
3373  Bahamas  NaN
3374  Bahamas  NaN
3375  Bahamas  NaN
...       ...  ...
3644    Yemen  NaN
3645    Yemen  NaN
3646    Yemen  NaN
3647    Yemen  NaN
3648    Yemen  NaN

[232 rows x 2 columns]


In [None]:
# Une solution similaire
# Ne traite pas les cas où aucun PIB n'est renseigné pour un pays
import pandas as pd
df = pd.read_csv("gdp.csv")
print(df.head())
print(df.isna().sum())

columns_to_fill = ['PIB']
for column in columns_to_fill:
    mean_by_country = df.groupby('Pays')[column].transform('mean')
    df[column].fillna(mean_by_country, inplace=True)

print(df.isna().sum())

# Remplacer les valeurs manquantes par la moyenne de la catégorie

* Met 0 si la moyenne n'a pas pu être calculée

In [1]:
# Dans cette version si y a pas de PIB on met 0

import pandas as pd
df = pd.read_csv("gdp.csv")

# print(df.loc[df['Pays'] == "Yemen"])
# print(df.isna().sum())

moyennes_par_pays = df.groupby('Pays')['PIB'].mean()
moyennes_par_pays.fillna(0.0, inplace=True)

df['PIB'] = df.apply(lambda row: moyennes_par_pays[row['Pays']] if pd.isna(row['PIB']) else row['PIB'], axis=1)

print(df.isna().sum())
print(df.loc[df['Pays'] == "Yemen"])

# print(df.loc[df['PIB'].isnull()])


Pays    0
PIB     0
dtype: int64
       Pays  PIB
3628  Yemen  0.0
3629  Yemen  0.0
3630  Yemen  0.0
3631  Yemen  0.0
3632  Yemen  0.0
3633  Yemen  0.0
3634  Yemen  0.0
3635  Yemen  0.0
3636  Yemen  0.0
3637  Yemen  0.0
3638  Yemen  0.0
3639  Yemen  0.0
3640  Yemen  0.0
3641  Yemen  0.0
3642  Yemen  0.0
3643  Yemen  0.0
3644  Yemen  0.0
3645  Yemen  0.0
3646  Yemen  0.0
3647  Yemen  0.0
3648  Yemen  0.0


# Merge

In [45]:
import pandas as pd

# Charger les deux fichiers CSV
df1 = pd.read_csv('fichier1.csv', delimiter=";")
df2 = pd.read_csv('fichier2.csv', delimiter=";")

# Effectuer la fusion sur la colonne 'Id'
resultat_fusion = pd.merge(df1, df2, on='Id')

# Afficher le résultat
print(resultat_fusion)

    Id Valeur1 Valeur2  Valeur3  Valeur4
0  101       a      aa        1       11
1  200       c      cc        3       13
2  300       e      ee        5       15


# Transform

In [46]:
import pandas as pd

# Exemple de DataFrame
data = {'Groupe': ['A', 'A', 'B', 'B', 'A', 'B'],
        'Valeur': [10, 15, None, 25, 30, None]}
df = pd.DataFrame(data)

# Calculer la moyenne par groupe
moyennes_par_groupe = df.groupby('Groupe')['Valeur'].transform('mean')

# Remplacer les valeurs manquantes par la moyenne correspondante
df['Valeur'] = df['Valeur'].fillna(moyennes_par_groupe)

# Afficher le DataFrame après transformation
print(df)

  Groupe  Valeur
0      A    10.0
1      A    15.0
2      B    25.0
3      B    25.0
4      A    30.0
5      B    25.0


# Difference entre apply et transform


* Plus générique que transform
* utilisée pour appliquer une fonction à l'ensemble du DataFrame ou à une série.
* Peut être utilisée avec des DataFrames entiers, des colonnes spécifiques ou des lignes spécifiques.
* La fonction passée à apply peut retourner une série, un scalaire ou un objet DataFrame.

In [None]:
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
result = df['A'].apply(lambda x: x * 2)

* transform est spécifiquement conçue pour effectuer des opérations sur des groupes de données.
* La fonction de transformation doit renvoyer une série de la même longueur que l'entrée, et elle est appliquée à chaque groupe de données.
* Utile pour effectuer des opérations de groupe (par exemple, remplacer les valeurs manquantes par la moyenne du groupe).

In [1]:
import pandas as pd

df = pd.DataFrame({'Groupe': ['A', 'A', 'B', 'B', 'A', 'B'], 'Valeur': [1, 2, None, 4, 5, None]})
moyennes_par_groupe = df.groupby('Groupe')['Valeur'].transform('mean')
df['Valeur'] = df['Valeur'].fillna(moyennes_par_groupe)

# Créer/Calculer une nouvelle colonne

In [10]:
import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = df['A'] + df['B']
df['D'] = np.sqrt(df['A']**2 + df['B']**2)
print(df)

   A  B  C         D
0  1  4  5  4.123106
1  2  5  7  5.385165
2  3  6  9  6.708204


# Créer 2 nouvelles colonnes

In [15]:
import pandas as pd

df = pd.DataFrame({'Colonne': ['Chaine1-Chaine2', 'A-B', 'X-Y']})
df[['Colonne1', 'Colonne2']] = df['Colonne'].str.split('-', expand=True)
print(df)

           Colonne Colonne1 Colonne2
0  Chaine1-Chaine2  Chaine1  Chaine2
1              A-B        A        B
2              X-Y        X        Y
