# Imputer

_In data science, it's common for there to be missing values in a dataset. Let's see how we can create a class that will allow us to replace this missing value by the average of the values in the list_

1. _Create a class that we will call Imputer_.
2. _To simplify the exercise, we will only deal with lists for the moment._
3. _Our class will take an attribute that we will call list_.
4. _Create an avg() function that will first remove the missing value and then replace it with the average of the list._

In [2]:
# a class containing a method that replaces the missing values by the average value of the list 
class Imputer():
    # a method that replaces the missing values by the average value of the list
    def replace_missing_values_avg(self, list_of_values):
        total=0
        nb=0
        # we calculate the average value of the list without the missing values
        for x in list_of_values:
            if x is not None:
                total+= x
                nb+=1
        # we calculate the average value of the list without the missing values
        avg = total / nb   
        # we create a new list with the missing values replaced by the average value of the list
        result = [x if x is not None else avg for x in list_of_values]
        print("Here's my initial list:", list_of_values)
        print("Here is a list after imputer :", result)

unImputer = Imputer()
print(unImputer.replace_missing_values_avg([None, 2, 4, 6, None]))

Here's my initial list: [None, 2, 4, 6, None]
Here is a list after imputer : [4.0, 2, 4, 6, 4.0]
None


# OPTIONAL - Improve Imputer

_We have created our Imputer class which works very well for replacing missing values with averages. But, couldn't we also use this class to replace with a median? Try to add a method in Imputer that will allow us to replace the list with either the average or the median._

In [3]:
import statistics  # pour une médiane fiable et simple (gère pair/impair)

class Imputer:
    """
    Classe permettant de remplacer les valeurs manquantes (None) dans une liste
    par la moyenne ou la médiane des valeurs non manquantes.
    """

    def replace_missing_values_avg(self, list_of_values:list[int | float | None]) -> None:
        """
        Remplace les valeurs manquantes par la moyenne des valeurs non-None.
        Affiche la liste originale et la liste imputée.
        
        Args:
            list_of_values: Liste contenant des nombres ou None
            
        Raises:
            ValueError: si aucune valeur non manquante n'est présente
        """
        non_missing = [x for x in list_of_values if x is not None]
        
        if not non_missing:
            raise ValueError("Impossible de calculer la moyenne : aucune valeur non manquante")
        
        avg = sum(non_missing) / len(non_missing)
        
        result = [x if x is not None else avg for x in list_of_values]
        
        print("Voici la liste originale :", list_of_values)
        print(f"Liste avec valeurs manquantes remplacées par la moyenne ({avg:.2f}) :", result)
        print()  # saut de ligne pour lisibilité

    def replace_missing_values_median(self, list_of_values: list[int | float | None]) -> None:
        """
        Remplace les valeurs manquantes par la médiane des valeurs non-None.
        Affiche la liste originale et la liste imputée.
        
        Args:
            list_of_values: Liste contenant des nombres ou None
            
        Raises:
            ValueError: si aucune valeur non manquante n'est présente
        """
        non_missing = [x for x in list_of_values if x is not None]
        
        if not non_missing:
            raise ValueError("Impossible de calculer la médiane : aucune valeur non manquante")
        
        # statistics.median gère correctement les cas pairs et impairs
        median = statistics.median(non_missing)
        
        result = [x if x is not None else median for x in list_of_values]
        
        print("Voici la liste originale :", list_of_values)
        print(f"Liste avec valeurs manquantes remplacées par la médiane ({median}) :", result)
        print()


# ────────────────────────────────────────────────
# Tests / Exemples d'utilisation
# ────────────────────────────────────────────────

if __name__ == "__main__":
    unImputer = Imputer()
    
    print("=== TEST 1 : moyenne ===")
    unImputer.replace_missing_values_avg([None, 2, 3, 12, 5, 6, None])
    
    print("=== TEST 2 : médiane ===")
    unImputer.replace_missing_values_median([None, 2, 3, 12, 5, 6, None])
    
    print("=== TEST 3 : nombre pair de valeurs (médiane) ===")
    unImputer.replace_missing_values_median([1, 3, 5, 7, None, 11, 13, None])
    
    print("=== TEST 4 : une seule valeur non manquante ===")
    unImputer.replace_missing_values_avg([42, None, None, None])
    
    print("=== TEST 5 : erreur attendue (liste vide ou toute None) ===")
    try:
        unImputer.replace_missing_values_median([None, None])
    except ValueError as e:
        print("Erreur capturée (correct) :", e)

=== TEST 1 : moyenne ===
Voici la liste originale : [None, 2, 3, 12, 5, 6, None]
Liste avec valeurs manquantes remplacées par la moyenne (5.60) : [5.6, 2, 3, 12, 5, 6, 5.6]

=== TEST 2 : médiane ===
Voici la liste originale : [None, 2, 3, 12, 5, 6, None]
Liste avec valeurs manquantes remplacées par la médiane (5) : [5, 2, 3, 12, 5, 6, 5]

=== TEST 3 : nombre pair de valeurs (médiane) ===
Voici la liste originale : [1, 3, 5, 7, None, 11, 13, None]
Liste avec valeurs manquantes remplacées par la médiane (6.0) : [1, 3, 5, 7, 6.0, 11, 13, 6.0]

=== TEST 4 : une seule valeur non manquante ===
Voici la liste originale : [42, None, None, None]
Liste avec valeurs manquantes remplacées par la moyenne (42.00) : [42, 42.0, 42.0, 42.0]

=== TEST 5 : erreur attendue (liste vide ou toute None) ===
Erreur capturée (correct) : Impossible de calculer la médiane : aucune valeur non manquante
