In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/dermatology.data', header=None)
df.head()

In [None]:
df[33].to_list()

In [None]:
df.head(265)

In [None]:
df.to_csv('data/dermatology2.csv', index=False)

In [None]:
# les types de données de chaque colonne
df.dtypes

In [None]:
# Lire la dernière colonne
lis = (df.iloc[:, -2].unique().tolist())



In [None]:
# Calculer le pourcentage de valeurs manquantes dans chaque colonne
missing_percentage = get_missing_pourcentage_column(df[33])

# Afficher le pourcentage de valeurs manquantes dans chaque colonne
print(missing_percentage)

In [None]:
df.describe()

In [None]:
# plot an histogram of the  last column
df.iloc[:, -2].hist()

# Definition des fonctions:

In [None]:
def get_missing_values_column(column, list_missing_values):
    """Return the missing values of a column"""
    return column[column.isin(list_missing_values)]
    
def get_missing_pourcentage_column(column : pd.Series):
    """Return the pourcentage of missing values of a column
            the missing values for this method is np.nan"""
    return column.isna().mean() * 100

def replace_missing_values_column_by_nan(column : pd.Series, list_missing_values):
    """Replace the missing values of a column by np.nan"""
    column.replace(list_missing_values, np.nan, inplace=True)
    # column = pd.Series(list(column.replace(list_missing_values, np.nan))).astype(np.float64)


def replace_missing_values_column_by_mode(column : pd.Series, list_missing_values):
    """Replace the missing values of a column by the mode"""
    mode = column.mode()[0]
    column.replace(list_missing_values, mode, inplace=True)

def replace_missing_values_column_by_mean(column : pd.Series, list_missing_values):
    """Replace the missing values of a column by the mean"""
    mean = column.mean()
    column.replace(list_missing_values, mean, inplace=True)
    
def replace_missing_values_column_by_mediane(column : pd.Series, list_missing_values):
    """Replace the missing values of a column by the mediane"""
    mediane = column.median()
    column.replace(list_missing_values, mediane, inplace=True)

def replace_missing_values_column_by_value(column : pd.Series, list_missing_values, value): 
    """Replace the missing values of a column by a value"""
    column.replace(list_missing_values, value, inplace=True)

#TODO: faire une fonction qui remplace les valeurs manquantes par prediction

def replace_missing_values_column_by_prediction(column : pd.Series, list_missing_values, model):
    """Replace the missing values of a column by the prediction of the model"""
    pass

def normalize_column_by_min_max(column: pd.Series):
    """Normalize a column by the min max method
        La normalisation Min-Max : cette méthode consiste à transformer les données 
        en une plage de valeurs entre 0 et 1. La formule de normalisation est la suivante :
        X_norm = (X - X_min) / (X_max - X_min)
        Où X est la valeur originale, X_min et X_max sont respectivement les valeurs minimale et maximale 
        de l'ensemble de données. Cette méthode est utile lorsque les données ont une plage de valeurs connue et délimitée.
    """

    from sklearn.preprocessing import MinMaxScaler
    import numpy as np

    # Exemple de données à normaliser
    # data = np.array([[10, 2], [5, 3], [8, 7]])

    # Créer un objet scaler
    scaler = MinMaxScaler()

    # Normaliser les données
    data_norm = scaler.fit_transform(column.values.reshape(-1, 1)).flatten()

    column.replace(column.values, data_norm, inplace=True)

def normalize_column_by_standardization(column : pd.Series):
    """Normalize a column by the standardization method (z score)
        La normalisation standard : cette méthode consiste à transformer les données en une distribution normale 
        avec une moyenne de 0 et un écart-type de 1. La formule de normalisation est la suivante :

        X_norm = (X - moyenne) / écart-type

        Où X est la valeur originale, la moyenne et l'écart-type sont calculés à partir de l'ensemble de données. 
        Cette méthode est utile lorsque les données ont une distribution normale ou presque normale.
    
    """

    from sklearn.preprocessing import StandardScaler
    import numpy as np

    # Exemple de données à normaliser
    # data = np.array([[10, 2], [5, 3], [8, 7]])

    # Créer un objet scaler
    scaler = StandardScaler()

    # Normaliser les données
    data_norm = scaler.fit_transform(column.values.reshape(-1, 1)).flatten()

    column.replace(column.values, data_norm, inplace=True)

def normalize_column_by_boxcox(column : pd.Series):
    """Normalize a column by the boxcox method
    La transformation de Box-Cox utilise une fonction puissance pour ajuster la distribution des données 
    à une distribution normale. La transformation est définie par une équation de la forme :

    y' = (y^lambda - 1) / lambda, si lambda différent de 0
    y' = log(y), si lambda = 0

    où y est la variable à transformer, y' est la variable transformée, et lambda est un paramètre 
    qui peut prendre n'importe quelle valeur réelle. La valeur optimale de lambda pour une variable 
    donnée est celle qui maximise la log-vraisemblance de la distribution transformée.
    """
    
    from scipy import stats
    
    # Exemple de données à normaliser
    # data = np.array([[10, 2], [5, 3], [8, 7]])

    # Normaliser les données
    data_norm, _ = stats.boxcox(column.values)

    column.replace(column.values, data_norm, inplace=True)


Pour vous aider à choisir la méthode la plus approprié à votre cas, nous vous recomondons de prendre en compte certains indicateurs: 
* L'écart type: est une mesure de la dispersion qui indique la variabilité des données autour de la moyenne. Plus l'écart type est grand, plus les données sont dispersées.

* Plage interquartile : La plage interquartile est la différence entre le troisième quartile (Q3) et le premier quartile (Q1) de la distribution. Elle représente la plage de valeurs qui contient la moitié des données. Une plage interquartile large indique une forte dispersion des données.

* Étendue : L'étendue est la différence entre la valeur maximale et la valeur minimale dans la distribution. Une grande étendue peut indiquer une forte dispersion des données.

* Variance : La variance est une mesure de la dispersion qui indique la variabilité des données par rapport à leur moyenne. Une variance élevée indique une forte dispersion des données.

# Test des fonctions:

In [None]:
# Creer un dataframe avec des entiers en incluant les valeurs manquantes
df_test = pd.DataFrame(np.random.randint(0, 100, size=(100, 4)), columns=list('ABCD'))

# Ajouter des valeurs manquantes
df_test.loc[0, 'A'] = '?'
df_test.loc[1, 'A'] = 'none'
df_test.loc[0, 'C'] = 'None'
df_test.loc[1, 'B'] = '?'   
df_test.loc[2, 'C'] = '?'
df_test.loc[3, 'D'] = '?'

# Afficher le dataframe
df_test


In [None]:
df[3].values.reshape(-1, 1)

In [None]:
normalize_column_by_min_max(df[33])
df[3]

In [None]:
mode = df_test['A'].mean()
mode

In [None]:
list_missing_values = ['?', 'None', 'NaN', 'nan', 'Nan', 'NAN', 'none', '']


In [None]:
list_v = get_missing_values_column(df_test['C'], list_missing_values)
list_v

In [None]:
age = df[33].isna().sum()

In [None]:
age

In [None]:
l = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
l

In [None]:
age.to_list()

In [None]:
replace_missing_values_column_by_nan(df[33], list_missing_values)
df

In [None]:
df.dtypes

In [None]:
for column in df_test.columns:
    replace_missing_values_column(df_test[column], list_missing_values)

In [None]:
df_test.isna().sum()

In [None]:
df_test.head()

In [None]:
df_test.dtypes  