# Code Snippet for Data Pre-processing

## `train_test_split()`

Va nos permetter de découpé notre Dataset en train et test Set, nous ferrons la séparation entre X et y une fois les données prétraités

In [9]:
from sklearn.model_selection import train_test_split

In [None]:
train_set, test_set = train_test_split(df, test_size=0.2,
                                       random_state=5)

## Varibalbes Qualitatives
### Encodage de varb Char
Remplace les variables de type charactères (catégories) en nombre ici 1 ou 0

In [4]:
# Dict 
encodage = {"positive": 1, "negative": 1,
           "detected": 1, "not_detected": 0}

- Définie une boucle qui va appliquer avec `.map()` notre *encodage* sur toutes les colonnes de types *'object'* avec `.select_dtypes()` 

In [None]:
for col in df.select_dtypes('object'):
    df[col] = df[col].map(encodage)

- Sous forme de fonction:

In [None]:
def encodage(df):
    encodage = {"positive": 1, "negative": 1,
           "detected": 1, "not_detected": 0}
    
    for col in df.select_dtypes('object').columns:
        df.loc[:, col] = df[col].map(encodage)
        
    return df

## Feature Engineering  
Création de variables à partir de variables existantes, pour améliorer nos résultats

In [None]:
def feature_engineering(df):
    # on somme des colonnes Cat binaire pour savor si elles contienent 
    # au moins une valeur positive
    df['new_col'] = df['groupe de col'].sum(axis=1) >= 1
    
    # supprime ce groupe de col, pour ne garder que la col créer résultante
    df = df.drop('groupe de col', axis=1)

## Imputation
Fonction qui va servir à gérer les *Valeurs Manquantes*, en les supprimant ou en les remplaçant par d'autres valeurs.

- Fct suppression des NaN

In [6]:
def imputation(df):
    """Suppirme les NaN sur l'axe des lignes, axis=0"""
    return df.dropna(axis=0)

## Fct de Pre-processing
Regroupe nos fonctions de traitements dans une fonction, pour lui faire passer le TrainSet et le TestSet et retourner nos matrices X et y, pré-traité prètent pour la modélisation.

- On fera passer dans la fct suivante le TrainSet et le TestSet, elle nous retournera nos matrices **X** de variables et **y** de *Target* **prétraitées**

In [11]:
def preprocessing(df):
    
    df = encodage(df)
    df = feature_engineering(df)
    df = imputation(df)
    
    X = df.drop('colonne y', axis=1)
    y = df['colonne y']
    
    # afiche le nb de valeurs dans y après l'imputation
    print(y.value_counts)
    
    return X, y    

# ***Utlisation de la fonction***

In [None]:
X_train, y_train = preprocessing(train_set)

In [None]:
X_test, y_test = preprocessing(test_set)