# Projet MLops

#### Groupe : Lucas - Klervi - Elena - Thomas R
vasseur.corentin@gmail.com

In [1]:
#Import des données

import pandas as pd

df = pd.read_csv("data/revenus.csv")

Fonction

In [2]:
# Fonction pour supprimer les "?"

def drop_data(df):
    """
    Supprime les lignes contenant un '?' dans un DataFrame.

    Args:
        df (pd.DataFrame): Le DataFrame à traiter.
    
    Returns:
        pd.DataFrame: Le DataFrame nettoyé sans les lignes contenant '?'.
    """
    # Supprimer les lignes où au moins un élément est '?'
    df_cleaned = df[~df.isin(['?']).any(axis=1)]
    return df_cleaned


In [3]:
df = drop_data(df)

In [4]:
# Fonction de recodage des variables

def numeriser_toutes_colonnes(df):
    """
    Cette fonction numérise plusieurs colonnes spécifiées dans le DataFrame 
    avec des mappings prédéfinis directement dans la fonction.

    :param df: DataFrame contenant les données à numériser
    :return: DataFrame avec les colonnes numérisées
    """
    #Suppression de la variable education : c'est la même que educational num

    if 'education' in df.columns:
        df = df.drop(columns=['education'])
        
    # Mapping pour 'workclass'
    workclass_mapping = {
        'Private': 1,
        'Self-emp-not-inc': 2,
        'Local-gov': 3,
        'State-gov': 4,
        'Self-emp-inc': 5,
        'Federal-gov': 6,
        'Without-pay': 7,
        'Never-worked': 8
    }
    
    # Mapping pour 'marital-status'
    marital_status_mapping = {
        'Never-married': 1,
        'Married-civ-spouse': 2,
        'Widowed': 3,
        'Divorced': 4,
        'Separated': 5,
        'Married-spouse-absent': 6,
        'Married-AF-spouse': 7
    }
    
    # Mapping pour 'occupation'
    occupation_mapping = {
        'Machine-op-inspct': 1,
        'Farming-fishing': 2,
        'Protective-serv': 3,
        'Other-service': 4,
        'Prof-specialty': 5,
        'Craft-repair': 6,
        'Adm-clerical': 7,
        'Exec-managerial': 8,
        'Tech-support': 9,
        'Sales': 10,
        'Priv-house-serv': 11,
        'Transport-moving': 12,
        'Handlers-cleaners': 13,
        'Armed-Forces': 14
    }
    
    # Mapping pour 'relationship'
    relationship_mapping = {
        'Own-child': 1,
        'Husband': 2,
        'Not-in-family': 3,
        'Unmarried': 4,
        'Wife': 5,
        'Other-relative': 6
    }
    
    # Mapping pour 'race'
    race_mapping = {
        'Black': 1,
        'White': 2,
        'Asian-Pac-Islander': 3,
        'Other': 4,
        'Amer-Indian-Eskimo': 5
    }
    
    # Mapping pour 'gender'
    gender_mapping = {
        'Male': 1,
        'Female': 2
    }
    
    # Mapping pour 'native-country'
    native_country_mapping = {
        'United-States': 1,
        'Peru': 2,
        'Guatemala': 3,
        'Mexico': 4,
        'Dominican-Republic': 5,
        'Ireland': 6,
        'Germany': 7,
        'Philippines': 8,
        'Thailand': 9,
        'Haiti': 10,
        'El-Salvador': 11,
        'Puerto-Rico': 12,
        'Vietnam': 13,
        'South': 14,
        'Columbia': 15,
        'Japan': 16,
        'India': 17,
        'Cambodia': 18,
        'Poland': 19,
        'Laos': 20,
        'England': 21,
        'Cuba': 22,
        'Taiwan': 23,
        'Italy': 24,
        'Canada': 25,
        'Portugal': 26,
        'China': 27,
        'Nicaragua': 28,
        'Honduras': 29,
        'Iran': 30,
        'Scotland': 31,
        'Jamaica': 32,
        'Ecuador': 33,
        'Yugoslavia': 34,
        'Hungary': 35,
        'Hong': 36,
        'Greece': 37,
        'Trinadad&Tobago': 38,
        'Outlying-US(Guam-USVI-etc)': 39,
        'France': 40,
        'Holand-Netherlands': 41
    }
    
    # Mapping pour 'income'
    income_mapping = {
        '<=50K': 0,
        '>50K': 1
    }
    
    # List des colonnes à numériser avec leurs mappings
    mappings = {
        'workclass': workclass_mapping,
        'marital-status': marital_status_mapping,
        'occupation': occupation_mapping,
        'relationship': relationship_mapping,
        'race': race_mapping,
        'gender': gender_mapping,
        'native-country': native_country_mapping,
        'income': income_mapping
    }

    # Suppression des espaces dans les colonnes concernées
    cols_to_strip = ['workclass', 'occupation', 'native-country']
    for col in cols_to_strip:
        df[col] = df[col].str.strip()

    # Appliquer les mappings de numérisation à chaque colonne
    for col, mapping in mappings.items():
        df[col] = df[col].replace(mapping)
    
    return df

In [5]:
# Exemple d'application avec un DataFrame "rev1"
df = numeriser_toutes_colonnes(df)

# Affichage du DataFrame après transformation
df

Unnamed: 0,age,workclass,fnlwgt,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,1,226802,7,1,1,1,1,1,0,0,40,1,0
1,38,1,89814,9,2,2,2,2,1,0,0,50,1,0
2,28,3,336951,12,2,3,2,2,1,0,0,40,1,1
3,44,1,160323,10,2,1,2,1,1,7688,0,40,1,1
5,34,1,198693,6,1,4,3,2,1,0,0,30,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,1,257302,12,2,9,5,2,2,0,0,38,1,0
48838,40,1,154374,9,2,1,2,2,1,0,0,40,1,1
48839,58,1,151910,9,3,7,4,2,2,0,0,40,1,0
48840,22,1,201490,9,1,7,1,2,1,0,0,20,1,0
