In [57]:
import pandas as pd 
import numpy as np
import sys
import os
import unittest

In [58]:
mlops_path = os.path.abspath(os.path.join(os.getcwd(), '..'))
features_domain_path = os.path.join(mlops_path, 'features', 'domain')
sys.path.append(features_domain_path)

In [59]:
from features import *

### Test unitaire sur la fonction traiter_donnees_manquantes

In [60]:
class TestTraitementDonneesManquantes(unittest.TestCase):

    def test_traiter_donnees_manquantes(self):
        print("Début du test de traitement des données manquantes...")
        data = {
            'workclass': ['Private', 'Self-emp', None, 'Self-emp', 'Private'],
            'occupation': [None, 'Exec', 'Adm-clerical', 'Adm-clerical', 'Sales'],
            'native-country': ['USA', 'Mexico', None, 'Canada', 'USA']
        }
        df = pd.DataFrame(data)

        processed_df = traiter_donnees_manquantes(df.copy())

        expected_result = {
            'workclass': ['Private', 'Self-emp', 'no_info', 'Self-emp', 'Private'],
            'occupation': ['no_info', 'Exec', 'Adm-clerical', 'Adm-clerical', 'Sales'],
            'native-country': ['USA', 'Mexico', 'USA', 'Canada', 'USA']
        }
        expected_df = pd.DataFrame(expected_result)

        self.assertTrue(processed_df.equals(expected_df))
        print("Résultat du test : Le traitement des données manquantes est conforme.")

if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)


..
----------------------------------------------------------------------
Ran 2 tests in 0.010s

OK


Début du test de traitement des données manquantes...
Résultat du test : Le traitement des données manquantes est conforme.


### Test unitaire sur la fonction regroupement

In [61]:
class TestRegroupement(unittest.TestCase):

    def setUp(self):
        # Création d'un exemple de DataFrame pour les tests
        data = {
            'age': [25, 30, 40, 55, 20],
            'hours-per-week': [35, 45, 50, 60, 30],
            'native-country': ['United-States', 'Canada', 'Mexico', 'United-States', 'Canada'],
            'workclass': ['Private', 'Federal-gov', 'Self-emp', 'Local-gov', 'Private'],
            'marital-status': ['Married-civ-spouse', 'Never-married', 'Divorced', 'Married-AF-spouse', 'Separated'],
            'education': ['HS-grad', 'Bachelors', 'Masters', 'Some-college', 'Assoc-acdm'],
            'occupation': ['Exec-managerial', 'Adm-clerical', 'Craft-repair', 'Prof-specialty', 'Sales'],
            'relationship': ['Husband', 'Not-in-family', 'Own-child', 'Wife', 'Other-relative']
        }
        self.df = pd.DataFrame(data)

    def test_regroupement(self):
        processed_df = regroupement(self.df.copy())  # Copie pour éviter les modifications directes

        # Vérifications des transformations sur le DataFrame

        # Vérification pour la variable 'Age'
        expected_age_result = ['<=28 ans', '29_39 ans', '40_49 ans', '>=50 ans', '<=28 ans']
        self.assertEqual(processed_df['Age'].tolist(), expected_age_result)

        # Vérification pour la variable 'Heures_semaine'
        expected_hours_result = ['<=40H', '40_46H', '>46H', '>46H', '<=40H']
        self.assertEqual(processed_df['Heures_semaine'].tolist(), expected_hours_result)

        # Vérification pour la variable 'country_group'
        expected_country_result = ['United_States', 'autres_pays', 'autres_pays', 'United_States', 'autres_pays']
        self.assertEqual(processed_df['country_group'].tolist(), expected_country_result)

        # Ajoutez d'autres vérifications pour chaque variable modifiée

# Exécution des tests
if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)


..
----------------------------------------------------------------------
Ran 2 tests in 0.012s

OK


Début du test de traitement des données manquantes...
Résultat du test : Le traitement des données manquantes est conforme.
