<a href="https://colab.research.google.com/github/NassimZahri/Data_Mining/blob/main/06_qualite_donnees_tests.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 06 — Qualité des Données & Tests
Définir des règles de validation, écrire des *checks* reproductibles, et des tests simples pour sécuriser les pipelines.

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

DATA_DIR = Path('data')
ventes = pd.read_csv(DATA_DIR / 'ventes.csv', parse_dates=['date'])

def check_non_negative(df, cols):
    for c in cols:
        assert (df[c] >= 0).all(), f"Valeurs négatives détectées dans {c}"

def check_required_columns(df, cols):
    missing = [c for c in cols if c not in df.columns]
    assert not missing, f"Colonnes manquantes: {missing}"

# Exemple d'utilisation
check_required_columns(ventes, ['date','price','quantity','total'])
# Remplacer NaN par 0 pour ce test simple
check_non_negative(ventes.fillna({'price':0,'quantity':0,'total':0}), ['quantity','total'])
print("Tests OK")


## 1. Règles de validation

In [None]:
rules = {
    'price_min': 0,
    'quantity_min': 0,
    'total_min': 0
}

def validate(df, rules):
    errors = {}
    if (df['price'].fillna(0) < rules['price_min']).any():
        errors['price'] = 'price < 0 détecté'
    if (df['quantity'].fillna(0) < rules['quantity_min']).any():
        errors['quantity'] = 'quantity < 0 détecté'
    if (df['total'].fillna(0) < rules['total_min']).any():
        errors['total'] = 'total < 0 détecté'
    return errors

validate(ventes, rules)


## 2. EXERCICE
- Ajoutez une règle `price_max` (ex: 10000) et signalez les valeurs au-dessus.
- Écrivez un test qui garantit qu'aucune date n'est hors de l'intervalle [min(date), max(date)].