# Modern Data Cleaning : L'Agent IA (The Smart Way)

Dans le notebook pr√©c√©dent, nous avons tout fait √† la main. C'√©tait fastidieux.
Ici, nous allons construire un **Workflow Agentique** (Human-in-the-loop) pour automatiser le nettoyage.

**Le concept :**
1. **Analyse** : L'IA scanne le dataset et propose des actions.
2. **Validation** : L'humain s√©lectionne les actions pertinentes (Simul√© ici).
3. **Ex√©cution** : L'IA g√©n√®re le code Python et l'ex√©cute.

## 1. Setup & Configuration

In [None]:
import pandas as pd
import google.generativeai as genai
import os
import json
import io
from dotenv import load_dotenv
import tabulate

# Nouveaut√© : Pydantic pour structurer la sortie
from pydantic import BaseModel, Field
from typing import List

# 1. Chargement des cl√©s
load_dotenv()
api_key = os.getenv("GEMINI_API_KEY")

# 2. Config Gemini
genai.configure(api_key=api_key)
model = genai.GenerativeModel('gemini-2.5-pro')

# 3. Chargement Data
df = pd.read_csv('dirty_sales_data.csv')
print("Donn√©es charg√©es :", df.shape)

In [None]:
df.info()

In [None]:
#buffer va permetter de transformer le .info en une string exploitable
buffer = io.StringIO()
df.info(buf=buffer)
info_str = buffer.getvalue()
print(info_str)
head_str = df.head(20).to_markdown()
print(head_str)

## 2. Phase 1 : Analyse Automatique

Nous avons deux fa√ßons de demander √† l'IA :

### Approche V1 : La m√©thode na√Øve (Texte libre)
On demande simplement : "Analyse √ßa".

In [None]:
prompt_v1 = f"""
Tu es un Data Analyst. Analyse ce dataset (info et head) et dis-moi ce qui ne va pas.
Sois concis.

DATA INFO:
{info_str}

DATA HEAD (Markdown):
{head_str}
"""

print(prompt_v1)

response_v1 = model.generate_content(prompt_v1)
print(response_v1.text)

In [None]:
print(response_v1.text)

 **Probl√®me** : C'est tr√®s lisible pour un humain, mais **impossible √† utiliser dans une application** (comment cr√©er des checkbox automatiquement √† partir de ce texte ?).

### Approche V2 : La m√©thode industrielle (Structured Output)
On va d√©finir un **Sch√©ma de donn√©es** rigoureux avec `Pydantic` et forcer l'IA √† le respecter.
C'est la m√©thode "Structured Output".

In [None]:
# D√©finition de la structure attendue
class DataIssue(BaseModel):
    column: str = Field(..., description="Nom de la colonne concern√©e")
    issue_type: str = Field(..., description="Type de probl√®me (ex: 'Format', 'Duplicata', 'Valeur manquante')")
    description: str = Field(..., description="Explication courte du probl√®me")
    suggested_action: str = Field(..., description="Action Python sugg√©r√©e (ex: 'pd.to_datetime', 'drop_duplicates')")

class DataAudit(BaseModel):
    issues: List[DataIssue]

# Appel √† Gemini avec le sch√©ma
prompt_v2 = f"""
Analyse ce dataset pour d√©tecter les anomalies de qualit√© (types, doublons, formats).
Remplis la structure JSON demand√©e.

DATA INFO:
{info_str}

DATA HEAD:
{head_str}
"""

response_v2 = model.generate_content(
    prompt_v2,
    generation_config={"response_mime_type": "application/json", "response_schema": DataAudit}
)

# Parsing automatique
audit_result = json.loads(response_v2.text)
print(audit_result)

In [None]:
issues_list = audit_result['issues']
# Affichage utilisable par le code
pd.DataFrame(issues_list)

 **Succ√®s** : Nous avons maintenant une liste d'objets structur√©s que notre interface pourra manipuler.

## 3. Phase 2 : Simulation "Human-in-the-loop"

Dans l'app finale, l'utilisateur validera ces suggestions.
Ici, on garde tout.

In [None]:
selected_actions = issues_list
print(f"Validation simul√©e de {len(selected_actions)} actions.")

selected_actions_restricted = selected_actions[0:3]
print(f"Validation simul√©e de {len(selected_actions_restricted)} actions.")

In [None]:
selected_actions
selected_actions_restricted

## 4. Phase 3 : G√©n√©ration & Ex√©cution du Code

Derni√®re √©tape : transformer ces instructions JSON en code Python ex√©cutable.

In [None]:
# D√©finition de la structure de sortie pour le code
class CodeOutput(BaseModel):
    python_script: str = Field(..., description="Le script Python complet et ex√©cutable, sans blocs markdown.")

def generate_cleaning_code(df_sample, actions):
    cols_context = df_sample.dtypes.to_dict()
    
    prompt_code = f"""
    Tu es un d√©veloppeur Python Senior.
    G√©n√®re le code Python pour nettoyer le dataframe 'df' selon ces actions :
    {json.dumps(actions, indent=2)}
    df : {df_sample.head(10)}
    Colonnes : {cols_context}
    
    R√®gles :
    1. Code ex√©cutable directement sur 'df'
    2. G√®re les conversions avec robustesse.
    """
    
    # On force une sortie structur√©e contenant le code
    response = model.generate_content(
        prompt_code,
        generation_config={"response_mime_type": "application/json", "response_schema": CodeOutput}
    )
    
    # On r√©cup√®re proprement le script dans le JSON
    return json.loads(response.text)['python_script']

cleaning_code = generate_cleaning_code(df, selected_actions)
print(cleaning_code)

In [None]:
cleaning_code_restricted = generate_cleaning_code(df, selected_actions_restricted)
print(cleaning_code_restricted)

In [None]:
# Ex√©cution s√©curis√©e (Scope local)
df_clean_agent = df.copy()
local_scope = {'df': df_clean_agent, 'pd': pd}

exec(cleaning_code, {}, local_scope)

df_final = local_scope['df']
df_final.head()

In [None]:
# Ex√©cution s√©curis√©e (Scope local)
df_clean_agent_restricted = df.copy()
local_scope_restricted = {'df': df_clean_agent_restricted, 'pd': pd}

exec(cleaning_code_restricted, {}, local_scope_restricted)

df_final_restricted = local_scope_restricted['df']
df_final_restricted.head()

## 5. Le Grand Final : Tout en une fois !
Voici le script complet qui encha√Æne tout : Analyse Robuste -> G√©n√©ration Code -> Ex√©cution.

In [None]:
# === 1. ANALYSE ROBUSTE ===

# Prompt optimis√© pour pousser l'IA dans ses retranchements
prompt_robust_audit = f"""
Tu es un Expert Data Engineer impitoyable sur la qualit√© de donn√©es.
Audite ce dataset pour produire un plan de nettoyage en b√©ton.

DATA HEAD:
{head_str}

DATA INFO:
{info_str}

Instructions de nettoyage :
1. STANDARDISATION : Unifie la casse des textes (ex: Noms en Title Case, Cat√©gories en minuscule...).
2. NETTOYAGE ROBUSTE : Pour les prix, utilise des Regex qui capturent tout (chiffres et s√©parateurs) et virent le reste.
3. LOGIQUE M√âTIER : D√©tecte les anomalies s√©mantiques (Quantit√©s n√©gatives ? Doublons d'ID ?).
4. DATES : Sois capable de parser des formats mixtes.

Retourne une liste structured (JSON) des actions √† mener.
"""

print("üîç Analyse approfondie en cours...")
response_audit = model.generate_content(
    prompt_robust_audit,
    generation_config={"response_mime_type": "application/json", "response_schema": DataAudit}
)
robust_issues = json.loads(response_audit.text)['issues']
print(f" {len(robust_issues)} probl√®mes d√©tect√©s.")


# === 2. GENERATION CODE ===
print(" G√©n√©ration du code de r√©paration...")
robust_code = generate_cleaning_code(df, robust_issues)
print("Code g√©n√©r√© :")
print(robust_code)


# === 3. EXECUTION ===
print(" Ex√©cution...")
df_clean_final = df.copy()
scope = {'df': df_clean_final, 'pd': pd}

try:
    exec(robust_code, {}, scope)
    df_final_result = scope['df']
    print("üéâ Termin√© ! Aper√ßu avant/apr√®s :")
    display(df.head(3))
    display(df_final_result.head(3))
    print(df_final_result.info())
except Exception as e:
    print(" Erreur ex√©cution :", e)