# Task 3 : √âchantillonnage et Hypoth√®ses FD

## Objectif
√âtudier comment les d√©pendances fonctionnelles sugg√©r√©es par un LLM sur des **√©chantillons** peuvent diff√©rer de celles qui tiennent sur le **dataset complet**.

## Ce qu'on doit faire :
1. Cr√©er des √©chantillons (max 50 lignes) : al√©atoire et stratifi√©
2. Montrer les √©chantillons au LLM et lui demander de sugg√©rer des FDs
3. V√©rifier si ces FDs tiennent sur l'√©chantillon ET sur le dataset complet
4. Identifier les faux positifs et les FDs trompeuses

## Id√©e cl√©
> L'√©chantillonnage cr√©e des **hypoth√®ses**, pas des **v√©rit√©s**.

In [None]:
# Configuration de Claude (Anthropic)
import anthropic
import json
import pandas as pd
import numpy as np
from IPython.display import display, Markdown
import time
import os
from dotenv import load_dotenv

# Charger les variables d'environnement depuis le fichier .env
# Force le rechargement
load_dotenv(override=True)

# R√©cup√©rer la cl√© API Claude depuis les variables d'environnement
CLAUDE_API_KEY = os.getenv("CLAUDE_API_KEY")

# Debug : afficher les premiers et derniers caract√®res de la cl√©
if CLAUDE_API_KEY:
    print(f"üîë Cl√© charg√©e : {CLAUDE_API_KEY[:15]}...{CLAUDE_API_KEY[-5:]}")
    print(f"üìè Longueur de la cl√© : {len(CLAUDE_API_KEY)} caract√®res")
else:
    raise ValueError(
        "‚ùå Cl√© API Claude introuvable.\n"
        "‚û°Ô∏è V√©rifie que :\n"
        "1. Le fichier .env existe\n"
        "2. Il contient la ligne : CLAUDE_API_KEY=ta_cle_api\n"
        "3. Le fichier .env est bien charg√©"
    )

# Configurer le client Claude
client = anthropic.Anthropic(api_key=CLAUDE_API_KEY)

# Test rapide de la connexion
try:
    test_response = client.messages.create(
        model="claude-3-haiku-20240307",
        max_tokens=10,
        messages=[{"role": "user", "content": "Dis juste 'OK'"}]
    )
    print(f"‚úÖ Claude configur√© avec succ√®s ! Test: {test_response.content[0].text}")
except Exception as e:
    print(f"‚ùå Erreur de connexion : {e}")

In [ ]:
# Charger les datasets
datasets = {}

# IRIS
iris_path = '../Datasets/iris/iris.data'
if os.path.exists(iris_path):
    datasets['iris'] = pd.read_csv(iris_path, header=None, 
                                    names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])
    print(f"‚úÖ iris: {datasets['iris'].shape}")
else:
    print(f"‚ùå iris non trouv√©: {iris_path}")

# BRIDGES
bridges_path = '../Datasets/pittsburgh+bridges/bridges.data.version1'
if os.path.exists(bridges_path):
    datasets['bridges'] = pd.read_csv(bridges_path, header=None,
                                       names=['IDENTIF', 'RIVER', 'LOCATION', 'ERECTED', 'PURPOSE', 
                                              'LENGTH', 'LANES', 'CLEAR-G', 'T-OR-D', 'MATERIAL',
                                              'SPAN', 'REL-L', 'TYPE'])
    print(f"‚úÖ bridges: {datasets['bridges'].shape}")
else:
    print(f"‚ùå bridges non trouv√©: {bridges_path}")

# ABALONE
abalone_path = '../Datasets/abalone/abalone.data'
if os.path.exists(abalone_path):
    datasets['abalone'] = pd.read_csv(abalone_path, header=None,
                                       names=['Sex', 'Length', 'Diameter', 'Height', 'Whole_weight',
                                              'Shucked_weight', 'Viscera_weight', 'Shell_weight', 'Rings'])
    print(f"‚úÖ abalone: {datasets['abalone'].shape}")
else:
    print(f"‚ùå abalone non trouv√©: {abalone_path}")

# BREAST CANCER
bc_path = '../Datasets/breast+cancer+wisconsin+original/breast-cancer-wisconsin.data'
if os.path.exists(bc_path):
    datasets['breast-cancer'] = pd.read_csv(bc_path, header=None,
                                             names=['id', 'clump_thickness', 'uniformity_cell_size',
                                                    'uniformity_cell_shape', 'marginal_adhesion',
                                                    'single_epithelial_cell_size', 'bare_nuclei',
                                                    'bland_chromatin', 'normal_nucleoli', 'mitoses', 'class'])
    print(f"‚úÖ breast-cancer: {datasets['breast-cancer'].shape}")
else:
    print(f"‚ùå breast-cancer non trouv√©: {bc_path}")

print(f"\nüìä Datasets charg√©s: {list(datasets.keys())}")

## 2. Fonctions d'√©chantillonnage

Nous allons cr√©er 3 types d'√©chantillons :
- **Al√©atoire** : s√©lection au hasard
- **Stratifi√©** : garde les proportions de chaque groupe
- **Biais√©** : sur-repr√©sente une cat√©gorie (pour montrer l'impact du biais)

In [ ]:
def random_sample(df, n=50, seed=42):
    """
    √âchantillon al√©atoire simple.
    """
    n = min(n, len(df))
    return df.sample(n=n, random_state=seed)

def stratified_sample(df, stratify_col, n=50, seed=42):
    """
    √âchantillon stratifi√© bas√© sur une colonne.
    Garde les proportions de chaque groupe.
    """
    n = min(n, len(df))
    # Calculer les proportions
    proportions = df[stratify_col].value_counts(normalize=True)
    
    samples = []
    for value, prop in proportions.items():
        group = df[df[stratify_col] == value]
        group_n = max(1, int(n * prop))  # Au moins 1 par groupe
        group_n = min(group_n, len(group))
        samples.append(group.sample(n=group_n, random_state=seed))
    
    result = pd.concat(samples)
    # Ajuster si on a trop ou pas assez
    if len(result) > n:
        result = result.sample(n=n, random_state=seed)
    return result

def biased_sample(df, bias_col, bias_value, n=50, seed=42):
    """
    √âchantillon biais√© : sur-repr√©sente une valeur particuli√®re.
    """
    n = min(n, len(df))
    biased = df[df[bias_col] == bias_value]
    others = df[df[bias_col] != bias_value]
    
    # 70% du groupe biais√©, 30% des autres
    n_biased = min(int(n * 0.7), len(biased))
    n_others = min(n - n_biased, len(others))
    
    sample_biased = biased.sample(n=n_biased, random_state=seed) if n_biased > 0 else pd.DataFrame()
    sample_others = others.sample(n=n_others, random_state=seed) if n_others > 0 else pd.DataFrame()
    
    return pd.concat([sample_biased, sample_others])

print("‚úÖ Fonctions d'√©chantillonnage d√©finies")

## 3. Cr√©er les √©chantillons

In [ ]:
# Cr√©er les √©chantillons pour chaque dataset
samples = {}

# IRIS - √©chantillon al√©atoire et stratifi√© par classe
if 'iris' in datasets:
    df = datasets['iris']
    samples['iris'] = {
        'random': random_sample(df, n=30),
        'stratified': stratified_sample(df, 'class', n=30)
    }
    print(f"‚úÖ √âchantillons iris cr√©√©s (colonne stratifi√©e: class)")

# BRIDGES - √©chantillon al√©atoire et stratifi√© par MATERIAL
if 'bridges' in datasets:
    df = datasets['bridges']
    samples['bridges'] = {
        'random': random_sample(df, n=40),
        'stratified': stratified_sample(df, 'MATERIAL', n=40)
    }
    print(f"‚úÖ √âchantillons bridges cr√©√©s (colonne stratifi√©e: MATERIAL)")

# ABALONE - √©chantillon al√©atoire et stratifi√© par Sex
if 'abalone' in datasets:
    df = datasets['abalone']
    samples['abalone'] = {
        'random': random_sample(df, n=50),
        'stratified': stratified_sample(df, 'Sex', n=50)
    }
    print(f"‚úÖ √âchantillons abalone cr√©√©s (colonne stratifi√©e: Sex)")

# BREAST CANCER - √©chantillon al√©atoire et stratifi√© par class
if 'breast-cancer' in datasets:
    df = datasets['breast-cancer']
    samples['breast-cancer'] = {
        'random': random_sample(df, n=50),
        'stratified': stratified_sample(df, 'class', n=50)
    }
    print(f"‚úÖ √âchantillons breast-cancer cr√©√©s (colonne stratifi√©e: class)")

print(f"\nüìä √âchantillons cr√©√©s pour: {list(samples.keys())}")

In [None]:
# Afficher un aper√ßu des √©chantillons
for dataset_name, dataset_samples in samples.items():
    print(f"\n{'='*60}")
    print(f"Dataset: {dataset_name.upper()}")
    print(f"{'='*60}")
    for sample_type, sample_df in dataset_samples.items():
        print(f"\n--- {sample_type.upper()} ({len(sample_df)} lignes) ---")
        display(sample_df.head(5))

## 4. Fonction pour interroger le LLM sur les FDs

In [None]:
def ask_llm_for_fds(sample_df, dataset_name, sample_type):
    """
    Montre un √©chantillon au LLM (Claude) et lui demande de sugg√©rer des FDs.
    """
    # Convertir l'√©chantillon en texte (max 20 lignes pour le prompt)
    sample_text = sample_df.head(20).to_string(index=False)
    columns = list(sample_df.columns)
    
    prompt = f"""Tu es un expert en bases de donn√©es. Voici un √©chantillon de donn√©es du dataset "{dataset_name}".

Colonnes: {columns}

√âchantillon ({len(sample_df)} lignes, voici les 20 premi√®res):
{sample_text}

En analysant CET √âCHANTILLON UNIQUEMENT, quelles d√©pendances fonctionnelles (FDs) semblent tenir ?

Une FD X ‚Üí Y signifie : si deux lignes ont la m√™me valeur pour X, elles ont la m√™me valeur pour Y.

Liste exactement 5 FDs que tu penses vraies dans cet √©chantillon.
Format de r√©ponse (une FD par ligne):
FD1: colonne1 -> colonne2
FD2: colonne1, colonne2 -> colonne3
etc.

Ne donne QUE les FDs, pas d'explications."""
    
    try:
        message = client.messages.create(
            model="claude-3-haiku-20240307",
            max_tokens=1024,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        return message.content[0].text
    except Exception as e:
        return f"ERREUR: {str(e)}"

print("‚úÖ Fonction ask_llm_for_fds() d√©finie (utilise Claude 3 Haiku)")

## 5. Interroger le LLM pour chaque √©chantillon

In [None]:
import time

# Collecter les FDs sugg√©r√©es par le LLM
llm_suggested_fds = {}

print("="*80)
print("INTERROGATION DU LLM POUR SUGG√âRER DES FDs")
print("="*80)

for dataset_name, dataset_samples in samples.items():
    llm_suggested_fds[dataset_name] = {}
    
    for sample_type, sample_df in dataset_samples.items():
        print(f"\nüîÑ {dataset_name} - {sample_type}...")
        
        response = ask_llm_for_fds(sample_df, dataset_name, sample_type)
        llm_suggested_fds[dataset_name][sample_type] = response
        
        print(f"üìù R√©ponse du LLM:")
        print(response)
        print("-" * 40)
        
        time.sleep(2)  # Pause pour l'API

print("\n‚úÖ Toutes les suggestions collect√©es !")

## 6. Parser les FDs sugg√©r√©es

In [None]:
import re

def parse_fd_response(response_text):
    """
    Extrait les FDs de la r√©ponse du LLM.
    Format attendu: "colA, colB -> colC" ou "colA -> colB"
    """
    fds = []
    lines = response_text.strip().split('\n')
    
    for line in lines:
        # Chercher le pattern "X -> Y" ou "X ‚Üí Y"
        match = re.search(r'([^->‚Üí]+)\s*[-‚Üí>]+\s*([^->‚Üí]+)', line)
        if match:
            lhs = match.group(1).strip()
            rhs = match.group(2).strip()
            
            # Nettoyer (enlever "FD1:", etc.)
            lhs = re.sub(r'^FD\d*:\s*', '', lhs)
            
            # Parser le LHS (peut √™tre "col1, col2")
            lhs_cols = [c.strip() for c in lhs.split(',')]
            rhs_col = rhs.strip()
            
            fds.append({
                'lhs': lhs_cols,
                'rhs': rhs_col,
                'fd_string': f"{', '.join(lhs_cols)} -> {rhs_col}"
            })
    
    return fds

# Parser toutes les r√©ponses
parsed_fds = {}
for dataset_name, dataset_responses in llm_suggested_fds.items():
    parsed_fds[dataset_name] = {}
    for sample_type, response in dataset_responses.items():
        parsed_fds[dataset_name][sample_type] = parse_fd_response(response)

# Afficher les FDs pars√©es
print("FDs sugg√©r√©es par le LLM:")
for dataset_name, dataset_fds in parsed_fds.items():
    print(f"\n{dataset_name.upper()}:")
    for sample_type, fds in dataset_fds.items():
        print(f"  {sample_type}: {len(fds)} FDs")
        for fd in fds:
            print(f"    - {fd['fd_string']}")

## 7. Fonction de v√©rification des FDs

In [None]:
def check_fd_holds(df, lhs_cols, rhs_col):
    """
    V√©rifie si une FD tient dans un DataFrame.
    Retourne: (holds: bool, violations: int, total_groups: int)
    """
    # V√©rifier que les colonnes existent
    for col in lhs_cols + [rhs_col]:
        if col not in df.columns:
            return None, 0, 0  # Colonne non trouv√©e
    
    # Grouper par LHS et compter les valeurs uniques de RHS
    grouped = df.groupby(lhs_cols)[rhs_col].nunique()
    
    # Une FD tient si chaque groupe a exactement 1 valeur pour RHS
    violations = (grouped > 1).sum()
    total_groups = len(grouped)
    holds = violations == 0
    
    return holds, violations, total_groups

def check_fd_approximate(df, lhs_cols, rhs_col):
    """
    Calcule le taux de validit√© approximatif d'une FD.
    Retourne le pourcentage de groupes qui respectent la FD.
    """
    for col in lhs_cols + [rhs_col]:
        if col not in df.columns:
            return None
    
    grouped = df.groupby(lhs_cols)[rhs_col].nunique()
    valid_groups = (grouped == 1).sum()
    total_groups = len(grouped)
    
    if total_groups == 0:
        return 0
    
    return (valid_groups / total_groups) * 100

print("‚úÖ Fonctions de v√©rification d√©finies")

## 8. Valider les FDs sur √©chantillons vs dataset complet

In [None]:
# Valider chaque FD sugg√©r√©e
validation_results = []

print("="*100)
print("VALIDATION DES FDs SUGG√âR√âES")
print("="*100)

for dataset_name, dataset_fds in parsed_fds.items():
    if dataset_name not in datasets:
        continue
    
    full_df = datasets[dataset_name]
    
    print(f"\n{'='*60}")
    print(f"Dataset: {dataset_name.upper()} ({len(full_df)} lignes)")
    print(f"{'='*60}")
    
    for sample_type, fds in dataset_fds.items():
        sample_df = samples[dataset_name][sample_type]
        
        print(f"\n--- FDs du {sample_type} ({len(sample_df)} lignes) ---")
        
        for fd in fds:
            lhs = fd['lhs']
            rhs = fd['rhs']
            fd_str = fd['fd_string']
            
            # V√©rifier sur l'√©chantillon
            holds_sample, viol_sample, groups_sample = check_fd_holds(sample_df, lhs, rhs)
            
            # V√©rifier sur le dataset complet
            holds_full, viol_full, groups_full = check_fd_holds(full_df, lhs, rhs)
            
            # Calculer la validit√© approximative
            approx_sample = check_fd_approximate(sample_df, lhs, rhs)
            approx_full = check_fd_approximate(full_df, lhs, rhs)
            
            if holds_sample is None or holds_full is None:
                print(f"  ‚ö†Ô∏è {fd_str} - Colonnes non trouv√©es")
                continue
            
            # D√©terminer le statut
            if holds_sample and holds_full:
                status = "‚úÖ VRAIE (√©chantillon ET complet)"
                category = "true_positive"
            elif holds_sample and not holds_full:
                status = "‚ùå FAUX POSITIF (vraie sur √©chantillon, fausse sur complet)"
                category = "false_positive"
            elif not holds_sample and holds_full:
                status = "üî∂ Fausse sur √©chantillon mais vraie sur complet"
                category = "sample_error"
            else:
                status = "‚ùå FAUSSE (√©chantillon ET complet)"
                category = "false_negative"
            
            print(f"\n  üìå {fd_str}")
            print(f"     √âchantillon: {holds_sample} ({approx_sample:.1f}% valide, {viol_sample} violations)")
            print(f"     Complet: {holds_full} ({approx_full:.1f}% valide, {viol_full} violations)")
            print(f"     {status}")
            
            validation_results.append({
                'dataset': dataset_name,
                'sample_type': sample_type,
                'fd': fd_str,
                'holds_sample': holds_sample,
                'holds_full': holds_full,
                'approx_sample': approx_sample,
                'approx_full': approx_full,
                'violations_full': viol_full,
                'category': category
            })

## 9. Tableau r√©capitulatif

In [None]:
# Cr√©er le tableau r√©capitulatif
if validation_results:
    results_df = pd.DataFrame(validation_results)
    
    print("\n" + "="*100)
    print("TABLEAU R√âCAPITULATIF")
    print("="*100)
    
    display(results_df[['dataset', 'sample_type', 'fd', 'holds_sample', 'holds_full', 'category']])
    
    # Statistiques
    print("\nüìä STATISTIQUES:")
    print(f"   Total FDs analys√©es: {len(results_df)}")
    print(f"   ‚úÖ Vraies positives: {(results_df['category'] == 'true_positive').sum()}")
    print(f"   ‚ùå Faux positifs: {(results_df['category'] == 'false_positive').sum()}")
    print(f"   ‚ùå Fausses: {(results_df['category'] == 'false_negative').sum()}")
else:
    print("Aucun r√©sultat √† afficher")

## 10. Analyse des Faux Positifs

In [None]:
# Analyser les faux positifs
print("\n" + "="*80)
print("ANALYSE DES FAUX POSITIFS")
print("="*80)
print("\nCes FDs semblaient vraies sur l'√©chantillon mais sont fausses sur le dataset complet.")
print("Cela montre que l'√©chantillonnage cache des violations !\n")

if validation_results:
    false_positives = [r for r in validation_results if r['category'] == 'false_positive']
    
    if false_positives:
        for i, fp in enumerate(false_positives, 1):
            print(f"\n--- Faux Positif {i} ---")
            print(f"Dataset: {fp['dataset']}")
            print(f"Type d'√©chantillon: {fp['sample_type']}")
            print(f"FD: {fp['fd']}")
            print(f"Validit√© sur √©chantillon: {fp['approx_sample']:.1f}%")
            print(f"Validit√© sur complet: {fp['approx_full']:.1f}%")
            print(f"Violations sur dataset complet: {fp['violations_full']}")
    else:
        print("Aucun faux positif d√©tect√©.")
else:
    print("Aucun r√©sultat disponible.")

## 11. Sauvegarder les r√©sultats

In [None]:
# Sauvegarder les r√©sultats
if validation_results:
    results_df = pd.DataFrame(validation_results)
    results_df.to_csv('../results/task3_validation_results.csv', index=False)
    print("‚úÖ R√©sultats sauvegard√©s: results/task3_validation_results.csv")

# Sauvegarder les r√©ponses LLM
with open('../results/task3_llm_responses.json', 'w', encoding='utf-8') as f:
    json.dump(llm_suggested_fds, f, indent=2, ensure_ascii=False)
print("‚úÖ R√©ponses LLM: results/task3_llm_responses.json")

# Sauvegarder les FDs pars√©es
parsed_fds_serializable = {}
for dataset, samples_dict in parsed_fds.items():
    parsed_fds_serializable[dataset] = {}
    for sample_type, fds in samples_dict.items():
        parsed_fds_serializable[dataset][sample_type] = fds

with open('../results/task3_parsed_fds.json', 'w', encoding='utf-8') as f:
    json.dump(parsed_fds_serializable, f, indent=2, ensure_ascii=False)
print("‚úÖ FDs pars√©es: results/task3_parsed_fds.json")

## 12. Conclusion

### Ce qu'on a appris :

1. **L'√©chantillonnage cache des violations**
   - Une FD peut sembler vraie sur un petit √©chantillon
   - Mais √™tre fausse sur le dataset complet

2. **Les LLMs g√©n√©ralisent trop vite**
   - Ils trouvent des patterns dans peu de donn√©es
   - Ces patterns ne sont pas forc√©ment des r√®gles g√©n√©rales

3. **Types de probl√®mes d√©tect√©s :**
   - **Faux positifs** : FDs vraies sur √©chantillon, fausses sur complet
   - **FDs non minimales** : Trop d'attributs dans le LHS
   - **FDs trompeuses** : Semblent logiques mais sont accidentelles

### Le√ßon cl√© :
> Les patterns empiriques sur des √©chantillons ne sont PAS des contraintes.

In [None]:
print("\n" + "="*80)
print("R√âSUM√â FINAL - T√ÇCHE 3")
print("="*80)

if validation_results:
    results_df = pd.DataFrame(validation_results)
    print(f"\n‚úÖ Datasets analys√©s: {results_df['dataset'].nunique()}")
    print(f"‚úÖ FDs sugg√©r√©es par LLM: {len(results_df)}")
    print(f"‚úÖ Faux positifs d√©tect√©s: {(results_df['category'] == 'false_positive').sum()}")

print(f"\nüìÅ Fichiers g√©n√©r√©s:")
print(f"   - results/task3_validation_results.csv")
print(f"   - results/task3_llm_responses.json")
print(f"   - results/task3_parsed_fds.json")