In [None]:
# Configuration de Gemini
import google.generativeai as genai
import json
import pandas as pd
from IPython.display import display, Markdown
import time
import os
from dotenv import load_dotenv
# Charger les variables d'environnement depuis le fichier .env
load_dotenv()

# R√©cup√©rer la cl√© API Gemini depuis les variables d'environnement
GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")

if not GEMINI_API_KEY:
    raise ValueError(
        "‚ùå Cl√© API Gemini introuvable.\n"
        "‚û°Ô∏è V√©rifie que :\n"
        "1. Le fichier .env existe\n"
        "2. Il contient la ligne : GEMINI_API_KEY=ta_cle_api\n"
        "3. Le fichier .env est bien charg√©"
    )

# Configurer Gemini
genai.configure(api_key=GEMINI_API_KEY)

# Utiliser le mod√®le Gemini
model = genai.GenerativeModel("gemini-1.5-flash")

print("‚úÖ Gemini configur√© avec succ√®s !")

‚úÖ Gemini configur√© avec succ√®s !


In [11]:
# Charger les FDs de la T√¢che 1
with open('../results/task1_all_fds.json', 'r') as f:
    all_fds = json.load(f)

print("Datasets disponibles:", list(all_fds.keys()))
print("\nNombre de FDs par dataset:")
for name, fds in all_fds.items():
    print(f"  - {name}: {len(fds)} FDs")

Datasets disponibles: ['abalone', 'balance-scale', 'breast-cancer-wisconsin', 'bridges', 'chess', 'echocardiogram', 'hepatitis', 'iris', 'nursery']

Nombre de FDs par dataset:
  - abalone: 137 FDs
  - balance-scale: 1 FDs
  - breast-cancer-wisconsin: 46 FDs
  - bridges: 144 FDs
  - chess: 1 FDs
  - echocardiogram: 527 FDs
  - hepatitis: 8296 FDs
  - iris: 4 FDs
  - nursery: 1 FDs


## 1. Comprendre les datasets

Avant d'analyser les FDs, on doit comprendre ce que repr√©sentent les attributs.

### Dataset IRIS (fleurs)
| Colonne | Signification |
|---------|---------------|
| 1 | sepal_length (longueur s√©pale) |
| 2 | sepal_width (largeur s√©pale) |
| 3 | petal_length (longueur p√©tale) |
| 4 | petal_width (largeur p√©tale) |
| 5 | class (esp√®ce: Setosa, Versicolor, Virginica) |

### Dataset BRIDGES (ponts de Pittsburgh)
| Colonne | Signification |
|---------|---------------|
| IDENTIF (E1, E2...) | Identifiant unique du pont |
| RIVER | Rivi√®re travers√©e (A, M, O) |
| ERECTED | Ann√©e de construction |
| PURPOSE | Usage (WALK, RR, HIGHWAY) |
| MATERIAL | Mat√©riau (WOOD, IRON, STEEL) |
| SPAN | Port√©e (SHORT, MEDIUM, LONG) |
| TYPE | Type de pont (ARCH, SUSPEN, etc.) |

### Dataset BREAST-CANCER-WISCONSIN
| Colonne | Signification |
|---------|---------------|
| ID | ID du patient |
| 1-9 | Caract√©ristiques cellulaires (taille, forme, uniformit√©, etc.) |
| class | Diagnostic (2=b√©nin, 4=malin) |

### Dataset ABALONE (coquillages)
| Colonne | Signification |
|---------|---------------|
| 1 | Sex (M, F, I=infant) |
| 2 | Length |
| 3 | Diameter |
| 4 | Height |
| 5 | Whole weight |
| 6 | Shucked weight |
| 7 | Viscera weight |
| 8 | Shell weight |
| 9 | Rings (√¢ge) |

### Dataset NURSERY (√©valuation de garderies)
| Colonne | Signification |
|---------|---------------|
| parents | Occupation des parents |
| has_nurs | A une garderie |
| form | Forme de la famille |
| children | Nombre d'enfants |
| housing | Situation de logement |
| finance | Situation financi√®re |
| social | Conditions sociales |
| health | Sant√© |
| class | Recommandation finale |

## 2. S√©lection des FDs √† analyser

On va s√©lectionner des FDs de diff√©rents types :
- **Plausibles** : qui semblent avoir du sens
- **Suspectes** : qui semblent accidentelles ou probl√©matiques

In [12]:
# FDs s√©lectionn√©es pour l'analyse

fds_to_analyze = [
    # === FDs PLAUSIBLES ===
    {
        'id': 1,
        'dataset': 'iris',
        'fd': 'petal_length, petal_width, sepal_length ‚Üí species',
        'context': 'Dataset de fleurs iris avec mesures de p√©tales et s√©pales pour classifier 3 esp√®ces.',
        'category_expected': 'plausible'
    },
    {
        'id': 2,
        'dataset': 'bridges',
        'fd': 'MATERIAL, SPAN ‚Üí TYPE',
        'context': 'Dataset de ponts de Pittsburgh avec mat√©riau (WOOD, IRON, STEEL), port√©e (SHORT, MEDIUM, LONG) et type de pont.',
        'category_expected': 'plausible'
    },
    {
        'id': 3,
        'dataset': 'breast-cancer',
        'fd': 'cell_size, cell_shape ‚Üí diagnosis',
        'context': 'Dataset m√©dical avec caract√©ristiques cellulaires pour diagnostic de cancer (b√©nin/malin).',
        'category_expected': 'plausible'
    },
    
    # === FDs SUSPECTES ===
    {
        'id': 4,
        'dataset': 'bridges',
        'fd': 'E1 ‚Üí MATERIAL, SPAN, TYPE, RIVER, ERECTED (E1 est l\'identifiant unique du pont)',
        'context': 'Dataset de ponts o√π E1 est le num√©ro d\'identification unique de chaque pont.',
        'category_expected': 'degenerate'
    },
    {
        'id': 5,
        'dataset': 'nursery',
        'fd': 'parents, has_nurs, form, children, housing, finance, social ‚Üí recommendation',
        'context': 'Dataset d\'√©valuation de garderies avec 7 crit√®res qui d√©terminent la recommandation.',
        'category_expected': 'overfitted'
    },
    {
        'id': 6,
        'dataset': 'abalone',
        'fd': 'shell_weight, viscera_weight, whole_weight, sex ‚Üí diameter',
        'context': 'Dataset de coquillages (abalones) avec mesures de poids et dimensions.',
        'category_expected': 'accidental'
    }
]

print(f"Nombre de FDs √† analyser: {len(fds_to_analyze)}")
print("\n=== FDs PLAUSIBLES ===")
for fd in fds_to_analyze[:3]:
    print(f"  [{fd['id']}] {fd['dataset']}: {fd['fd']}")
print("\n=== FDs SUSPECTES ===")
for fd in fds_to_analyze[3:]:
    print(f"  [{fd['id']}] {fd['dataset']}: {fd['fd']}")

Nombre de FDs √† analyser: 6

=== FDs PLAUSIBLES ===
  [1] iris: petal_length, petal_width, sepal_length ‚Üí species
  [2] bridges: MATERIAL, SPAN ‚Üí TYPE
  [3] breast-cancer: cell_size, cell_shape ‚Üí diagnosis

=== FDs SUSPECTES ===
  [4] bridges: E1 ‚Üí MATERIAL, SPAN, TYPE, RIVER, ERECTED (E1 est l'identifiant unique du pont)
  [5] nursery: parents, has_nurs, form, children, housing, finance, social ‚Üí recommendation
  [6] abalone: shell_weight, viscera_weight, whole_weight, sex ‚Üí diameter


## 3. Fonction pour interroger Gemini

In [13]:
def ask_gemini_about_fd(fd_info):
    """
    Interroge Gemini sur une d√©pendance fonctionnelle.
    Retourne la classification et l'explication.
    """
    
    prompt = f"""
Tu es un expert en bases de donn√©es et en qualit√© des donn√©es.

Contexte du dataset "{fd_info['dataset']}":
{fd_info['context']}

Voici une d√©pendance fonctionnelle (FD) d√©couverte par un algorithme:
    {fd_info['fd']}

Une d√©pendance fonctionnelle X ‚Üí Y signifie que si deux lignes ont la m√™me valeur pour X, elles doivent avoir la m√™me valeur pour Y.

Question: Cette d√©pendance fonctionnelle a-t-elle du sens dans le monde r√©el?

R√©ponds EXACTEMENT dans ce format:
CLASSIFICATION: [une seule parmi: MEANINGFUL, ACCIDENTAL, ENCODING-BASED, DEGENERATE, OVERFITTED, UNLIKELY]
EXPLICATION: [une phrase d'explication]

D√©finitions:
- MEANINGFUL: La FD repr√©sente une vraie r√®gle du monde r√©el
- ACCIDENTAL: La FD est vraie dans les donn√©es mais par co√Øncidence statistique
- ENCODING-BASED: L'information du RHS est encod√©e dans le LHS
- DEGENERATE: La FD est bas√©e sur un identifiant unique (ID ‚Üí tout)
- OVERFITTED: Trop d'attributs dans le LHS, c'est de la m√©morisation
- UNLIKELY: La FD ne devrait pas exister logiquement
"""
    
    try:
        response = model.generate_content(prompt)
        return response.text
    except Exception as e:
        return f"ERREUR: {str(e)}"

print("‚úÖ Fonction ask_gemini_about_fd() d√©finie !")

‚úÖ Fonction ask_gemini_about_fd() d√©finie !


## 4. Interroger Gemini pour chaque FD

In [14]:
# Interroger Gemini pour chaque FD
gemini_responses = {}

print("="*80)
print("INTERROGATION DE GEMINI")
print("="*80)

for fd in fds_to_analyze:
    print(f"\nüîÑ Analyse de la FD #{fd['id']} ({fd['dataset']})...")
    
    response = ask_gemini_about_fd(fd)
    gemini_responses[fd['id']] = response
    
    print(f"üìù R√©ponse de Gemini:")
    print(response)
    print("-" * 40)
    
    # Pause pour √©viter de d√©passer les limites de l'API
    time.sleep(2)

print("\n‚úÖ Toutes les FDs ont √©t√© analys√©es par Gemini !")

INTERROGATION DE GEMINI

üîÑ Analyse de la FD #1 (iris)...
üìù R√©ponse de Gemini:
ERREUR: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key not valid. Please pass a valid API key."
]
----------------------------------------

üîÑ Analyse de la FD #2 (bridges)...
üìù R√©ponse de Gemini:
ERREUR: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguage.googleapis.com"
}
, locale: "en-US"
message: "API key not valid. Please pass a valid API key."
]
----------------------------------------

üîÑ Analyse de la FD #3 (breast-cancer)...
üìù R√©ponse de Gemini:
ERREUR: 400 API key not valid. Please pass a valid API key. [reason: "API_KEY_INVALID"
domain: "googleapis.com"
metadata {
  key: "service"
  value: "generativelanguag

## 5. Parser les r√©ponses de Gemini

In [None]:
def parse_gemini_response(response_text):
    """
    Extrait la classification et l'explication de la r√©ponse de Gemini.
    """
    lines = response_text.strip().split('\n')
    classification = "UNKNOWN"
    explanation = ""
    
    for line in lines:
        if 'CLASSIFICATION:' in line.upper():
            classification = line.split(':', 1)[1].strip() if ':' in line else "UNKNOWN"
        elif 'EXPLICATION:' in line.upper():
            explanation = line.split(':', 1)[1].strip() if ':' in line else ""
    
    return classification, explanation

# Parser toutes les r√©ponses
llm_judgments = {}
for fd_id, response in gemini_responses.items():
    classification, explanation = parse_gemini_response(response)
    llm_judgments[fd_id] = {
        'classification': classification,
        'explanation': explanation,
        'raw_response': response
    }

print("R√©ponses pars√©es:")
for fd_id, judgment in llm_judgments.items():
    print(f"  FD #{fd_id}: {judgment['classification']}")

## 6. Notre jugement humain

In [None]:
# Notre propre jugement (humain)

human_judgments = {
    1: {
        'classification': 'MEANINGFUL',
        'explanation': 'Les mesures physiques des fleurs sont utilis√©es en botanique pour la classification des esp√®ces.'
    },
    2: {
        'classification': 'MEANINGFUL',
        'explanation': 'En ing√©nierie des ponts, le mat√©riau et la port√©e dictent le type de structure n√©cessaire.'
    },
    3: {
        'classification': 'MEANINGFUL',
        'explanation': 'Les caract√©ristiques cellulaires sont effectivement utilis√©es pour le diagnostic m√©dical.'
    },
    4: {
        'classification': 'DEGENERATE',
        'explanation': 'Un identifiant unique d√©termine toujours tous les autres attributs - c\'est trivial.'
    },
    5: {
        'classification': 'OVERFITTED',
        'explanation': '7 attributs pour d√©terminer 1 r√©sultat = m√©morisation, pas une vraie r√®gle g√©n√©rale.'
    },
    6: {
        'classification': 'ACCIDENTAL',
        'explanation': 'Corr√©lation physique entre poids et dimensions, mais pas une r√®gle d√©terministe.'
    }
}

print("‚úÖ Jugements humains d√©finis pour", len(human_judgments), "FDs")

## 7. Tableau de comparaison LLM vs Humain

In [None]:
# Cr√©er le tableau de comparaison

comparison_data = []
for fd in fds_to_analyze:
    fd_id = fd['id']
    llm = llm_judgments.get(fd_id, {})
    human = human_judgments.get(fd_id, {})
    
    llm_class = llm.get('classification', 'N/A')
    human_class = human.get('classification', 'N/A')
    
    # Normaliser pour comparaison
    llm_normalized = llm_class.upper().strip()
    human_normalized = human_class.upper().strip()
    
    agreement = 'OUI' if llm_normalized == human_normalized else 'NON'
    
    comparison_data.append({
        'ID': fd_id,
        'Dataset': fd['dataset'],
        'FD': fd['fd'][:45] + '...' if len(fd['fd']) > 45 else fd['fd'],
        'Gemini': llm_class,
        'Humain': human_class,
        'Accord': agreement
    })

comparison_df = pd.DataFrame(comparison_data)

print("\n" + "="*100)
print("TABLEAU DE COMPARAISON : GEMINI vs HUMAIN")
print("="*100)
display(comparison_df)

# Statistiques
agreements = sum(1 for d in comparison_data if d['Accord'] == 'OUI')
total = len(comparison_data)
print(f"\nüìä Statistiques:")
print(f"   - Accords: {agreements}/{total} ({100*agreements/total:.0f}%)")
print(f"   - D√©saccords: {total - agreements}")

## 8. Analyse des d√©saccords

In [None]:
# Afficher les d√©tails des d√©saccords

print("\n" + "="*80)
print("ANALYSE DES D√âSACCORDS")
print("="*80)

disagreements = [d for d in comparison_data if d['Accord'] == 'NON']

if disagreements:
    for i, d in enumerate(disagreements, 1):
        fd_id = d['ID']
        print(f"\n--- D√©saccord {i}: FD #{fd_id} ({d['Dataset']}) ---")
        print(f"FD: {fds_to_analyze[fd_id-1]['fd']}")
        print(f"\n  ü§ñ Gemini dit: {d['Gemini']}")
        print(f"     Explication: {llm_judgments[fd_id]['explanation']}")
        print(f"\n  üë§ Humain dit: {d['Humain']}")
        print(f"     Explication: {human_judgments[fd_id]['explanation']}")
else:
    print("\n‚úÖ Aucun d√©saccord ! Gemini et l'humain sont d'accord sur toutes les FDs.")

## 9. Sauvegarder les r√©sultats

In [None]:
# Sauvegarder le tableau de comparaison
comparison_df.to_csv('../results/task2_comparison.csv', index=False)
print("‚úÖ Tableau sauvegard√©: results/task2_comparison.csv")

# Sauvegarder les r√©ponses compl√®tes de Gemini
gemini_full = []
for fd in fds_to_analyze:
    fd_id = fd['id']
    gemini_full.append({
        'fd_id': fd_id,
        'dataset': fd['dataset'],
        'fd': fd['fd'],
        'gemini_classification': llm_judgments[fd_id]['classification'],
        'gemini_explanation': llm_judgments[fd_id]['explanation'],
        'gemini_raw': llm_judgments[fd_id]['raw_response'],
        'human_classification': human_judgments[fd_id]['classification'],
        'human_explanation': human_judgments[fd_id]['explanation']
    })

with open('../results/task2_gemini_responses.json', 'w', encoding='utf-8') as f:
    json.dump(gemini_full, f, indent=2, ensure_ascii=False)
print("‚úÖ R√©ponses Gemini: results/task2_gemini_responses.json")

# Sauvegarder les prompts
prompts = [{'fd_id': fd['id'], 'dataset': fd['dataset'], 'fd': fd['fd'], 'context': fd['context']} for fd in fds_to_analyze]
with open('../prompts/task2_prompts.json', 'w', encoding='utf-8') as f:
    json.dump(prompts, f, indent=2, ensure_ascii=False)
print("‚úÖ Prompts: prompts/task2_prompts.json")

## 10. Conclusion

### Points forts de Gemini :
- Comprend le contexte m√©tier
- D√©tecte les FDs d√©g√©n√©r√©es (bas√©es sur IDs)

### Points faibles de Gemini :
- Peut ne pas d√©tecter les FDs sur-ajust√©es
- Raisonne sur le "devrait √™tre" vs les donn√©es r√©elles

### Recommandation :
> Combiner LLM (filtre s√©mantique) + v√©rification algorithmique (taille LHS)

In [None]:
print("\n" + "="*80)
print("R√âSUM√â FINAL - T√ÇCHE 2")
print("="*80)
print(f"\n‚úÖ FDs analys√©es: {len(fds_to_analyze)}")
print(f"‚úÖ LLM utilis√©: Google Gemini 1.5 Flash")
print(f"‚úÖ Accords: {agreements}/{total}")
print(f"‚úÖ D√©saccords: {total - agreements}")
print(f"\nüìÅ Fichiers g√©n√©r√©s:")
print(f"   - results/task2_comparison.csv")
print(f"   - results/task2_gemini_responses.json")
print(f"   - prompts/task2_prompts.json")