In [None]:
def construire_sql(select_label, where_template, concepts_valeurs):

    select_clause = f"SELECT {select_label} FROM films"


    where_clause = where_template

    for concept, valeur in concepts_valeurs:
        if concept == "acteur":
            clause_acteur = f"(acteur1 = '{valeur}' OR acteur2 = '{valeur}' OR acteur3 = '{valeur}')"
            where_clause = where_clause.replace("<val>", clause_acteur, 1)
        elif concept == "annee":
            where_clause = where_clause.replace("<annee>", valeur, 1)
        else:
            where_clause = where_clause.replace("<val>", f"'{valeur}'", 1)

    requete_sql = f"{select_clause} WHERE {where_clause};"
    return requete_sql


In [None]:
##python

import pandas as pd
import sqlite3
import re
import json
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron
from sklearn.pipeline import Pipeline

def nettoyer_where(clause):
    clause = re.sub(r"'[^']*'", "'<val>'", clause)
    clause = re.sub(r"\d{4}", "<annee>", clause)
    return clause.lower().strip()

def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    where = re.search(r'where (.+)', sql, re.IGNORECASE)
    select_label = select.group(1).strip().lower() if select else "UNKNOWN"
    where_label = nettoyer_where(where.group(1)) if where else "NONE"
    return select_label, where_label

def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs

def generer_where_sql(concepts_valeurs):
    clauses = []
    for concept, valeur in concepts_valeurs:
        if concept == "acteur":
            clause = f"(acteur1 = '{valeur}' OR acteur2 = '{valeur}' OR acteur3 = '{valeur}')"
        elif concept == "annee":
            clause = f"annee = {valeur}"
        else:
            clause = f"{concept} = '{valeur}'"
        clauses.append(clause)
    return " AND ".join(clauses)

def executer_requete_sqlite(select_clause, where_clause, conn):
    sql = f"SELECT {select_clause} FROM films WHERE {where_clause};"
    try:
        result = pd.read_sql_query(sql, conn)
        return sql, result
    except Exception as e:
        return sql, f"Erreur d'ex√©cution : {e}"

def main():
    # Charger les donn√©es d'entra√Ænement
    with open("queries_french_para.json", encoding="utf-8") as f:
        data = json.load(f)

    select_X, select_y, where_X, where_y = [], [], [], []

    for entry in data:
        sql = entry.get("sql", "")
        select_label, where_label = extraire_labels(sql)
        phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
        for phrase in phrases:
            select_X.append(phrase)
            select_y.append(select_label)
            where_X.append(phrase)
            where_y.append(where_label)

    pipeline_select = Pipeline([("vectorizer", CountVectorizer()), ("perceptron", Perceptron())])
    pipeline_select.fit(select_X, select_y)

    # Charger les donn√©es du CSV
    df = pd.read_csv("base_films_500.csv")
    conn = sqlite3.connect(":memory:")
    df.to_sql("films", conn, index=False, if_exists="replace")

    valeurs_concepts = {
        'titre': df['titre'].dropna().unique().tolist(),
        'realisateur': df['realisateur'].dropna().unique().tolist(),
        'annee': df['annee'].dropna().astype(str).unique().tolist(),
        'genre': df['genre'].dropna().unique().tolist(),
        'acteur1': df['acteur1'].dropna().unique().tolist(),
        'acteur2': df['acteur2'].dropna().unique().tolist(),
        'acteur3': df['acteur3'].dropna().unique().tolist()
    }

    while True:
        requete_naturelle = input("\nEntrez votre requ√™te (ou tapez 'exit' pour quitter) :\n> ")
        if requete_naturelle.lower() == "exit":
            print("√Ä bient√¥t !")
            break

        concepts_valeurs = analyse_lexicale(requete_naturelle, valeurs_concepts)
        select_pred = pipeline_select.predict([requete_naturelle])[0]
        where_clause = generer_where_sql(concepts_valeurs)
        requete_sql, resultat = executer_requete_sqlite(select_pred, where_clause, conn)

        print("\n--- Requ√™te SQL g√©n√©r√©e ---")
        print(requete_sql)
        print("\n--- R√©sultat ---")
        if isinstance(resultat, pd.DataFrame):
            print(resultat.head(10))
        else:
            print(resultat)

if __name__ == "__main__":
    main()



In [None]:
select_pred = "titre"
where_pred = "(acteur1 = '<val>' OR acteur2 = '<val>' OR acteur3 = '<val>') AND (acteur1 = '<val>' OR acteur2 = '<val>' OR acteur3 = '<val>')"
concepts_vals = [('acteur', 'Meryl Streep'), ('acteur', 'Hugh Jackman')]

sql = construire_sql(select_pred, where_pred, concepts_vals)
print(sql)


SELECT titre FROM films WHERE (acteur1 = '(acteur1 = 'Meryl Streep' OR acteur2 = 'Meryl Streep' OR acteur3 = 'Meryl Streep')' OR acteur2 = '(acteur1 = 'Hugh Jackman' OR acteur2 = 'Hugh Jackman' OR acteur3 = 'Hugh Jackman')' OR acteur3 = '<val>') AND (acteur1 = '<val>' OR acteur2 = '<val>' OR acteur3 = '<val>');


In [None]:
import pandas as pd
import sqlite3
import re
import json
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron
from sklearn.pipeline import Pipeline


with open("queries_french_para.json", encoding="utf-8") as f:
    data = json.load(f)

def nettoyer_where(clause):
    clause = re.sub(r"'[^']*'", "'<val>'", clause)
    clause = re.sub(r"\d{4}", "<annee>", clause)
    return clause.lower().strip()

def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    where = re.search(r'where (.+)', sql, re.IGNORECASE)
    select_label = select.group(1).strip().lower() if select else "UNKNOWN"
    where_label = nettoyer_where(where.group(1)) if where else "NONE"
    return select_label, where_label

select_X, select_y, where_X, where_y = [], [], [], []
for entry in data:
    sql = entry.get("sql", "")
    select_label, where_label = extraire_labels(sql)
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_X.append(phrase)
        select_y.append(select_label)
        where_X.append(phrase)
        where_y.append(where_label)


pipeline_select = Pipeline([("vectorizer", CountVectorizer()), ("perceptron", Perceptron())])
pipeline_select.fit(select_X, select_y)


df = pd.read_csv("base_films_500.csv")
conn = sqlite3.connect(":memory:")
df.to_sql("films", conn, index=False, if_exists="replace")


valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}


def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs


def generer_where_sql(concepts_valeurs):
    clauses = []
    annees = []

    for concept, valeur in concepts_valeurs:
        if concept == "annee":
            annees.append(valeur)
        elif concept == "acteur":
            val = valeur
            clause = f"((acteur1 = '{val}' or acteur2 = '{val}' or acteur3 = '{val}'))"
            clauses.append(clause)
        else:
            clause = f"{concept} = '{valeur}'"
            clauses.append(clause)


    if len(annees) == 2:
        an1, an2 = sorted(annees)
        clauses.append(f"annee between {an1} and {an2}")
    elif len(annees) == 1:
        clauses.append(f"annee = {annees[0]}")

    return " AND ".join(clauses)



def executer_requete_sqlite(select_clause, where_clause):
    sql = f"SELECT {select_clause} FROM films WHERE {where_clause};"
    try:
        result = pd.read_sql_query(sql, conn)
        return sql, result
    except Exception as e:
        return sql, f"Erreur d'ex√©cution : {e}"


requete_naturelle = "Je souhaiterais conna√Ætre les films o√π Meryl Streep et Hugh Jackman ont un r√¥le."
concepts_valeurs = analyse_lexicale(requete_naturelle, valeurs_concepts)
select_pred = pipeline_select.predict([requete_naturelle])[0]
where_clause = generer_where_sql(concepts_valeurs)
requete_sql, resultat = executer_requete_sqlite(select_pred, where_clause)

print("\n--- Requ√™te SQL g√©n√©r√©e ---")
print(requete_sql)
print("\n--- R√©sultat ---")
print(resultat.head(10) if isinstance(resultat, pd.DataFrame) else resultat)



--- Requ√™te SQL g√©n√©r√©e ---
SELECT titre FROM films WHERE ((acteur1 = 'Meryl Streep' or acteur2 = 'Meryl Streep' or acteur3 = 'Meryl Streep')) AND ((acteur1 = 'Hugh Jackman' or acteur2 = 'Hugh Jackman' or acteur3 = 'Hugh Jackman'));

--- R√©sultat ---
                        titre
0  The Frozen Mission Project
1      The Frozen Memory Code
2        The Lost Secret Game


#Evaluation :    

#Evaluation quantitative :

In [None]:
import json
import re
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron

# === Charger les fichiers n√©cessaires
with open("queries_french_para.json", encoding="utf-8") as f:
    train_data = json.load(f)

with open("queries_french_para_eval.json", encoding="utf-8") as f:
    eval_data = json.load(f)

# === Fonction d‚Äôextraction de concepts depuis le SQL attendu
def extraire_concepts_from_sql(sql):
    sql = sql.lower()
    concepts = []
    if "titre" in sql: concepts.append("titre")
    if "realisateur" in sql: concepts.append("realisateur")
    if "annee" in sql: concepts.append("annee")
    if "genre" in sql: concepts.append("genre")
    if "acteur1" in sql or "acteur2" in sql or "acteur3" in sql:
        concepts.append("acteur")
    return list(set(concepts))

# === Analyse lexicale d√©j√† existante
def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs

# === Pr√©paration du lexique depuis le CSV
import pandas as pd
df = pd.read_csv("base_films_500.csv")

valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}

# === Entra√Ænement des mod√®les de classification SELECT/WHERE
def nettoyer_where(clause):
    clause = re.sub(r"'[^']*'", "'<val>'", clause)
    clause = re.sub(r"\d{4}", "<annee>", clause)
    return clause.lower().strip()

def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    where = re.search(r'where (.+)', sql, re.IGNORECASE)
    select_label = select.group(1).strip().lower() if select else "UNKNOWN"
    where_label = nettoyer_where(where.group(1)) if where else "NONE"
    return select_label, where_label

select_X, select_y, where_X, where_y = [], [], [], []

for entry in train_data:
    sql = entry["sql"]
    select_label, where_label = extraire_labels(sql)
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_X.append(phrase)
        select_y.append(select_label)
        where_X.append(phrase)
        where_y.append(where_label)

# === Mod√®les Perceptron
pipeline_select = Pipeline([("vec", CountVectorizer()), ("clf", Perceptron())])
pipeline_where = Pipeline([("vec", CountVectorizer()), ("clf", Perceptron())])
pipeline_select.fit(select_X, select_y)
pipeline_where.fit(where_X, where_y)

# === √âvaluation 1 : Concepts / Valeurs
print("\nüîç √âvaluation 1 : Extraction des concepts/valeurs\n")
total = 0
correct = 0

for entry in eval_data:
    sql_attendu = entry["sql"]
    concepts_attendus = set(extraire_concepts_from_sql(sql_attendu))
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        concepts_extraits = set([c for c, _ in analyse_lexicale(phrase, valeurs_concepts)])
        if concepts_attendus == concepts_extraits:
            correct += 1
        else:
            print(f"‚ùå Phrase : {phrase}")
            print(f"Attendu : {concepts_attendus}")
            print(f"Extrait : {concepts_extraits}\n")
        total += 1

print(f"\n‚úÖ Pr√©cision concept/valeurs : {correct}/{total} = {correct / total * 100:.2f}%")

# === √âvaluation 2 : SELECT + WHERE
print("\nüß† √âvaluation 2 : Intention SELECT et WHERE\n")
select_correct, where_correct = 0, 0
total_intent = 0

for entry in eval_data:
    sql_attendu = entry["sql"]
    select_gold, where_gold = extraire_labels(sql_attendu)
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_pred = pipeline_select.predict([phrase])[0]
        where_pred = pipeline_where.predict([phrase])[0]
        if select_pred.strip().lower() == select_gold:
            select_correct += 1
        else:
            print(f"‚ùå SELECT - {phrase}")
            print(f"Gold : {select_gold} | Pred : {select_pred}")
        if where_pred.strip().lower() == where_gold:
            where_correct += 1
        else:
            print(f"‚ùå WHERE - {phrase}")
            print(f"Gold : {where_gold} | Pred : {where_pred}")
        total_intent += 1

print(f"\n‚úÖ Pr√©cision SELECT : {select_correct}/{total_intent} = {select_correct / total_intent * 100:.2f}%")
print(f"‚úÖ Pr√©cision WHERE  : {where_correct}/{total_intent} = {where_correct / total_intent * 100:.2f}%")


[1;30;43mLe flux de sortie a √©t√© tronqu√© et ne contient que les 5000¬†derni√®res lignes.[0m
Extrait : {'titre'}

‚ùå Phrase : Pouvez-vous me donner l'ann√©e des films intitul√©s The Last Empire Story ?
Attendu : {'titre', 'annee'}
Extrait : {'titre'}

‚ùå Phrase : Est-ce que vous pourriez me dire en quelle ann√©e sont sortis les films The Last Empire Story ?
Attendu : {'titre', 'annee'}
Extrait : {'titre'}

‚ùå Phrase : J'aimerais conna√Ætre l'ann√©e de sortie des films appel√©s The Last Empire Story.
Attendu : {'titre', 'annee'}
Extrait : {'titre'}

‚ùå Phrase : Pourriez-vous m'indiquer l'ann√©e des films portant le titre The Last Empire Story ?
Attendu : {'titre', 'annee'}
Extrait : {'titre'}

‚ùå Phrase : Donnez-moi, s'il vous pla√Æt, l'ann√©e des films qui s'appellent The Last Empire Story.
Attendu : {'titre', 'annee'}
Extrait : {'titre'}

‚ùå Phrase : Veuillez me montrer l'ann√©e des films dont le titre est The Silent Journey Protocol.
Attendu : {'titre', 'annee'}
Extrait : {

In [None]:
import json
import pandas as pd
import sqlite3
import re
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron


with open("queries_french_para.json", encoding="utf-8") as f:
    data_train = json.load(f)

with open("queries_french_para_eval.json", encoding="utf-8") as f:
    data_eval = json.load(f)


def normaliser_sql(chaine):
    chaine = chaine.lower()
    chaine = re.sub(r'\s+', ' ', chaine)
    chaine = re.sub(r'\s*=\s*', '=', chaine)
    chaine = re.sub(r'\s*between\s*', ' between ', chaine)
    chaine = chaine.strip().rstrip(';')
    return chaine


def nettoyer_where(clause):
    clause = re.sub(r"'[^']*'", "'<val>'", clause)
    clause = re.sub(r"\d{4}", "<annee>", clause)
    return clause.lower().strip()

def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    where = re.search(r'where (.+)', sql, re.IGNORECASE)
    select_label = select.group(1).strip().lower() if select else "UNKNOWN"
    where_label = nettoyer_where(where.group(1)) if where else "NONE"
    return select_label, where_label


select_X, select_y = [], []
for entry in data_train:
    select_label, _ = extraire_labels(entry["sql"])
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_X.append(phrase)
        select_y.append(select_label)

pipeline_select = Pipeline([
    ("vectorizer", CountVectorizer()),
    ("perceptron", Perceptron())
])
pipeline_select.fit(select_X, select_y)


df = pd.read_csv("base_films_500.csv")

valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}


def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs


def generer_where_sql(concepts_valeurs):
    clauses = []
    annees = []

    for concept, valeur in concepts_valeurs:
        if concept == "annee":
            annees.append(valeur)
        elif concept == "acteur":
            clause = f"((acteur1 = '{valeur}' or acteur2 = '{valeur}' or acteur3 = '{valeur}'))"
            clauses.append(clause)
        else:
            clause = f"{concept} = '{valeur}'"
            clauses.append(clause)

    if len(annees) == 2:
        an1, an2 = sorted(annees)
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee between {an1} and {an2}")
    elif len(annees) == 1:
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee = {annees[0]}")

    return " AND ".join(clauses)


total = 0
correct = 0

for entry in data_eval:
    expected_sql = normaliser_sql(entry["sql"])
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]

    for phrase in phrases:
        total += 1
        concepts_valeurs = analyse_lexicale(phrase, valeurs_concepts)
        select_pred = pipeline_select.predict([phrase])[0]
        where_clause = generer_where_sql(concepts_valeurs)
        sql_gen = f"SELECT {select_pred} FROM films WHERE {where_clause};"
        sql_gen_norm = normaliser_sql(sql_gen)

        print("\nüìù Phrase :", phrase)
        print("‚úÖ G√©n√©r√©e :", sql_gen)
        print("üéØ Attendue :", entry["sql"])

        if sql_gen_norm == expected_sql:
            correct += 1
            print("‚úîÔ∏è CORRECT")
        else:
            print("‚ùå INCORRECT")


print(f"\n‚úÖ √âvaluation termin√©e : {correct} / {total} corrects")
print(f"üéØ Pr√©cision : {correct / total * 100:.2f}%")


[1;30;43mLe flux de sortie a √©t√© tronqu√© et ne contient que les 5000¬†derni√®res lignes.[0m
üéØ Attendue : SELECT titre FROM films WHERE (acteur1 = 'Anne Hathaway' OR acteur2 = 'Anne Hathaway' OR acteur3 = 'Anne Hathaway') AND genre = 'Drame';
‚ùå INCORRECT

üìù Phrase : Pourriez-vous me montrer les films d'Anne Hathaway class√©s dans le genre Drame ?
‚úÖ G√©n√©r√©e : SELECT titre FROM films WHERE ((acteur1 = 'Anne Hathaway' or acteur2 = 'Anne Hathaway' or acteur3 = 'Anne Hathaway')) AND genre = 'Drame';
üéØ Attendue : SELECT titre FROM films WHERE (acteur1 = 'Anne Hathaway' OR acteur2 = 'Anne Hathaway' OR acteur3 = 'Anne Hathaway') AND genre = 'Drame';
‚ùå INCORRECT

üìù Phrase : J'aimerais conna√Ætre les titres des films d'Anne Hathaway qui sont des Drames, s'il vous pla√Æt.
‚úÖ G√©n√©r√©e : SELECT titre FROM films WHERE ((acteur1 = 'Anne Hathaway' or acteur2 = 'Anne Hathaway' or acteur3 = 'Anne Hathaway')) AND genre = 'Drame';
üéØ Attendue : SELECT titre FROM films WHERE (

In [None]:
import json
import pandas as pd
import sqlite3
import re
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron

# Charger corpus d'entra√Ænement
with open("queries_french_para.json", encoding="utf-8") as f:
    data_train = json.load(f)

# Charger corpus d'√©valuation (avec valeurs)
with open("queries_french_para_eval_values.json", encoding="utf-8") as f:
    data_eval = json.load(f)

# Pr√©traitement du SQL
def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    select_label = select.group(1).strip().lower() if select else "UNKNOWN"
    return select_label

# Entra√Ænement mod√®le SELECT
select_X, select_y = [], []
for entry in data_train:
    select_label = extraire_labels(entry["sql"])
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_X.append(phrase)
        select_y.append(select_label)

pipeline_select = Pipeline([
    ("vectorizer", CountVectorizer()),
    ("perceptron", Perceptron())
])
pipeline_select.fit(select_X, select_y)

# Charger la base films
df = pd.read_csv("base_films_500.csv")
conn = sqlite3.connect(":memory:")
df.to_sql("films", conn, index=False, if_exists="replace")

# Cr√©ation du lexique
valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}

# Analyse lexicale
def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs

# WHERE avec BETWEEN et double parenth√®ses
def generer_where_sql(concepts_valeurs):
    clauses = []
    annees = []
    for concept, valeur in concepts_valeurs:
        if concept == "annee":
            annees.append(valeur)
        elif concept == "acteur":
            clause = f"((acteur1 = '{valeur}' or acteur2 = '{valeur}' or acteur3 = '{valeur}'))"
            clauses.append(clause)
        else:
            clause = f"{concept} = '{valeur}'"
            clauses.append(clause)
    if len(annees) == 2:
        an1, an2 = sorted(annees)
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee between {an1} and {an2}")
    elif len(annees) == 1:
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee = {annees[0]}")
    return " AND ".join(clauses)

# Fonction d'ex√©cution et comparaison
def extraire_reponse(select, where):
    try:
        sql = f"SELECT {select} FROM films WHERE {where};"
        result = pd.read_sql_query(sql, conn)
        if not result.empty:
            val = str(result.iloc[0, 0])
            return val.strip()
        return None
    except:
        return None

# √âVALUATION
total = 0
correct = 0

for entry in data_eval:
    phrase = entry["query"]
    valeur_attendue = entry["value"].strip()

    concepts_valeurs = analyse_lexicale(phrase, valeurs_concepts)
    select_pred = pipeline_select.predict([phrase])[0]
    where_clause = generer_where_sql(concepts_valeurs)
    valeur_obtenue = extraire_reponse(select_pred, where_clause)

    print("\nüîé Query :", phrase)
    print("üß† SQL ‚Üí SELECT", select_pred, "WHERE", where_clause)
    print("üéØ Attendu :", valeur_attendue)
    print("‚úÖ Obtenu  :", valeur_obtenue)

    total += 1
    if valeur_obtenue and valeur_obtenue.strip().lower() == valeur_attendue.lower():
        correct += 1
        print("‚úîÔ∏è Correct")
    else:
        print("‚ùå Incorrect")

# R√©sultat global
print(f"\nüìä √âvaluation termin√©e : {correct} / {total} corrects")
print(f"üéØ Pr√©cision : {correct / total * 100:.2f}%")


[1;30;43mLe flux de sortie a √©t√© tronqu√© et ne contient que les 5000¬†derni√®res lignes.[0m
üîé Query : Pourriez-vous m'indiquer qui a r√©alis√© The Infinite Shadow Affair ?
üß† SQL ‚Üí SELECT realisateur WHERE titre = 'The Infinite Shadow Affair'
üéØ Attendu : Bong Joon-ho
‚úÖ Obtenu  : Bong Joon-ho
‚úîÔ∏è Correct

üîé Query : Je souhaiterais savoir qui est le r√©alisateur du film The Silent Shadow Game.
üß† SQL ‚Üí SELECT realisateur WHERE titre = 'The Silent Shadow Game'
üéØ Attendu : Stanley Kubrick
‚úÖ Obtenu  : Stanley Kubrick
‚úîÔ∏è Correct

üîé Query : J'aimerais savoir l'ann√©e des films intitul√©s The Infinite Shadow Affair.
üß† SQL ‚Üí SELECT annee WHERE titre = 'The Infinite Shadow Affair'
üéØ Attendu : 2011
‚úÖ Obtenu  : 2011
‚úîÔ∏è Correct

üîé Query : Est-ce que vous pourriez m'indiquer le r√©alisateur des films intitul√©s The Golden Shadow Code ?
üß† SQL ‚Üí SELECT realisateur WHERE titre = 'The Golden Shadow Code'
üéØ Attendu : James Cameron
‚úÖ Obtenu

##Evaluation qualitative :

In [None]:
import pandas as pd
import sqlite3
import re
import json
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron

# Charger donn√©es d'entra√Ænement
with open("queries_french_para.json", encoding="utf-8") as f:
    data_train = json.load(f)

# Charger base films
df = pd.read_csv("base_films_500.csv")
conn = sqlite3.connect(":memory:")
df.to_sql("films", conn, index=False, if_exists="replace")

# Lexique
valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}

# Analyse lexicale
def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs


def generer_where_sql(concepts_valeurs):
    clauses = []
    annees = []
    for concept, valeur in concepts_valeurs:
        if concept == "annee":
            annees.append(valeur)
        elif concept == "acteur":
            clause = f"((acteur1 = '{valeur}' or acteur2 = '{valeur}' or acteur3 = '{valeur}'))"
            clauses.append(clause)
        else:
            clause = f"{concept} = '{valeur}'"
            clauses.append(clause)
    if len(annees) == 2:
        an1, an2 = sorted(annees)
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee between {an1} and {an2}")
    elif len(annees) == 1:
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee = {annees[0]}")
    return " AND ".join(clauses)


def extraire_reponse_sql(select_pred, where_clause):
    sql = f"SELECT {select_pred} FROM films WHERE {where_clause};"
    try:
        result = pd.read_sql_query(sql, conn)
        if result.empty:
            return sql, "Aucun r√©sultat"
        return sql, result.head(3).to_string(index=False)
    except Exception as e:
        return sql, f"Erreur SQL : {e}"


def extraire_labels(sql):
    select = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    return select.group(1).strip().lower() if select else "UNKNOWN"


select_X, select_y = [], []
for entry in data_train:
    select_label = extraire_labels(entry["sql"])
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for phrase in phrases:
        select_X.append(phrase)
        select_y.append(select_label)

pipeline_select = Pipeline([
    ("vec", CountVectorizer()),
    ("clf", Perceptron())
])
pipeline_select.fit(select_X, select_y)


requetes_test = [
    "Quels sont les films r√©alis√©s par Wes Anderson ?",
    "Donne-moi les films de genre com√©die.",
    "Quels films sont sortis en 2011 ?",
    "Affiche les films avec Brad Pitt.",
    "Quels sont les films d‚Äôaction ?",
    "Montre moi les film de horreur.",
    "c koi les film avec denzel washigton ?",
    "Les films reyalis√©s par Martin scorcesse stp.",
    "Donne les film ou ya Emma Stone.",
    "Est ce qu'il y a des film en 1983 ?",
    "Quels films de science-fiction ont √©t√© r√©alis√©s apr√®s 2010 ?",
    "Trouve les films o√π jouent √† la fois Denzel Washington et Tom Cruise.",
    "Liste des films de Peter Jackson avec Gal Gadot.",
    "Quels sont les films sortis entre 2000 et 2010 de genre com√©die ?",
    "Tous les films r√©alis√©s par Denis Villeneuve avec au moins un acteur f√©minin mentionn√©.",
    "Quels films ont le mot ‚ÄúPromise‚Äù dans le titre ?",
    "Trouve les films o√π Chris Hemsworth est acteur principal.",
    "Quels sont les films r√©alis√©s par des r√©alisateurs dont le pr√©nom est Ron ?",
    "Quels films ont pour actrice Jennifer Lawrence ?",
    "Liste des films avec plus d‚Äôun acteur masculin."
]

# R√©capitulatif
recap = []

for req in requetes_test:
    concepts = analyse_lexicale(req, valeurs_concepts)
    select_pred = pipeline_select.predict([req])[0]
    where_clause = generer_where_sql(concepts)
    sql, result = extraire_reponse_sql(select_pred, where_clause)

    recap.append({
        "Requ√™te naturelle": req,
        "Requ√™te SQL g√©n√©r√©e": sql,
        "R√©sultat": result
    })

# Affichage final
df_recap = pd.DataFrame(recap)
pd.set_option("display.max_colwidth", None)
print("\nüßæ R√©capitulatif des requ√™tes test√©es :")
display(df_recap)



üßæ R√©capitulatif des requ√™tes test√©es :


Unnamed: 0,Requ√™te naturelle,Requ√™te SQL g√©n√©r√©e,R√©sultat
0,Quels sont les films r√©alis√©s par Wes Anderson ?,SELECT titre FROM films WHERE realisateur = 'Wes Anderson';,titre\nThe Burning Truth Project\nThe Infinite Journey Saga\n The Frozen Echo Saga
1,Donne-moi les films de genre com√©die.,SELECT titre FROM films WHERE genre = 'Com√©die';,titre\nThe Burning Truth Project\nThe Infinite Secret Files\n The Hidden Shadow Saga
2,Quels films sont sortis en 2011 ?,SELECT titre FROM films WHERE annee = 2011;,titre\nThe Hidden Promise Game\n The Hidden Empire Saga\nThe Burning Shadow Saga
3,Affiche les films avec Brad Pitt.,SELECT titre FROM films WHERE ((acteur1 = 'Brad Pitt' or acteur2 = 'Brad Pitt' or acteur3 = 'Brad Pitt'));,titre\nThe Burning Truth Project\n The Lost Promise Saga\n The Golden Shadow Affair
4,Quels sont les films d‚Äôaction ?,SELECT titre FROM films WHERE genre = 'Action';,titre\n The Infinite Shadow Story\nThe Last Journey Chronicles\nThe Silent Mission Protocol
5,Montre moi les film de horreur.,SELECT * FROM films WHERE genre = 'Horreur';,titre realisateur annee genre acteur1 acteur2 acteur3\nThe Hidden Promise Game Ron Howard 2011 Horreur Chris Hemsworth Natalie Portman Emily Blunt\n The Burning Echo Story Ron Howard 1986 Horreur Scarlett Johansson Robert De Niro Emma Stone\n The Frozen Echo Saga Wes Anderson 2016 Horreur Denzel Washington Johnny Depp Gal Gadot
6,c koi les film avec denzel washigton ?,SELECT titre FROM films WHERE ;,"Erreur SQL : Execution failed on sql 'SELECT titre FROM films WHERE ;': near "";"": syntax error"
7,Les films reyalis√©s par Martin scorcesse stp.,SELECT titre FROM films WHERE ;,"Erreur SQL : Execution failed on sql 'SELECT titre FROM films WHERE ;': near "";"": syntax error"
8,Donne les film ou ya Emma Stone.,SELECT titre FROM films WHERE ((acteur1 = 'Emma Stone' or acteur2 = 'Emma Stone' or acteur3 = 'Emma Stone'));,titre\nThe Burning Truth Project\n The Burning Echo Story\n The Lost Promise Story
9,Est ce qu'il y a des film en 1983 ?,"SELECT acteur1, acteur2, acteur3 FROM films WHERE annee = 1983;",acteur1 acteur2 acteur3\n Keanu Reeves Matt Damon Gal Gadot\n Mark Ruffalo Keanu Reeves Tom Hanks\nChris Hemsworth Chris Evans Brad Pitt


#Question bonus :

In [None]:
import pandas as pd
import sqlite3
import re
import json
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import Perceptron

# === Chargement
with open("queries_french_para.json", encoding="utf-8") as f:
    data_train = json.load(f)

df = pd.read_csv("base_films_500.csv")
conn = sqlite3.connect(":memory:")
df.to_sql("films", conn, index=False, if_exists="replace")

# === Lexique
valeurs_concepts = {
    'titre': df['titre'].dropna().unique().tolist(),
    'realisateur': df['realisateur'].dropna().unique().tolist(),
    'annee': df['annee'].dropna().astype(str).unique().tolist(),
    'genre': df['genre'].dropna().unique().tolist(),
    'acteur1': df['acteur1'].dropna().unique().tolist(),
    'acteur2': df['acteur2'].dropna().unique().tolist(),
    'acteur3': df['acteur3'].dropna().unique().tolist()
}

# === Analyse lexicale
def analyse_lexicale(requete, lexique):
    concepts_valeurs = []
    deja_vus = set()
    correspondances = []
    for concept, valeurs in lexique.items():
        for valeur in valeurs:
            if valeur.lower() in requete.lower():
                match = re.search(re.escape(valeur), requete, flags=re.IGNORECASE)
                if match:
                    correspondances.append((match.start(), valeur, concept))
    correspondances.sort()
    for _, valeur, concept in correspondances:
        if valeur.lower() not in deja_vus:
            deja_vus.add(valeur.lower())
            concept_label = "acteur" if concept.startswith("acteur") else concept
            concepts_valeurs.append((concept_label, valeur))
    return concepts_valeurs


def generer_where_sql(concepts_valeurs, requete_originale=None):
    clauses = []
    annees = []

    for concept, valeur in concepts_valeurs:
        if concept == "annee":
            annees.append(valeur)
        elif concept == "acteur":
            clause = f"((acteur1 = '{valeur}' or acteur2 = '{valeur}' or acteur3 = '{valeur}'))"
            clauses.append(clause)
        else:
            clause = f"{concept} = '{valeur}'"
            clauses.append(clause)


    if requete_originale:
        mots = re.findall(r"\b\w+\b", requete_originale)
        mots_utiles = [m for m in mots if len(m) > 3 and m.lower() not in ['quels', 'les', 'dans', 'avec', 'film', 'films', 'titre', 'mot', 'le']]
        valeurs_connues = [v.lower() for _, v in concepts_valeurs]
        for mot in mots_utiles:
            if mot.lower() not in valeurs_connues:
                clauses.append(f"titre LIKE '%{mot}%'")
                break

    if len(annees) == 2:
        an1, an2 = sorted(annees)
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee BETWEEN {an1} AND {an2}")
    elif len(annees) == 1:
        clauses = [c for c in clauses if not c.startswith("annee")]
        clauses.append(f"annee = {annees[0]}")

    return " AND ".join(clauses)

# === SQL
def executer_sql(select, where):
    sql = f"SELECT {select} FROM films WHERE {where};"
    try:
        result = pd.read_sql_query(sql, conn)
        if result.empty:
            return sql, "Aucun r√©sultat"
        return sql, result.head(5).to_string(index=False)
    except Exception as e:
        return sql, f"Erreur : {e}"

# === SELECT (Perceptron)
def extraire_labels(sql):
    match = re.search(r'select (.+?) from', sql, re.IGNORECASE)
    return match.group(1).strip().lower() if match else "UNKNOWN"

select_X, select_y = [], []
for entry in data_train:
    label = extraire_labels(entry["sql"])
    phrases = [entry["french"]["query_french"]] + entry["french"]["paraphrase_french"]
    for p in phrases:
        select_X.append(p)
        select_y.append(label)

pipeline_select = Pipeline([
    ("vec", CountVectorizer()),
    ("clf", Perceptron())
])
pipeline_select.fit(select_X, select_y)

# === Requ√™te BONUS √† tester
requete = "Quels films ont le mot Promise dans le titre ?"

concepts = analyse_lexicale(requete, valeurs_concepts)
select = pipeline_select.predict([requete])[0]
where = generer_where_sql(concepts, requete_originale=requete)
sql, result = executer_sql(select, where)

# === Affichage
print("üìù Requ√™te naturelle :", requete)
print("üìÑ SQL g√©n√©r√©e :", sql)
print("\nüìä R√©sultat :")
print(result)


üìù Requ√™te naturelle : Quels films ont le mot Promise dans le titre ?
üìÑ SQL g√©n√©r√©e : SELECT realisateur FROM films WHERE titre LIKE '%Promise%';

üìä R√©sultat :
      realisateur
       Ron Howard
 Denis Villeneuve
  Stanley Kubrick
  Robert Zemeckis
Quentin Tarantino


Et tester aussi :

"Quels films commencent par The ?"

"Films dont le titre contient Shadow"

"Liste des films o√π on voit 'Revenge'"