In [None]:
# Importation des bibliothèques
import pandas as pd
from corpus import Corpus
from document import Document
from searchEngine import SearchEngine
import ipywidgets as widgets
from IPython.display import display, clear_output
import re


# Partie 1 : Démarrage

# 1.1 Récupération des données
data = pd.read_csv("discours_US.csv", delimiter='\t')

data=data.head(5)

# 1.2 Vérification de la distribution des auteurs
print("\nDistribution des auteurs :")
print(data["speaker"].value_counts())

# 1.3 Création du corpus et ajout des documents
td8_corpus = Corpus("Discours US")
for index, row in data.iterrows():
    phrases = row["text"].split('. ')
    for phrase in phrases:
        td8_corpus.add(Document(
            titre=f"Discours {index+1}",
            auteur=row["speaker"],
            date=row["date"],
            texte=phrase
        ))

print(f"\nNombre total de documents dans le corpus : {td8_corpus.ndoc}")

# 1.4 Test des fonctions search et concorde
search_engine = SearchEngine(td8_corpus)

# Exemple de recherche simple
query_test = "economic growth"
results = search_engine.search(query_test, top_n=5)
print("\nRésultats de la recherche :")
print(results)

# Partie 2 : Utilisation du moteur de recherche

# 2.1 Test avec plusieurs requêtes
queries = ["economic growth", "foreign policy", "tax reform"]
for query in queries:
    print(f"\nRésultats pour la requête '{query}' :")
    print(search_engine.search(query, top_n=5))

# Partie 3 : Petite interface

# Widgets pour l'interface utilisateur
label = widgets.Label("Moteur de recherche des discours")
text_input = widgets.Text(description="Mots-clés:")
slider = widgets.IntSlider(value=5, min=1, max=20, step=1, description="Résultats:")
output_area = widgets.Output()
button = widgets.Button(description="Rechercher")

# Fonction appelée au clic du bouton
def on_button_click(b):
    with output_area:
        clear_output()
        query = text_input.value
        top_n = slider.value
        try:
            results = search_engine.search(query, top_n)
            print(results)
        except Exception as e:
            print(f"Erreur lors de la recherche : {e}")

button.on_click(on_button_click)

# Interface utilisateur
interface = widgets.VBox([label, text_input, slider, button, output_area])
display(interface)



Distribution des auteurs :
speaker
CLINTON    5
Name: count, dtype: int64

Nombre total de documents dans le corpus : 807

Résultats de la recherche :
   Document ID       Titre     Score
0          511  Discours 5  0.335940
1          618  Discours 5  0.292460
2          549  Discours 5  0.249249
3           30  Discours 2  0.227550
4          479  Discours 5  0.217746

Résultats pour la requête 'economic growth' :
   Document ID       Titre     Score
0          511  Discours 5  0.335940
1          618  Discours 5  0.292460
2          549  Discours 5  0.249249
3           30  Discours 2  0.227550
4          479  Discours 5  0.217746

Résultats pour la requête 'foreign policy' :
   Document ID       Titre     Score
0          355  Discours 4  0.280242
1          755  Discours 5  0.250659
2          727  Discours 5  0.217430
3          170  Discours 3  0.181424
4          278  Discours 4  0.138305

Résultats pour la requête 'tax reform' :
   Document ID       Titre     Score
0         

VBox(children=(Label(value='Moteur de recherche des discours'), Text(value='', description='Mots-clés:'), IntS…