# Partie 1 : Démarrage

In [1]:
import pandas as pd
import sys
from datetime import datetime
from Corpus import Document, Author, DocumentFactory, Corpus, SearchEngine
import ipywidgets as widgets
from IPython.display import display, clear_output
from tqdm.notebook import tqdm

# Ajouter le chemin du répertoire contenant les modules
sys.path.append('../V4')

# 1.1 Charger le jeu de données
df = pd.read_csv('../V3/discours_US.csv')

# 1.2 Vérifier la distribution des auteurs
print(df['speaker'].value_counts())

# 1.3 Créer un objet Corpus et ajouter les documents
corpus = Corpus("Discours US")

# Ajouter les documents au corpus
for index, row in df.iterrows():
    doc = DocumentFactory.create_document(row)
    corpus.add(doc)

# Afficher le nombre de documents dans le corpus
print(f"Nombre de documents dans le corpus : {corpus.ndoc}")

# 1.4 Tester les fonctions search et concorde
print("Résultats de la recherche pour le mot 'freedom':")
print(corpus.search("freedom"))

print("\nConcordances pour le mot 'freedom':")
print(corpus.concorde("freedom", context_size=30))

# Partie 2 : Utilisation de votre moteur de recherche

In [2]:
from Corpus import SearchEngine

# 2.1 Importer et initialiser la classe SearchEngine
search_engine = SearchEngine(corpus)

# 2.2 Tester la fonction search
print("Résultats de la recherche pour le mot 'freedom' avec le moteur de recherche:")
print(search_engine.search("freedom", top_n=10))

# Partie 3 : Petite interface

In [3]:
import ipywidgets as widgets
from IPython.display import display

# Créer les widgets
label = widgets.Label(value="Moteur de recherche de discours US")
text_input = widgets.Text(description="Mots-clés:")
int_slider = widgets.IntSlider(description="Nombre de documents:", min=1, max=20, value=10)

# Afficher les widgets
vbox = widgets.VBox([label, text_input, int_slider])
display(vbox)

# Créer un objet Output pour afficher les résultats
output = widgets.Output()
display(output)

# Ajouter un bouton pour déclencher la recherche
button = widgets.Button(description="Rechercher")
display(button)

# Écrire la fonction de recherche
def on_button_clicked(b):
    with output:
        clear_output()
        query = text_input.value
        top_n = int_slider.value
        results = search_engine.search(query, top_n=top_n)
        for result in results:
            print(result)

button.on_click(on_button_clicked)

# Tester l'interface
# Essayez différentes requêtes et ajustez le nombre de documents à retourner

# Analyse comparative et temporelle

In [4]:
# Ajouter une fonction pour comparer deux corpus
def compare_corpora(corpus1, corpus2, query):
    results1 = corpus1.search(query)
    results2 = corpus2.search(query)
    common = set([doc.texte pour doc dans results1]) & set([doc.texte pour doc dans results2])
    specific1 = set([doc.texte pour doc dans results1]) - common
    specific2 = set([doc.texte pour doc dans results2]) - common
    return common, specific1, specific2

# Exemple d'utilisation
corpus1 = Corpus('Corpus 1')
corpus2 = Corpus('Corpus 2')
# Ajouter des documents aux corpus1 et corpus2
# ...
common, specific1, specific2 = compare_corpora(corpus1, corpus2, 'president')
print("Common:", common)
print("Specific to corpus1:", specific1)
print("Specific to corpus2:", specific2)

# Ajouter une fonction pour analyser l'évolution temporelle d'un mot
def temporal_analysis(corpus, query):
    results = corpus.search(query)
    date_counts = {}
    for doc dans results:
        date = doc.date.split('-')[0]  # Extraire l'année
        if date not in date_counts:
            date_counts[date] = 0
        date_counts[date] += 1
    return date_counts

# Exemple d'utilisation
date_counts = temporal_analysis(corpus, 'president')
print(date_counts)