# Partie 1: Démarrage

In [2]:
import pandas as pd
import regex as re
from Corpus import Corpus
from DocumentGenerator import DocumentGenerator 
from SearchEngine import SearchEngine

### 1.1 Chargement du CSV

In [3]:
df = pd.read_csv('./discours_US.csv', sep='\t')

In [4]:
print(df.head())

   speaker                                               text            date  \
0  CLINTON  : I'm getting ready for a lot of things, a lot...  April 12, 2015   
1  CLINTON  [ ] : I'll be graduating in May, and on gradua...  April 14, 2015   
2  CLINTON  : Well, thank you all so much for inviting me ...  April 20, 2015   
3  CLINTON  Thank you so much. I am absolutely delighted t...  April 29, 2015   
4  CLINTON  Oh, hello. Hi, how are you? Well, it's wonderf...     May 5, 2015   

                                               descr  \
0   Video Remarks Announcing Candidacy for President   
1  Remarks in a Question and Answer Session at Ki...   
2                    Remarks in Keene, New Hampshire   
3  Address to the David N. Dinkins Leadership & P...   
4  Remarks at a Roundtable with Young Nevada Resi...   

                                                link  
0  http://www.presidency.ucsb.edu/ws/index.php?pi...  
1  http://www.presidency.ucsb.edu/ws/index.php?pi...  
2  http://w

### 1.2 Vérification de la distribution des auteurs des discours

In [5]:
print(df["speaker"].value_counts())

speaker
CLINTON    93
TRUMP      71
Name: count, dtype: int64


### 1.3 Création du corpus

In [6]:
corpus = Corpus("Discours Presidentiels US")

##### Traitements des discours

In [7]:
# On itère sur chaque discours
for index, row in df.iterrows():
    texte_complet = row.get("text", "")
    titre_base = row.get("descr", "")
    auteur = row.get("speaker", "Inconnu")
    date = row.get("date", "Inconnu")
    url = row.get("link", "Inconnu")

    # Découpage en phrases avec une regex
    # On coupe après un point, point d'exclamation ou interrogation suivi d'un espace
    phrases = re.split(r'(?<=[.?!])\s+', texte_complet)

    for i, phrase in enumerate(phrases):
        phrase = phrase.strip()

        # comme id2doc utilise le titre comme clé unique
        # on génére un titre unique basé sur la description du discours

        titre_unique = f"{titre_base}_phrase_{i+1}"
        
        # Création du document
        doc = DocumentGenerator.factory(
                titre=titre_unique,
                auteur=auteur,
                date=date,
                url=url,
                texte=phrase,
                type="Autre"
        )
        corpus.add_document(doc)
    
print(f"Terminé ! Le corpus contient maintenant {corpus.ndoc} documents (phrases).")    

Terminé ! Le corpus contient maintenant 29162 documents (phrases).


### 1.4 Test des fonctions search() et concorde()

In [8]:
mot_cle = "ball"

# Test de la fonction SEARCH()
resultats_search = corpus.search(mot_cle)
print(f"Nombre de résultat de la fonctions search() : {len(resultats_search)}")
for res in resultats_search[:5]:
    print(f"- {res}")
    
# Test de la fonction CONCORDE()
df_concorde = corpus.concorde(mot_cle, contextLength=30)

if not df_concorde.empty:
    print(df_concorde.head())
else:
    print("Aucun résultat trouvé pour la fonction concorde().")

Nombre de résultat de la fonctions search() : 2
- But Obama played ball with the thugs that are running it right now.
- It would be a whole different ball game if I said it, believe me.
                  contexte_gauche motif                  contexte_droit
0  ersity of Texas women's basket  ball   games. Right, and Barbara wou
1  ngly, people trying to cast a   ball  ot there faced massive delays.
2  hem play your high school foot  ball   team. That's the difference b
3  e America more competitive glo  ball  y. But as we all know in the y
4  sponsorship of terrorism, its   ball  istic missile program and othe


# Partie 2: Utilisation de votre moteur de recherche

### Test du moteur de recherche

In [9]:
# initiation du moteur de recherche
moteur = SearchEngine(corpus) # Cela va déclencher la construction des matrices TF-IDF

# Test de recherche
requete = "freedom america"

# On demande les 5 phrases les plus pertinentes
resultats = moteur.search(requete, n_docs=5)

if not resultats.empty:
    print(resultats[["Score", "Texte (extrait)", "Auteur"]])
else:
    print("Aucun résultat.")

# Affichage des stats globales
print("\n--- Stats Corpus ---")
corpus.stats(n=10)

Initialisation du moteur : Indexation du corpus en cours...


Traitement des résultats: 100%|██████████████████████████████████████████| 5/5 [00:00<?, ?it/s]

    Score                                    Texte (extrait)   Auteur
0  0.7071                                        Freedom....  CLINTON
1  0.7071                                        America....    TRUMP
2  0.5159           I Am For America – and America First....    TRUMP
3  0.5159           I Am For America – and America First....    TRUMP
4  0.4933  Here, in America, I will push to expand freedo...    TRUMP

--- Stats Corpus ---
Nombre de mots différents : 13101

Les 10 mots les plus fréquents :
Mot             | TF (Total) | DF (Docs)
----------------------------------------
the             | 18103      | 11600
to              | 16949      | 11489
and             | 16649      | 11621
of              | 9467       | 7381
i               | 8701       | 6709
a               | 8090       | 6532
in              | 7244       | 5960
we              | 7054       | 5742
that            | 7026       | 5813
you             | 5833       | 4535





# Partie 3: Petite Interface

In [53]:
import ipywidgets as widgets
from IPython.display import display, clear_output

# 1 Création des Widgets
titre = widgets.Label(value="Moteur de recherche", style={'font_weight': 'bold', 'font_size': '20px'})

# Champ pour entrer les mots clés
champ_texte = widgets.Text(
    value='',
    placeholder='Tapez vos mots clés ici (ex: freedom)',
    description='Mots clés:',
    disabled=False,
    layout=widgets.Layout(width='60%')
)

# Slider pour choisir le nombre de documents
slider = widgets.IntSlider(
    value=5,
    min=1,
    max=20,
    step=1,
    description="Nombre d'articles :",
    style={'description_width': 'initial'}, # Pour voir tout le texte
    layout=widgets.Layout(width='60%')
)

# Bouton de recherche
bouton = widgets.Button(
    description='Rechercher',
    button_style='info',
    tooltip='Lancer la recherche',
    icon='search'
)

# La zone du resultat de la recherche
sortie = widgets.Output()

# Definition de l'interface
interface = widgets.VBox([
    titre,
    widgets.VBox([champ_texte, slider, bouton], layout=widgets.Layout(align_items='center')),
    widgets.HTML("<br>"), # Un petit saut de ligne
    sortie
], layout=widgets.Layout(width='100%'))

#La fonction clique_bouton
def clique_bouton(b):
    # On indique qu'on veut écrire dans la zone "sortie"
    with sortie:
        # On efface le résultat précédent pour ne pas les empiler
        clear_output()
        
        # Récupération des valeurs entrées par l'utilisateur
        mots = champ_texte.value
        n_docs = slider.value
        
        if mots.strip() == "":
            print("Veuillez entrer au moins un mot clé.")
        else:
            print(f"Recherche en cours pour : '{mots}' (Top {n_docs})...")

            try:
                resultats = moteur.search(mots, n_docs=n_docs)
                
                if resultats.empty:
                    print("Aucun résultat trouvé.")
                else:
                    display(resultats[['Score', 'Titre', 'Auteur', 'Texte']])
            except Exception as e:
                print(f"Erreur lors de la recherche : {e}")

# On relie le bouton à la fonction
bouton.on_click(clique_bouton)

In [None]:
display(interface)