# TD 8 : Interface avec Jupyter-Notebook

Ce notebook impl√©mente les trois parties du TD8 :
1. D√©marrage avec un nouveau jeu de donn√©es
2. Utilisation du moteur de recherche
3. Cr√©ation d'une interface graphique avec ipywidgets

## Installation des d√©pendances n√©cessaires

In [3]:
# Installation des packages n√©cessaires
!pip install pandas numpy scipy ipywidgets tqdm --quiet

## Imports des biblioth√®ques

In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import ipywidgets as widgets
from IPython.display import display, clear_output
import re
import sys

# Imports de vos classes personnalis√©es
from Corpus import Corpus
from Document import Document
from DocumentFactory import DocumentFactory
from SearchEngine import SearchEngine

---
# Partie 1 : D√©marrage
## 1.1 - R√©cup√©ration et chargement du jeu de donn√©es

In [2]:
# Chargement du fichier TSV
df_discours = pd.read_csv('corpus.tsv', sep='\t')

print("Aper√ßu des donn√©es :")
print(df_discours.head())
print(f"\nNombre total de documents : {len(df_discours)}")
print(f"\nColonnes disponibles : {list(df_discours.columns)}")

Aper√ßu des donn√©es :
   id                                              titre  \
0   0       I switched to Machine Learning and I am LOST   
1   1  Best resources to learn Machine Learning deepl...   
2   2         Is machine learning a good career in 2025?   
3   3             I hate "my" "field" (machine learning)   
4   4                          Machine Learning Hiring üí™   

                 auteur                 date  \
0           Hertz314159  2025-10-29 01:46:28   
1              vansh596  2025-08-18 13:53:27   
2          stanley_john  2025-08-13 13:07:19   
3  Substantial-Art-2238  2025-04-17 10:23:23   
4  Zealousideal_Bit_177  2025-09-13 12:32:36   

                                                 url  \
0  https://reddit.com/r/learnmachinelearning/comm...   
1  https://reddit.com/r/learnmachinelearning/comm...   
2  https://reddit.com/r/learnmachinelearning/comm...   
3  https://reddit.com/r/PhD/comments/1k17rbr/i_ha...   
4  https://reddit.com/r/Btechtards/comments/

## 1.2 - V√©rification de la distribution des auteurs

In [3]:
# Distribution des auteurs
print("Distribution des auteurs :")
print(df_discours['auteur'].value_counts())

print(f"\nNombre total d'auteurs uniques : {df_discours['auteur'].nunique()}")

Distribution des auteurs :
auteur
Hertz314159               1
vansh596                  1
stanley_john              1
Substantial-Art-2238      1
Zealousideal_Bit_177      1
Cedric De Boom            1
Ian Walsh                 1
Felix Mohr                1
Davide Cacciarelli        1
Maximilian P Niroomand    1
Name: count, dtype: int64

Nombre total d'auteurs uniques : 10


## 1.3 - Cr√©ation du corpus avec d√©coupage en phrases

In [4]:
def decouper_en_phrases(texte):
    """D√©coupe un texte en phrases."""
    phrases = re.split(r'[.!?]+', texte)
    phrases = [p.strip() for p in phrases if p.strip() and len(p.strip()) > 20]
    return phrases

# Cr√©ation du corpus
corpus_discours = Corpus("Corpus Discours US")

print("Cr√©ation du corpus avec d√©coupage en phrases...")
phrase_count = 0

for idx, row in tqdm(df_discours.iterrows(), total=len(df_discours), desc="Traitement"):
    texte = str(row['texte'])
    phrases = decouper_en_phrases(texte)
    
    for i, phrase in enumerate(phrases):
        titre_phrase = f"{row['titre']} - Phrase {i+1}"
        
        doc = DocumentFactory.create_document(
            doc_type=row.get('type', 'document').lower(),
            titre=titre_phrase,
            auteur=row['auteur'],
            date=row['date'],
            url=row.get('url', ''),
            texte=phrase
        )
        
        corpus_discours.add(doc)
        phrase_count += 1

print(f"\n{corpus_discours}")
print(f"Nombre total de phrases cr√©√©es : {phrase_count}")

Cr√©ation du corpus avec d√©coupage en phrases...


Traitement: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10/10 [00:00<00:00, 2133.53it/s]


Corpus 'Corpus Discours US' : 72 documents, 10 auteurs
Nombre total de phrases cr√©√©es : 72





## 1.4 - Test des fonctions search et concorde

In [5]:
# Test de la fonction search
print("="*80)
print("TEST DE LA FONCTION SEARCH")
print("="*80)

mot_recherche = "learning"
passages = corpus_discours.search(mot_recherche)

print(f"\nPassages contenant '{mot_recherche}' : {len(passages)}")
print(f"\nAffichage des 5 premiers :")
for i, passage in enumerate(passages[:5], 1):
    print(f"\n{i}. ...{passage}...")

TEST DE LA FONCTION SEARCH

Passages contenant 'learning' : 36

Affichage des 5 premiers :

1. ...I switched to Machine Learning and I am LOST Hello everybody, I'm a bit lost and...

2. ... called AI, which focuses on AI logic and Machine Learning I found this really exciting, so even after learn...

3. ... start my journey Best resources to learn Machine Learning deeply in 2‚Äì3 months Hey everyone,  I‚Äôm planning ...

4. ...pend the next 2‚Äì3 months fully focused on Machine Learning I already know Python, NumPy, Pandas, Matplotlib,...

5. ...ly part I really want to dive into now is Machine Learning itself What I‚Äôm looking for are resources that go...


In [6]:
# Test de la fonction concorde
print("="*80)
print("TEST DE LA FONCTION CONCORDE")
print("="*80)

expression = "machine"
df_concorde = corpus_discours.concorde(expression, taille_contexte=40)

print(f"\nOccurrences de '{expression}' : {len(df_concorde)}")
print(f"\nAffichage des 10 premi√®res :")
display(df_concorde.head(10))

TEST DE LA FONCTION CONCORDE

Occurrences de 'machine' : 24

Affichage des 10 premi√®res :


Unnamed: 0,contexte gauche,motif trouv√©,contexte droit
0,I switched to,Machine,"Learning and I am LOST Hello everybody,"
1,"alled AI, which focuses on AI logic and",Machine,"Learning I found this really exciting,"
2,tart my journey Best resources to learn,Machine,Learning deeply in 2‚Äì3 months Hey every
3,nd the next 2‚Äì3 months fully focused on,Machine,"Learning I already know Python, NumPy,"
4,part I really want to dive into now is,Machine,Learning itself What I‚Äôm looking for ar
5,"on, what resources would you rely on Is",machine,"learning a good career in 2025 I hate """
6,"my"" ""field"" (",machine,learning) A lot of people (like me) div
7,"it works, and yet they act like they do",Machine,Learning Hiring üí™ Data science has beco
8,reliability of the data sources and the,machine,learning techniques that support them I
9,re crucial to address in the context of,machine,learning for official statistics This p


---
# Partie 2 : Utilisation du moteur de recherche
## 2.1 - Import et initialisation du SearchEngine

In [7]:
# Initialisation du moteur de recherche
print("Initialisation du moteur de recherche...\n")

moteur = SearchEngine(corpus_discours)

print("Moteur initialis√© avec succ√®s !")
print("\nStatistiques du vocabulaire :")
moteur.afficher_stats_vocab()

Initialisation du moteur de recherche...

Moteur initialis√© avec succ√®s !

Statistiques du vocabulaire :
Taille du vocabulaire : 610 mots

Exemple de mots dans le vocabulaire :
  - a : 35 occurrences, 25 documents
  - ability : 1 occurrences, 1 documents
  - about : 2 occurrences, 2 documents
  - accuracy : 2 occurrences, 2 documents
  - acquisition : 1 occurrences, 1 documents
  - act : 1 occurrences, 1 documents
  - active : 5 occurrences, 5 documents
  - actually : 1 occurrences, 1 documents
  - address : 2 occurrences, 2 documents
  - adopted : 1 occurrences, 1 documents


## 2.2 - Test avec plusieurs requ√™tes

In [8]:
# Test avec diff√©rentes requ√™tes
requetes_test = [
    "machine learning",
    "neural network",
    "data science"
]

for requete in requetes_test:
    print("="*80)
    print(f"Requ√™te : '{requete}'")
    print("="*80)
    
    resultats = moteur.search(requete, nb_resultats=5)
    
    if len(resultats) > 0:
        print(f"\n{len(resultats)} r√©sultats trouv√©s :\n")
        for idx, row in resultats.iterrows():
            print(f"{idx+1}. [{row['type']}] {row['titre']}")
            print(f"   Auteur: {row['auteur']}")
            print(f"   Score: {row['score']:.4f}\n")
    else:
        print("Aucun r√©sultat trouv√©.\n")

Requ√™te : 'machine learning'

5 r√©sultats trouv√©s :

1. [Reddit] Machine Learning Hiring üí™ - Phrase 1
   Auteur: Zealousideal_Bit_177
   Score: 0.2963

2. [Reddit] Is machine learning a good career in 2025? - Phrase 1
   Auteur: stanley_john
   Score: 0.2094

3. [Reddit] Best resources to learn Machine Learning deeply in 2‚Äì3 months? - Phrase 1
   Auteur: vansh596
   Score: 0.1608

4. [Arxiv] Learning Curves for Decision Making in Supervised Machine Learning: A Survey - Phrase 1
   Auteur: Felix Mohr
   Score: 0.1604

5. [Arxiv] Active learning for data streams: a survey - Phrase 1
   Auteur: Davide Cacciarelli
   Score: 0.1487

Requ√™te : 'neural network'

2 r√©sultats trouv√©s :

1. [Reddit] Best resources to learn Machine Learning deeply in 2‚Äì3 months? - Phrase 6
   Auteur: vansh596
   Score: 0.1898

2. [Reddit] I switched to Machine Learning and I am LOST - Phrase 4
   Auteur: Hertz314159
   Score: 0.1788

Requ√™te : 'data science'

5 r√©sultats trouv√©s :

1. [Arxiv] Chan

## 2.3 - Ajout compteur avec tqdm

In [9]:
# Version avec barre de progression
def search_with_progress(self, mots_clefs, nb_resultats=10):
    print("Traitement de la requ√™te...")
    
    vecteur_requete = self._vectoriser_requete(mots_clefs)
    scores = self._similarite_cosinus(vecteur_requete, self.mat_TFxIDF)
    indices_tries = np.argsort(scores)[::-1][:nb_resultats]
    
    resultats = []
    for idx in tqdm(indices_tries, desc="R√©cup√©ration"):
        if scores[idx] > 0:
            doc = self.corpus.id2doc[idx]
            resultats.append({
                'doc_id': idx,
                'titre': doc.titre,
                'auteur': doc.auteur,
                'date': doc.date,
                'url': doc.url,
                'score': scores[idx],
                'type': doc.getType()
            })
    
    return pd.DataFrame(resultats)

import types
moteur.search_with_progress = types.MethodType(search_with_progress, moteur)

# Test
print("Test avec barre de progression :\n")
resultats = moteur.search_with_progress("machine learning", nb_resultats=10)

if len(resultats) > 0:
    print(f"\n{len(resultats)} r√©sultats :")
    display(resultats[['titre', 'auteur', 'score', 'type']])

Test avec barre de progression :

Traitement de la requ√™te...


R√©cup√©ration: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10/10 [00:00<00:00, 31441.56it/s]


10 r√©sultats :





Unnamed: 0,titre,auteur,score,type
0,Machine Learning Hiring üí™ - Phrase 1,Zealousideal_Bit_177,0.29628,Reddit
1,Is machine learning a good career in 2025? - P...,stanley_john,0.209361,Reddit
2,Best resources to learn Machine Learning deepl...,vansh596,0.160751,Reddit
3,Learning Curves for Decision Making in Supervi...,Felix Mohr,0.160388,Arxiv
4,Active learning for data streams: a survey - P...,Davide Cacciarelli,0.148683,Arxiv
5,Physics-Inspired Interpretability Of Machine L...,Maximilian P Niroomand,0.145859,Arxiv
6,Learning Curves for Decision Making in Supervi...,Felix Mohr,0.131296,Arxiv
7,Best resources to learn Machine Learning deepl...,vansh596,0.120007,Reddit
8,Active learning for data streams: a survey - P...,Davide Cacciarelli,0.118852,Arxiv
9,DOME: Recommendations for supervised machine l...,Ian Walsh,0.11872,Arxiv


---
# Partie 3 : Interface graphique
## 3.1 - Cr√©ation des objets graphiques

In [10]:
# Widgets de base
titre_label = widgets.Label(
    value='Moteur de recherche'
)

mots_cles_text = widgets.Text(
    value='',
    placeholder='mot1 mot2 mot3',
    description='Mots cl√©s :',
    layout=widgets.Layout(width='500px')
)

nb_docs_slider = widgets.IntSlider(
    value=10,
    min=1,
    max=50,
    description="Nombre d'articles √† extraire :",
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='500px')
)

print("Widgets cr√©√©s !")

Widgets cr√©√©s !


## 3.2 - Affichage avec VBox

In [11]:
interface_simple = widgets.VBox([
    titre_label,
    mots_cles_text,
    nb_docs_slider
])

display(interface_simple)

VBox(children=(Label(value='Moteur de recherche'), Text(value='', description='Mots cl√©s :', layout=Layout(wid‚Ä¶

## 3.3 - Ajout de l'objet Output

In [12]:
sortie_resultats = widgets.Output()

interface_output = widgets.VBox([
    titre_label,
    mots_cles_text,
    nb_docs_slider,
    sortie_resultats
])

display(interface_output)

VBox(children=(Label(value='Moteur de recherche'), Text(value='', description='Mots cl√©s :', layout=Layout(wid‚Ä¶

## 3.4 - Ajout du bouton

In [13]:
bouton_recherche = widgets.Button(
    description='Rechercher',
    button_style='primary',
    tooltip='Lancer la recherche',
    icon='search'
)

interface_bouton = widgets.VBox([
    titre_label,
    mots_cles_text,
    nb_docs_slider,
    bouton_recherche,
    sortie_resultats
])

display(interface_bouton)

VBox(children=(Label(value='Moteur de recherche'), Text(value='', description='Mots cl√©s :', layout=Layout(wid‚Ä¶

## 3.5 - Fonction clique_bouton

In [14]:
def clique_bouton(b):
    requete = mots_cles_text.value
    nb_resultats = nb_docs_slider.value
    
    sortie_resultats.clear_output()
    
    with sortie_resultats:
        if not requete.strip():
            print(" Veuillez entrer des mots cl√©s.")
            return
        
        print(f" Recherche : '{requete}'")
        print(f" Nombre de r√©sultats : {nb_resultats}")
        print("\n" + "="*80 + "\n")
        
        try:
            resultats = moteur.search(requete, nb_resultats=nb_resultats)
            
            if len(resultats) > 0:
                print(f" {len(resultats)} r√©sultats trouv√©s :\n")
                
                for idx, row in resultats.iterrows():
                    print(f"  R√©sultat {idx+1}")
                    print(f"   Type: [{row['type']}]")
                    print(f"   Titre: {row['titre']}")
                    print(f"   Auteur: {row['auteur']}")
                    print(f"   Score: {row['score']:.4f}")
                    print(f"   URL: {row['url']}")
                    print("\n" + "-"*80 + "\n")
                
                print("\n Tableau r√©capitulatif :\n")
                display(resultats[['titre', 'auteur', 'score', 'type']])
                
            else:
                print(" Aucun r√©sultat trouv√©.")
                
        except Exception as e:
            print(f" Erreur : {str(e)}")

bouton_recherche.on_click(clique_bouton)
print("Fonction configur√©e !")

Fonction configur√©e !


## 3.6 - Interface compl√®te

In [15]:
print("Interface de recherche compl√®te :")
print("Entrez vos mots cl√©s et cliquez sur 'Rechercher'\n")

interface_complete = widgets.VBox([
    titre_label,
    widgets.HTML(value="<hr>"),
    mots_cles_text,
    nb_docs_slider,
    bouton_recherche,
    widgets.HTML(value="<hr>"),
    sortie_resultats
], layout=widgets.Layout(padding='10px', border='2px solid #ccc'))

display(interface_complete)

Interface de recherche compl√®te :
Entrez vos mots cl√©s et cliquez sur 'Rechercher'



VBox(children=(Label(value='Moteur de recherche'), HTML(value='<hr>'), Text(value='', description='Mots cl√©s :‚Ä¶

## 3.7 - Interface avanc√©e avec filtres (BONUS)

In [16]:
# Interface avanc√©e avec filtres
auteurs_uniques = ['Tous'] + sorted(list(set([doc.auteur for doc in corpus_discours.id2doc.values()])))

titre_avance = widgets.Label(value='Moteur de recherche avanc√©')

filtre_auteur = widgets.Dropdown(
    options=auteurs_uniques,
    value='Tous',
    description='Auteur :'
)

filtre_type = widgets.Dropdown(
    options=['Tous', 'Reddit', 'Arxiv', 'Document'],
    value='Tous',
    description='Type :'
)

mots_cles_avance = widgets.Text(
    placeholder='mot1 mot2 mot3',
    description='Mots cl√©s :',
    layout=widgets.Layout(width='500px')
)

nb_docs_avance = widgets.IntSlider(
    value=10,
    min=1,
    max=50,
    description="Nombre :",
    layout=widgets.Layout(width='500px')
)

bouton_avance = widgets.Button(
    description='Rechercher',
    button_style='success',
    icon='search'
)

sortie_avance = widgets.Output()

def recherche_avancee(b):
    requete = mots_cles_avance.value
    nb_resultats = nb_docs_avance.value
    auteur_filtre = filtre_auteur.value
    type_filtre = filtre_type.value
    
    sortie_avance.clear_output()
    
    with sortie_avance:
        if not requete.strip():
            print(" Entrez des mots cl√©s.")
            return
        
        print(f"  Recherche avanc√©e")
        print(f"   Requ√™te : '{requete}'")
        print(f"   Filtre auteur : {auteur_filtre}")
        print(f"   Filtre type : {type_filtre}")
        print("\n" + "="*80 + "\n")
        
        try:
            resultats = moteur.search(requete, nb_resultats=nb_resultats*3)
            
            if auteur_filtre != 'Tous':
                resultats = resultats[resultats['auteur'] == auteur_filtre]
            
            if type_filtre != 'Tous':
                resultats = resultats[resultats['type'] == type_filtre]
            
            resultats = resultats.head(nb_resultats)
            
            if len(resultats) > 0:
                print(f" {len(resultats)} r√©sultats apr√®s filtrage :\n")
                
                for idx, row in resultats.iterrows():
                    print(f"  {idx+1}. [{row['type']}] {row['titre']}")
                    print(f"   Auteur: {row['auteur']}")
                    print(f"   Score: {row['score']:.4f}\n")
                
                print("\n Tableau :")
                display(resultats[['titre', 'auteur', 'score', 'type']])
            else:
                print(" Aucun r√©sultat.")
                
        except Exception as e:
            print(f" Erreur : {e}")

bouton_avance.on_click(recherche_avancee)

interface_avancee = widgets.VBox([
    titre_avance,
    widgets.HTML(value="<hr>"),
    mots_cles_avance,
    widgets.HBox([filtre_auteur, filtre_type]),
    nb_docs_avance,
    bouton_avance,
    widgets.HTML(value="<hr>"),
    sortie_avance
], layout=widgets.Layout(padding='15px', border='3px solid #4CAF50'))

print("Interface avanc√©e avec filtres :")
display(interface_avancee)

Interface avanc√©e avec filtres :


VBox(children=(Label(value='Moteur de recherche avanc√©'), HTML(value='<hr>'), Text(value='', description='Mots‚Ä¶