In [None]:
import ipywidgets as widgets        # Importation de la biblioth√®que ipywidgets, afin de cr√©er des composants interactifs
from IPython.display import display # Importation de la biblioth√®que IPython.display, afin d'afficher des objets √† l'int√©rieur d'une cellule d'un notebook Python

# Widget texte pour saisir le mot-cl√© de recherche
recherche_widget = widgets.Text(
    value='Space',    # Valeur par d√©faut du texte
    description='üîç' # Description affich√©e √† c√¥t√© du widget
)

# Widget curseur pour s√©lectionner le nombre d'articles √† extraire
nombre_articles_widget = widgets.IntSlider(
    value=100,                                     # Valeur par d√©faut du curseur
    min=1,                                         # Valeur minimale autoris√©e
    max=1000,                                      # Valeur maximale autoris√©e
    step=1,                                        # Incr√©ments du curseur
    description='Nombre d\'articles √† extraire :', # Description affich√©e √† c√¥t√© du widget
    style={'description_width': 'initial'},        # Style pour la largeur de la description
    layout={'width': '30%'}                        # Ajustement de la largeur du curseur
)

# Fonction pour r√©cup√©rer les valeurs des widgets
def execute_recherche(change):
    global recherche, nombre_articles
    recherche = recherche_widget.value              # R√©cup√©ration du texte saisi dans la barre de recherche
    nombre_articles = nombre_articles_widget.value  # R√©cup√©ration du nombre d'articles √† extraire

# Widget bouton pour lancer la recherche
bouton_recherche = widgets.Button(description="Rechercher") # Cr√©ation d'un widget bouton avec le texte "Rechercher" affich√© dessus
bouton_recherche.on_click(execute_recherche)                # Association d'une fonction sp√©cifique √† ex√©cuter lorsque le bouton est cliqu√©

# Affichage des widgets et du bouton
display(widgets.VBox([recherche_widget, nombre_articles_widget, widgets.HBox([widgets.Label(''), bouton_recherche])], layout={'align_items': 'center'}))

In [None]:
from Document import RedditDocument, ArxivDocument # Importation de la classe RedditDocument et ArxivDocument depuis le module Document
from Author import Author                          # Importation de la classe Author depuis le module Author
from Corpus import CorpusSingleton                 # Importation de la classe Corpus depuis le module Corpus

import praw           # Importation la biblioth√®que praw pour acc√©der √† l'API de Reddit
import urllib.request # Importation la biblioth√®que urllib pour effectuer des requ√™tes HTTP 
import xmltodict      # Importation de la biblioth√®que xmltodict pour analyser des donn√©es XML
import datetime       # Importation de la biblioth√®que datetime pour manipuler des dates et des heures
import pickle         # Importation de la biblioth√®que pickle pour convertir un objet en un format binaire pouvant √™tre enregistr√© dans un fichier ou transmis sur un r√©seau

# Initilisation de variables globales
recherche_str = str(recherche)             # Conversion de la variable en chaine de caract√®res
nombre_articles_int = int(nombre_articles) # Conversion de la variable en entier
# Attribution du nombre d'articles √† extraire de chaque source
if nombre_articles_int % 2 == 0:  # Si le nombre d'articles √† extraire est pair
    nombre_articles_Reddit = nombre_articles_int // 2
    nombre_articles_Arxiv = nombre_articles_int // 2
else:  # Si le nombre d'articles √† extraire est impair
    nombre_articles_Reddit = nombre_articles_int // 2 + 1  # Ajout d'un article de plus √† Reddit
    nombre_articles_Arxiv = nombre_articles_int // 2

textes = []       # Initialisation de la liste de textes
textes_bruts = [] # Initialisation de la liste de textes bruts

# Param√®tres de recherche de Reddit
reddit = praw.Reddit(client_id='-GD1SJ96QztEIjktZ0o6nQ', client_secret='GinKmTjo2ggKztu0bwSb6mlXHX57Pw', user_agent='FAC') # Connexion √† Reddit en utilisant les identifiants
subr = reddit.subreddit(recherche_str).hot(limit=nombre_articles_Reddit)                                                      # Recherche des documents correspondants au topic de la recherche

# R√©cup√©ration des posts Reddit
for post in subr:
    texte = post.title                    # Extraction du contenu textuel
    texte = texte.replace("\n", " ")      # Remplacement des retours √† la ligne par des espaces dans le titre
    textes.append(texte)                  # Ajout du texte √† la liste de textes
    textes_bruts.append(("Reddit", post)) # Ajout du texte brut √† la liste de textes bruts

# Param√®tres de recherche de Arxiv
url = 'http://export.arxiv.org/api/query?search_query=all:' + recherche_str + '&start=0&max_results=' + str(nombre_articles_Arxiv) # Recherche des documents correspondants au topic de la recherche
data = urllib.request.urlopen(url)                                                                                                 # Ouverture de la connexion HTTP
data = xmltodict.parse(data.read().decode('utf-8'))                                                                                # D√©code et analyse les donn√©es au format XML

# R√©cup√©ration des posts Arxiv
for document in data['feed']['entry']:
    texte = document['title']+ ". " + document['summary'] # Extraction du contenu textuel
    texte = texte.replace("\n", " ")                      # Remplacement des retours √† la ligne par des espaces dans le titre
    textes.append(texte)                                  # Ajout du texte √† la liste de textes
    textes_bruts.append(("ArXiv", document))              # Ajout du texte brut √† la liste de textes bruts

# Traitements sur les textes
for i, texte in enumerate(textes): # Affichage des caract√©ristiques de chaque texte
    print(f"Document {i} :\t# Nombre de caract√®res : {len(texte)}\t# Nombre de mots : {len(texte.split(' '))}\t# Nombre de phrases : {len(texte.split('.'))}")
    if len(texte)<100: # Suppression des textes comportant moins de 100 caract√®res
        textes.remove(texte)

textes = " ".join(textes) # Combination des √©l√©ments de la liste textes en une cha√Æne de caract√®res, en les s√©parant par des espaces

collection = [] # Initialisation d'une liste vide pour contenir les documents

for nature, texte in textes_bruts:
    # Si la nature du document est "Reddit"
    if nature == "Reddit":
        titre = texte.title.replace("\n", '')                                      # Remplacement des retours √† la ligne par des espaces dans le titre
        auteur = str(texte.author)                                                 # Convertion de l'auteur en cha√Æne de caract√®res
        date = datetime.datetime.fromtimestamp(texte.created).strftime("%Y/%m/%d") # Formatage de la date en ann√©e/mois/jour
        url = "https://www.reddit.com/"+ texte.permalink                           # Cr√©ation de l'URL du texte
        texte = texte.selftext.replace("\n", "")                                   # Remplace des retours √† la ligne par des espaces dans le texte
        document = RedditDocument(titre, auteur, date, url, texte)                 # Cr√©ation d'un document √† partir des donn√©es r√©cup√©r√©es
        print(document)
        collection.append(document)                                                # Ajout du document √† la liste collection

    # Sinon, si la nature du document est "ArXiv"
    elif nature == "ArXiv": 
        titre = texte["title"].replace('\n', '')                                                         # Remplacement des retours √† la ligne par des espaces dans le titre
        try:
            auteurs = ([a.get("name", "") for a in texte.get("author", []) if isinstance(a, dict)])      # Cr√©ation d'une liste d'auteurs
        except:
            auteurs = texte.get("author", {}).get("name", "")                                            # Si l'auteur est seul, il n'y a pas besoin de liste
        summary = texte["summary"].replace("\n", "")                                                     # Remplace des retours √† la ligne par des espaces dans le texte
        date = datetime.datetime.strptime(texte["published"], "%Y-%m-%dT%H:%M:%SZ").strftime("%Y/%m/%d") # Formatage de la date en ann√©e/mois/jour
        document = ArxivDocument(titre, auteurs, date, texte["id"], summary)                             # Cr√©ation d'un document √† partir des donn√©es r√©cup√©r√©es
        print(document)
        collection.append(document)                                                                      # Ajout du document √† la liste collection

# Cr√©ation de l'index de documents
id2doc = {}
for i, doc in enumerate(collection):
    id2doc[i] = doc.titre

auteurs = {}
aut2id = {} 
nombre_auteurs = 0

# Cr√©ation de la liste+index des Auteurs
for texte in collection:
    if texte.auteur not in aut2id:
        nombre_auteurs += 1
        auteurs[nombre_auteurs] = Author(texte.auteur)
        aut2id[doc.auteur] = nombre_auteurs

    auteurs[aut2id[doc.auteur]].add(texte.texte)

# Utilisation du Singleton pour obtenir l'instance unique de Corpus
corpus_singleton = CorpusSingleton()
corpus = corpus_singleton.get_corpus()

# Nettoyage du corpus puis remplissage
corpus.clear()
for doc in collection:
    corpus.add(doc)

# Ouverture d'un fichier, puis √©criture avec pickle
with open("corpus.pkl", "wb") as f:
    pickle.dump(corpus, f)

# Supression de la variable corpus
del corpus

# Ouverture du fichier, puis lecture avec pickle
with open("corpus.pkl", "rb") as f:
    corpus = pickle.load(f)

# Affichage du corpus
corpus.show()