<a href="https://colab.research.google.com/github/Dinarque/INALCO_Inalco_M2_langage_de_scripts_2024_eleves/blob/main/TP/TP3_les_sombres_secrets_de_l_INALCO.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TP 3 : Les sombres secrets de l'INALCO

La plupart des sites webs proposent une expérience de navigation guidée et souvent clairement structurée (section, sous section, article...) permettant à l'utilisateur d'accéder aux informations qu'on l'autorise à voir.
Derrière les coulisses, un site web ressemble plutôt à une forme d'arboresence de fichiers ,( différents "/" dans les url) une arborescence d'url menant chacun à une page web unique, souvent connectée aux autres mais pas forcéments.
Par exemple une url peut mener directement à un fichier (pdf d'un cours dont le lien est donné sur la page moodle, le lien peut envoyer vers un fichier stocké à l'extérieur ou dans un site). Des url peuvent stocker des pages périmées non accessibles depuis les autres liens du site et qui ne sont plus référencées (anciennes versions de brochures pour l'année scolaire 2021-2022...) ou encore à des pages auxquelles ne peuvent accéder que des utilisateurs identifiés (si leur accès est correctement protégé).
Ainsi le site naviguable que l'utilisateur explore n'est souvent que le haut de l'iceberg. Toutes les autres pages web du site non trivialement accessibles peuvent pourtant contenir des informations très intéressantes notamment d'un point de vue stratégique et sont potentiellement une mine d'information dans le cadre de l'OSINT.
Nous allons apprendre à collecter ces informations cachées et les rendre exploitables au moyen de techniques modernes de NLP.

PS : les techniques vues dans ce TP ne doivent être employées que dans des buts éthiques. L'utilisateur de l'outil est responsable de ses actes je ne fais que vous apprendre à mettre ensemble des pièces de puzzle déjà en libre accès sur github ou dans les cordes de tout programmeur compétent.

Comme vous le savez tous, les sites des universités ne sont pas forcément toujours bien organisés ou mis à jour. Nous allons donc construire un moteur de recherche documentaire sur les cours de l'INALCO à partir des données du site officiel.



# Objectifs:
* découvrir et expérimenter plusieurs techniques de crawling et de dorking pour apprendre à extraire les données pertinentes d'un site web
* Concevoir un code orienté objet
* Apprendre à traîter de grandes quantités de fichiers de type différents
* apprendre à optimiser la performance de ses programmes en passant d'une architecture séquentielle à une architecture parallèlisée
* apprendre les concepts basiques de la gestion de bases de données et de la recherche sémantique

# Partie 1 : Dorking and crawling your way to the data /6

L'objectif de cette partie est de réaliser un crawling le plus complet possible du site de l'INALCO pour connecter des données pour nourrir notre modèle de recherche documentaire. On veut collecter le contenu de pages web, mais est particulièrement intéressé par des fichiers plus riches en contenu.

# 1) Petite cartographie du site de l'Inalco

Dans un premier temps, il faut explorer le site web pour découvrir toutes les url librement accessibles pour l'utilisateur (principe du crawl).

Pour ce faire je vous propose d'explorer le site web "en profondeur" (parcours depth first) à partir de l'url de départ https://www.inalco.fr/ . Le principe est de repérer tous les liens url internes (sur le même site) sur la page principale, de les stocker et de répéter cette opération sur les liens découverts (degré de profondeur suivant...).  Pour éviter que cette opération ne soit sans fin, on fixe un seuil de profondeur n.

* écrivez une fonction qui prend en entrée l'url d'une page et renvoie en sortie la liste des urls contenues dans cette page (scraping).

* écrivez une fonction (récursive ?) qui prend en entrée l'url d'une page et explore toutes les urls du site à une prodondeur n (c'est à dire que n clics maximum sont nécessaires pour atteindre la page depuis la page principale)  et renvoie la liste de toutes les url explorées.
Souvenez vous des bonnes pratiques du scraping : ajoutez les headers pour permettre au site de vous identifier, ignorez les pages interdites par le fichier robots.txt et ajoutez un temps d'attente (time.wait...) entre le scraping de deux pages pour ne pas surcharger le site.

* Testez votre fonction avec N=2 uniquement. Combien d'url sont renvoyées ?





In [None]:
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
import urllib.robotparser
import re

In [None]:
# Vérifie si le scraping est autorisé pour une URL donnée en consultant le fichier robots.txt
def is_allowed_to_scrape(url):
    parsed_url = urlparse(url)
    rp = urllib.robotparser.RobotFileParser()
    robots_url = f"{parsed_url.scheme}://{parsed_url.netloc}/robots.txt"
    rp.set_url(robots_url)
    try:
        rp.read()
        # Vérifie si l'agent utilisateur par défaut (*) est autorisé à scrapper l'URL
        return rp.can_fetch("*", url)
    except Exception as e:
        print(f"Erreur lors de la vérification de robots.txt: {e}")
        return True  # Par défaut, retourne True en cas d'erreur

# Récupère les URL trouvées sur une page donnée si le scraping est autorisé
def scrapURLs(url: str, headers: dict):
    # Vérifie si l'URL peut être scrappée
    if not is_allowed_to_scrape(url):
        print(f"{url} n'est pas autorisé à scrapper.")
        return []

    try:
        # Effectue une requête GET sur l'URL
        response = requests.get(url, headers=headers)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors du scraping de {url}: {e}")
        return []

    # Analyse le contenu HTML avec BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')
    links = set()

    # Trouve tous les liens <a> avec un attribut href
    for link in soup.find_all("a", href=True):
        full_url = urljoin(url, link['href'])  # Génère des URL absolues
        links.add(full_url)

    return list(links)

# Fonction de scraping récursif pour collecter des liens sur plusieurs niveaux de profondeur
def recursiveScrapper(url, depth=2, visited_urls=None, headers=None):
    if visited_urls is None:
        visited_urls = set()  # Ensemble des URLs déjà visitées
        
    if headers is None:
        headers = {
            "User-Agent": "Mozilla/5.0 (compatible; MyScraper/1.0; +http://example.com/bot)"
        }
        
    # Arrête la récursion si la profondeur maximale est atteinte ou si l'URL a déjà été visitée
    if depth <= 0 or url in visited_urls:
        return visited_urls

    visited_urls.add(url)  # Marque l'URL comme visitée
    links = scrapURLs(url, headers)  # Récupère les liens sur la page

    # Parcourt les liens trouvés et effectue un scraping récursif
    for link in links:
        if link not in visited_urls:
            recursiveScrapper(link, depth - 1, visited_urls, headers)

    return visited_urls

all_links = recursiveScrapper("https://www.inalco.fr/", 2)
print(f"Il y au total {len(all_links)} liens si on fait une profondeur de 2.")

# 2) How many files do we have up here ?


Le dorking consiste à utiliser tout le potentiel des recherches Google pour trouver les informations d'intêrét.
En effet, certaines commandes souvent peu connues des utilisateurs permettent d'avoir des résultats très différents.
Pour plus de détails lire par exemple :
https://www.recordedfuture.com/threat-intelligence-101/threat-analysis-techniques/google-dorks

Parmi ces commandes les plus utiles sont:
*  ‘filetype:’ qui permet de recherche un type de fichier en particulier
* 'Site:' permet de ne rechercher que à l'intérieur d'un site
* 'Inurl: ' force la présence d'un mot clé dans l'url
* 'Ext: ' finds files with a certain extension

* Après avoir lu la documentation de ces commandes, écrire une requête google qui renvoie tous les fichiers avec l'extension "extension" (variable) qui se cachent dans le site https://www.inalco.fr/
écrivez une fonction qui renvoie pour chaque extension de fichier la query google à tapper pour trouver les fichiers avec cette extension sur le site de l'Inalco

In [None]:
file_extensions = {
    ".pdf": "Portable Document Format",
    ".docx": "Microsoft Word document (newer format)",
    ".doc": "Microsoft Word document (older format)",
    ".csv": "Comma-separated values file for tabular data",
    ".tsv": "Tab-separated values file for tabular data",
    ".jpg": "JPEG image file",
    ".png": "Portable Network Graphics image file",
    ".tiff": "Tagged Image File Format image",
    ".bmp": "Bitmap image file",
    ".ppt": "Microsoft PowerPoint presentation (older format)",
    ".pptx": "Microsoft PowerPoint presentation (newer format)",
    ".pptm": "Microsoft PowerPoint macro-enabled presentation",
    ".odt": "OpenDocument Text document",
}

# Génère une requête Google pour rechercher des fichiers spécifiques sur un site donné
def googleQuery(extension: str, site: str = "https://www.inalco.fr/"):
    clean_extension = extension.lstrip(".")  # Supprime le point initial de l'extension
    return f"filetype:{clean_extension} site:{site} inurl:{clean_extension}"

print(googleQuery("pdf"))

* Google interdit explicitement dans ses conditions d'utilisation d'effectuer des recherches sur son moteur de façon automatisée par requête HTML et se réserve le droit de bannir votre adresse IP si vous le faites.
La plupart du temps, le dorking se réalise à la main. Génétez vos requêtes avec votre fonction et testez les en les copiant collant dans google. Combien de fichiers peut-on trouver avec chaque extension de fichier ? Que conseillez-vous de faire pour la suite du travail ?


* On a toutefois besoin d'obtenir l'url des fichiers se trouvant sur le site et donc de s'interfacer avec le moteur de recherche google depuis notre script pytohn. Nous ne sommes pas les premiers à nous être posés la question. Par exemple cette librairie permet de s'interfacer avec Google https://medium.com/@sagarydv002/google-search-in-python-a-beginners-guide-742472fec9cc mais son usage n'est pas conforme aux conditions d'utilisation de Google.
heureusement google propose une API pour requêter son moteur de recherche. https://developers.google.com/custom-search/v1/overview?hl=fr
L'usage de cette API est payant au delà de 100 requêtes par jour, mais vous n'avez pas besoin de plus que ça pour apprendre à vous en servir.

Pour utiliser l'API il faut que vous créiez un compte et configuriez un custom search engine puis que vous requêtiez l'api RESTFUL en fournissant les pramètre suivants.

 params = {
            "q": query,
            "key": api_key
            "cx": # id de votre custom search engine
            "num": # nombre de résultats attendus.
            "start": start_index,
        }

Lisez la documentation de cette API et écrivez une fonction qui retourne l'url des 100 premiers fichiers pdfs du site de l'INALCO (ce n'est pas si simple que ça, lisez les informations sur les paramètres "num" et "start" !)

* L'API limite normalement le retour à 100 pages maximum. Ce n'est pas assez pour s'amuser ! Suggérez une idée pour collecter plus de documents ? (je ne vous demande pas de l'implémenter juste de réfléchir au problème)


PS :  des packages github dédiés à l'OSINT se sont penchés sur la même questions que nous, je suis tombé par exemple pour celui ci https://github.com/opsdisk/metagoofil?tab=readme-ov-file
Là encore il ne respecte pas les conditions d'utilisation de Google.
Certaines solutions comme SERPAPI respectent les conditions de Google mais sont payantes (car utilisent l'API payante de Google dans les coulisses, j'imagine !)

**Il y a au total 9360 documents de PDF mais aucun d'autre type de document.**

In [None]:
# Utilise l'API Google Custom Search pour récupérer des liens basés sur une requête
def GoogleAPIScrapper(title2link: dict = None):
    cle = "AIzaSyBSjpDXvXj8pOKf7oCI-bzUEdwcT7ok-6o"  # Clé API Google
    query = googleQuery("pdf")  # Génère une requête pour trouver des fichiers PDF
    BasicURL = "https://www.googleapis.com/customsearch/v1"

    if title2link is None:
        title2link = {}

    # Fonction interne pour récupérer des données paginées via l'API
    def getData(start: int = 1):
        params = {
            "q": query,
            "key": cle,
            "cx": "13d4c7b2e9d5f4176",  # Identifiant du moteur de recherche personnalisé
            "num": 10,  # Nombre maximum de résultats par requête
            "start": start,
        }
        try:
            response = requests.get(BasicURL, params=params)
            response.raise_for_status()
            return response.json()
        except requests.exceptions.RequestException as e:
            print(f"Erreur lors de la requête : {e}")
            return None

    start = 1
    max_results = 100  # Limite maximale de résultats
    while start <= max_results:
        data = getData(start)
        if not data or "items" not in data:
            break  # Arrête si aucune donnée ou résultats restants

        # Parcourt les éléments de résultats et les ajoute à title2link
        for item in data["items"]:
            title, link = item.__getitem__("title"), item.__getitem__("link")
            if title and link:
                title2link.__setitem__(title, link)

        start += 10  # Passe à la page suivante

    return title2link

title2link = GoogleAPIScrapper()
print(f"Nombre total de résultats : {len(title2link)}")

# 3) Siphonner tout cela

Maintenant que l'on sait quoi et où collecter les données, il faut les récupérer et les stocker !

* écrivez une fonction prennant en entrée l'url d'un pdf et qui télécharge le fichier dans un dossier nommé "corpus_pdf"

* écrivez une fonction prennant en entrée une url classique et téléchargeant la page html dans un fichier html dans un dossier nommé "corpus_html"

* Intégrez intelligemment ces fonctions dans votre code pour économiser le nombre de requêtes lancées sur le site

* écrivez un script qui effectue un crawling avec une profondeur de 10 du site de l'inalco en sauvegardant les pages html et qui télécharge 3000 pdfs.
NE LE LANCEZ PAS LE BUT N EST PAS DE METTRE A GENOUX LE SITE DE L UNIVERSITE !!!

Je vous fournirai les données pour continuer le travail !

In [None]:
def downloadPDF_HTML(url, index=1):
    try:
        response = requests.get(url, stream=True)
        response.raise_for_status()

        # Vérifie si l'URL pointe vers un fichier PDF
        if response.headers['Content-Type'] == 'application/pdf':
            output_dir = "corpus_pdf"
            with open(f"{output_dir}/{index}.pdf", 'wb') as file:
                for chunk in response.iter_content(chunk_size=8192):
                    file.write(chunk)
            print(f"Fichier PDF téléchargé et sauvegardé sous : {output_dir}/{index}.pdf")
        else:
            # Sauvegarde une page HTML si ce n'est pas un PDF
            output_dir = "corpus_html"
            soup = BeautifulSoup(response.text, 'html.parser')
            htmlTitle = soup.head.title.get_text() if soup.head.title else "Unnamed"
            # Nettoie le titre du fichier HTML
            htmlTitle = re.sub(r'[\/:*?"<>| ]', "_", htmlTitle)
            htmlTitle = re.sub(r'_{2,}', "_", htmlTitle)
            with open(f'{output_dir}/{htmlTitle}.html', 'w', encoding='utf-8') as file:
                file.write(response.text)
            print(f"Page HTML téléchargée et sauvegardée sous : {output_dir}/{htmlTitle}.html")
            
    except requests.exceptions.RequestException as e:
        print(f"Erreur lors du téléchargement : {e}")

downloadPDF_HTML("https://www.inalco.fr/")

In [None]:
# Fonction principale pour exécuter le crawler
def crawler():
    depth10links = recursiveScrapper("https://www.inalco.fr/", 10)  # Récupère des liens jusqu'à une profondeur de 10
    index = 1
    for link in depth10links:
        downloadPDF_HTML(link, index)  # Télécharge le contenu des liens trouvés
        index += 1

# BONUS Partie 1: (spoiler du genre de choses que l'on fera au semestre prochain)

* Modifiez votre code de la question 1) pour trouver un moyen de stocker les renvois d'une page à une autre (le fait qu'une page web contienne un lien vers une autre page)
* Servez vous de ces données pour construire un graphe de connectivité du site et trouvez
* Déterminez quelles sont les pages centrales du site

# Partie 2 : la Data Prep /10

Nous avons collecté des milliers de fichiers bruts. Le but est de nettoyer, enrichir puis stocker ces informations avant de pouvoir construire notre moteur de recherche documentaire.

Nous allons pour celà adopter une façon de penser "orientée objet" et partir de la notion de document. Un document a un titre, une extension... ainsi qu'un certain nombre de méta données
Il faudra
- extraire le texte des documents
- stocker ce contenu dans un objet Document adapté
(- enrichir le document avec des informations intéressantes (NER))
- Découper le document en des sections plus réduites (chunk) pour améliorer la performance du moteur de recherche documentaire.
- Indexer les documents dans une base de données adaptées
- S'intéresser aux performances du pipeline d'indexation et trouver une manière de l'observer
- Trouver des astuces pour accélérer ce traitement des données en masse.

# 4) Extraire l'information pertinente des fichiers

On peut être amené à traiter quantités de fichiers de type différent et souhaiterait disposer d'un traitement unitaire qui serait applicable à tous les fichiers.

Nous allons principalement traiter des fichiers html et pdf, mais dans la vraie vie, l'idéal serait de disposer d'un processus pour extraire les informations de tout type de fichier.


a) L'object Document

Nous allons stocker les documents dans une classe Document adaptée. Un document représente le contenu d'un fichier informatique.  Il contient également des métadonnées utiles au requếtage (date de collecte...)

* à Votre avis, quels sont les champs dont il faut doter l'objet Document ?

* Créez une classe document, ainsi que les fonctions __init__(), __str__() , ainsi que _add(field_name, field_content) une méthode qui ajoute un paramètre à l'objet.

* Implémentez une méthode qui calcule l'ID d'un document.
L'id commencera par inalco{nmdedocindexe}{dateindexation au format j/m/a}{10 premières lettres hors caractères spéciauxstockerstocker


b) Extraire le texte

Je propose d'utiliser la librairie Unstructured pour réaliser cette extraction.
https://github.com/Unstructured-IO

Vous pouvez pour aller plus loin consulter ce cours https://learn.deeplearning.ai/courses/preprocessing-unstructured-data-for-llm-applications/lesson/1/introduction
de deeplearning.ai un site que je recommande beaucoup pour notre discipline  !

* écrivez une fonction qui prend en entrée un nom de fichier, qu'il soit .html ou .pdf et renvoie le texte

NB : pour obtenir un texte unique pour chaque document, utilisez le séparateur [SEP].
On pourra réfléchir à des choses plus raffinées par la suite.

* écrivez une fonction qui prenne en entrée un path vers un fichier et renvoie l'objet Document stockant également son texte.

# 5) Chunking des documents

Les Documents sont bien trop longs pour que l'on puisse les utiliser d'un seul bloc pour effectuer une recherche sémantique. Il convient donc de les découper en plus petites unités significatives avant de les indexer

* Renseignez vous sur les différentes méthodes de chunking existantes. Laquelle vous semble la plus pertintente ?

* Puisque unstructured découpe déjà par rapport à la strucutre du document, nous allons exploiter le découpage déjà effectuer (traces des séparateurs [SEP] que je vous ai fait garder !) pour écrire une variante de chunking entre le structuré et le récursif.
écrivez une fonction qui prend en entrée un texte et renvoie la liste de chunks.  Tant que le chunk ne dépasse pas n caractères (initialisé à 500) continue d'ajouter des segments du texte.  Si ajouter le segment de texte suivant fait dépasser cette limitation, on stocke le chunk et passe au suivant. Un segment de document dont la taille dépasse n est splitté à la phrase si besoin pour respecter la consigne de taille et scindé en plusieurs chunks.

* Créez une classe chunk avec les champs qui vous semblent pertinents,  et la méthode __init__() et __str__().
Tout chunk doit avoir un id qui est la concaténation de l'id du doc et de l'expression "chunk{numéro du chunk à partir de 1"

* écrivez une fonction qui prend en entrée un Document et renvoie la liste des objets Chunks correspondant à ce document.









# 6) Indexation de la base de donnée


a) Configurer la base de données

C'est merveilleux ! Nous savons à présent transformer des fichiers en chunks !
Il ne nous reste plus qu'à les indexer dans une base de données.

Pour ce faire nous allons choisir une base de donnée vectorielle, comme par exemple ChromaDB qui est open source et largement utilisée.

https://docs.trychroma.com/getting-started

https://www.datacamp.com/tutorial/chromadb-tutorial-step-by-step-guide (bon guide mais certains des codes donnés sont périmés)


* Lisez les tutoriels et créez une base de donnée pour notre projet, nommée inalco.
Ecrivez une fonction pour créer la base de donnée et éventuellement la purger si nécessaire.

* écrivez une fonction qui permet de stocker un chunk.


b) THE script

* Ecrivez une fonction qui prend en entrée un nom de fichier et la collection, crée le document et indexe les chunks dans la base

* Ecrivez un script global qui prend en entrée un nom de DOSSIER, et traite les documents du dossier de façon séquentielle à l'aide de la fonction précédente.

# 7) Monitorer son programme

Si vous lancez THE script précédent sur un dossier contenant des centaines de fichiers, vous vous rendrez vite compte que les choses ne vont pas se passer aussi vite que vous l'espériez.

Il est temp d'évaluer les dégâts !

* Faites un bon usage du logging et de la librairie tqdm pour rassurer l'utilisateur et lui dire que de bonnes choses sont en train de se passer.

Il faut trouver un moyen de mesurer plusieurs paramètres : le temps total du traitement de tous les fichiers,le temps mis pour traiter chaque fichier, ainsi que repérer les problèmes potentiels (fichiers non traités ou ne contenant pas de texte...) pour informer l'utilisateur. Nous allons y aller progressivement

* Créez un décorateur qui une fois appliqué à une fonction permet de mesurer son temps d'éxécution. Utilisez le sur le processus global

* Adaptez le décorateur pour que l'information sur le temps de traitement d'un fichier (input de la fonction) lui soit associé et stocké.

* Adaptez ce décorateur pour qu'il repère les erreurs de traitement (nombre de chunk indexé nul ou texte vide... sur un fichier et stocke l'information.

* Faites en sorte que l'emploi de votre décorateur de monitoring produise un rapport indiquant le temps total de traitement, le temps moyen et médian de traitement par fichier ainsi que la liste des fichiers pour lesquels une erreur s'est produite.

# 8) Accélérer son programme à l'aide du multithreading

* Utilisez des techniques de programmation asyncrone pour paralléliser le traitement des fichiers et accélérer votre programme.

* Faites en sorte que la barre de progression tqdm affiche encore correctement la progression du traitement des fichiers (ce n'est pas trivial !)

* Faites en sorte que le décorateur de monitoring foncitonne toujours correctement

* En combien de temps tourne le nouveau programme  ? Quel est le pourcentage de temps gagné ? Le traitement individuel de chaque fichier a-t-il été ralenti ?

# Bonus Partie 2 : IBM ?

IBM vient de sortit une librairie de traitement des données
https://github.com/IBM/unitxt
Utilisez les composants de cette librairie pour remplacer ce que l'on a fait dans la partie 2 et comparez les résultats en terme de performance et de qualité

# Partie 3 : construire le moteur d'indexation documentaire et son interface /4


# 9) Méthodes de requêtage de la base de données

L'objectif final de tout ce travail est de construire une application permettant à un utilisateur de poser une question ou entrer des mots clés et de retrouver les documents et url les plus pertinents par rapport à sa recherche.
On veut donc retrouver un document et pas seulement un chunk !

* Qu'est ce que cela implique sur notre gestion de la base de données ?

* Créez une fonction qui permette de retrouver k chunks à partir de la question de l'utilisateur.

* Créez une fonction qui permette de récupérer le document complet à partir d'un chunk. NB : cela implique peut être des modifications du code en amont

# 10) Front de l'application

Utilisez streamlit (ou autre framework de votre choix) pour réaliser un Front basique à cette application.

* L'utilisateur doit pouvoir poser sa question dans un champs spécifique
* Il doit pouvoir choisir le nombre de documents retournés (entre 1 et 20 ?)
* Le document doit être bien paginé, l'url mise en avant
* le segment correspondant au chunk pertinent qui a été sélectionné doit être surligné dans le document.

# Bonus Partie 3:

Ajoutez des métadonnées (date de création de la page web, entités nommés, langues, type de fichiers...) et modifiez le code de façon à pouvoir appliquer des filtres sur la recherche