HTMLIndexation within Omeka S
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
config
src
Capture.PNG
Module.php
README.md

README.md

OmekaS_Module_HTML_Indexer

Indexer des fichiers HTML dans OmekaS pour générer des nuages de mots clés

Fonctionnement

Ce module traite des fichiers HTML, il s'occuppe de l'extraction du titre,metas et texte body, il fait en sorte d'enlever les balises et découper les chaines de caractères récupérées et retourner une table de mots.

Après ce premier traitement, la liste des mots est traitée et néttoyée en enlevant les mots considérés commes vides en référence à un dictionnaire prédéfini pour enfin retourner un autre tableau associatif avec tous les mots (sans répétition) et leurs occurrences dans le fichier HTML.

En appliquant des coefficient d'importance à ces mots selon les tags où ils se trouvent (titre et metas plus importants que body), pour enfin obtenir une liste de mots clés ainsi que leurs poids dans le fichier concérné.

Enfin, les mots récupérés sont donnés en arguments à une fonction qui fait en sorte de les afficher sous forme d'un nuage de mots clés en utilsant des couleurs et des tailes différentes selon le poids et importance du mot dans le document.

Installation

Le développement a été fait en php, donc il est indispensable d'installer ce dernier. Au final, il n'y a pas eu de difficultés lors de l'installation du module.

Source d'inspiration

Je travaille sur un projet d'un moteur de recherche un peu similaire à google. Les résultats de cette recherche sont obtenus depuis une base de données contenant des mots référenciés à leur fichier html source. La sauvegarde de ces mots nécéssite une indexation de plusieurs documents HTML selon le processus décrit en haut, et donc l'idée m'est venu de transformer ce processus en un module qui prend une source HTML et genère un nuage de mots clés représentant le contenu de ce fichier.