Skip to content

cortext/crawtext

 
 

Repository files navigation

Crawtext

Un projet pour la plateforme Cortext

Crawtext est un crawler ou un robot d'indexation de texte qui permet la constitution de gros corpus web textuels issus de page web autour d'une expression de recherche donnée de manière récurrente selon la fréquence souhaitée.

Initialement prévue pour être intégrée à la plateforme Cortext Manager comme un outil de constitution de datasets issu du web. Elle fonctionne pour le moment en mode console et de manière indépendante.

Vous trouverez donc ici la documentation complète sur Crawtext ainsi que des cas d'utilisation

About

Yet another tiny crawler in command line using python, Bing Search API, Goose and Adblock.

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages

  • Python 78.0%
  • HTML 21.2%
  • Shell 0.8%