Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Analyseur de document WARC #3

Closed
sandros06 opened this issue Mar 26, 2017 · 1 comment
Closed

Analyseur de document WARC #3

sandros06 opened this issue Mar 26, 2017 · 1 comment

Comments

@sandros06
Copy link
Collaborator

Directement dans le script map:
Comprendre qu'un fichier WARC détient une en-tête: (PART HEADER)

  • Il faut récupérer l'url et extraire la base_url
    Puis il contient un "content" de type HTML (brut) (PART CONTENT)
  • Il faut le stocker dans une variable (à voir si ce n'est pas trop lourd)
    (Pour plus tard utiliser une librairie d'HTML)

Il y a donc aucun résultat pour l'instant envoyé au script reduce! Car il faut parse l'html :)

Puis recommencer à chaque fois ! ( Dans un fichier WARC il y a beaucoup de de HEADER et CONTENT à la fois)

@sandros06 sandros06 added this to the Simple mapreduce et pagerank milestone Mar 26, 2017
@zanaglio zanaglio self-assigned this Mar 29, 2017
@sandros06
Copy link
Collaborator Author

Changement de projet -> Passage wikipedia (close car hors sujet)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants