Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

deduplicator ne deduplicate pas #36

Open
jfriviere opened this issue Nov 3, 2022 · 2 comments
Open

deduplicator ne deduplicate pas #36

jfriviere opened this issue Nov 3, 2022 · 2 comments

Comments

@jfriviere
Copy link

J'utilise le middlware deduplicator (pour OpenEditon) mais je n'arrive pas à le faire fonctionner (ou il y a un bug).

Ci dessous un exemple :

Il y a peut-être quelque chose d'évident que je ne vois pas.‌..
Merci
Jean-François

@nojhamster
Copy link
Contributor

Bonjour !

Désolé pour la réponse tardive. Je n'ai pas relevé de problèmes du côté du paramétrage, en revanche je remarque que le parseur ne retourne pas de champ rtype, ce qui doit expliquer l'absence de dédoublonnage.

Pour fonctionner correctement, le dédoublonneur a besoin d'un identifiant d'utilisateur (champ session, login ou host selon ce qui est présent), d'un identifiant de ressource (champ unitid) et d'un type de ressource (champ rtype). C'est sur la base de ces 3 informations que les ECs sont comparés pour savoir s'il s'agit de bien de la même consultation.

Si le type de la ressource est connu, le plus simple est d'ajouter le champ rtype en sortie du parseur. Si le type ne peut être déterminé via l'URL, il peut être ajouté par un middleware, tant que l'enrichissement se fait avant le dédoublonnage.

Si l'ajout du rtype pose problème, nous pouvons également envisager de rendre sa présence optionnelle via un header.

@jfriviere
Copy link
Author

Bonjour,

A mon tour désolé pour le temps de réponse.
Donc ce n'est pas un bug mais un problème d'utilisation du middleware.

Nous n'avons en fait aucun des champs nécessaires !

  • pas de session, login ou host mais un champ session_id
  • pas de unitid, mais un champ doc_id
  • pas de rtype mais un champ type

Est-ce qu'il serait envisageable de passer en paramètre les noms des champs à utiliser comme session, unitid, rtype ?

Sinon, ce n'est pas grave. Je me pencherai sur la question de notre côté pour ajouter ces champs.

Et en attendant, les calculs que nous produisons en sortie gèrent de toute façon les duplicates sur la base d'un champ log_id (hash de la ligne de log).

Merci

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants