-
Notifications
You must be signed in to change notification settings - Fork 161
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Bloque les telechargements pour les crawler #2610
Conversation
Perso je suis contre ! Pourquoi ? Car j'aime faire des requêtes avec EDIT : Bon, mon argument passe mal car vu qu'on a pas de |
Et tu aurais pas pu dire ca dans le ticket (que tu as commenté) directement ? (histoire de m'éviter de faire une PR qui m'a pris plus de temps que de coder XD ) |
Oups, pas du faire attention... :-° En fait, faudrait désindexer le HTML mais laisser le PDF je pense. |
Voilà, je bloque tout SAUF les epub et les pdf des tutos (les articles n'ayant rien). faudra s'en souvenir pour la ZEP-12 (ping @pierre-24 et @artragis ) |
Commentaires en anglais ? :) |
+1 pour mon voisin du dessus. Du reste, artragis a été plus rapide que moi :o |
Sinon pour info ta recherche google |
Bloque toutes les pages de telechargements de fichiers générés SAUF les epub et les pdf des tutos (les articles n'ont pas de contenus générés à part l'archive)
Exemple, le tuto d'Eskimon:
Bref, c'est du détail et je suis quand même d'accord avec la PR. |
(oh, et évidement, c'est parfaitement impossible à QA ;) ) |
donc mon implémentation première de "tout bloquer" est finalement probablement la meilleure... |
Je vais proposer de changer les urls de téléchargement dans la ZEP 26 pour qu'il y ait les extensions. On aurait une url du genre |
Ça peut le faire :) |
Yep ca serait plus clean :) Bref, je garde le code actuel de ma PR (ton idée étant évidemment hors-scope) et attend des nouvelles du DTC :) |
J'étais persuadé que les URLs des fichiers à télécharger avaient des extensions valides... donc si ce n'est pas le cas, c'est évidemment ce qu'il faut faire. |
C'est à dire ? Supprimer toutes les pages de téléchargements dans le robobts.txt ? Juste les non-pdf/epub ? |
Changer les URLs. |
Je propose que :
Ça vous va ? |
|
Je ferme ici, la ZEP-12 apportera une solution bien plus élégante et comme c'est ni urgent ni dramatique ca sert à rien de laisser ca ouvert. |
Empeche les robots d'indexation d'aller indexer les pages de téléchargements.
Pourquoi ? car ce n'est pas super convivial alors qu'on propose déjà le contenu dans un format web (le lecteur ayant ensuite le choix de télécharger dans le format qu'il veut)