Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Bloque les telechargements pour les crawler #2610

Closed
wants to merge 1 commit into from
Closed

Bloque les telechargements pour les crawler #2610

wants to merge 1 commit into from

Conversation

Eskimon
Copy link
Contributor

@Eskimon Eskimon commented Apr 30, 2015

Q R
Correction de bugs ? non
Nouvelle Fonctionnalité ? ~oui
Tickets (issues) concernés #1999

Empeche les robots d'indexation d'aller indexer les pages de téléchargements.
Pourquoi ? car ce n'est pas super convivial alors qu'on propose déjà le contenu dans un format web (le lecteur ayant ensuite le choix de télécharger dans le format qu'il veut)

@Situphen
Copy link
Member

Perso je suis contre ! Pourquoi ? Car j'aime faire des requêtes avec filetype:pdf et avoir des résultats !

EDIT : Bon, mon argument passe mal car vu qu'on a pas de .pdf on a pas de résultats (excepté sur uploads.zestedesavoir.com - domaine que je connaissait pas d'ailleurs). Il faudrait pas mettre .pdf en extension ?

@Eskimon
Copy link
Contributor Author

Eskimon commented Apr 30, 2015

Et tu aurais pas pu dire ca dans le ticket (que tu as commenté) directement ? (histoire de m'éviter de faire une PR qui m'a pris plus de temps que de coder XD )

@landscape-bot
Copy link

Code Health
Code quality remained the same when pulling 3660e48 on Eskimon:fix-1999 into 2e3ca39 on zestedesavoir:dev.

@Situphen
Copy link
Member

Oups, pas du faire attention... :-°

En fait, faudrait désindexer le HTML mais laisser le PDF je pense.

@Eskimon
Copy link
Contributor Author

Eskimon commented Apr 30, 2015

Voilà, je bloque tout SAUF les epub et les pdf des tutos (les articles n'ayant rien).

faudra s'en souvenir pour la ZEP-12 (ping @pierre-24 et @artragis )

@Situphen
Copy link
Member

Commentaires en anglais ? :)

@pierre-24
Copy link
Member

+1 pour mon voisin du dessus. Du reste, artragis a été plus rapide que moi :o

@Eskimon
Copy link
Contributor Author

Eskimon commented Apr 30, 2015

Sinon pour info ta recherche google filetype:pdf ne devrait pas marcher car le lien ne pointe pas vers une URL ...blablabla.pdf . (à confirmer cependant)

Bloque toutes les pages de telechargements de
fichiers générés SAUF les epub et les pdf des tutos
(les articles n'ont pas de contenus générés à part l'archive)
@landscape-bot
Copy link

Code Health
Code quality remained the same when pulling b99a904 on Eskimon:fix-1999 into 2e3ca39 on zestedesavoir:dev.

@landscape-bot
Copy link

Code Health
Code quality remained the same when pulling b99a904 on Eskimon:fix-1999 into 2e3ca39 on zestedesavoir:dev.

@pierre-24
Copy link
Member

Exemple, le tuto d'Eskimon:

Bref, c'est du détail et je suis quand même d'accord avec la PR.

@pierre-24
Copy link
Member

(oh, et évidement, c'est parfaitement impossible à QA ;) )

@Eskimon
Copy link
Contributor Author

Eskimon commented Apr 30, 2015

donc mon implémentation première de "tout bloquer" est finalement probablement la meilleure...

@Situphen
Copy link
Member

Je vais proposer de changer les urls de téléchargement dans la ZEP 26 pour qu'il y ait les extensions. On aurait une url du genre https://zestedesavoir.com/tutoriels/232/developpez-votre-site-web-avec-le-framework-django.pdf pour la version pdf de https://zestedesavoir.com/tutoriels/232/developpez-votre-site-web-avec-le-framework-django/ donc garder la PR tel quel est sûrement mieux.

@pierre-24
Copy link
Member

Ça peut le faire :)

@Eskimon
Copy link
Contributor Author

Eskimon commented Apr 30, 2015

Yep ca serait plus clean :) Bref, je garde le code actuel de ma PR (ton idée étant évidemment hors-scope) et attend des nouvelles du DTC :)

@SpaceFox
Copy link
Contributor

SpaceFox commented May 1, 2015

J'étais persuadé que les URLs des fichiers à télécharger avaient des extensions valides... donc si ce n'est pas le cas, c'est évidemment ce qu'il faut faire.

@Eskimon
Copy link
Contributor Author

Eskimon commented May 1, 2015

donc si ce n'est pas le cas, c'est évidemment ce qu'il faut faire.

C'est à dire ? Supprimer toutes les pages de téléchargements dans le robobts.txt ? Juste les non-pdf/epub ?

@SpaceFox
Copy link
Contributor

SpaceFox commented May 1, 2015

Changer les URLs.

@Situphen
Copy link
Member

Situphen commented May 6, 2015

Je propose que :

Ça vous va ?

@landscape-bot
Copy link

Code Health
Repository health increased by 0.00% when pulling b99a904 on Eskimon:fix-1999 into 4d29e17 on zestedesavoir:dev.

@Eskimon
Copy link
Contributor Author

Eskimon commented May 8, 2015

Je ferme ici, la ZEP-12 apportera une solution bien plus élégante et comme c'est ni urgent ni dramatique ca sert à rien de laisser ca ouvert.

@Eskimon Eskimon closed this May 8, 2015
@Eskimon Eskimon deleted the fix-1999 branch May 10, 2015 20:58
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

5 participants