-
-
Notifications
You must be signed in to change notification settings - Fork 79
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Homogénéisation et assainissement des contenus anciens #443
Comments
Je me suis basé sur la RDP de noël 2011 pour lister les problèmes et corrections adaptées :
|
Je viens de voir cette PR Paragraphes mal formatésLes cas de paragraphes mal formatés sont plus nombreux. En voici 5 différents constatés sur 2011 :
rdp_2011-01-21 sur master devient cette version sur fenfyx2 LogsJ'ai créé des logs des transformations pour chaque rdp. |
Petit état des lieux :
Pour les retraits, voir cette version sur fenfyx2 par rapport à celle sur master |
Quelques remarques :
|
ThumbailsEn complément, sur les transformations :
doit devenir :
|
J'ai avancé sur la maj de 2011. J'ai mis ça sur la branche Exemple de la revue de presse du 12 Août 2011Ce qui a été fait (en prenant l'exemple de cette revue de presse)Voici que j'ai tenté de traiter, dans l'ordre d'importance décroissante :
❗ Le plus important, selon moi, était les soucis de mauvais formatage de paragraphes et les niveaux de titres. 😉 Ne pas hésiter à me dire si incohérences. Je pourrai corriger via script ou manuellement si impossible à automatiser. |
Contexte
Dans la foulée du nettoyage des en-têtes (voir #425) dont le résultat le plus visible est le système des mots-clés, il est temps de se pencher sur le nettoyage et l'homogénéisation des contenus anciens, càd principalement avant l'opération géo-phénix du printemps 2020, dont le scraping ne pouvait résoudre tous les soucis.
💬 sujet discuté sur le Slack de l'équipe : https://geotribu.slack.com/archives/CU9Q1B1FT/p1634317481021500
Objectifs et gains attendus
Tâches
Anciennes URLs d'images
Dans les anciens contenus, on trouve parfois des URLs structurées comme pour le gestionnaire de médias de Drupal qui du coup pointent vers des 404 sur le CDN actuel.
🎯 trouver l'équivalence de l'image dans le CDN actuel et rechercher/remplacer les images.
Exemples :
https://static.geotribu.fr/sites/default/files/Tuto/img/Blog/world_noel.png
parhttps://cdn.geotribu.fr/img/internal/icons-rdp-news/noel.png
http://geotribu.net/sites/default/files/Tuto/img/divers/logo-gvsig_150_14.gif
parhttps://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/gvsig.png
Balises d'accessibilité manquantes
A l'époque, tout le monde s'en foutait de l'accessibilité du web et l'outillage n'était pas au niveau. Désormais, l'outillage est là et c'est un sujet important en phase avec les valeurs de la Geotribu (enfin je pense).
🎯 ajouter un texte de remplacement et une description à toutes les images (au moins les récurrentes)
Exemples :
devient :
Retraits superficiels en début de ligne
C'est ballot vu que la syntaxe Markdown tient compte de l'indentation.
Exemples :
devient après suppression de l'espace en début de ligne :
Paragraphes mal formatés
🎯 globalement, appliquer la structure actuelle. Plusieurs choses à faire par exemple pour une news de RDP :
Exemples :
devient :
Ajouter les balises CSS aux vignettes
Cf. https://static.geotribu.fr/contribuer/guides/image/#vignette
Retirer les anciennes ancres
#news
Dans les intros ds anciennes RDP notamment, on trouve beaucoup d'ancres comme celles-ci :
[librairie Google Vector Layer](#news11)
(source)Il s'agit de retirer ces liens puisque il y a une table des matières automatiquement à droite des contenus.
Corriger les niveaux de titre
Parfois, les niveaux de titres ont été mal encodés lors de la récupération des contenus, notamment parce-que les premières RDP ne respectaient pas correctement le HTML ou que les titres étaient de simples balises gras.
Du coup, on retrouve parfois des noms de sections en titre 3 ou 4 au lieu du niveau 2.
#### Open Data
Doit devenir :
## Open Data
Homogénéiser les images (en particulier les vignettes)
Selon les moments, un même logo peut être nommé de différentes façons. Au passage du nettoyage, il est intéressant d'en profiter pour homogénéiser. Exemple avec le logo OSM :
On choisit celui qui est le plus cohérent avec les tags et le reste de la rédaction.
Méthodologie
Répartition du travail
ℹ️ éditer la description pour ajouter le pseudo du responsable de chaque année
RDP
Articles
Penser à faire par la suite
date
ne contient que du yyyy-mm-ddFAQ
On supprime les images extérieures qui n'existent plus ?
Non car tu peux pas savoir si l'image est temporairement ou définitivement inaccessible. Ajouter des textes de remplacement puisque ils sont justement fait pour ça 😉.
The text was updated successfully, but these errors were encountered: