Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Homogénéisation et assainissement des contenus anciens #443

Closed
Guts opened this issue Oct 15, 2021 · 6 comments · Fixed by #456, #462, #740, #742 or #744
Closed

Homogénéisation et assainissement des contenus anciens #443

Guts opened this issue Oct 15, 2021 · 6 comments · Fixed by #456, #462, #740, #742 or #744
Assignees
Labels
enhancement Ajout ou amélioration d'une fonctionnalité tipex Corrections mineures (langue française, fautes de frappe, etc.)

Comments

@Guts
Copy link
Member

Guts commented Oct 15, 2021

Contexte

Dans la foulée du nettoyage des en-têtes (voir #425) dont le résultat le plus visible est le système des mots-clés, il est temps de se pencher sur le nettoyage et l'homogénéisation des contenus anciens, càd principalement avant l'opération géo-phénix du printemps 2020, dont le scraping ne pouvait résoudre tous les soucis.

💬 sujet discuté sur le Slack de l'équipe : https://geotribu.slack.com/archives/CU9Q1B1FT/p1634317481021500

Objectifs et gains attendus

  • impression de qualité avec un rendu propre et homogène
  • correction des erreurs dans la recherche du site
  • possibilité d'effectuer des analyses sur l'ensemble des contenus : nuages de mots-clés, comparaison entre les mots-clés spécifiés et mots-clés mentionnés dans le corps du contenu, frises chronologiques, mécanismes pour proposer un "lire aussi.../sur le même sujet", etc.
  • amélioration des performances dans la navigation (balises d'images, etc.)
  • meilleure réversibilité de l'outil de génération du site (si on veut changer pour hugo ou autre)
  • traitements par lots facilités
  • meilleur référencement SEO

Tâches

Anciennes URLs d'images

Dans les anciens contenus, on trouve parfois des URLs structurées comme pour le gestionnaire de médias de Drupal qui du coup pointent vers des 404 sur le CDN actuel.

🎯 trouver l'équivalence de l'image dans le CDN actuel et rechercher/remplacer les images.

Exemples :

  • source : https://static.geotribu.fr/sites/default/files/Tuto/img/Blog/world_noel.png par https://cdn.geotribu.fr/img/internal/icons-rdp-news/noel.png
  • source : http://geotribu.net/sites/default/files/Tuto/img/divers/logo-gvsig_150_14.gif par https://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/gvsig.png

Balises d'accessibilité manquantes

A l'époque, tout le monde s'en foutait de l'accessibilité du web et l'outillage n'était pas au niveau. Désormais, l'outillage est là et c'est un sujet important en phase avec les valeurs de la Geotribu (enfin je pense).

🎯 ajouter un texte de remplacement et une description à toutes les images (au moins les récurrentes)

Exemples :

![OpenLayers.png](https://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/openlayers.png) 

devient :

![logo OpenLayers](https://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/openlayers.png "logo OpenLayers") 

Retraits superficiels en début de ligne

C'est ballot vu que la syntaxe Markdown tient compte de l'indentation.

Exemples :

 Utilisateur de QGIS ou simple curieux de l'Open Source 

devient après suppression de l'espace en début de ligne :

Utilisateur de QGIS ou simple curieux de l'Open Source 

Paragraphes mal formatés

🎯 globalement, appliquer la structure actuelle. Plusieurs choses à faire par exemple pour une news de RDP :

  • déplacer la ligne de l'icône sous le titre de niveau 3

Exemples :

 **GeoIpsum**

![globe news](https://cdn.geotribu.fr/img/internal/icons-rdp-news/world.png){: .img-rdp-news-thumb } Il m'arrive tr

devient :

### GeoIpsum

![icône news générique](https://cdn.geotribu.fr/img/internal/icons-rdp-news/news.png "News Geotribu"){: .img-rdp-news-thumb }

Il m'arrive tr

Ajouter les balises CSS aux vignettes

Cf. https://static.geotribu.fr/contribuer/guides/image/#vignette

Retirer les anciennes ancres #news

Dans les intros ds anciennes RDP notamment, on trouve beaucoup d'ancres comme celles-ci : [librairie Google Vector Layer](#news11) (source)

Il s'agit de retirer ces liens puisque il y a une table des matières automatiquement à droite des contenus.

Corriger les niveaux de titre

Parfois, les niveaux de titres ont été mal encodés lors de la récupération des contenus, notamment parce-que les premières RDP ne respectaient pas correctement le HTML ou que les titres étaient de simples balises gras.
Du coup, on retrouve parfois des noms de sections en titre 3 ou 4 au lieu du niveau 2.

#### Open Data

Doit devenir :

## Open Data

Homogénéiser les images (en particulier les vignettes)

Selon les moments, un même logo peut être nommé de différentes façons. Au passage du nettoyage, il est intéressant d'en profiter pour homogénéiser. Exemple avec le logo OSM :

![logo OpenStreetMap](https://cdn.geotribu.fr/img/logos-icones/OpenStreetMap/Openstreetmap.png "logo OSM"){: .img-rdp-news-thumb }

![logo OpenStreetMap](https://cdn.geotribu.fr/img/logos-icones/OpenStreetMap/Openstreetmap.png "logo OSM"){: .img-rdp-news-thumb }

On choisit celui qui est le plus cohérent avec les tags et le reste de la rédaction.


Méthodologie

  • Manuellement ou automatiquement (sed, scripts, etc.) même si ça me semble vraiment compliqué de tout résoudre vu l'hétérogénéité. Pour un script, se créer une branche dédiée pour travailler tranquillement sans impacter le travail collectif et proposer une PR.
  • se répartir par années et type de contenu (article ou RDP), mais il est possible de faire des changements transversaux, par exemple pour faire des chercher/remplacer sur les URLs des images.
  • une branche et sa PR pour centraliser les corrections
  • éviter si possible de commiter contenu par contenu via l'interface pour ne pas déclencher la CI ouate 1000 fois

Répartition du travail

ℹ️ éditer la description pour ajouter le pseudo du responsable de chaque année

RDP

Année URLs d'images Balises d'accessibilité Retraits superficiels Paragraphes Relecture
2010 @igeofr @igeofr @igeofr @igeofr
2011
2012
2013 @Guts @Guts @Guts @Guts
2014 @igeofr @igeofr @igeofr @igeofr @aurelienchaumet
2015 @igeofr @igeofr @igeofr @igeofr
2016 @igeofr @igeofr @igeofr @igeofr
2017 @igeofr @igeofr @igeofr @igeofr

Articles

Année URLs d'images Balises d'accessibilité Retraits superficiels Paragraphes
2008 @igeofr @igeofr @igeofr @igeofr
2009 @igeofr @igeofr @igeofr @igeofr
2010
2011
2012
2013
2014
2015
2016
2017

Penser à faire par la suite

  • Ajouter des '14h20' dans l'en-tête lorsque date ne contient que du yyyy-mm-dd

FAQ

On supprime les images extérieures qui n'existent plus ?

Non car tu peux pas savoir si l'image est temporairement ou définitivement inaccessible. Ajouter des textes de remplacement puisque ils sont justement fait pour ça 😉.

@Guts Guts self-assigned this Oct 15, 2021
@Guts Guts added enhancement Ajout ou amélioration d'une fonctionnalité tipex Corrections mineures (langue française, fautes de frappe, etc.) labels Oct 15, 2021
@igeofr igeofr self-assigned this Oct 18, 2021
@Guts
Copy link
Member Author

Guts commented Oct 18, 2021

Je me suis basé sur la RDP de noël 2011 pour lister les problèmes et corrections adaptées :

@datagistips
Copy link
Contributor

datagistips commented Oct 18, 2021

Je viens de voir cette PR

Paragraphes mal formatés

Les cas de paragraphes mal formatés sont plus nombreux. En voici 5 différents constatés sur 2011 :

### L'Open Data en image** lorem ipsum
## L'Open Data en image** lorem ipsum
L'Open Data en image** lorem ipsum
 **OpenLayers Mobile**  lorem ipsum
![logo-gvsig_150_14.gif](http://geotribu.net/sites/default/files/Tuto/img/divers/logo-gvsig_150_14.gif)**gvSIG** lorem ipsum

rdp_2011-01-21 sur master devient cette version sur fenfyx2

Logs

J'ai créé des logs des transformations pour chaque rdp.
Log pour rdp_2011-01-21

@datagistips
Copy link
Contributor

datagistips commented Oct 18, 2021

Petit état des lieux :

  • Paragraphes mal formatés
  • Retraits superficiels

Pour les retraits, voir cette version sur fenfyx2 par rapport à celle sur master

@Guts
Copy link
Member Author

Guts commented Oct 18, 2021

Quelques remarques :

  • Repars de la branche de Flo pour limiter les conflits https://github.com/geotribu/website/tree/fix/old_rdp
  • Plus tôt tu ouvres la PR depuis ta branche fenyx2, plus tôt on aura la preview et le résultat de la CI sur ton script (cf le guide de contribution)
  • peux-tu partager les liens vers les fichiers dans la branche plutôt que les bruts stp ? comme ça, on profite du highlighting de Github sur le markdown :clin_d'œil: (passe &plain=true à l'URL)

@datagistips
Copy link
Contributor

Thumbails

En complément, sur les transformations :

![geotools.png](https://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/geotools.png "geotools.png"){: .img-rdp-news-thumb }

### Nouvelle version de GeoTools

La librairie géospatiale en Java de l'OSGeo sort en version 2.7.4 en corrigeant quelque 39 bugs et en apportant quelques améliorations et nouveautés. [Site de GeoTools](http://geotoolsnews.blogspot.com/2011/12/geotools-274-released.html)

doit devenir :

### Nouvelle version de GeoTools

![geotools.png](https://cdn.geotribu.fr/img/logos-icones/logiciels_librairies/geotools.png "geotools.png"){: .img-rdp-news-thumb }

La librairie géospatiale en Java de l'OSGeo sort en version 2.7.4 en corrigeant quelque 39 bugs et en apportant quelques améliorations et nouveautés. [Site de GeoTools](http://geotoolsnews.blogspot.com/2011/12/geotools-274-released.html)

@datagistips
Copy link
Contributor

datagistips commented Oct 19, 2021

J'ai avancé sur la maj de 2011. J'ai mis ça sur la branche fix/old_rdp

Exemple de la revue de presse du 12 Août 2011

avant | après

Ce qui a été fait (en prenant l'exemple de cette revue de presse)

Voici que j'ai tenté de traiter, dans l'ordre d'importance décroissante :

j'ai pris le alt s'il existe, sinon, j'ai pris le stem de l'url
![](https://monsite.com/..../gdal.png) => ![gdal](https://monsite.com/..../gdal.png "gdal")
![logo gdal](https://monsite.com/..../gdal.png) => ![logo gdal](https://monsite.com/..../gdal.png "logo gdal")

  • Thumbnails positionnées dans le corps du post : avant | après

J'ai gardé l'ancien emplacement en le mettant en commentaire <!--[monImage]-->

  • Ancres #news
  • Remplacement des URLs des images non trouvées (cdn vs static)
  • CSS et vignettes

❗ Le plus important, selon moi, était les soucis de mauvais formatage de paragraphes et les niveaux de titres.

😉 Ne pas hésiter à me dire si incohérences. Je pourrai corriger via script ou manuellement si impossible à automatiser.

@Guts Guts linked a pull request Nov 8, 2022 that will close this issue
@Guts Guts unpinned this issue Nov 8, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment