Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Gestion des caracteres accentues avec un flux precis #661

Closed
prysme01 opened this issue Oct 9, 2014 · 12 comments
Closed

Gestion des caracteres accentues avec un flux precis #661

prysme01 opened this issue Oct 9, 2014 · 12 comments

Comments

@prysme01
Copy link

prysme01 commented Oct 9, 2014

J'ai un probleme avec ce flux
http://graphism.fr/feed/atom/

Les caracteres accentues ne sont pas affiche correctement, est ce un probleme avec freshrss ou avec le flux atom ?

Réalisé par Elliptic Labs, voici le nouveau système du Moto X,
au lieu de
Réalisé par Elliptic Labs, voici le nouveau système du Moto X

@prysme01 prysme01 changed the title UTF8 Gestion des caracteres accentues avec un flux precis Oct 9, 2014
@Alwaysin
Copy link
Contributor

Alwaysin commented Oct 9, 2014

J'ai le même problème avec des flux générés par Full-Text RSS (http://code.fivefilters.org/full-text-rss).
Ces mêmes flux, lorsqu'ils sont utilisés directement, n'ont pas de problème. Plus le fait que de nombreux autres flux fonctionnent bien, je pencherais pour dire que le problème vient du flux... Mais attendons les développeurs qui pourront nous dire ce qu'il en est !

EDIT : en testant ton flux je n'ai pas de problème, bizarre

@tomgue
Copy link
Contributor

tomgue commented Oct 9, 2014

Chez moi c'est celui de macg.co mais uniquement les ' ...

@Alkarex Alkarex self-assigned this Oct 9, 2014
@Alkarex
Copy link
Member

Alkarex commented Oct 9, 2014

graphismes interactivite

<title>Nouvelles photos et vidéo de l&amp;#039;iPad Air 2</title>

@prysme01
Copy link
Author

prysme01 commented Oct 9, 2014

@Alkarex J'utilise le selecteur CSS : #content .postentry
Ca doit venir de là

@Alwaysin
Copy link
Contributor

Alwaysin commented Oct 9, 2014

Le flux qui a ce problème avec Full-Text RSS mais qui ne l'a pas sans est : http://www.universfreebox.com/backend.php

Parfois j'ai des titres bons, comme "Réseaux FTTH : vers une harmonisation nationale et une cohérence des tarifs" et parfois des mauvais comme "Autorité de la Concurrence : jour d'audition pour SFR-Numericable".

Si pour toi cela ne pose pas de soucis alors je te passerai directement mon URL pour voir si cela vient pas plutôt de moi.

EDIT : apparemment ce doit être la même chose que tomgue...mauvais encodage.

@Alkarex
Copy link
Member

Alkarex commented Oct 9, 2014

@prysme01 Ah ok. Du coup je laisse à @marienfressinaud : La source semble valide. À vue de nez, les entités HTML sont décodées en ISO-8859-1 au lieu d'être décodées en UTF-8. Il faut vérifier que l'encodage est bon en sortie de phpQuery https://github.com/marienfressinaud/FreshRSS/blob/fc7d2a0bf271e43a9e6001dccef61ec0762eb840/lib/lib_rss.php#L172 avant le nettoyage de SimplePie https://github.com/marienfressinaud/FreshRSS/blob/fc7d2a0bf271e43a9e6001dccef61ec0762eb840/lib/lib_rss.php#L173 . Si le problème n'est pas là, je vois que lib_phpQuery fait usage de htmlspecialchars_decode() ; une autre piste serait de les remplacer par html_entity_decode() en spécifiant le bon encodage, en l’occurrence UTF-8 si c'est en fin de chaîne.

@prysme01 Pour info, quelle version de PHP utilisez-vous ? (En particulier, avant ou après PHP 5.3.4 ?)

@Alwaysin http://www.universfreebox.com/backend.php est invalide : Le flux est envoyé en text/xml (pas bien) sans spécifier l'encodage (pas bien) qui est du coup US-ASCII selon la spécification de ce type MIME (ce qui n'est pas le cas pour application/xml). De plus, le flux insiste en spécifiant iso-8859-1 (pas bien, et de toute manière incompatible avec le US-ASCII du niveau HTTP) dans le prologue XML alors que son contenu est en UTF-8 (bien). Il tombe dans ma catégorie des flux trop cassés pour être rattrapés.

@Alwaysin
Copy link
Contributor

Alwaysin commented Oct 9, 2014

Merci Alkarex pour ces précisions !!! 👍
Même si j'ai pas tout compris ^^

A tout hasard, je vais contacter le site pour voir s'ils peuvent changer cela (mais je n'ai pas trop d'espoir...)

@Alkarex
Copy link
Member

Alkarex commented Oct 9, 2014

@Alwaysin En regardant d'un peu plus près, il semblerait que le contenu soit bien en ISO-8859-1. J'ai été trompé par l'affichage de la source dans Firefox :
firefox
L'entête HTTP demeure bien invalide, mais FreshRSS arrive bien à décoder ce flux correctement.

@prysme01
Copy link
Author

@Alkarex voila ma version de php
PHP 5.4.4-14+deb7u14 (cli) (built: Aug 21 2014 08:36:44)

@marienfressinaud
Copy link
Member

Les problèmes liés à l'utilisation de la fonctionnalité pour récupérer le contenu des articles sur le site d'origine ne seront pas corrigés immédiatement : je compte inclure Full-Text RSS PHP Readability (utilisé par wallabag notamment) pour remplacer et faciliter cette fonctionnalité.

Je laisse le ticket ouvert pour tester la fonctionnalité quand elle sera disponible sur les sites problématiques.

@marienfressinaud
Copy link
Member

Voir #319

@Alkarex
Copy link
Member

Alkarex commented Jul 6, 2015

Je ferme ici, mais j'ai mis une note de rappel dans #319

@Alkarex Alkarex closed this as completed Jul 6, 2015
@Alkarex Alkarex removed this from the Backlog milestone Sep 2, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants