Fehlende Leerzeichen beim PDF-Export #1716

ghost · 2011-11-29T18:23:53Z

Hallo Leo,

wenn man einen Artikel als PDF exportiert, kommt es vor, das einige Leerzeichen geschlcutk werden und deshalb Wörter zusammengeschrieben werden.
Beim untersuchen dieses Phänomens bin ich auf folgende Lösung gestoßen. Das Problem ist beim Controller in der Funktion printArticleAsPdf.

Wenn man die Zeile 977 des preg_replace search array wie folgt ändert,

'`[\n\r\t]+`',

und dann noch in Zeile 987 das replace array wie folgt ändert,

' ', // Anstatt die Linebreaks und Tabs durch nichts zu ersetzen, einfach mit einem Leerzeichen ersetzen.

taucht das Problem nicht mehr auf.

Gruß,

Benjamin

Download the attachments

--- Originally created by ben2010 on March 15th, 2010, at 04:57pm (ID 1716)

The text was updated successfully, but these errors were encountered:

leofeyer · 2011-11-29T18:23:55Z

Deine Ausführungen machen durchaus Sinn. Könntest Du bitte trotzdem den fraglichen Inhalt posten, damit ich es hier reproduzieren kann?

--- Originally created on March 15th, 2010, at 07:49pm

ghost · 2011-11-29T18:23:55Z

Das Problem tritt nicht generell auf. Aber ich hatte es jetzt schon bei mehreren Seiten und mir erschließt sich nicht ganz warum es bei manchen Seiten geht und bei anderen nicht.

Aber zurück zum Problem. Wenn Du z.B. den Text der folgenden Seite http://www.singlereisen.de/agb.html nimmst, dann tritt beim PDF Export ab dem zweiten Kapitel ("II AGB´s unseres Partners und Reiseveranstalter Becker Travel Worldwide") das Phänomen auf, dass z.B. die Leerzeichen zwischen der Abschnittnumerierung und dem Satzbeginn fehlen, oder auch mitten im Satz Leerzeichen fehlen.

Hoffe Du kannst damit etwas anfangen.

--- Originally created by ben2010 on March 15th, 2010, at 08:48pm

leofeyer · 2011-11-29T18:23:56Z

Wieso hast Du das + in den regulären Ausdruck geschrieben? Ich konnte dadurch keinen Vorteil feststellen, wohl aber einen Performance-Nachteil.

--- Originally created on March 16th, 2010, at 11:14pm

ghost · 2011-11-29T18:23:57Z

Ohne das + erhalte ich bei manchen Artikeln mit komplexer HTML-Struktur beim PDF-Export eine Fehlermeldung von Acrobat, dass es sich um ein fehlerhaftes PDF handelt. Außerdem werden dann manche Wörter mit n-Anzahl Leerzeichen getrennt, da zwischen den Wörtern wohl entweder einige Tabs und/oder Zeilenumbrüche waren.

Das + behebt diese Problematik, da dadurch wie bei einem Browser nur ein Leerzeichen als Worttrennung verwendet wird. Und für Acrobat ist es dann auch ein valides PDF.

--- Originally created by ben2010 on March 17th, 2010, at 10:12am

leofeyer · 2011-11-29T18:23:58Z

Kannst Du dafür bitte auch einen Beispieltext posten?

--- Originally created on March 17th, 2010, at 10:15am

ghost · 2011-11-29T18:24:00Z

Wenn Du Dir den Artikel auf der Seite http://dev.singlereisen.de/details/reise/7.html als PDF exportierst, erhalte ich von Acrobat die Meldung, dass das PDF fehlerhaft sei. Desweiteren siehst Du, dass er in der 6. Textzeile (Preis pro Person) die Wörter mit mehreren Leerzeichen trennt. Ergänze ich in der getArticleAsPdf das "+", beanstandet Acrobat nichts und auch die besagte Zeile sieht so aus, wie sie soll bei diesem Artikel.

--- Originally created by ben2010 on March 17th, 2010, at 11:51am

leofeyer · 2011-11-29T18:24:01Z

Das kann ich so nicht nachvollziehen. Weder erhalte ich eine Fehlermeldung beim Öffnen des PDFs, noch kann ich erkennen, dass Wörter mit mehreren Leerzeichen getrennt werden. Kannst Du den entsprechenden HTML-Quelltext bitte hier posten, damit wir den Fehler reproduzieren können?

--- Originally created on March 17th, 2010, at 02:40pm

ghost · 2011-11-29T18:24:02Z

Ich benutze hier Acrobat Pro(Mac OS) und nicht den Reader. Vielleicht gibt der Reader keine Fehlermeldung aus. Aber Acrobat Pro mag das erstellte PDF hier an unseren Macs nicht.

Bezüglich der mehreren Leerzeichen zwischen Wörtern... Wenn Du den Artikel aus obigem Link als PDF exportierst steht doch so ziemlich am Anfang der Preis pro Person. In dieser Zeile sind die Wörter deutlich auseinandergezogen, da mehrere Leerzeichen dazwischen sind. Mit dem + in der Regex gibt es dazwischen eben nur ein Leerzeichen zwischen den Wörtern.

Den Artikelquelltext hab ich auch mal als Datei angehängt.

--- Originally created by ben2010 on March 19th, 2010, at 10:57am

leofeyer · 2011-11-29T18:24:03Z

Behoben in 2b29cb3.

--- Originally created on March 20th, 2010, at 11:46pm

leofeyer · 2011-11-29T18:24:04Z

--- Originally completed on March 20th, 2010, at 11:46pm

ghost assigned leofeyer Nov 29, 2011

leofeyer closed this as completed Nov 29, 2011

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fehlende Leerzeichen beim PDF-Export #1716

Fehlende Leerzeichen beim PDF-Export #1716

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

leofeyer commented Nov 29, 2011

Fehlende Leerzeichen beim PDF-Export #1716

Fehlende Leerzeichen beim PDF-Export #1716

Comments

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

ghost commented Nov 29, 2011

leofeyer commented Nov 29, 2011

leofeyer commented Nov 29, 2011