Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Very long inline <ref>s #186

Closed
xeladotbe opened this issue Sep 20, 2018 · 4 comments
Closed

Very long inline <ref>s #186

xeladotbe opened this issue Sep 20, 2018 · 4 comments

Comments

@xeladotbe
Copy link

const wtf = require('wtf_wikipedia');
const document = wtf("{{Begriffsklärungshinweis}}\n[[Datei:Michael Jackson in 1988.jpg|mini|Michael Jackson in [[Wien]] (1988)]]\n[[Datei:Michael Jackson signature.svg|rahmenlos|rechts|Michael Jacksons Unterschrift (2002)]]\n'''Michael Joseph<ref> \"Einige Fans bestehen darauf, dass Michael Jacksons Zweitname ''Joe'' und nicht ''Joseph'' lautet. Aber Michael wurde Anfang der 1990er Jahre bei einer eidesstattlichen Aussage, bei der es um die Urheberrechte zu seinem Song ''Dangerous'' ging, gebeten, seinen vollen Namen auszusprechen, und er sagte klar und deutlich ''Michael Joseph Jackson''. In einigen seiner Ausweise (z.&nbsp;B. Führerschein, Motown-Mitgliedskarte) stand zwar ''Joe'' (was des Öfteren für Verwirrung sorgte), aber ''Joe'' ist die Abkürzung von ''Joseph''. Die Staatsanwaltschaft übernahm beim Prozess 2005 diese Schreibweise, weil ''Joe'' in Michaels Ausweis vermerkt war, den sie im Dezember 2003 konfisziert hatten. In den Geburtsurkunden seiner drei Kinder steht als Name des Vaters ''Michael Joseph Jackson''. Auch in seiner Heiratsurkunde mit Lisa Marie Presley steht ''Joseph'' als Zweitname.\" Zitiert nach Pade & Risi, Make that change, S. 563 </ref> Jackson'''");
document.sections(0).sentences(0)

Sentence {
  data:
   { text: '\'Michael Joseph "Einige Fans bestehen darauf, dass Michael Jacksons Zweitname Joe und nicht Joseph lautet. Aber Michael wurde Anfang der 1990er Jahre bei einer eidesstattlichen Aussage, bei der es um die Urheberrechte zu seinem Song Dangerous ging, gebeten, seinen vollen Namen auszusprechen, und er sagte klar und deutlich Michael Joseph Jackson. In einigen seiner Ausweise (z. B. Führerschein, Motown-Mitgliedskarte) stand zwar Joe (was des Öfteren für Verwirrung sorgte), aber Joe ist die Abkürzung von Joseph. Die Staatsanwaltschaft übernahm beim Prozess 2005 diese Schreibweise, weil Joe in Michaels Ausweis vermerkt war, den sie im Dezember 2003 konfisziert hatten. In den Geburtsurkunden seiner drei Kinder steht als Name des Vaters Michael Joseph Jackson. Auch in seiner Heiratsurkunde mit Lisa Marie Presley steht Joseph\'\' als Zweitname."',
     fmt: { italic: [Array] } } }

expected:

Michael Joseph Jackson (* 29. August 1958 in Gary, Indiana; † 25. Juni 2009 in Los Angeles, Kalifornien) war ein US-amerikanischer Sänger, Tänzer, Songwriter, Autor, Musik- und Filmproduzent sowie ein einflussreicher Musikmanager.

Wikitext URL:
https://de.wikipedia.org/w/api.php?action=query&redirects=true&prop=revisions&rvprop=content&maxlag=5&format=json&origin=*&titles=Michael%20Jackson

@spencermountain spencermountain changed the title Michael Jackson / de Very long inline <ref>s Sep 21, 2018
@spencermountain
Copy link
Owner

oh man, is that a 900-char inline reference, after the first word?

yikes. I can look at extending the maximum for this. It was originally a guard against mis-parsing the whole page, if I can remember.
good find, thank you.

@ephdot
Copy link
Contributor

ephdot commented Sep 22, 2018

Has an initial, simple, BNF pre-parser been considered to take care of nested curlies and such and to limit the string length when doing regex on the content? Downsides include potential extra parse time and failure( or revert to original method on failure). Maybe for a future version?

@spencermountain
Copy link
Owner

i'll read some about it this week, good idea, thanks.

@spencermountain
Copy link
Owner

works in 6.0.0, please check it out.
cheers

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants