From 7e15c37b34981adddf70fee1338bfd45300efe0b Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 11:17:05 -0300
Subject: [PATCH 1/9] =?UTF-8?q?Renomeia=20o=20m=C3=B3dulo=20ent2char=20par?=
 =?UTF-8?q?a=20xml=5Floader?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/{ent2char.py => xml_loader.py} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename packtools/sps/pid_provider/{ent2char.py => xml_loader.py} (100%)

diff --git a/packtools/sps/pid_provider/ent2char.py b/packtools/sps/pid_provider/xml_loader.py
similarity index 100%
rename from packtools/sps/pid_provider/ent2char.py
rename to packtools/sps/pid_provider/xml_loader.py

From 3db2953719b14f001a062a287a4827b5dcd260f9 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 11:20:27 -0300
Subject: [PATCH 2/9] =?UTF-8?q?Mant=C3=A9m=20dois=20tipos=20de=20dicion?=
 =?UTF-8?q?=C3=A1rios=20para=20apoiar=20a=20troca=20das=20entidade=20nomea?=
 =?UTF-8?q?das?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/amp_name2number.py | 411 +++++++++
 packtools/sps/pid_provider/name2number.py     | 787 +++++++++---------
 2 files changed, 805 insertions(+), 393 deletions(-)
 create mode 100644 packtools/sps/pid_provider/amp_name2number.py

diff --git a/packtools/sps/pid_provider/amp_name2number.py b/packtools/sps/pid_provider/amp_name2number.py
new file mode 100644
index 000000000..7289dfe82
--- /dev/null
+++ b/packtools/sps/pid_provider/amp_name2number.py
@@ -0,0 +1,411 @@
+AMP_NAME_TO_NUMBER_ENTITIES = {
+    "&amp;rquo;": "'",
+    "&amp;lquo;": "'",
+    "&amp;Agrave;": "&#192;",
+    "&amp;Aacute;": "&#193;",
+    "&amp;Acirc;": "&#194;",
+    "&amp;Atilde;": "&#195;",
+    "&amp;Auml;": "&#196;",
+    "&amp;Aring;": "&#197;",
+    "&amp;AElig;": "&#198;",
+    "&amp;Ccedil;": "&#199;",
+    "&amp;Egrave;": "&#200;",
+    "&amp;Eacute;": "&#201;",
+    "&amp;Ecirc;": "&#202;",
+    "&amp;Euml;": "&#203;",
+    "&amp;Igrave;": "&#204;",
+    "&amp;Iacute;": "&#205;",
+    "&amp;Icirc;": "&#206;",
+    "&amp;Iuml;": "&#207;",
+    "&amp;ETH;": "&#208;",
+    "&amp;Ntilde;": "&#209;",
+    "&amp;Ograve;": "&#210;",
+    "&amp;Oacute;": "&#211;",
+    "&amp;Ocirc;": "&#212;",
+    "&amp;Otilde;": "&#213;",
+    "&amp;Ouml;": "&#214;",
+    "&amp;Oslash;": "&#216;",
+    "&amp;Ugrave;": "&#217;",
+    "&amp;Uacute;": "&#218;",
+    "&amp;Ucirc;": "&#219;",
+    "&amp;Uuml;": "&#220;",
+    "&amp;Yacute;": "&#221;",
+    "&amp;THORN;": "&#222;",
+    "&amp;szlig;": "&#223;",
+    "&amp;agrave;": "&#224;",
+    "&amp;aacute;": "&#225;",
+    "&amp;acirc;": "&#226;",
+    "&amp;atilde;": "&#227;",
+    "&amp;auml;": "&#228;",
+    "&amp;aring;": "&#229;",
+    "&amp;aelig;": "&#230;",
+    "&amp;ccedil;": "&#231;",
+    "&amp;egrave;": "&#232;",
+    "&amp;eacute;": "&#233;",
+    "&amp;ecirc;": "&#234;",
+    "&amp;euml;": "&#235;",
+    "&amp;igrave;": "&#236;",
+    "&amp;iacute;": "&#237;",
+    "&amp;icirc;": "&#238;",
+    "&amp;iuml;": "&#239;",
+    "&amp;eth;": "&#240;",
+    "&amp;ntilde;": "&#241;",
+    "&amp;ograve;": "&#242;",
+    "&amp;oacute;": "&#243;",
+    "&amp;ocirc;": "&#244;",
+    "&amp;otilde;": "&#245;",
+    "&amp;ouml;": "&#246;",
+    "&amp;oslash;": "&#248;",
+    "&amp;ugrave;": "&#249;",
+    "&amp;uacute;": "&#250;",
+    "&amp;ucirc;": "&#251;",
+    "&amp;uuml;": "&#252;",
+    "&amp;yacute;": "&#253;",
+    "&amp;thorn;": "&#254;",
+    "&amp;yuml;": "&#255;",
+    "&amp;rsquo;": "&#x2019;",
+    "&amp;nbsp;": "&#160;",
+    "&amp;iexcl;": "&#161;",
+    "&amp;cent;": "&#162;",
+    "&amp;pound;": "&#163;",
+    "&amp;curren;": "&#164;",
+    "&amp;yen;": "&#165;",
+    "&amp;brvbar;": "&#166;",
+    "&amp;sect;": "&#167;",
+    "&amp;uml;": "&#168;",
+    "&amp;copy;": "&#169;",
+    "&amp;ordf;": "&#170;",
+    "&amp;laquo;": "&#171;",
+    "&amp;not;": "&#172;",
+    "&amp;shy;": "&#173;",
+    "&amp;reg;": "&#174;",
+    "&amp;macr;": "&#175;",
+    "&amp;deg;": "&#176;",
+    "&amp;plusmn;": "&#177;",
+    "&amp;sup2;": "&#178;",
+    "&amp;sup3;": "&#179;",
+    "&amp;acute;": "&#180;",
+    "&amp;micro;": "&#181;",
+    "&amp;para;": "&#182;",
+    "&amp;middot;": "&#183;",
+    "&amp;cedil;": "&#184;",
+    "&amp;sup1;": "&#185;",
+    "&amp;ordm;": "&#186;",
+    "&amp;raquo;": "&#187;",
+    "&amp;frac14;": "&#188;",
+    "&amp;frac12;": "&#189;",
+    "&amp;frac34;": "&#190;",
+    "&amp;iquest;": "&#191;",
+    "&amp;quest;": "&#191;",
+    "&amp;lowbar;": "&#x005F;",
+    "&amp;times;": "&#215;",
+    "&amp;divide;": "&#247;",
+    "&amp;fnof;": "&#402;",
+    "&amp;Alpha;": "&#913;",
+    "&amp;Beta;": "&#914;",
+    "&amp;Gamma;": "&#915;",
+    "&amp;Delta;": "&#916;",
+    "&amp;Epsilon;": "&#917;",
+    "&amp;Zeta;": "&#918;",
+    "&amp;Eta;": "&#919;",
+    "&amp;Theta;": "&#920;",
+    "&amp;Iota;": "&#921;",
+    "&amp;Kappa;": "&#922;",
+    "&amp;Lambda;": "&#923;",
+    "&amp;Mu;": "&#924;",
+    "&amp;Nu;": "&#925;",
+    "&amp;Xi;": "&#926;",
+    "&amp;Omicron;": "&#927;",
+    "&amp;Pi;": "&#928;",
+    "&amp;Rho;": "&#929;",
+    "&amp;Sigma;": "&#931;",
+    "&amp;Tau;": "&#932;",
+    "&amp;Upsilon;": "&#933;",
+    "&amp;Phi;": "&#934;",
+    "&amp;Chi;": "&#935;",
+    "&amp;Psi;": "&#936;",
+    "&amp;Omega;": "&#937;",
+    "&amp;alpha;": "&#945;",
+    "&amp;beta;": "&#946;",
+    "&amp;gamma;": "&#947;",
+    "&amp;delta;": "&#948;",
+    "&amp;epsilon;": "&#949;",
+    "&amp;zeta;": "&#950;",
+    "&amp;eta;": "&#951;",
+    "&amp;theta;": "&#952;",
+    "&amp;iota;": "&#953;",
+    "&amp;kappa;": "&#954;",
+    "&amp;lambda;": "&#955;",
+    "&amp;mu;": "&#956;",
+    "&amp;nu;": "&#957;",
+    "&amp;xi;": "&#958;",
+    "&amp;omicron;": "&#959;",
+    "&amp;pi;": "&#960;",
+    "&amp;rho;": "&#961;",
+    "&amp;sigmaf;": "&#962;",
+    "&amp;sigma;": "&#963;",
+    "&amp;tau;": "&#964;",
+    "&amp;upsilon;": "&#965;",
+    "&amp;phi;": "&#966;",
+    "&amp;chi;": "&#967;",
+    "&amp;psi;": "&#968;",
+    "&amp;omega;": "&#969;",
+    "&amp;thetasym;": "&#977;",
+    "&amp;upsih;": "&#978;",
+    "&amp;piv;": "&#982;",
+    "&amp;bull;": "&#8226;",
+    "&amp;hellip;": "&#8230;",
+    "&amp;prime;": "&#8242;",
+    "&amp;Prime;": "&#8243;",
+    "&amp;oline;": "&#8254;",
+    "&amp;frasl;": "&#8260;",
+    "&amp;weierp;": "&#8472;",
+    "&amp;image;": "&#8465;",
+    "&amp;real;": "&#8476;",
+    "&amp;trade;": "&#8482;",
+    "&amp;alefsym;": "&#8501;",
+    "&amp;larr;": "&#8592;",
+    "&amp;uarr;": "&#8593;",
+    "&amp;rarr;": "&#8594;",
+    "&amp;darr;": "&#8595;",
+    "&amp;harr;": "&#8596;",
+    "&amp;crarr;": "&#8629;",
+    "&amp;lArr;": "&#8656;",
+    "&amp;uArr;": "&#8657;",
+    "&amp;rArr;": "&#8658;",
+    "&amp;dArr;": "&#8659;",
+    "&amp;hArr;": "&#8660;",
+    "&amp;forall;": "&#8704;",
+    "&amp;part;": "&#8706;",
+    "&amp;exist;": "&#8707;",
+    "&amp;empty;": "&#8709;",
+    "&amp;nabla;": "&#8711;",
+    "&amp;isin;": "&#8712;",
+    "&amp;notin;": "&#8713;",
+    "&amp;ni;": "&#8715;",
+    "&amp;prod;": "&#8719;",
+    "&amp;sum;": "&#8721;",
+    "&amp;minus;": "&#8722;",
+    "&amp;lowast;": "&#8727;",
+    "&amp;radic;": "&#8730;",
+    "&amp;prop;": "&#8733;",
+    "&amp;infin;": "&#8734;",
+    "&amp;ang;": "&#8736;",
+    "&amp;and;": "&#8869;",
+    "&amp;or;": "&#8870;",
+    "&amp;cap;": "&#8745;",
+    "&amp;cup;": "&#8746;",
+    "&amp;int;": "&#8747;",
+    "&amp;there4;": "&#8756;",
+    "&amp;sim;": "&#8764;",
+    "&amp;cong;": "&#8773;",
+    "&amp;asymp;": "&#8776;",
+    "&amp;ne;": "&#8800;",
+    "&amp;equiv;": "&#8801;",
+    "&amp;le;": "&#8804;",
+    "&amp;ge;": "&#8805;",
+    "&amp;sub;": "&#8834;",
+    "&amp;sup;": "&#8835;",
+    "&amp;nsub;": "&#8836;",
+    "&amp;sube;": "&#8838;",
+    "&amp;supe;": "&#8839;",
+    "&amp;oplus;": "&#8853;",
+    "&amp;otimes;": "&#8855;",
+    "&amp;perp;": "&#8869;",
+    "&amp;sdot;": "&#8901;",
+    "&amp;lceil;": "&#8968;",
+    "&amp;rceil;": "&#8969;",
+    "&amp;lfloor;": "&#8970;",
+    "&amp;rfloor;": "&#8971;",
+    "&amp;lang;": "&#9001;",
+    "&amp;rang;": "&#9002;",
+    "&amp;loz;": "&#9674;",
+    "&amp;spades;": "&#9824;",
+    "&amp;clubs;": "&#9827;",
+    "&amp;hearts;": "&#9829;",
+    "&amp;diams;": "&#9830;",
+    "&amp;quot;": "&#34;",
+    "&amp;OElig;": "&#338;",
+    "&amp;oelig;": "&#339;",
+    "&amp;Scaron;": "&#352;",
+    "&amp;scaron;": "&#353;",
+    "&amp;Yuml;": "&#376;",
+    "&amp;circ;": "&#710;",
+    "&amp;tilde;": "&#732;",
+    "&amp;ensp;": "&#8194;",
+    "&amp;emsp;": "&#8195;",
+    "&amp;thinsp;": "&#8201;",
+    "&amp;zwnj;": "&#8204;",
+    "&amp;zwj;": "&#8205;",
+    "&amp;lrm;": "&#8206;",
+    "&amp;rlm;": "&#8207;",
+    "&amp;ndash;": "&#8211;",
+    "&amp;mdash;": "&#8212;",
+    "&amp;lsquo;": "&#8216;",
+    "&amp;rsquo;": "&#8217;",
+    "&amp;sbquo;": "&#8218;",
+    "&amp;ldquo;": "&#8220;",
+    "&amp;rdquo;": "&#8221;",
+    "&amp;bdquo;": "&#8222;",
+    "&amp;dagger;": "&#8224;",
+    "&amp;Dagger;": "&#8225;",
+    "&amp;permil;": "&#8240;",
+    "&amp;lsaquo;": "&#8249;",
+    "&amp;rsaquo;": "&#8250;",
+    "&amp;hairsp;": "&#8202;",
+    "&amp;plus;": "&#43;",
+    "&amp;Eur;": "&#128;",
+    "&amp;low;": "&#130;",
+    "&amp;small;": "&#131;",
+    "&amp;per;": "&#137;",
+    "&amp;capital;": "&#138;",
+    "&amp;left;": "&#139;",
+    "&amp;right;": "&#155;",
+    "&amp;Amacr;": "&#256;",
+    "&amp;amacr;": "&#257;",
+    "&amp;Acaron;": "&#258;",
+    "&amp;acaron;": "&#259;",
+    "&amp;Acedil;": "&#260;",
+    "&amp;acedil;": "&#261;",
+    "&amp;Cacute;": "&#262;",
+    "&amp;cacute;": "&#263;",
+    "&amp;Ccaron;": "&#268;",
+    "&amp;ccaron;": "&#269;",
+    "&amp;Dcaron;": "&#270;",
+    "&amp;Dstrok;": "&#272;",
+    "&amp;dstrok;": "&#273;",
+    "&amp;Emacr;": "&#274;",
+    "&amp;emacr;": "&#276;",
+    "&amp;Edot;": "&#278;",
+    "&amp;edot;": "&#279;",
+    "&amp;Ecedil;": "&#280;",
+    "&amp;ecedil;": "&#281;",
+    "&amp;Ecaron;": "&#282;",
+    "&amp;ecaron;": "&#283;",
+    "&amp;Gcaron;": "&#286;",
+    "&amp;gcaron;": "&#287;",
+    "&amp;Gcedil;": "&#290;",
+    "&amp;gapos;": "&#292;",
+    "&amp;Imacr;": "&#298;",
+    "&amp;imacr;": "&#299;",
+    "&amp;Icedil;": "&#304;",
+    "&amp;Kcedil;": "&#310;",
+    "&amp;kcedil;": "&#311;",
+    "&amp;Lacute;": "&#313;",
+    "&amp;lacute;": "&#314;",
+    "&amp;Lcedil;": "&#315;",
+    "&amp;lcedil;": "&#316;",
+    "&amp;Lstrok;": "&#321;",
+    "&amp;lstrok;": "&#322;",
+    "&amp;Nacute;": "&#323;",
+    "&amp;nacute;": "&#324;",
+    "&amp;Ncedil;": "&#325;",
+    "&amp;ncedil;": "&#326;",
+    "&amp;Ncaron;": "&#327;",
+    "&amp;ncaron;": "&#328;",
+    "&amp;Omacr;": "&#332;",
+    "&amp;omacr;": "&#333;",
+    "&amp;Odblac;": "&#336;",
+    "&amp;odblac;": "&#337;",
+    "&amp;Rcedil;": "&#342;",
+    "&amp;rcedil;": "&#343;",
+    "&amp;Rcaron;": "&#344;",
+    "&amp;rcaron;": "&#345;",
+    "&amp;Sacute;": "&#346;",
+    "&amp;sacute;": "&#347;",
+    "&amp;Scedil;": "&#350;",
+    "&amp;scedil;": "&#351;",
+    "&amp;Tcedil;": "&#354;",
+    "&amp;tcedil;": "&#355;",
+    "&amp;Tcaron;": "&#356;",
+    "&amp;tcaron;": "&#357;",
+    "&amp;Umacr;": "&#362;",
+    "&amp;umacr;": "&#363;",
+    "&amp;Uring;": "&#366;",
+    "&amp;uring;": "&#367;",
+    "&amp;Udblac;": "&#368;",
+    "&amp;udblac;": "&#369;",
+    "&amp;Ucedil;": "&#370;",
+    "&amp;ucedil;": "&#371;",
+    "&amp;Zacute;": "&#377;",
+    "&amp;zacute;": "&#378;",
+    "&amp;Zdot;": "&#379;",
+    "&amp;zdot;": "&#380;",
+    "&amp;Zcaron;": "&#381;",
+    "&amp;zcaron;": "&#382;",
+    "&amp;percnt;": "&#37;",
+    "&amp;emsp14;": "&#x2005;",
+    "&amp;lsqb;": "&#91;",
+    "&amp;rsqb;": "&#93;",
+    "&amp;ast;": "&#42;",
+    "&amp;Agr;": "&#x0391;",
+    "&amp;agr;": "&#x03b1;",
+    "&amp;Bgr;": "&#x0392;",
+    "&amp;bgr;": "&#x03b2;",
+    "&amp;Dgr;": "&#x0394;",
+    "&amp;dgr;": "&#x03b4;",
+    "&amp;EEgr;": "&#x0397;",
+    "&amp;eegr;": "&#x03b7;",
+    "&amp;Egr;": "&#x0395;",
+    "&amp;egr;": "&#x03b5;",
+    "&amp;Ggr;": "&#x0393;",
+    "&amp;ggr;": "&#x03b3;",
+    "&amp;Igr;": "&#x0399;",
+    "&amp;igr;": "&#x03b9;",
+    "&amp;Kgr;": "&#x039a;",
+    "&amp;kgr;": "&#x3ba;",
+    "&amp;KHgr;": "&#x03a7;",
+    "&amp;khgr;": "&#x03c7;",
+    "&amp;Lgr;": "&#x039b;",
+    "&amp;lgr;": "&#x03bb;",
+    "&amp;Mgr;": "&#x039c;",
+    "&amp;mgr;": "&#x03bc;",
+    "&amp;Ngr;": "&#x039d;",
+    "&amp;ngr;": "&#x03bd;",
+    "&amp;Ogr;": "&#x039f;",
+    "&amp;ogr;": "&#x03bf;",
+    "&amp;OHgr;": "&#x03a9;",
+    "&amp;ohgr;": "&#x03c9;",
+    "&amp;Pgr;": "&#x03a0;",
+    "&amp;pgr;": "&#x03c0;",
+    "&amp;PHgr;": "&#x03a6;",
+    "&amp;phgr;": "&#x03c6;",
+    "&amp;PSgr;": "&#x03a8;",
+    "&amp;psgr;": "&#x03c8;",
+    "&amp;Rgr;": "&#x03a1;",
+    "&amp;rgr;": "&#x03c1;",
+    "&amp;Sgr;": "&#x03a3;",
+    "&amp;sgr;": "&#x03c3;",
+    "&amp;Tgr;": "&#x03a4;",
+    "&amp;tgr;": "&#x03c4;",
+    "&amp;THgr;": "&#x0398;",
+    "&amp;thgr;": "&#x03b8;",
+    "&amp;Ugr;": "&#x03a5;",
+    "&amp;ugr;": "&#x03c5;",
+    "&amp;Xgr;": "&#x039e;",
+    "&amp;xgr;": "&#x03be;",
+    "&amp;Zgr;": "&#x0396;",
+    "&amp;zgr;": "&#x03b6;",
+    "&amp;abreve;": "&#259;",
+    "&amp;female;": "&#9792;",
+    "&amp;male;": "&#9794;",
+    "&amp;sol;": "&#47;",
+    "&amp;lpar;": "&#40;",
+    "&amp;rpar;": "&#41;",
+    "&amp;euro;": "&#8364;",
+}
+
+# Exemplo de uso:
+if __name__ == "__main__":
+    # Testando algumas conversões
+    test_entities = ["&Aacute;", "&ccedil;", "&euro;", "&nbsp;"]
+
+    print("Exemplos de conversão:")
+    print("-" * 40)
+    for entity in test_entities:
+        if entity in NAME_TO_NUMBER_ENTITIES:
+            print(f"{entity:15} -> {NAME_TO_NUMBER_ENTITIES[entity]}")
+        else:
+            print(f"{entity:15} -> Não encontrado")
+
+    print(f"\nTotal de entidades no dicionário: {len(NAME_TO_NUMBER_ENTITIES)}")
diff --git a/packtools/sps/pid_provider/name2number.py b/packtools/sps/pid_provider/name2number.py
index 2af9d63b9..2e23a8697 100644
--- a/packtools/sps/pid_provider/name2number.py
+++ b/packtools/sps/pid_provider/name2number.py
@@ -1,397 +1,398 @@
 NAME_TO_NUMBER_ENTITIES = {
-    "&amp;rquo;": "'",
-    "&amp;lquo;": "'",
-    "&amp;Agrave;": "&#192;",
-    "&amp;Aacute;": "&#193;",
-    "&amp;Acirc;": "&#194;",
-    "&amp;Atilde;": "&#195;",
-    "&amp;Auml;": "&#196;",
-    "&amp;Aring;": "&#197;",
-    "&amp;AElig;": "&#198;",
-    "&amp;Ccedil;": "&#199;",
-    "&amp;Egrave;": "&#200;",
-    "&amp;Eacute;": "&#201;",
-    "&amp;Ecirc;": "&#202;",
-    "&amp;Euml;": "&#203;",
-    "&amp;Igrave;": "&#204;",
-    "&amp;Iacute;": "&#205;",
-    "&amp;Icirc;": "&#206;",
-    "&amp;Iuml;": "&#207;",
-    "&amp;ETH;": "&#208;",
-    "&amp;Ntilde;": "&#209;",
-    "&amp;Ograve;": "&#210;",
-    "&amp;Oacute;": "&#211;",
-    "&amp;Ocirc;": "&#212;",
-    "&amp;Otilde;": "&#213;",
-    "&amp;Ouml;": "&#214;",
-    "&amp;Oslash;": "&#216;",
-    "&amp;Ugrave;": "&#217;",
-    "&amp;Uacute;": "&#218;",
-    "&amp;Ucirc;": "&#219;",
-    "&amp;Uuml;": "&#220;",
-    "&amp;Yacute;": "&#221;",
-    "&amp;THORN;": "&#222;",
-    "&amp;szlig;": "&#223;",
-    "&amp;agrave;": "&#224;",
-    "&amp;aacute;": "&#225;",
-    "&amp;acirc;": "&#226;",
-    "&amp;atilde;": "&#227;",
-    "&amp;auml;": "&#228;",
-    "&amp;aring;": "&#229;",
-    "&amp;aelig;": "&#230;",
-    "&amp;ccedil;": "&#231;",
-    "&amp;egrave;": "&#232;",
-    "&amp;eacute;": "&#233;",
-    "&amp;ecirc;": "&#234;",
-    "&amp;euml;": "&#235;",
-    "&amp;igrave;": "&#236;",
-    "&amp;iacute;": "&#237;",
-    "&amp;icirc;": "&#238;",
-    "&amp;iuml;": "&#239;",
-    "&amp;eth;": "&#240;",
-    "&amp;ntilde;": "&#241;",
-    "&amp;ograve;": "&#242;",
-    "&amp;oacute;": "&#243;",
-    "&amp;ocirc;": "&#244;",
-    "&amp;otilde;": "&#245;",
-    "&amp;ouml;": "&#246;",
-    "&amp;oslash;": "&#248;",
-    "&amp;ugrave;": "&#249;",
-    "&amp;uacute;": "&#250;",
-    "&amp;ucirc;": "&#251;",
-    "&amp;uuml;": "&#252;",
-    "&amp;yacute;": "&#253;",
-    "&amp;thorn;": "&#254;",
-    "&amp;yuml;": "&#255;",
-    "&amp;rsquo;": "&#x2019;",
-    "&amp;nbsp;": "&#160;",
-    "&amp;iexcl;": "&#161;",
-    "&amp;cent;": "&#162;",
-    "&amp;pound;": "&#163;",
-    "&amp;curren;": "&#164;",
-    "&amp;yen;": "&#165;",
-    "&amp;brvbar;": "&#166;",
-    "&amp;sect;": "&#167;",
-    "&amp;uml;": "&#168;",
-    "&amp;copy;": "&#169;",
-    "&amp;ordf;": "&#170;",
-    "&amp;laquo;": "&#171;",
-    "&amp;not;": "&#172;",
-    "&amp;shy;": "&#173;",
-    "&amp;reg;": "&#174;",
-    "&amp;macr;": "&#175;",
-    "&amp;deg;": "&#176;",
-    "&amp;plusmn;": "&#177;",
-    "&amp;sup2;": "&#178;",
-    "&amp;sup3;": "&#179;",
-    "&amp;acute;": "&#180;",
-    "&amp;micro;": "&#181;",
-    "&amp;para;": "&#182;",
-    "&amp;middot;": "&#183;",
-    "&amp;cedil;": "&#184;",
-    "&amp;sup1;": "&#185;",
-    "&amp;ordm;": "&#186;",
-    "&amp;raquo;": "&#187;",
-    "&amp;frac14;": "&#188;",
-    "&amp;frac12;": "&#189;",
-    "&amp;frac34;": "&#190;",
-    "&amp;iquest;": "&#191;",
-    "&amp;quest;": "&#191;",
-    "&amp;lowbar;": "&#x005F;",
-    "&amp;times;": "&#215;",
-    "&amp;divide;": "&#247;",
-    "&amp;fnof;": "&#402;",
-    "&amp;Alpha;": "&#913;",
-    "&amp;Beta;": "&#914;",
-    "&amp;Gamma;": "&#915;",
-    "&amp;Delta;": "&#916;",
-    "&amp;Epsilon;": "&#917;",
-    "&amp;Zeta;": "&#918;",
-    "&amp;Eta;": "&#919;",
-    "&amp;Theta;": "&#920;",
-    "&amp;Iota;": "&#921;",
-    "&amp;Kappa;": "&#922;",
-    "&amp;Lambda;": "&#923;",
-    "&amp;Mu;": "&#924;",
-    "&amp;Nu;": "&#925;",
-    "&amp;Xi;": "&#926;",
-    "&amp;Omicron;": "&#927;",
-    "&amp;Pi;": "&#928;",
-    "&amp;Rho;": "&#929;",
-    "&amp;Sigma;": "&#931;",
-    "&amp;Tau;": "&#932;",
-    "&amp;Upsilon;": "&#933;",
-    "&amp;Phi;": "&#934;",
-    "&amp;Chi;": "&#935;",
-    "&amp;Psi;": "&#936;",
-    "&amp;Omega;": "&#937;",
-    "&amp;alpha;": "&#945;",
-    "&amp;beta;": "&#946;",
-    "&amp;gamma;": "&#947;",
-    "&amp;delta;": "&#948;",
-    "&amp;epsilon;": "&#949;",
-    "&amp;zeta;": "&#950;",
-    "&amp;eta;": "&#951;",
-    "&amp;theta;": "&#952;",
-    "&amp;iota;": "&#953;",
-    "&amp;kappa;": "&#954;",
-    "&amp;lambda;": "&#955;",
-    "&amp;mu;": "&#956;",
-    "&amp;nu;": "&#957;",
-    "&amp;xi;": "&#958;",
-    "&amp;omicron;": "&#959;",
-    "&amp;pi;": "&#960;",
-    "&amp;rho;": "&#961;",
-    "&amp;sigmaf;": "&#962;",
-    "&amp;sigma;": "&#963;",
-    "&amp;tau;": "&#964;",
-    "&amp;upsilon;": "&#965;",
-    "&amp;phi;": "&#966;",
-    "&amp;chi;": "&#967;",
-    "&amp;psi;": "&#968;",
-    "&amp;omega;": "&#969;",
-    "&amp;thetasym;": "&#977;",
-    "&amp;upsih;": "&#978;",
-    "&amp;piv;": "&#982;",
-    "&amp;bull;": "&#8226;",
-    "&amp;hellip;": "&#8230;",
-    "&amp;prime;": "&#8242;",
-    "&amp;Prime;": "&#8243;",
-    "&amp;oline;": "&#8254;",
-    "&amp;frasl;": "&#8260;",
-    "&amp;weierp;": "&#8472;",
-    "&amp;image;": "&#8465;",
-    "&amp;real;": "&#8476;",
-    "&amp;trade;": "&#8482;",
-    "&amp;alefsym;": "&#8501;",
-    "&amp;larr;": "&#8592;",
-    "&amp;uarr;": "&#8593;",
-    "&amp;rarr;": "&#8594;",
-    "&amp;darr;": "&#8595;",
-    "&amp;harr;": "&#8596;",
-    "&amp;crarr;": "&#8629;",
-    "&amp;lArr;": "&#8656;",
-    "&amp;uArr;": "&#8657;",
-    "&amp;rArr;": "&#8658;",
-    "&amp;dArr;": "&#8659;",
-    "&amp;hArr;": "&#8660;",
-    "&amp;forall;": "&#8704;",
-    "&amp;part;": "&#8706;",
-    "&amp;exist;": "&#8707;",
-    "&amp;empty;": "&#8709;",
-    "&amp;nabla;": "&#8711;",
-    "&amp;isin;": "&#8712;",
-    "&amp;notin;": "&#8713;",
-    "&amp;ni;": "&#8715;",
-    "&amp;prod;": "&#8719;",
-    "&amp;sum;": "&#8721;",
-    "&amp;minus;": "&#8722;",
-    "&amp;lowast;": "&#8727;",
-    "&amp;radic;": "&#8730;",
-    "&amp;prop;": "&#8733;",
-    "&amp;infin;": "&#8734;",
-    "&amp;ang;": "&#8736;",
-    "&amp;and;": "&#8869;",
-    "&amp;or;": "&#8870;",
-    "&amp;cap;": "&#8745;",
-    "&amp;cup;": "&#8746;",
-    "&amp;int;": "&#8747;",
-    "&amp;there4;": "&#8756;",
-    "&amp;sim;": "&#8764;",
-    "&amp;cong;": "&#8773;",
-    "&amp;asymp;": "&#8776;",
-    "&amp;ne;": "&#8800;",
-    "&amp;equiv;": "&#8801;",
-    "&amp;le;": "&#8804;",
-    "&amp;ge;": "&#8805;",
-    "&amp;sub;": "&#8834;",
-    "&amp;sup;": "&#8835;",
-    "&amp;nsub;": "&#8836;",
-    "&amp;sube;": "&#8838;",
-    "&amp;supe;": "&#8839;",
-    "&amp;oplus;": "&#8853;",
-    "&amp;otimes;": "&#8855;",
-    "&amp;perp;": "&#8869;",
-    "&amp;sdot;": "&#8901;",
-    "&amp;lceil;": "&#8968;",
-    "&amp;rceil;": "&#8969;",
-    "&amp;lfloor;": "&#8970;",
-    "&amp;rfloor;": "&#8971;",
-    "&amp;lang;": "&#9001;",
-    "&amp;rang;": "&#9002;",
-    "&amp;loz;": "&#9674;",
-    "&amp;spades;": "&#9824;",
-    "&amp;clubs;": "&#9827;",
-    "&amp;hearts;": "&#9829;",
-    "&amp;diams;": "&#9830;",
-    "&amp;quot;": "&#34;",
-    "&amp;OElig;": "&#338;",
-    "&amp;oelig;": "&#339;",
-    "&amp;Scaron;": "&#352;",
-    "&amp;scaron;": "&#353;",
-    "&amp;Yuml;": "&#376;",
-    "&amp;circ;": "&#710;",
-    "&amp;tilde;": "&#732;",
-    "&amp;ensp;": "&#8194;",
-    "&amp;emsp;": "&#8195;",
-    "&amp;thinsp;": "&#8201;",
-    "&amp;zwnj;": "&#8204;",
-    "&amp;zwj;": "&#8205;",
-    "&amp;lrm;": "&#8206;",
-    "&amp;rlm;": "&#8207;",
-    "&amp;ndash;": "&#8211;",
-    "&amp;mdash;": "&#8212;",
-    "&amp;lsquo;": "&#8216;",
-    "&amp;rsquo;": "&#8217;",
-    "&amp;sbquo;": "&#8218;",
-    "&amp;ldquo;": "&#8220;",
-    "&amp;rdquo;": "&#8221;",
-    "&amp;bdquo;": "&#8222;",
-    "&amp;dagger;": "&#8224;",
-    "&amp;Dagger;": "&#8225;",
-    "&amp;permil;": "&#8240;",
-    "&amp;lsaquo;": "&#8249;",
-    "&amp;rsaquo;": "&#8250;",
-    "&amp;hairsp;": "&#8202;",
-    "&amp;plus;": "&#43;",
-    "&amp;Eur;": "&#128;",
-    "&amp;low;": "&#130;",
-    "&amp;small;": "&#131;",
-    "&amp;per;": "&#137;",
-    "&amp;capital;": "&#138;",
-    "&amp;left;": "&#139;",
-    "&amp;right;": "&#155;",
-    "&amp;Amacr;": "&#256;",
-    "&amp;amacr;": "&#257;",
-    "&amp;Acaron;": "&#258;",
-    "&amp;acaron;": "&#259;",
-    "&amp;Acedil;": "&#260;",
-    "&amp;acedil;": "&#261;",
-    "&amp;Cacute;": "&#262;",
-    "&amp;cacute;": "&#263;",
-    "&amp;Ccaron;": "&#268;",
-    "&amp;ccaron;": "&#269;",
-    "&amp;Dcaron;": "&#270;",
-    "&amp;Dstrok;": "&#272;",
-    "&amp;dstrok;": "&#273;",
-    "&amp;Emacr;": "&#274;",
-    "&amp;emacr;": "&#276;",
-    "&amp;Edot;": "&#278;",
-    "&amp;edot;": "&#279;",
-    "&amp;Ecedil;": "&#280;",
-    "&amp;ecedil;": "&#281;",
-    "&amp;Ecaron;": "&#282;",
-    "&amp;ecaron;": "&#283;",
-    "&amp;Gcaron;": "&#286;",
-    "&amp;gcaron;": "&#287;",
-    "&amp;Gcedil;": "&#290;",
-    "&amp;gapos;": "&#292;",
-    "&amp;Imacr;": "&#298;",
-    "&amp;imacr;": "&#299;",
-    "&amp;Icedil;": "&#304;",
-    "&amp;Kcedil;": "&#310;",
-    "&amp;kcedil;": "&#311;",
-    "&amp;Lacute;": "&#313;",
-    "&amp;lacute;": "&#314;",
-    "&amp;Lcedil;": "&#315;",
-    "&amp;lcedil;": "&#316;",
-    "&amp;Lstrok;": "&#321;",
-    "&amp;lstrok;": "&#322;",
-    "&amp;Nacute;": "&#323;",
-    "&amp;nacute;": "&#324;",
-    "&amp;Ncedil;": "&#325;",
-    "&amp;ncedil;": "&#326;",
-    "&amp;Ncaron;": "&#327;",
-    "&amp;ncaron;": "&#328;",
-    "&amp;Omacr;": "&#332;",
-    "&amp;omacr;": "&#333;",
-    "&amp;Odblac;": "&#336;",
-    "&amp;odblac;": "&#337;",
-    "&amp;Rcedil;": "&#342;",
-    "&amp;rcedil;": "&#343;",
-    "&amp;Rcaron;": "&#344;",
-    "&amp;rcaron;": "&#345;",
-    "&amp;Sacute;": "&#346;",
-    "&amp;sacute;": "&#347;",
-    "&amp;Scedil;": "&#350;",
-    "&amp;scedil;": "&#351;",
-    "&amp;Tcedil;": "&#354;",
-    "&amp;tcedil;": "&#355;",
-    "&amp;Tcaron;": "&#356;",
-    "&amp;tcaron;": "&#357;",
-    "&amp;Umacr;": "&#362;",
-    "&amp;umacr;": "&#363;",
-    "&amp;Uring;": "&#366;",
-    "&amp;uring;": "&#367;",
-    "&amp;Udblac;": "&#368;",
-    "&amp;udblac;": "&#369;",
-    "&amp;Ucedil;": "&#370;",
-    "&amp;ucedil;": "&#371;",
-    "&amp;Zacute;": "&#377;",
-    "&amp;zacute;": "&#378;",
-    "&amp;Zdot;": "&#379;",
-    "&amp;zdot;": "&#380;",
-    "&amp;Zcaron;": "&#381;",
-    "&amp;zcaron;": "&#382;",
-    "&amp;percnt;": "&#37;",
-    "&amp;emsp14;": "&#x2005;",
-    "&amp;lsqb;": "&#91;",
-    "&amp;rsqb;": "&#93;",
-    "&amp;ast;": "&#42;",
-    "&amp;Agr;": "&#x0391;",
-    "&amp;agr;": "&#x03b1;",
-    "&amp;Bgr;": "&#x0392;",
-    "&amp;bgr;": "&#x03b2;",
-    "&amp;Dgr;": "&#x0394;",
-    "&amp;dgr;": "&#x03b4;",
-    "&amp;EEgr;": "&#x0397;",
-    "&amp;eegr;": "&#x03b7;",
-    "&amp;Egr;": "&#x0395;",
-    "&amp;egr;": "&#x03b5;",
-    "&amp;Ggr;": "&#x0393;",
-    "&amp;ggr;": "&#x03b3;",
-    "&amp;Igr;": "&#x0399;",
-    "&amp;igr;": "&#x03b9;",
-    "&amp;Kgr;": "&#x039a;",
-    "&amp;kgr;": "&#x3ba;",
-    "&amp;KHgr;": "&#x03a7;",
-    "&amp;khgr;": "&#x03c7;",
-    "&amp;Lgr;": "&#x039b;",
-    "&amp;lgr;": "&#x03bb;",
-    "&amp;Mgr;": "&#x039c;",
-    "&amp;mgr;": "&#x03bc;",
-    "&amp;Ngr;": "&#x039d;",
-    "&amp;ngr;": "&#x03bd;",
-    "&amp;Ogr;": "&#x039f;",
-    "&amp;ogr;": "&#x03bf;",
-    "&amp;OHgr;": "&#x03a9;",
-    "&amp;ohgr;": "&#x03c9;",
-    "&amp;Pgr;": "&#x03a0;",
-    "&amp;pgr;": "&#x03c0;",
-    "&amp;PHgr;": "&#x03a6;",
-    "&amp;phgr;": "&#x03c6;",
-    "&amp;PSgr;": "&#x03a8;",
-    "&amp;psgr;": "&#x03c8;",
-    "&amp;Rgr;": "&#x03a1;",
-    "&amp;rgr;": "&#x03c1;",
-    "&amp;Sgr;": "&#x03a3;",
-    "&amp;sgr;": "&#x03c3;",
-    "&amp;Tgr;": "&#x03a4;",
-    "&amp;tgr;": "&#x03c4;",
-    "&amp;THgr;": "&#x0398;",
-    "&amp;thgr;": "&#x03b8;",
-    "&amp;Ugr;": "&#x03a5;",
-    "&amp;ugr;": "&#x03c5;",
-    "&amp;Xgr;": "&#x039e;",
-    "&amp;xgr;": "&#x03be;",
-    "&amp;Zgr;": "&#x0396;",
-    "&amp;zgr;": "&#x03b6;",
-    "&amp;abreve;": "&#259;",
-    "&amp;female;": "&#9792;",
-    "&amp;male;": "&#9794;",
-    "&amp;sol;": "&#47;",
-    "&amp;lpar;": "&#40;",
-    "&amp;rpar;": "&#41;",
+    "&rquo;": "'",
+    "&lquo;": "'",
+    "&Agrave;": "&#192;",
+    "&Aacute;": "&#193;",
+    "&Acirc;": "&#194;",
+    "&Atilde;": "&#195;",
+    "&Auml;": "&#196;",
+    "&Aring;": "&#197;",
+    "&AElig;": "&#198;",
+    "&Ccedil;": "&#199;",
+    "&Egrave;": "&#200;",
+    "&Eacute;": "&#201;",
+    "&Ecirc;": "&#202;",
+    "&Euml;": "&#203;",
+    "&Igrave;": "&#204;",
+    "&Iacute;": "&#205;",
+    "&Icirc;": "&#206;",
+    "&Iuml;": "&#207;",
+    "&ETH;": "&#208;",
+    "&Ntilde;": "&#209;",
+    "&Ograve;": "&#210;",
+    "&Oacute;": "&#211;",
+    "&Ocirc;": "&#212;",
+    "&Otilde;": "&#213;",
+    "&Ouml;": "&#214;",
+    "&Oslash;": "&#216;",
+    "&Ugrave;": "&#217;",
+    "&Uacute;": "&#218;",
+    "&Ucirc;": "&#219;",
+    "&Uuml;": "&#220;",
+    "&Yacute;": "&#221;",
+    "&THORN;": "&#222;",
+    "&szlig;": "&#223;",
+    "&agrave;": "&#224;",
+    "&aacute;": "&#225;",
+    "&acirc;": "&#226;",
+    "&atilde;": "&#227;",
+    "&auml;": "&#228;",
+    "&aring;": "&#229;",
+    "&aelig;": "&#230;",
+    "&ccedil;": "&#231;",
+    "&egrave;": "&#232;",
+    "&eacute;": "&#233;",
+    "&ecirc;": "&#234;",
+    "&euml;": "&#235;",
+    "&igrave;": "&#236;",
+    "&iacute;": "&#237;",
+    "&icirc;": "&#238;",
+    "&iuml;": "&#239;",
+    "&eth;": "&#240;",
+    "&ntilde;": "&#241;",
+    "&ograve;": "&#242;",
+    "&oacute;": "&#243;",
+    "&ocirc;": "&#244;",
+    "&otilde;": "&#245;",
+    "&ouml;": "&#246;",
+    "&oslash;": "&#248;",
+    "&ugrave;": "&#249;",
+    "&uacute;": "&#250;",
+    "&ucirc;": "&#251;",
+    "&uuml;": "&#252;",
+    "&yacute;": "&#253;",
+    "&thorn;": "&#254;",
+    "&yuml;": "&#255;",
+    "&rsquo;": "&#x2019;",
+    "&nbsp;": "&#160;",
+    "&iexcl;": "&#161;",
+    "&cent;": "&#162;",
+    "&pound;": "&#163;",
+    "&curren;": "&#164;",
+    "&yen;": "&#165;",
+    "&brvbar;": "&#166;",
+    "&sect;": "&#167;",
+    "&uml;": "&#168;",
+    "&copy;": "&#169;",
+    "&ordf;": "&#170;",
+    "&laquo;": "&#171;",
+    "&not;": "&#172;",
+    "&shy;": "&#173;",
+    "&reg;": "&#174;",
+    "&macr;": "&#175;",
+    "&deg;": "&#176;",
+    "&plusmn;": "&#177;",
+    "&sup2;": "&#178;",
+    "&sup3;": "&#179;",
+    "&acute;": "&#180;",
+    "&micro;": "&#181;",
+    "&para;": "&#182;",
+    "&middot;": "&#183;",
+    "&cedil;": "&#184;",
+    "&sup1;": "&#185;",
+    "&ordm;": "&#186;",
+    "&raquo;": "&#187;",
+    "&frac14;": "&#188;",
+    "&frac12;": "&#189;",
+    "&frac34;": "&#190;",
+    "&iquest;": "&#191;",
+    "&quest;": "&#191;",
+    "&lowbar;": "&#x005F;",
+    "&times;": "&#215;",
+    "&divide;": "&#247;",
+    "&fnof;": "&#402;",
+    "&Alpha;": "&#913;",
+    "&Beta;": "&#914;",
+    "&Gamma;": "&#915;",
+    "&Delta;": "&#916;",
+    "&Epsilon;": "&#917;",
+    "&Zeta;": "&#918;",
+    "&Eta;": "&#919;",
+    "&Theta;": "&#920;",
+    "&Iota;": "&#921;",
+    "&Kappa;": "&#922;",
+    "&Lambda;": "&#923;",
+    "&Mu;": "&#924;",
+    "&Nu;": "&#925;",
+    "&Xi;": "&#926;",
+    "&Omicron;": "&#927;",
+    "&Pi;": "&#928;",
+    "&Rho;": "&#929;",
+    "&Sigma;": "&#931;",
+    "&Tau;": "&#932;",
+    "&Upsilon;": "&#933;",
+    "&Phi;": "&#934;",
+    "&Chi;": "&#935;",
+    "&Psi;": "&#936;",
+    "&Omega;": "&#937;",
+    "&alpha;": "&#945;",
+    "&beta;": "&#946;",
+    "&gamma;": "&#947;",
+    "&delta;": "&#948;",
+    "&epsilon;": "&#949;",
+    "&zeta;": "&#950;",
+    "&eta;": "&#951;",
+    "&theta;": "&#952;",
+    "&iota;": "&#953;",
+    "&kappa;": "&#954;",
+    "&lambda;": "&#955;",
+    "&mu;": "&#956;",
+    "&nu;": "&#957;",
+    "&xi;": "&#958;",
+    "&omicron;": "&#959;",
+    "&pi;": "&#960;",
+    "&rho;": "&#961;",
+    "&sigmaf;": "&#962;",
+    "&sigma;": "&#963;",
+    "&tau;": "&#964;",
+    "&upsilon;": "&#965;",
+    "&phi;": "&#966;",
+    "&chi;": "&#967;",
+    "&psi;": "&#968;",
+    "&omega;": "&#969;",
+    "&thetasym;": "&#977;",
+    "&upsih;": "&#978;",
+    "&piv;": "&#982;",
+    "&bull;": "&#8226;",
+    "&hellip;": "&#8230;",
+    "&prime;": "&#8242;",
+    "&Prime;": "&#8243;",
+    "&oline;": "&#8254;",
+    "&frasl;": "&#8260;",
+    "&weierp;": "&#8472;",
+    "&image;": "&#8465;",
+    "&real;": "&#8476;",
+    "&trade;": "&#8482;",
+    "&alefsym;": "&#8501;",
+    "&larr;": "&#8592;",
+    "&uarr;": "&#8593;",
+    "&rarr;": "&#8594;",
+    "&darr;": "&#8595;",
+    "&harr;": "&#8596;",
+    "&crarr;": "&#8629;",
+    "&lArr;": "&#8656;",
+    "&uArr;": "&#8657;",
+    "&rArr;": "&#8658;",
+    "&dArr;": "&#8659;",
+    "&hArr;": "&#8660;",
+    "&forall;": "&#8704;",
+    "&part;": "&#8706;",
+    "&exist;": "&#8707;",
+    "&empty;": "&#8709;",
+    "&nabla;": "&#8711;",
+    "&isin;": "&#8712;",
+    "&notin;": "&#8713;",
+    "&ni;": "&#8715;",
+    "&prod;": "&#8719;",
+    "&sum;": "&#8721;",
+    "&minus;": "&#8722;",
+    "&lowast;": "&#8727;",
+    "&radic;": "&#8730;",
+    "&prop;": "&#8733;",
+    "&infin;": "&#8734;",
+    "&ang;": "&#8736;",
+    "&and;": "&#8869;",
+    "&or;": "&#8870;",
+    "&cap;": "&#8745;",
+    "&cup;": "&#8746;",
+    "&int;": "&#8747;",
+    "&there4;": "&#8756;",
+    "&sim;": "&#8764;",
+    "&cong;": "&#8773;",
+    "&asymp;": "&#8776;",
+    "&ne;": "&#8800;",
+    "&equiv;": "&#8801;",
+    "&le;": "&#8804;",
+    "&ge;": "&#8805;",
+    "&sub;": "&#8834;",
+    "&sup;": "&#8835;",
+    "&nsub;": "&#8836;",
+    "&sube;": "&#8838;",
+    "&supe;": "&#8839;",
+    "&oplus;": "&#8853;",
+    "&otimes;": "&#8855;",
+    "&perp;": "&#8869;",
+    "&sdot;": "&#8901;",
+    "&lceil;": "&#8968;",
+    "&rceil;": "&#8969;",
+    "&lfloor;": "&#8970;",
+    "&rfloor;": "&#8971;",
+    "&lang;": "&#9001;",
+    "&rang;": "&#9002;",
+    "&loz;": "&#9674;",
+    "&spades;": "&#9824;",
+    "&clubs;": "&#9827;",
+    "&hearts;": "&#9829;",
+    "&diams;": "&#9830;",
+    "&quot;": "&#34;",
+    "&OElig;": "&#338;",
+    "&oelig;": "&#339;",
+    "&Scaron;": "&#352;",
+    "&scaron;": "&#353;",
+    "&Yuml;": "&#376;",
+    "&circ;": "&#710;",
+    "&tilde;": "&#732;",
+    "&ensp;": "&#8194;",
+    "&emsp;": "&#8195;",
+    "&thinsp;": "&#8201;",
+    "&zwnj;": "&#8204;",
+    "&zwj;": "&#8205;",
+    "&lrm;": "&#8206;",
+    "&rlm;": "&#8207;",
+    "&ndash;": "&#8211;",
+    "&mdash;": "&#8212;",
+    "&lsquo;": "&#8216;",
+    "&rsquo;": "&#8217;",
+    "&sbquo;": "&#8218;",
+    "&ldquo;": "&#8220;",
+    "&rdquo;": "&#8221;",
+    "&bdquo;": "&#8222;",
+    "&dagger;": "&#8224;",
+    "&Dagger;": "&#8225;",
+    "&permil;": "&#8240;",
+    "&lsaquo;": "&#8249;",
+    "&rsaquo;": "&#8250;",
+    "&hairsp;": "&#8202;",
+    "&plus;": "&#43;",
+    "&Eur;": "&#128;",
+    "&low;": "&#130;",
+    "&small;": "&#131;",
+    "&per;": "&#137;",
+    "&capital;": "&#138;",
+    "&left;": "&#139;",
+    "&right;": "&#155;",
+    "&Amacr;": "&#256;",
+    "&amacr;": "&#257;",
+    "&Acaron;": "&#258;",
+    "&acaron;": "&#259;",
+    "&Acedil;": "&#260;",
+    "&acedil;": "&#261;",
+    "&Cacute;": "&#262;",
+    "&cacute;": "&#263;",
+    "&Ccaron;": "&#268;",
+    "&ccaron;": "&#269;",
+    "&Dcaron;": "&#270;",
+    "&Dstrok;": "&#272;",
+    "&dstrok;": "&#273;",
+    "&Emacr;": "&#274;",
+    "&emacr;": "&#276;",
+    "&Edot;": "&#278;",
+    "&edot;": "&#279;",
+    "&Ecedil;": "&#280;",
+    "&ecedil;": "&#281;",
+    "&Ecaron;": "&#282;",
+    "&ecaron;": "&#283;",
+    "&Gcaron;": "&#286;",
+    "&gcaron;": "&#287;",
+    "&Gcedil;": "&#290;",
+    "&gapos;": "&#292;",
+    "&Imacr;": "&#298;",
+    "&imacr;": "&#299;",
+    "&Icedil;": "&#304;",
+    "&Kcedil;": "&#310;",
+    "&kcedil;": "&#311;",
+    "&Lacute;": "&#313;",
+    "&lacute;": "&#314;",
+    "&Lcedil;": "&#315;",
+    "&lcedil;": "&#316;",
+    "&Lstrok;": "&#321;",
+    "&lstrok;": "&#322;",
+    "&Nacute;": "&#323;",
+    "&nacute;": "&#324;",
+    "&Ncedil;": "&#325;",
+    "&ncedil;": "&#326;",
+    "&Ncaron;": "&#327;",
+    "&ncaron;": "&#328;",
+    "&Omacr;": "&#332;",
+    "&omacr;": "&#333;",
+    "&Odblac;": "&#336;",
+    "&odblac;": "&#337;",
+    "&Rcedil;": "&#342;",
+    "&rcedil;": "&#343;",
+    "&Rcaron;": "&#344;",
+    "&rcaron;": "&#345;",
+    "&Sacute;": "&#346;",
+    "&sacute;": "&#347;",
+    "&Scedil;": "&#350;",
+    "&scedil;": "&#351;",
+    "&Tcedil;": "&#354;",
+    "&tcedil;": "&#355;",
+    "&Tcaron;": "&#356;",
+    "&tcaron;": "&#357;",
+    "&Umacr;": "&#362;",
+    "&umacr;": "&#363;",
+    "&Uring;": "&#366;",
+    "&uring;": "&#367;",
+    "&Udblac;": "&#368;",
+    "&udblac;": "&#369;",
+    "&Ucedil;": "&#370;",
+    "&ucedil;": "&#371;",
+    "&Zacute;": "&#377;",
+    "&zacute;": "&#378;",
+    "&Zdot;": "&#379;",
+    "&zdot;": "&#380;",
+    "&Zcaron;": "&#381;",
+    "&zcaron;": "&#382;",
+    "&percnt;": "&#37;",
+    "&emsp14;": "&#x2005;",
+    "&lsqb;": "&#91;",
+    "&rsqb;": "&#93;",
+    "&ast;": "&#42;",
+    "&Agr;": "&#x0391;",
+    "&agr;": "&#x03b1;",
+    "&Bgr;": "&#x0392;",
+    "&bgr;": "&#x03b2;",
+    "&Dgr;": "&#x0394;",
+    "&dgr;": "&#x03b4;",
+    "&EEgr;": "&#x0397;",
+    "&eegr;": "&#x03b7;",
+    "&Egr;": "&#x0395;",
+    "&egr;": "&#x03b5;",
+    "&Ggr;": "&#x0393;",
+    "&ggr;": "&#x03b3;",
+    "&Igr;": "&#x0399;",
+    "&igr;": "&#x03b9;",
+    "&Kgr;": "&#x039a;",
+    "&kgr;": "&#x3ba;",
+    "&KHgr;": "&#x03a7;",
+    "&khgr;": "&#x03c7;",
+    "&Lgr;": "&#x039b;",
+    "&lgr;": "&#x03bb;",
+    "&Mgr;": "&#x039c;",
+    "&mgr;": "&#x03bc;",
+    "&Ngr;": "&#x039d;",
+    "&ngr;": "&#x03bd;",
+    "&Ogr;": "&#x039f;",
+    "&ogr;": "&#x03bf;",
+    "&OHgr;": "&#x03a9;",
+    "&ohgr;": "&#x03c9;",
+    "&Pgr;": "&#x03a0;",
+    "&pgr;": "&#x03c0;",
+    "&PHgr;": "&#x03a6;",
+    "&phgr;": "&#x03c6;",
+    "&PSgr;": "&#x03a8;",
+    "&psgr;": "&#x03c8;",
+    "&Rgr;": "&#x03a1;",
+    "&rgr;": "&#x03c1;",
+    "&Sgr;": "&#x03a3;",
+    "&sgr;": "&#x03c3;",
+    "&Tgr;": "&#x03a4;",
+    "&tgr;": "&#x03c4;",
+    "&THgr;": "&#x0398;",
+    "&thgr;": "&#x03b8;",
+    "&Ugr;": "&#x03a5;",
+    "&ugr;": "&#x03c5;",
+    "&Xgr;": "&#x039e;",
+    "&xgr;": "&#x03be;",
+    "&Zgr;": "&#x0396;",
+    "&zgr;": "&#x03b6;",
+    "&abreve;": "&#259;",
+    "&female;": "&#9792;",
+    "&male;": "&#9794;",
+    "&sol;": "&#47;",
+    "&lpar;": "&#40;",
+    "&rpar;": "&#41;",
+    "&euro;": "&#8364;",
 }
 
 # Exemplo de uso:

From 03dd9649b8ac9f39f2ced637f39621d4f312dd18 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 11:21:58 -0300
Subject: [PATCH 3/9] =?UTF-8?q?Cria=20nova=20alternativa=20para=20convers?=
 =?UTF-8?q?=C3=A3o=20j=C3=A1=20que=20a=20anterior=20eliminava=20o=20elemen?=
 =?UTF-8?q?to=20body?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/xml_loader.py | 283 ++++++++++++++++++++++-
 1 file changed, 280 insertions(+), 3 deletions(-)

diff --git a/packtools/sps/pid_provider/xml_loader.py b/packtools/sps/pid_provider/xml_loader.py
index ac3466d76..34928aa3f 100644
--- a/packtools/sps/pid_provider/xml_loader.py
+++ b/packtools/sps/pid_provider/xml_loader.py
@@ -2,9 +2,51 @@
 import logging
 from lxml import etree
 from bs4 import BeautifulSoup
+from packtools.sps.pid_provider.amp_name2number import AMP_NAME_TO_NUMBER_ENTITIES
 from packtools.sps.pid_provider.name2number import NAME_TO_NUMBER_ENTITIES
 
 
+def load_xml(xml):
+    return etree.tostring(
+        etree.fromstring(fix_input(xml)),
+        method="xml", encoding="utf-8").decode("utf-8")
+
+
+def fix_input(xml):
+    if "&" not in xml:
+        return xml
+
+    entities = set(find_entities_to_fix_in_input(xml))
+    if not entities:
+        return xml
+
+    for ent in entities:
+        xml = xml.replace(ent, NAME_TO_NUMBER_ENTITIES.get(ent) or f"&amp;{ent}")
+
+    print(xml)
+    return xml
+
+
+def find_entities_to_fix_in_input(bkp):
+    bkp = bkp.replace("&", "<ISOLAENTIDADEXML>&")
+    bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
+
+    for item in bkp.split("<ISOLAENTIDADEXML>"):
+        print(item)
+        if not item.strip():
+            continue
+        if " " in item:
+            continue
+        if not item[0] == "&" and not item[-1] == ";":
+            continue
+        if item[1] == "#":
+            continue
+        if item in ("&amp;", "&gt;", "&apos;", "&quot;", "&lt;"):
+            continue
+        if item[0] == "&" and item[-1] == ";":
+            yield item
+
+
 def fix_entities(xml):
     return format_output(html_parser_ent2char(xml))
 
@@ -31,7 +73,7 @@ def format_output(xml):
         return xml
 
     for ent in entities:
-        xml = xml.replace(ent, NAME_TO_NUMBER_ENTITIES.get(ent) or ent)
+        xml = xml.replace(ent, AMP_NAME_TO_NUMBER_ENTITIES.get(ent) or ent)
     return xml
 
 
@@ -84,7 +126,8 @@ def bs_ent2char(xml):
 
 
 def main():
-    xml = """<document>
+    xml = """<article>
+    <body>
 	    <title>Exemplo com Entidades</title>
 	    <content>&rsquo;&iacute;
 	        <paragraph>&ldquo;Quotes&rdquo; e &lquo;apostrophes&rquo;</paragraph>
@@ -100,7 +143,8 @@ def main():
 			<p>rquo : &rquo;<break/>191 : &#191; | &#x02019;</p>
 			<p>187 : &#187;</p>
 	    </content>
-	</document>"""
+    </body>
+	</article>"""
 
     print("\n---\nEntrada")
     print(xml)
@@ -125,5 +169,238 @@ def main():
     print(fix_entities(xml))
 
 
+    print("\n---\nload_xml")
+    print(load_xml(xml))
+
+    
 if __name__ == "__main__":
     main()
+
+
+"""
+---
+Entrada
+<article>
+        <body>
+        <title>Exemplo com Entidades</title>
+        <content>&rsquo;&iacute;
+            <paragraph>&ldquo;Quotes&rdquo; e &lquo;apostrophes&rquo;</paragraph>
+            <special>&mdash; travessão &nbsp; espaço &copy;2024</special>
+            <price>&euro;100 ou &pound;80</price>
+            <math>&frac12; &times; 2 = 1</math>
+            <nested>
+                <item id="1">Primeiro &rquo;item&lquo;</item>
+                <item id="2">Segundo &mdash; item</item>
+            </nested>
+            <p>mdash : &mdash;</p>
+            <p>180 : &#180;</p>
+            <p>rquo : &rquo;<break/>191 : &#191; | &#x02019;</p>
+            <p>187 : &#187;</p>
+        </content>
+        </body>
+    </article>
+
+---
+"""
+# PERDE OS CARACTERES
+"""
+xml_parser_ent2char
+<article>
+        <body>
+        <title>Exemplo com Entidades</title>
+        <content>
+            <paragraph>Quotes e apostrophes</paragraph>
+            <special> travessão  espaço 2024</special>
+            <price>100 ou 80</price>
+            <math>  2 = 1</math>
+            <nested>
+                <item id="1">Primeiro item</item>
+                <item id="2">Segundo  item</item>
+            </nested>
+            <p>mdash : </p>
+            <p>180 : ´</p>
+            <p>rquo : <break/>191 : ¿ | ’</p>
+            <p>187 : »</p>
+        </content>
+        </body>
+    </article>
+
+---
+"""
+# NAO CONSEGUE LER O XML
+"""
+html_unescape_ent2char
+ERROR:root:Entity 'lquo' not defined, line 5, column 38 (<string>, line 5)
+Traceback (most recent call last):
+  File "/Users/roberta.takenaka/github.com/scieloorg/packtools/packtools/packtools/sps/pid_provider/ent2char.py", line 51, in html_unescape_ent2char
+    root = etree.fromstring(xml)
+  File "src/lxml/etree.pyx", line 3257, in lxml.etree.fromstring
+  File "src/lxml/parser.pxi", line 1916, in lxml.etree._parseMemoryDocument
+  File "src/lxml/parser.pxi", line 1796, in lxml.etree._parseDoc
+  File "src/lxml/parser.pxi", line 1085, in lxml.etree._BaseParser._parseUnicodeDoc
+  File "src/lxml/parser.pxi", line 618, in lxml.etree._ParserContext._handleParseResultDoc
+  File "src/lxml/parser.pxi", line 728, in lxml.etree._handleParseResult
+  File "src/lxml/parser.pxi", line 657, in lxml.etree._raiseParseError
+  File "<string>", line 5
+lxml.etree.XMLSyntaxError: Entity 'lquo' not defined, line 5, column 38
+None
+
+---
+"""
+# PERDE O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
+"""
+html_parser_ent2char
+<article>
+
+        <title>Exemplo com Entidades</title>
+        <content>’í
+            <paragraph>“Quotes” e &amp;lquo;apostrophes&amp;rquo;</paragraph>
+            <special>— travessão   espaço ©2024</special>
+            <price>€100 ou £80</price>
+            <math>½ × 2 = 1</math>
+            <nested>
+                <item id="1">Primeiro &amp;rquo;item&amp;lquo;</item>
+                <item id="2">Segundo — item</item>
+            </nested>
+            <p>mdash : —</p>
+            <p>180 : ´</p>
+            <p>rquo : &amp;rquo;<break/>191 : ¿ | ’</p>
+            <p>187 : »</p>
+        </content>
+
+    </article>
+
+---
+"""
+# MANTÉM O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
+"""
+bs_ent2char LXML
+<article>
+<body>
+<title>Exemplo com Entidades</title>
+<content>’í
+            <paragraph>“Quotes” e &amp;lquoapostrophes&amp;rquo</paragraph>
+<special>— travessão   espaço ©2024</special>
+<price>€100 ou £80</price>
+<math>½ × 2 = 1</math>
+<nested>
+<item id="1">Primeiro &amp;rquoitem&amp;lquo</item>
+<item id="2">Segundo — item</item>
+</nested>
+<p>mdash : —</p>
+<p>180 : ´</p>
+<p>rquo : &amp;rquo<break></break>191 : ¿ | ’</p>
+<p>187 : »</p>
+</content>
+</body>
+</article>
+
+---
+"""
+
+# PERDE OS CARACTERES 
+"""
+xml
+
+<?xml version="1.0" encoding="utf-8"?>
+<article>
+<body>
+<title>Exemplo com Entidades</title>
+<content>
+<paragraph>Quotes e apostrophes</paragraph>
+<special> travessão  espaço 2024</special>
+<price>100 ou 80</price>
+<math>  2 = 1</math>
+<nested>
+<item id="1">Primeiro item</item>
+<item id="2">Segundo  item</item>
+</nested>
+<p>mdash : </p>
+<p>180 : ´</p>
+<p>rquo : <break/>191 : ¿ | ’</p>
+<p>187 : »</p>
+</content>
+</body>
+</article>
+
+---
+"""
+
+# PERDE O ARTICLE/BODY
+"""
+lxml
+
+<html><body><article>
+<title>Exemplo com Entidades</title>
+<content>’í
+            <paragraph>“Quotes” e &amp;lquo;apostrophes&amp;rquo;</paragraph>
+<special>— travessão   espaço ©2024</special>
+<price>€100 ou £80</price>
+<math>½ × 2 = 1</math>
+<nested>
+<item id="1">Primeiro &amp;rquo;item&amp;lquo;</item>
+<item id="2">Segundo — item</item>
+</nested>
+<p>mdash : —</p>
+<p>180 : ´</p>
+<p>rquo : &amp;rquo;<break></break>191 : ¿ | ’</p>
+<p>187 : »</p>
+</content>
+</article></body></html>
+
+---
+"""
+
+# MANTÉM O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
+"""
+html.parser
+
+<article>
+<body>
+<title>Exemplo com Entidades</title>
+<content>’í
+            <paragraph>“Quotes” e &amp;lquoapostrophes&amp;rquo</paragraph>
+<special>— travessão   espaço ©2024</special>
+<price>€100 ou £80</price>
+<math>½ × 2 = 1</math>
+<nested>
+<item id="1">Primeiro &amp;rquoitem&amp;lquo</item>
+<item id="2">Segundo — item</item>
+</nested>
+<p>mdash : —</p>
+<p>180 : ´</p>
+<p>rquo : &amp;rquo<break></break>191 : ¿ | ’</p>
+<p>187 : »</p>
+</content>
+</body>
+</article>
+
+---
+"""
+
+# SOME O ARTICLE/BODY
+"""
+html5lib
+
+<html><head></head><body><article>
+
+        <title>Exemplo com Entidades</title>
+        <content>’í
+            <paragraph>“Quotes” e &amp;lquo;apostrophes&amp;rquo;</paragraph>
+            <special>— travessão   espaço ©2024</special>
+            <price>€100 ou £80</price>
+            <math>½ × 2 = 1</math>
+            <nested>
+                <item id="1">Primeiro &amp;rquo;item&amp;lquo;</item>
+                <item id="2">Segundo — item</item>
+            </nested>
+            <p>mdash : —</p>
+            <p>180 : ´</p>
+            <p>rquo : &amp;rquo;<break>191 : ¿ | ’</break></p>
+            <p>187 : »</p>
+        </content>
+
+    </article></body></html>
+
+
+"""

From 5b016b0339955e1e2e46e3754d8ed8b90b4c9b5f Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 11:27:54 -0300
Subject: [PATCH 4/9] =?UTF-8?q?Adiciona=20os=20coment=C3=A1rios?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/xml_loader.py | 224 +++++++++++++++++++++--
 1 file changed, 206 insertions(+), 18 deletions(-)

diff --git a/packtools/sps/pid_provider/xml_loader.py b/packtools/sps/pid_provider/xml_loader.py
index 34928aa3f..a3def9993 100644
--- a/packtools/sps/pid_provider/xml_loader.py
+++ b/packtools/sps/pid_provider/xml_loader.py
@@ -7,12 +7,39 @@
 
 
 def load_xml(xml):
+    """
+    Carrega e processa XML, corrigindo entidades na entrada.
+    
+    Análise:
+    - sucesso
+    - Exemplo de saída:
+      <article>
+    <body>
+        <title>Exemplo com Entidades</title>
+        <content>’í
+            <paragraph>“Quotes” e 'apostrophes'</paragraph>
+            <special>— travessão   espaço ©2024</special>
+            <price>€100 ou £80</price>
+            <math>½ × 2 = 1</math>
+            <nested>
+                <item id="1">Primeiro 'item'</item>
+                <item id="2">Segundo — item</item>
+            </nested>
+            <p>mdash : —</p>
+            <p>180 : ´</p>
+            <p>rquo : '<break/>191 : ¿ | ’</p>
+            <p>187 : »</p>
+        </content>
+    </body>
+    </article>
+    """
     return etree.tostring(
         etree.fromstring(fix_input(xml)),
         method="xml", encoding="utf-8").decode("utf-8")
 
 
 def fix_input(xml):
+    """Corrige entidades problemáticas no XML de entrada."""
     if "&" not in xml:
         return xml
 
@@ -28,6 +55,7 @@ def fix_input(xml):
 
 
 def find_entities_to_fix_in_input(bkp):
+    """Identifica entidades que precisam ser corrigidas na entrada."""
     bkp = bkp.replace("&", "<ISOLAENTIDADEXML>&")
     bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
 
@@ -48,10 +76,18 @@ def find_entities_to_fix_in_input(bkp):
 
 
 def fix_entities(xml):
+    """
+    Corrige entidades usando parser HTML e formatação de saída.
+    
+    Análise:
+    - Usa html_parser_ent2char internamente
+    - Aplica format_output para corrigir entidades finais
+    """
     return format_output(html_parser_ent2char(xml))
 
 
 def discover_entities_to_fix_in_output(bkp):
+    """Descobre entidades que precisam ser corrigidas na saída."""
     bkp = bkp.replace("&amp;", "<ISOLAENTIDADEXML>&")
     bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
 
@@ -65,6 +101,7 @@ def discover_entities_to_fix_in_output(bkp):
 
 
 def format_output(xml):
+    """Formata a saída convertendo entidades para números."""
     if "&" not in xml:
         return xml
 
@@ -78,6 +115,36 @@ def format_output(xml):
 
 
 def xml_parser_ent2char(xml):
+    """
+    Usa parser XML do lxml com modo recover para processar entidades.
+    
+    Análise:
+    - PERDE OS CARACTERES
+    - Remove completamente as entidades não reconhecidas
+    - Exemplo de saída:
+      <article>
+      <body>
+      <title>Exemplo com Entidades</title>
+      <content>
+          <paragraph>Quotes e apostrophes</paragraph>
+          <special> travessão  espaço 2024</special>
+          <price>100 ou 80</price>
+          <math>  2 = 1</math>
+          <nested>
+              <item id="1">Primeiro item</item>
+              <item id="2">Segundo  item</item>
+          </nested>
+          <p>mdash : </p>
+          <p>180 : ´</p>
+          <p>rquo : <break/>191 : ¿ | '</p>
+          <p>187 : »</p>
+      </content>
+      </body>
+      </article>
+    
+    Problema: Entidades como &rsquo;, &ldquo;, &mdash; são completamente removidas
+    ao invés de convertidas para seus caracteres correspondentes.
+    """
     try:
         parser = etree.XMLParser(recover=True, encoding="utf-8")
         root = etree.fromstring(xml, parser)
@@ -88,6 +155,20 @@ def xml_parser_ent2char(xml):
 
 
 def html_unescape_ent2char(xml):
+    """
+    Usa html.unescape para converter entidades HTML.
+    
+    Análise:
+    - NÃO CONSEGUE LER O XML
+    - Falha com erro: Entity 'lquo' not defined
+    - Exemplo de erro:
+      ERROR:root:Entity 'lquo' not defined, line 5, column 38
+      lxml.etree.XMLSyntaxError: Entity 'lquo' not defined
+    
+    Problema: html.unescape converte as entidades, mas o XML resultante
+    não é válido porque algumas entidades HTML não são reconhecidas
+    pelo parser XML padrão.
+    """
     try:
         xml = html.unescape(xml)
         root = etree.fromstring(xml)
@@ -98,6 +179,36 @@ def html_unescape_ent2char(xml):
 
 
 def html_parser_ent2char(xml):
+    """
+    Usa parser HTML do lxml para processar entidades.
+    
+    Análise:
+    - PERDE O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
+    - Converte a maioria das entidades corretamente
+    - Exemplo de saída:
+      <article>
+      <title>Exemplo com Entidades</title>
+      <content>'í
+          <paragraph>"Quotes" e &amp;lquo;apostrophes&amp;rquo;</paragraph>
+          <special>— travessão   espaço ©2024</special>
+          <price>€100 ou £80</price>
+          <math>½ × 2 = 1</math>
+          <nested>
+              <item id="1">Primeiro &amp;rquo;item&amp;lquo;</item>
+              <item id="2">Segundo — item</item>
+          </nested>
+          <p>mdash : —</p>
+          <p>180 : ´</p>
+          <p>rquo : &amp;rquo;<break/>191 : ¿ | '</p>
+          <p>187 : »</p>
+      </content>
+      </article>
+    
+    Problemas:
+    1. Parser HTML adiciona estrutura <html><body> que precisa ser removida
+    2. Entidades &lquo; e &rquo; perdem o ponto-e-vírgula final
+    3. Estrutura original pode ser alterada (perde elementos externos)
+    """
     try:
         parser = etree.HTMLParser()
         root = etree.fromstring(xml, parser)
@@ -108,6 +219,31 @@ def html_parser_ent2char(xml):
 
 
 def bs_ent2char_(xml):
+    """
+    Testa diferentes parsers do BeautifulSoup.
+    
+    Análises por parser:
+    
+    1. "xml" (Alias para lxml-xml):
+       - PERDE OS CARACTERES
+       - Similar ao xml_parser_ent2char
+    
+    2. "lxml" (Parser HTML com lxml):
+       - PERDE O ARTICLE/BODY se usado direto
+       - MANTÉM O ARTICLE/BODY via bs_ent2char
+       - PERDE O ; APÓS LQUO E RQUO
+       - Exemplo: &amp;lquoapostrophes&amp;rquo (sem ;)
+    
+    3. "html.parser" (Built-in do Python):
+       - MANTÉM O ARTICLE/BODY
+       - PERDE O ; APÓS LQUO E RQUO
+       - Similar ao lxml mas mantém estrutura melhor
+    
+    4. "html5lib" (Parser HTML5):
+       - ADICIONA <html><head></head><body>
+       - Mantém entidades problemáticas como &amp;lquo; e &amp;rquo;
+       - Mais compatível mas adiciona estrutura HTML5
+    """
     parsers = [
         ("xml", "Alias para lxml-xml"),
         ("lxml", "Parser HTML com lxml, rápido"),
@@ -121,30 +257,84 @@ def bs_ent2char_(xml):
 
 
 def bs_ent2char(xml):
+    """
+    Usa BeautifulSoup com parser lxml para converter entidades.
+    
+    Análise:
+    - MANTÉM O ARTICLE/BODY, MAS PERDE O ; APÓS LQUO E RQUO
+    - Converte a maioria das entidades HTML corretamente
+    - Exemplo de saída:
+      <article>
+      <body>
+      <title>Exemplo com Entidades</title>
+      <content>'í
+          <paragraph>"Quotes" e &amp;lquoapostrophes&amp;rquo</paragraph>
+          <special>— travessão   espaço ©2024</special>
+          <price>€100 ou £80</price>
+          <math>½ × 2 = 1</math>
+          <nested>
+          <item id="1">Primeiro &amp;rquoitem&amp;lquo</item>
+          <item id="2">Segundo — item</item>
+          </nested>
+          <p>mdash : —</p>
+          <p>180 : ´</p>
+          <p>rquo : &amp;rquo<break></break>191 : ¿ | '</p>
+          <p>187 : »</p>
+      </content>
+      </body>
+      </article>
+    
+    Vantagens:
+    - Mantém estrutura XML original
+    - Converte maioria das entidades HTML para caracteres Unicode
+    
+    Problemas:
+    - Entidades &lquo; e &rquo; não são reconhecidas e perdem o ;
+    - Tag <break/> é convertida para <break></break>
+    """
     soup_xml = BeautifulSoup(xml, "lxml")
     return str(soup_xml)
 
 
 def main():
+    """
+    Função principal para testar diferentes métodos de conversão de entidades.
+    
+    XML de entrada contém várias entidades HTML problemáticas:
+    - &rsquo; &ldquo; &rdquo; &lquo; &rquo; (quotes)
+    - &mdash; (travessão)
+    - &nbsp; (espaço não quebrável)
+    - &copy; &euro; &pound; (símbolos)
+    - &frac12; &times; (matemáticos)
+    - &#180; &#191; &#187; &#x02019; (numéricos)
+    
+    Resumo dos resultados:
+    - xml_parser_ent2char: Remove entidades não reconhecidas
+    - html_unescape_ent2char: Falha ao processar XML
+    - html_parser_ent2char: Melhor conversão mas altera estrutura
+    - bs_ent2char: Bom compromisso mas tem problemas com &lquo;/&rquo;
+    - fix_entities: Usa html_parser_ent2char + format_output
+    - load_xml: Usa fix_input mas perde caracteres
+    """
     xml = """<article>
     <body>
-	    <title>Exemplo com Entidades</title>
-	    <content>&rsquo;&iacute;
-	        <paragraph>&ldquo;Quotes&rdquo; e &lquo;apostrophes&rquo;</paragraph>
-	        <special>&mdash; travessão &nbsp; espaço &copy;2024</special>
-	        <price>&euro;100 ou &pound;80</price>
-	        <math>&frac12; &times; 2 = 1</math>
-	        <nested>
-	            <item id="1">Primeiro &rquo;item&lquo;</item>
-	            <item id="2">Segundo &mdash; item</item>
-	        </nested>
-	        <p>mdash : &mdash;</p>
-			<p>180 : &#180;</p>
-			<p>rquo : &rquo;<break/>191 : &#191; | &#x02019;</p>
-			<p>187 : &#187;</p>
-	    </content>
+        <title>Exemplo com Entidades</title>
+        <content>&rsquo;&iacute;
+            <paragraph>&ldquo;Quotes&rdquo; e &lquo;apostrophes&rquo;</paragraph>
+            <special>&mdash; travessão &nbsp; espaço &copy;2024</special>
+            <price>&euro;100 ou &pound;80</price>
+            <math>&frac12; &times; 2 = 1</math>
+            <nested>
+                <item id="1">Primeiro &rquo;item&lquo;</item>
+                <item id="2">Segundo &mdash; item</item>
+            </nested>
+            <p>mdash : &mdash;</p>
+            <p>180 : &#180;</p>
+            <p>rquo : &rquo;<break/>191 : &#191; | &#x02019;</p>
+            <p>187 : &#187;</p>
+        </content>
     </body>
-	</article>"""
+    </article>"""
 
     print("\n---\nEntrada")
     print(xml)
@@ -168,7 +358,6 @@ def main():
     print("\n---\nfix_entities")
     print(fix_entities(xml))
 
-
     print("\n---\nload_xml")
     print(load_xml(xml))
 
@@ -176,7 +365,6 @@ def main():
 if __name__ == "__main__":
     main()
 
-
 """
 ---
 Entrada

From 651147ab988bbb65261d746c29155d5d95728893 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 12:28:56 -0300
Subject: [PATCH 5/9] =?UTF-8?q?Move=20as=20fun=C3=A7=C3=B5es=20de=20conver?=
 =?UTF-8?q?s=C3=A3o=20de=20entidades=20fix=5Fpre=5Floading=20e=20find=5Fen?=
 =?UTF-8?q?tities=5Fto=5Ffix=20para=20o=20m=C3=B3dulo=20name2number?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/name2number.py | 36 +++++++++++++++++++++++
 1 file changed, 36 insertions(+)

diff --git a/packtools/sps/pid_provider/name2number.py b/packtools/sps/pid_provider/name2number.py
index 2e23a8697..c90d2eb69 100644
--- a/packtools/sps/pid_provider/name2number.py
+++ b/packtools/sps/pid_provider/name2number.py
@@ -395,6 +395,42 @@
     "&euro;": "&#8364;",
 }
 
+
+def fix_pre_loading(xml):
+    """Corrige entidades problemáticas no XML de entrada."""
+    if "&" not in xml:
+        return xml
+
+    entities = set(find_entities_to_fix(xml))
+    if not entities:
+        return xml
+
+    for ent in entities:
+        xml = xml.replace(ent, NAME_TO_NUMBER_ENTITIES.get(ent) or f"&amp;{ent}")
+
+    return xml
+
+
+def find_entities_to_fix(bkp):
+    """Identifica entidades que precisam ser corrigidas na entrada."""
+    bkp = bkp.replace("&", "<ISOLAENTIDADEXML>&")
+    bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
+
+    for item in bkp.split("<ISOLAENTIDADEXML>"):
+        if not item.strip():
+            continue
+        if " " in item:
+            continue
+        if not item[0] == "&" and not item[-1] == ";":
+            continue
+        if item[1] == "#":
+            continue
+        if item in ("&amp;", "&gt;", "&apos;", "&quot;", "&lt;"):
+            continue
+        if item[0] == "&" and item[-1] == ";":
+            yield item
+
+
 # Exemplo de uso:
 if __name__ == "__main__":
     # Testando algumas conversões

From 791c0c48ac517f03f27baa29e8442e2a8d02d703 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 12:30:44 -0300
Subject: [PATCH 6/9] =?UTF-8?q?Move=20as=20fun=C3=A7=C3=B5es=20de=20conver?=
 =?UTF-8?q?s=C3=A3o=20de=20entidades=20fix=5Fpos=5Floading=20e=20find=5Fen?=
 =?UTF-8?q?tities=5Fto=5Ffix=20para=20o=20m=C3=B3dulo=20amp=5Fname2number?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/amp_name2number.py | 29 +++++++++++++++++++
 1 file changed, 29 insertions(+)

diff --git a/packtools/sps/pid_provider/amp_name2number.py b/packtools/sps/pid_provider/amp_name2number.py
index 7289dfe82..1132a2519 100644
--- a/packtools/sps/pid_provider/amp_name2number.py
+++ b/packtools/sps/pid_provider/amp_name2number.py
@@ -395,6 +395,35 @@
     "&amp;euro;": "&#8364;",
 }
 
+
+def fix_pos_loading(xml):
+    """Formata a saída convertendo entidades para números."""
+    if "&" not in xml:
+        return xml
+
+    entities = set(find_entities_to_fix(xml))
+    if not entities:
+        return xml
+
+    for ent in entities:
+        xml = xml.replace(ent, AMP_NAME_TO_NUMBER_ENTITIES.get(ent) or ent)
+    return xml
+
+
+def find_entities_to_fix(bkp):
+    """Descobre entidades que precisam ser corrigidas na saída."""
+    bkp = bkp.replace("&amp;", "<ISOLAENTIDADEXML>&")
+    bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
+
+    for item in bkp.split("<ISOLAENTIDADEXML>"):
+        if not item.strip():
+            continue
+        if " " in item:
+            continue
+        if item[0] == "&" and item[-1] == ";":
+            yield item.replace("&", "&amp;")
+
+
 # Exemplo de uso:
 if __name__ == "__main__":
     # Testando algumas conversões

From a819b6ccfd9ad01d4926271073d699aba0dccc47 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 12:32:21 -0300
Subject: [PATCH 7/9] =?UTF-8?q?Ajusta=20o=20m=C3=B3dulo=20xml=5Floader=20p?=
 =?UTF-8?q?or=20mover=20as=20fun=C3=A7=C3=B5es=20de=20convers=C3=A3o=20de?=
 =?UTF-8?q?=20entidades=20para=20os=20respectivos=20m=C3=B3dulos?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/xml_loader.py | 75 ++----------------------
 1 file changed, 6 insertions(+), 69 deletions(-)

diff --git a/packtools/sps/pid_provider/xml_loader.py b/packtools/sps/pid_provider/xml_loader.py
index a3def9993..0b980c877 100644
--- a/packtools/sps/pid_provider/xml_loader.py
+++ b/packtools/sps/pid_provider/xml_loader.py
@@ -2,8 +2,8 @@
 import logging
 from lxml import etree
 from bs4 import BeautifulSoup
-from packtools.sps.pid_provider.amp_name2number import AMP_NAME_TO_NUMBER_ENTITIES
-from packtools.sps.pid_provider.name2number import NAME_TO_NUMBER_ENTITIES
+from packtools.sps.pid_provider.amp_name2number import fix_pos_loading
+from packtools.sps.pid_provider.name2number import fix_pre_loading
 
 
 def load_xml(xml):
@@ -34,47 +34,10 @@ def load_xml(xml):
     </article>
     """
     return etree.tostring(
-        etree.fromstring(fix_input(xml)),
+        etree.fromstring(fix_pre_loading(xml)),
         method="xml", encoding="utf-8").decode("utf-8")
 
 
-def fix_input(xml):
-    """Corrige entidades problemáticas no XML de entrada."""
-    if "&" not in xml:
-        return xml
-
-    entities = set(find_entities_to_fix_in_input(xml))
-    if not entities:
-        return xml
-
-    for ent in entities:
-        xml = xml.replace(ent, NAME_TO_NUMBER_ENTITIES.get(ent) or f"&amp;{ent}")
-
-    print(xml)
-    return xml
-
-
-def find_entities_to_fix_in_input(bkp):
-    """Identifica entidades que precisam ser corrigidas na entrada."""
-    bkp = bkp.replace("&", "<ISOLAENTIDADEXML>&")
-    bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
-
-    for item in bkp.split("<ISOLAENTIDADEXML>"):
-        print(item)
-        if not item.strip():
-            continue
-        if " " in item:
-            continue
-        if not item[0] == "&" and not item[-1] == ";":
-            continue
-        if item[1] == "#":
-            continue
-        if item in ("&amp;", "&gt;", "&apos;", "&quot;", "&lt;"):
-            continue
-        if item[0] == "&" and item[-1] == ";":
-            yield item
-
-
 def fix_entities(xml):
     """
     Corrige entidades usando parser HTML e formatação de saída.
@@ -82,36 +45,10 @@ def fix_entities(xml):
     Análise:
     - Usa html_parser_ent2char internamente
     - Aplica format_output para corrigir entidades finais
-    """
-    return format_output(html_parser_ent2char(xml))
-
-
-def discover_entities_to_fix_in_output(bkp):
-    """Descobre entidades que precisam ser corrigidas na saída."""
-    bkp = bkp.replace("&amp;", "<ISOLAENTIDADEXML>&")
-    bkp = bkp.replace(";", ";<ISOLAENTIDADEXML>")
-
-    for item in bkp.split("<ISOLAENTIDADEXML>"):
-        if not item.strip():
-            continue
-        if " " in item:
-            continue
-        if item[0] == "&" and item[-1] == ";":
-            yield item.replace("&", "&amp;")
 
-
-def format_output(xml):
-    """Formata a saída convertendo entidades para números."""
-    if "&" not in xml:
-        return xml
-
-    entities = set(discover_entities_to_fix_in_output(xml))
-    if not entities:
-        return xml
-
-    for ent in entities:
-        xml = xml.replace(ent, AMP_NAME_TO_NUMBER_ENTITIES.get(ent) or ent)
-    return xml
+    PERDE BODY
+    """
+    return fix_pos_loading(html_parser_ent2char(xml))
 
 
 def xml_parser_ent2char(xml):

From f402f18939480bea7d3ba81a134cdf50c95a3a65 Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 12:41:56 -0300
Subject: [PATCH 8/9] =?UTF-8?q?Ajusta=20a=20carga=20do=20XML=20considerand?=
 =?UTF-8?q?o=20as=20entidades=20e=20melhora=20partial=5Fbody=20para=20gara?=
 =?UTF-8?q?ntir=20um=20texto=20m=C3=ADnimo?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 packtools/sps/pid_provider/xml_sps_lib.py | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/packtools/sps/pid_provider/xml_sps_lib.py b/packtools/sps/pid_provider/xml_sps_lib.py
index 5723a23e3..dee1600ad 100644
--- a/packtools/sps/pid_provider/xml_sps_lib.py
+++ b/packtools/sps/pid_provider/xml_sps_lib.py
@@ -10,7 +10,7 @@
 from lxml import etree
 
 from packtools.sps.libs.requester import fetch_data
-from packtools.sps.pid_provider.ent2char import fix_entities
+from packtools.sps.pid_provider.name2number import fix_pre_loading
 
 # 4.7.1 packtools.sps.models.*
 from packtools.sps.pid_provider.models.article_assets import ArticleAssets
@@ -280,8 +280,10 @@ def get_xml_with_pre(xml_content):
         pref, xml = split_processing_instruction_doctype_declaration_and_xml(
             xml_content
         )
-        return XMLWithPre(pref, etree.fromstring(fix_entities(xml)))
-
+        try:
+            return XMLWithPre(pref, etree.fromstring(xml))
+        except etree.XMLSyntaxError:
+            return XMLWithPre(pref, etree.fromstring(fix_pre_loading(xml)))
     except Exception as e:
         if xml_content:
             raise GetXmlWithPreError(
@@ -806,7 +808,7 @@ def partial_body(self):
         try:
             body = Body(self.xmltree)
             for text in body.main_body_texts:
-                if text:
+                if (text or "").strip():
                     return text
         except AttributeError:
             pass

From c0b2ce95195ee72ad1b4eb873401739f09e11bbd Mon Sep 17 00:00:00 2001
From: Roberta Takenaka <roberta.takenaka@scielo.org>
Date: Tue, 2 Sep 2025 12:42:47 -0300
Subject: [PATCH 9/9] Refatora a forma de obter os textos dos elementos de body

---
 packtools/sps/pid_provider/models/body.py | 15 +--------------
 1 file changed, 1 insertion(+), 14 deletions(-)

diff --git a/packtools/sps/pid_provider/models/body.py b/packtools/sps/pid_provider/models/body.py
index ecf8e87a0..4e47f51d4 100644
--- a/packtools/sps/pid_provider/models/body.py
+++ b/packtools/sps/pid_provider/models/body.py
@@ -1,17 +1,4 @@
 
-def _get_texts(node):
-    texts = []
-    if node.text:
-        texts.append(node.text.strip())
-    for child in node.getchildren():
-        text = _get_texts(child).strip()
-        if text:
-            texts.append(text)
-    if node.tail:
-        texts.append(node.tail.strip())
-    return " ".join(texts)
-
-
 class Body:
     def __init__(self, xmltree):
         self.xmltree = xmltree
@@ -23,4 +10,4 @@ def main_body(self):
     @property
     def main_body_texts(self):
         for node in self.main_body.xpath("*"):
-            yield _get_texts(node)
+            yield " ".join([item for item in node.xpath(".//text()") if item.strip()])