# Analisis del modelo NotiBert para la tarea de fill mask

La idea es plantearle distintas frases a completar, buscando expresiones o conceptos nacionales, ya sea comunes a la actualidad, o extractos del corpus de noticias de entrada.

In [2]:
MODEL_PATH = '/home/mago/Documents/Fing/Pasantia/modelos_entrenados/20221127_out_backup_600k_steps'

In [3]:
from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model=MODEL_PATH,
    tokenizer=MODEL_PATH
    
)

In [4]:
MASK = '<mask>'

## Ejemplos iniciales


Frase: "Q.E.P.D. Falleció en la Paz del Señor."

In [5]:
fill_mask(f"Q.E.P.D. Falleció en la Paz del {MASK}.")

[{'score': 0.06768152862787247,
  'token': 2540,
  'token_str': ' juego',
  'sequence': 'Q.E.P.D. Falleció en la Paz del juego.'},
 {'score': 0.0659201517701149,
  'token': 2200,
  'token_str': ' domingo',
  'sequence': 'Q.E.P.D. Falleció en la Paz del domingo.'},
 {'score': 0.05884166061878204,
  'token': 1292,
  'token_str': ' partido',
  'sequence': 'Q.E.P.D. Falleció en la Paz del partido.'},
 {'score': 0.04733465611934662,
  'token': 15225,
  'token_str': ' cerro',
  'sequence': 'Q.E.P.D. Falleció en la Paz del cerro.'},
 {'score': 0.02996649220585823,
  'token': 7776,
  'token_str': ' parque',
  'sequence': 'Q.E.P.D. Falleció en la Paz del parque.'}]

In [6]:
fill_mask(f"q.e.p.d. falleció en la paz del {MASK}.")


[{'score': 0.6342306137084961,
  'token': 7435,
  'token_str': ' señor',
  'sequence': 'q.e.p.d. falleció en la paz del señor.'},
 {'score': 0.2420421540737152,
  'token': 1196,
  'token_str': ' sen',
  'sequence': 'q.e.p.d. falleció en la paz del sen.'},
 {'score': 0.1024177297949791,
  'token': 277,
  'token_str': 'or',
  'sequence': 'q.e.p.d. falleció en la paz delor.'},
 {'score': 0.0014844811521470547,
  'token': 5111,
  'token_str': ' confortado',
  'sequence': 'q.e.p.d. falleció en la paz del confortado.'},
 {'score': 0.0014435653574764729,
  'token': 578,
  'token_str': 'ores',
  'sequence': 'q.e.p.d. falleció en la paz delores.'}]

Se puede ver como performa distinto cuando la entrada esta previamente en minusculas. Ademas, en ese caso logra retornar la palabra buscada.
Probablemente no este manejando correctamente el lower_case

Alguna referencia para solucionarlo: 
https://huggingface.co/transformers/v3.5.1/_modules/transformers/pipelines.html

## Otros ejemplos

In [7]:
fill_mask("El quiere <mask> rapidamente.")

[{'score': 0.49971869587898254,
  'token': 10038,
  'token_str': ' robar',
  'sequence': 'El quiere robar rapidamente.'},
 {'score': 0.06070375069975853,
  'token': 1351,
  'token_str': ' ir',
  'sequence': 'El quiere ir rapidamente.'},
 {'score': 0.03820455074310303,
  'token': 5300,
  'token_str': ' rapi',
  'sequence': 'El quiere rapi rapidamente.'},
 {'score': 0.023355798795819283,
  'token': 3082,
  'token_str': ' salir',
  'sequence': 'El quiere salir rapidamente.'},
 {'score': 0.02096451446413994,
  'token': 1890,
  'token_str': ' seguir',
  'sequence': 'El quiere seguir rapidamente.'}]

In [8]:
# Encuentra uruguay sin necesidad de pasar a minuscula
fill_mask("Montevideo es la capital de <mask>.")

[{'score': 0.35000747442245483,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'Montevideo es la capital de uruguay.'},
 {'score': 0.12959074974060059,
  'token': 816,
  'token_str': ' todos',
  'sequence': 'Montevideo es la capital de todos.'},
 {'score': 0.06332617253065109,
  'token': 7411,
  'token_str': ' brasil',
  'sequence': 'Montevideo es la capital de brasil.'},
 {'score': 0.056691426783800125,
  'token': 2976,
  'token_str': ' argentina',
  'sequence': 'Montevideo es la capital de argentina.'},
 {'score': 0.03640419989824295,
  'token': 2585,
  'token_str': ' nadie',
  'sequence': 'Montevideo es la capital de nadie.'}]

In [9]:
fill_mask("El presidente de <mask>.")


[{'score': 0.3411928713321686,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'El presidente de uruguay.'},
 {'score': 0.11813563108444214,
  'token': 12727,
  'token_str': ' inac',
  'sequence': 'El presidente de inac.'},
 {'score': 0.04712843522429466,
  'token': 12164,
  'token_str': ' primaria',
  'sequence': 'El presidente de primaria.'},
 {'score': 0.04596423730254173,
  'token': 7411,
  'token_str': ' brasil',
  'sequence': 'El presidente de brasil.'},
 {'score': 0.04233119636774063,
  'token': 7421,
  'token_str': ' paraguay',
  'sequence': 'El presidente de paraguay.'}]

In [10]:
fill_mask("El intendente de <mask>.")


[{'score': 0.4219602346420288,
  'token': 10641,
  'token_str': ' salto',
  'sequence': 'El intendente de salto.'},
 {'score': 0.37898293137550354,
  'token': 18575,
  'token_str': ' colonia',
  'sequence': 'El intendente de colonia.'},
 {'score': 0.06471852213144302,
  'token': 14507,
  'token_str': ' flores',
  'sequence': 'El intendente de flores.'},
 {'score': 0.017764393240213394,
  'token': 25015,
  'token_str': ' minas',
  'sequence': 'El intendente de minas.'},
 {'score': 0.009217108599841595,
  'token': 1638,
  'token_str': ' mal',
  'sequence': 'El intendente de mal.'}]

In [11]:
fill_mask("José Pepe <mask>.")


[{'score': 0.02289547212421894,
  'token': 610,
  'token_str': ' años',
  'sequence': 'José Pepe años.'},
 {'score': 0.010873154737055302,
  'token': 605,
  'token_str': 'ana',
  'sequence': 'José Pepeana.'},
 {'score': 0.009029041975736618,
  'token': 69,
  'token_str': 'a',
  'sequence': 'José Pepea.'},
 {'score': 0.008045103400945663,
  'token': 473,
  'token_str': 'ia',
  'sequence': 'José Pepeia.'},
 {'score': 0.00656122388318181,
  'token': 441,
  'token_str': 'án',
  'sequence': 'José Pepeán.'}]

In [12]:
fill_mask("El presidente José Pepe <mask>.")


[{'score': 0.2499372512102127,
  'token': 1738,
  'token_str': 'jica',
  'sequence': 'El presidente José Pepejica.'},
 {'score': 0.1689668744802475,
  'token': 21467,
  'token_str': ' república',
  'sequence': 'El presidente José Pepe república.'},
 {'score': 0.04437324032187462,
  'token': 1832,
  'token_str': 'ázquez',
  'sequence': 'El presidente José Pepeázquez.'},
 {'score': 0.04300857335329056,
  'token': 781,
  'token_str': ' presidente',
  'sequence': 'El presidente José Pepe presidente.'},
 {'score': 0.02729828655719757,
  'token': 2675,
  'token_str': 'ezuela',
  'sequence': 'El presidente José Pepeezuela.'}]

In [13]:
fill_mask("el presidente josé pepe <mask>.")


[{'score': 0.3676699995994568,
  'token': 540,
  'token_str': ' ma',
  'sequence': 'el presidente josé pepe ma.'},
 {'score': 0.1198408380150795,
  'token': 2821,
  'token_str': ' guerra',
  'sequence': 'el presidente josé pepe guerra.'},
 {'score': 0.07766241580247879,
  'token': 781,
  'token_str': ' presidente',
  'sequence': 'el presidente josé pepe presidente.'},
 {'score': 0.052577994763851166,
  'token': 314,
  'token_str': ' v',
  'sequence': 'el presidente josé pepe v.'},
 {'score': 0.017193883657455444,
  'token': 6813,
  'token_str': ' batalla',
  'sequence': 'el presidente josé pepe batalla.'}]

In [14]:
fill_mask(f"La ministra del Interior, {MASK} Tourné.")


[{'score': 0.039261344820261,
  'token': 9859,
  'token_str': ' enrique',
  'sequence': 'La ministra del Interior, enrique Tourné.'},
 {'score': 0.03414328023791313,
  'token': 285,
  'token_str': ' m',
  'sequence': 'La ministra del Interior, m Tourné.'},
 {'score': 0.032766375690698624,
  'token': 12603,
  'token_str': ' ana',
  'sequence': 'La ministra del Interior, ana Tourné.'},
 {'score': 0.03169970586895943,
  'token': 263,
  'token_str': ' de',
  'sequence': 'La ministra del Interior, de Tourné.'},
 {'score': 0.026034830138087273,
  'token': 274,
  'token_str': ' s',
  'sequence': 'La ministra del Interior, s Tourné.'}]

In [15]:
# Peñarol vs (otro equipo)

fill_mask(f"Peñarol vs {MASK}")



[{'score': 0.9534674882888794,
  'token': 18,
  'token_str': '.',
  'sequence': 'Peñarol vs.'},
 {'score': 0.008349229581654072,
  'token': 679,
  'token_str': '..',
  'sequence': 'Peñarol vs..'},
 {'score': 0.00523805059492588,
  'token': 35,
  'token_str': '?',
  'sequence': 'Peñarol vs?'},
 {'score': 0.004734671674668789,
  'token': 2144,
  'token_str': '.',
  'sequence': 'Peñarol vs.'},
 {'score': 0.004640704486519098,
  'token': 15797,
  'token_str': '....',
  'sequence': 'Peñarol vs....'}]

In [16]:

fill_mask(f"El manya se enfrenta a {MASK}")


[{'score': 0.2552206218242645,
  'token': 1109,
  'token_str': '...',
  'sequence': 'El manya se enfrenta a...'},
 {'score': 0.17214812338352203,
  'token': 3647,
  'token_str': '..',
  'sequence': 'El manya se enfrenta a..'},
 {'score': 0.10434920340776443,
  'token': 2144,
  'token_str': '.',
  'sequence': 'El manya se enfrenta a.'},
 {'score': 0.08612451702356339,
  'token': 8495,
  'token_str': ' [...',
  'sequence': 'El manya se enfrenta a [...'},
 {'score': 0.08569357544183731,
  'token': 4858,
  'token_str': '...',
  'sequence': 'El manya se enfrenta a...'}]

In [17]:
# <apelará> la decisión del tribunal civil
fill_mask(f"El abogado {MASK} la decisión del tribunal civil.")


[{'score': 0.17088158428668976,
  'token': 12190,
  'token_str': ' cuestionó',
  'sequence': 'El abogado cuestionó la decisión del tribunal civil.'},
 {'score': 0.10701249539852142,
  'token': 25744,
  'token_str': ' apeló',
  'sequence': 'El abogado apeló la decisión del tribunal civil.'},
 {'score': 0.06694263964891434,
  'token': 10726,
  'token_str': ' defendió',
  'sequence': 'El abogado defendió la decisión del tribunal civil.'},
 {'score': 0.044523123651742935,
  'token': 2532,
  'token_str': ' espera',
  'sequence': 'El abogado espera la decisión del tribunal civil.'},
 {'score': 0.038682252168655396,
  'token': 16720,
  'token_str': ' apoyó',
  'sequence': 'El abogado apoyó la decisión del tribunal civil.'}]

In [18]:
fill_mask("El Cuarteto de <mask>.")


[{'score': 0.02914307825267315,
  'token': 4419,
  'token_str': ' verano',
  'sequence': 'El Cuarteto de verano.'},
 {'score': 0.0219331793487072,
  'token': 2177,
  'token_str': ' marzo',
  'sequence': 'El Cuarteto de marzo.'},
 {'score': 0.021070796996355057,
  'token': 2274,
  'token_str': ' julio',
  'sequence': 'El Cuarteto de julio.'},
 {'score': 0.01522979885339737,
  'token': 2524,
  'token_str': ' abril',
  'sequence': 'El Cuarteto de abril.'},
 {'score': 0.013056039810180664,
  'token': 2499,
  'token_str': ' agosto',
  'sequence': 'El Cuarteto de agosto.'}]

In [19]:
fill_mask("el cuarteto de <mask>.")


[{'score': 0.9472731947898865,
  'token': 841,
  'token_str': ' nos',
  'sequence': 'el cuarteto de nos.'},
 {'score': 0.01856902427971363,
  'token': 19635,
  'token_str': ' cuerdas',
  'sequence': 'el cuarteto de cuerdas.'},
 {'score': 0.004681785590946674,
  'token': 2276,
  'token_str': ' nosotros',
  'sequence': 'el cuarteto de nosotros.'},
 {'score': 0.004651558585464954,
  'token': 1117,
  'token_str': 'nos',
  'sequence': 'el cuarteto denos.'},
 {'score': 0.002497454872354865,
  'token': 383,
  'token_str': ' lo',
  'sequence': 'el cuarteto de lo.'}]

In [20]:
fill_mask(f"Uruguay es un país de América del {MASK}.")



[{'score': 0.15953755378723145,
  'token': 1021,
  'token_str': ' mundo',
  'sequence': 'Uruguay es un país de América del mundo.'},
 {'score': 0.08855382353067398,
  'token': 584,
  'token_str': ' este',
  'sequence': 'Uruguay es un país de América del este.'},
 {'score': 0.07544764876365662,
  'token': 1862,
  'token_str': ' sur',
  'sequence': 'Uruguay es un país de América del sur.'},
 {'score': 0.063747838139534,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'Uruguay es un país de América del uruguay.'},
 {'score': 0.04038039967417717,
  'token': 4359,
  'token_str': ' plata',
  'sequence': 'Uruguay es un país de América del plata.'}]

In [51]:
fill_mask(f"covid {MASK}.")


[{'score': 0.15014663338661194,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'covid uruguay.'},
 {'score': 0.10058732330799103,
  'token': 2316,
  'token_str': '19',
  'sequence': 'covid19.'},
 {'score': 0.06734122335910797,
  'token': 639,
  'token_str': ' co',
  'sequence': 'covid co.'},
 {'score': 0.03892923519015312,
  'token': 5540,
  'token_str': ' 33',
  'sequence': 'covid 33.'},
 {'score': 0.03467831015586853,
  'token': 2115,
  'token_str': ' pan',
  'sequence': 'covid pan.'}]

## Deportes

In [21]:
fill_mask(f"Club Nacional de {MASK}.")

fill_mask(f"Club {MASK} de Fútbol.")




[{'score': 0.859032154083252,
  'token': 272,
  'token_str': 'es',
  'sequence': 'Clubes de Fútbol.'},
 {'score': 0.010575398802757263,
  'token': 30,
  'token_str': ':',
  'sequence': 'Club: de Fútbol.'},
 {'score': 0.007055808324366808,
  'token': 270,
  'token_str': 'er',
  'sequence': 'Cluber de Fútbol.'},
 {'score': 0.00618938822299242,
  'token': 5498,
  'token_str': ' municipal',
  'sequence': 'Club municipal de Fútbol.'},
 {'score': 0.004500124137848616,
  'token': 534,
  'token_str': 'ario',
  'sequence': 'Clubario de Fútbol.'}]

In [22]:
fill_mask(f"La Comisión Directiva del Club Nacional de {MASK}.")

[{'score': 0.02422321029007435,
  'token': 2177,
  'token_str': ' marzo',
  'sequence': 'La Comisión Directiva del Club Nacional de marzo.'},
 {'score': 0.022504638880491257,
  'token': 2398,
  'token_str': ' mayo',
  'sequence': 'La Comisión Directiva del Club Nacional de mayo.'},
 {'score': 0.020135778933763504,
  'token': 2274,
  'token_str': ' julio',
  'sequence': 'La Comisión Directiva del Club Nacional de julio.'},
 {'score': 0.01849212683737278,
  'token': 2159,
  'token_str': ' enero',
  'sequence': 'La Comisión Directiva del Club Nacional de enero.'},
 {'score': 0.018367277458310127,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'La Comisión Directiva del Club Nacional de uruguay.'}]

In [23]:
fill_mask(f"La Comisión Directiva del Club {MASK} de Fútbol.")


[{'score': 0.04573670029640198,
  'token': 1471,
  'token_str': ' nacional',
  'sequence': 'La Comisión Directiva del Club nacional de Fútbol.'},
 {'score': 0.02395808883011341,
  'token': 16,
  'token_str': ',',
  'sequence': 'La Comisión Directiva del Club, de Fútbol.'},
 {'score': 0.017258504405617714,
  'token': 295,
  'token_str': ' y',
  'sequence': 'La Comisión Directiva del Club y de Fútbol.'},
 {'score': 0.01094343326985836,
  'token': 83,
  'token_str': 'o',
  'sequence': 'La Comisión Directiva del Clubo de Fútbol.'},
 {'score': 0.010942655615508556,
  'token': 3174,
  'token_str': 'deg',
  'sequence': 'La Comisión Directiva del Clubdeg de Fútbol.'}]

In [24]:
fill_mask(f"la comisión directiva del club {MASK} de fútbol.")


[{'score': 0.8414248824119568,
  'token': 1471,
  'token_str': ' nacional',
  'sequence': 'la comisión directiva del club nacional de fútbol.'},
 {'score': 0.04318899288773537,
  'token': 2533,
  'token_str': ' libertad',
  'sequence': 'la comisión directiva del club libertad de fútbol.'},
 {'score': 0.03182853385806084,
  'token': 1610,
  'token_str': ' uruguayo',
  'sequence': 'la comisión directiva del club uruguayo de fútbol.'},
 {'score': 0.006074506789445877,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'la comisión directiva del club uruguay de fútbol.'},
 {'score': 0.004729874432086945,
  'token': 2972,
  'token_str': ' español',
  'sequence': 'la comisión directiva del club español de fútbol.'}]

In [25]:
fill_mask(f"la comisión directiva del {MASK} nacional de fútbol.")



[{'score': 0.4573685824871063,
  'token': 2694,
  'token_str': ' club',
  'sequence': 'la comisión directiva del club nacional de fútbol.'},
 {'score': 0.24198177456855774,
  'token': 7094,
  'token_str': ' campeonato',
  'sequence': 'la comisión directiva del campeonato nacional de fútbol.'},
 {'score': 0.1013631820678711,
  'token': 9769,
  'token_str': ' instituto',
  'sequence': 'la comisión directiva del instituto nacional de fútbol.'},
 {'score': 0.05187537893652916,
  'token': 9273,
  'token_str': ' consejo',
  'sequence': 'la comisión directiva del consejo nacional de fútbol.'},
 {'score': 0.030349649488925934,
  'token': 9685,
  'token_str': ' museo',
  'sequence': 'la comisión directiva del museo nacional de fútbol.'}]

## politica

In [26]:
fill_mask(f"Tabaré {MASK}.")


[{'score': 0.010162991471588612,
  'token': 381,
  'token_str': 'ma',
  'sequence': 'Tabaréma.'},
 {'score': 0.009122013114392757,
  'token': 766,
  'token_str': 'deo',
  'sequence': 'Tabarédeo.'},
 {'score': 0.007962544448673725,
  'token': 80,
  'token_str': 'l',
  'sequence': 'Tabarél.'},
 {'score': 0.006838815752416849,
  'token': 958,
  'token_str': 'gentina',
  'sequence': 'Tabarégentina.'},
 {'score': 0.005785936955362558,
  'token': 84,
  'token_str': 'p',
  'sequence': 'Tabarép.'}]

In [32]:
fill_mask(f"tabaré {MASK}.")


[{'score': 0.816245436668396,
  'token': 314,
  'token_str': ' v',
  'sequence': 'tabaré v.'},
 {'score': 0.053812477737665176,
  'token': 781,
  'token_str': ' presidente',
  'sequence': 'tabaré presidente.'},
 {'score': 0.02117532677948475,
  'token': 540,
  'token_str': ' ma',
  'sequence': 'tabaré ma.'},
 {'score': 0.011023953557014465,
  'token': 29192,
  'token_str': ' viera',
  'sequence': 'tabaré viera.'},
 {'score': 0.0073117539286613464,
  'token': 3386,
  'token_str': ' debate',
  'sequence': 'tabaré debate.'}]

In [27]:
fill_mask(f"{MASK} Vázquez.")


[{'score': 0.028081264346837997,
  'token': 384,
  'token_str': 'la',
  'sequence': 'la Vázquez.'},
 {'score': 0.02675873599946499,
  'token': 81,
  'token_str': 'm',
  'sequence': 'm Vázquez.'},
 {'score': 0.02651345357298851,
  'token': 357,
  'token_str': 'el',
  'sequence': 'el Vázquez.'},
 {'score': 0.026080753654241562,
  'token': 272,
  'token_str': 'es',
  'sequence': 'es Vázquez.'},
 {'score': 0.023149562999606133,
  'token': 708,
  'token_str': 'no',
  'sequence': 'no Vázquez.'}]

In [31]:
fill_mask(f"{MASK} vázquez.")


[{'score': 0.11761802434921265,
  'token': 16169,
  'token_str': 'presidente',
  'sequence': 'presidente vázquez.'},
 {'score': 0.11649376899003983,
  'token': 69,
  'token_str': 'a',
  'sequence': 'a vázquez.'},
 {'score': 0.054175928235054016,
  'token': 93,
  'token_str': 'y',
  'sequence': 'y vázquez.'},
 {'score': 0.04222280532121658,
  'token': 261,
  'token_str': 'de',
  'sequence': 'de vázquez.'},
 {'score': 0.038170527666807175,
  'token': 17,
  'token_str': '-',
  'sequence': '- vázquez.'}]

In [28]:
fill_mask(f"El presidente Tabaré {MASK}.")


[{'score': 0.4417261779308319,
  'token': 1738,
  'token_str': 'jica',
  'sequence': 'El presidente Tabaréjica.'},
 {'score': 0.14354254305362701,
  'token': 1832,
  'token_str': 'ázquez',
  'sequence': 'El presidente Tabaréázquez.'},
 {'score': 0.06402482092380524,
  'token': 781,
  'token_str': ' presidente',
  'sequence': 'El presidente Tabaré presidente.'},
 {'score': 0.012666781432926655,
  'token': 3878,
  'token_str': ' vicepresidente',
  'sequence': 'El presidente Tabaré vicepresidente.'},
 {'score': 0.009455079212784767,
  'token': 3760,
  'token_str': 'ávez',
  'sequence': 'El presidente Tabaréávez.'}]

In [20]:
fill_mask(f"El presidente {MASK}.")



[{'score': 0.0531645230948925,
  'token': 348,
  'token_str': ' no',
  'sequence': 'El presidente no.'},
 {'score': 0.04062402993440628,
  'token': 7568,
  'token_str': ' electo',
  'sequence': 'El presidente electo.'},
 {'score': 0.039278339594602585,
  'token': 1610,
  'token_str': ' uruguayo',
  'sequence': 'El presidente uruguayo.'},
 {'score': 0.03856964409351349,
  'token': 1933,
  'token_str': ' argentino',
  'sequence': 'El presidente argentino.'},
 {'score': 0.029962539672851562,
  'token': 15182,
  'token_str': ' kirchner',
  'sequence': 'El presidente kirchner.'}]

## Extraidos directamente del corpus

### Banco Hipotecario del Uruguay.

In [21]:

fill_mask(f"Banco Hipotecario del {MASK}.")



[{'score': 0.10911053419113159,
  'token': 674,
  'token_str': ' mar',
  'sequence': 'Banco Hipotecario del mar.'},
 {'score': 0.07154776901006699,
  'token': 4359,
  'token_str': ' plata',
  'sequence': 'Banco Hipotecario del plata.'},
 {'score': 0.06946150958538055,
  'token': 1280,
  'token_str': 'gado',
  'sequence': 'Banco Hipotecario delgado.'},
 {'score': 0.06917203217744827,
  'token': 4076,
  'token_str': ' puerto',
  'sequence': 'Banco Hipotecario del puerto.'},
 {'score': 0.04871169850230217,
  'token': 1862,
  'token_str': ' sur',
  'sequence': 'Banco Hipotecario del sur.'}]

In [22]:
fill_mask(f"banco hipotecario del {MASK}.")


[{'score': 0.999427318572998,
  'token': 817,
  'token_str': ' uruguay',
  'sequence': 'banco hipotecario del uruguay.'},
 {'score': 0.00019457150483503938,
  'token': 1133,
  'token_str': ' estado',
  'sequence': 'banco hipotecario del estado.'},
 {'score': 4.0571623685536906e-05,
  'token': 2417,
  'token_str': ' norte',
  'sequence': 'banco hipotecario del norte.'},
 {'score': 2.563835005275905e-05,
  'token': 632,
  'token_str': ' país',
  'sequence': 'banco hipotecario del país.'},
 {'score': 2.2818556317361072e-05,
  'token': 1862,
  'token_str': ' sur',
  'sequence': 'banco hipotecario del sur.'}]

In [24]:
fill_mask(f"banco {MASK} del uruguay.")


[{'score': 0.898857057094574,
  'token': 3147,
  'token_str': ' central',
  'sequence': 'banco central del uruguay.'},
 {'score': 0.020878273993730545,
  'token': 12850,
  'token_str': ' oriental',
  'sequence': 'banco oriental del uruguay.'},
 {'score': 0.015145656652748585,
  'token': 3942,
  'token_str': ' banco',
  'sequence': 'banco banco del uruguay.'},
 {'score': 0.0053482563234865665,
  'token': 3731,
  'token_str': ' policial',
  'sequence': 'banco policial del uruguay.'},
 {'score': 0.005144079215824604,
  'token': 5745,
  'token_str': ' financiero',
  'sequence': 'banco financiero del uruguay.'}]

In [34]:

# Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la Intendencia.
# 
fill_mask(f"Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la {MASK}.")
 

[{'score': 0.2333955615758896,
  'token': 1426,
  'token_str': ' situación',
  'sequence': 'Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la situación.'},
 {'score': 0.146650493144989,
  'token': 2223,
  'token_str': ' reunión',
  'sequence': 'Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la reunión.'},
 {'score': 0.13628053665161133,
  'token': 1983,
  'token_str': ' medida',
  'sequence': 'Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la medida.'},
 {'score': 0.03875192999839783,
  'token': 9352,
  'token_str': ' intendencia',
  'sequence': 'Tras el encuentro con las autoridades municipales, los clasificadores se retiraron defraudados y molestos de la intendencia.'},
 {'score': 0.03294295445084572,
  'token': 5258,
  'token_str': ' comuna',
  'sequence': 'Tras el encuentro con las autoridades munic

In [35]:

# El próximo 20 de Mayo en el Estadio Centenario se enfrentan los grandes del Uruguay.
# 

fill_mask(f"El próximo 20 de Mayo en el Estadio {MASK} se enfrentan los grandes del Uruguay.")



[{'score': 0.3841257691383362,
  'token': 21460,
  'token_str': ' centenario',
  'sequence': 'El próximo 20 de Mayo en el Estadio centenario se enfrentan los grandes del Uruguay.'},
 {'score': 0.028525566682219505,
  'token': 620,
  'token_str': ' 20',
  'sequence': 'El próximo 20 de Mayo en el Estadio 20 se enfrentan los grandes del Uruguay.'},
 {'score': 0.02689414471387863,
  'token': 3147,
  'token_str': ' central',
  'sequence': 'El próximo 20 de Mayo en el Estadio central se enfrentan los grandes del Uruguay.'},
 {'score': 0.020793840289115906,
  'token': 23709,
  'token_str': ' olímpico',
  'sequence': 'El próximo 20 de Mayo en el Estadio olímpico se enfrentan los grandes del Uruguay.'},
 {'score': 0.020662877708673477,
  'token': 728,
  'token_str': ' también',
  'sequence': 'El próximo 20 de Mayo en el Estadio también se enfrentan los grandes del Uruguay.'}]

In [38]:
# El País Digital
# 

fill_mask(f"El país {MASK}.")


[{'score': 0.6007252335548401,
  'token': 2090,
  'token_str': ' digital',
  'sequence': 'El país digital.'},
 {'score': 0.10243312269449234,
  'token': 5336,
  'token_str': ' cultural',
  'sequence': 'El país cultural.'},
 {'score': 0.09098920226097107,
  'token': 8826,
  'token_str': ' productivo',
  'sequence': 'El país productivo.'},
 {'score': 0.014211255125701427,
  'token': 9959,
  'token_str': ' entero',
  'sequence': 'El país entero.'},
 {'score': 0.009007277898490429,
  'token': 21278,
  'token_str': ' vasco',
  'sequence': 'El país vasco.'}]

In [43]:
# Un joven se ahogó en Santa Teresa En Playa Grande; era montevideano y tenía 22 años Sobre las 12.30 horas del miércoles una joven llegó corriendo hasta el marinero que cumple funciones en Playa Grande de Santa Teresa pidiendo ayuda para sus compañeros de estudio que eran arrastrados por las aguas.
# notar que minimice las palabras
fill_mask(f"Un joven se ahogó en santa teresa en playa {MASK}; era montevideano y tenía 22 años, sobre las 12.30 horas del miércoles una joven llegó corriendo hasta el marinero que cumple funciones en playa grande de santa teresa pidiendo ayuda para sus compañeros de estudio que eran arrastrados por las aguas.")


[{'score': 0.9373108744621277,
  'token': 3157,
  'token_str': ' grande',
  'sequence': 'Un joven se ahogó en santa teresa en playa grande; era montevideano y tenía 22 años, sobre las 12.30 horas del miércoles una joven llegó corriendo hasta el marinero que cumple funciones en playa grande de santa teresa pidiendo ayuda para sus compañeros de estudio que eran arrastrados por las aguas.'},
 {'score': 0.007660204544663429,
  'token': 8097,
  'token_str': ' chico',
  'sequence': 'Un joven se ahogó en santa teresa en playa chico; era montevideano y tenía 22 años, sobre las 12.30 horas del miércoles una joven llegó corriendo hasta el marinero que cumple funciones en playa grande de santa teresa pidiendo ayuda para sus compañeros de estudio que eran arrastrados por las aguas.'},
 {'score': 0.00531561067327857,
  'token': 7637,
  'token_str': ' verde',
  'sequence': 'Un joven se ahogó en santa teresa en playa verde; era montevideano y tenía 22 años, sobre las 12.30 horas del miércoles una jov

In [46]:
# El rey Juan Carlos
fill_mask(f"El rey juan {MASK}.")


[{'score': 0.17522819340229034,
  'token': 7199,
  'token_str': ' rey',
  'sequence': 'El rey Juan rey.'},
 {'score': 0.015559529885649681,
  'token': 9085,
  'token_str': ' reina',
  'sequence': 'El rey Juan reina.'},
 {'score': 0.013618598692119122,
  'token': 21295,
  'token_str': ' trono',
  'sequence': 'El rey Juan trono.'},
 {'score': 0.013378352858126163,
  'token': 332,
  'token_str': 'ta',
  'sequence': 'El rey Juanta.'},
 {'score': 0.012087678536772728,
  'token': 816,
  'token_str': ' todos',
  'sequence': 'El rey Juan todos.'}]

In [48]:
# El enviado del rey Juan Carlos demora su informe a la espera de que baje la tensión Argentina y Uruguay no le están facilitando las cosas al rey Juan Carlos.
# 

fill_mask(f"El enviado del rey juan {MASK} demora su informe a la espera de que baje la tensión argentina y uruguay no le están facilitando las cosas al rey juan carlos.")

# tokenizer_notibert.tokenize("carlos") == ['car', 'los']


[{'score': 0.6880353689193726,
  'token': 348,
  'token_str': ' no',
  'sequence': 'El enviado del rey juan no demora su informe a la espera de que baje la tensión argentina y uruguay no le están facilitando las cosas al rey juan carlos.'},
 {'score': 0.05766483396291733,
  'token': 586,
  'token_str': ' car',
  'sequence': 'El enviado del rey juan car demora su informe a la espera de que baje la tensión argentina y uruguay no le están facilitando las cosas al rey juan carlos.'},
 {'score': 0.05248264968395233,
  'token': 9859,
  'token_str': ' enrique',
  'sequence': 'El enviado del rey juan enrique demora su informe a la espera de que baje la tensión argentina y uruguay no le están facilitando las cosas al rey juan carlos.'},
 {'score': 0.037260305136442184,
  'token': 404,
  'token_str': ' i',
  'sequence': 'El enviado del rey juan i demora su informe a la espera de que baje la tensión argentina y uruguay no le están facilitando las cosas al rey juan carlos.'},
 {'score': 0.01939685

In [49]:

# Así salvó a Sudáfrica de la guerra civil.
# 

fill_mask(f"Así salvó a Sudáfrica de la guerra {MASK}.")
 

[{'score': 0.3526601195335388,
  'token': 5167,
  'token_str': ' civil',
  'sequence': 'Así salvó a Sudáfrica de la guerra civil.'},
 {'score': 0.32175084948539734,
  'token': 14193,
  'token_str': ' fría',
  'sequence': 'Así salvó a Sudáfrica de la guerra fría.'},
 {'score': 0.06144570931792259,
  'token': 21964,
  'token_str': ' santa',
  'sequence': 'Así salvó a Sudáfrica de la guerra santa.'},
 {'score': 0.0381748229265213,
  'token': 3157,
  'token_str': ' grande',
  'sequence': 'Así salvó a Sudáfrica de la guerra grande.'},
 {'score': 0.033372268080711365,
  'token': 16355,
  'token_str': ' sucia',
  'sequence': 'Así salvó a Sudáfrica de la guerra sucia.'}]