#### Ejemplos con BertTokenizer

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from transformers import BertTokenizer

In [4]:
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

original = '¿A qué hora vamos a McDonalds?'
texto = "a qué hora vamos a mcdonalds"
tokens = tokenizer.tokenize(texto)
tokens_orig = tokenizer.tokenize(original)

print(tokens)
print(tokens_orig)

['a', 'qué', 'hora', 'va', '##mos', 'a', 'm', '##c', '##dona', '##ld', '##s']
['¿', 'A', 'qué', 'hora', 'va', '##mos', 'a', 'McDonald', '##s', '?']


In [9]:
print(tokenizer.convert_tokens_to_ids(tokens))

[169, 38188, 24301, 10321, 13386, 169, 181, 10350, 64674, 12620, 10107]


#### Limpieza de strings

In [4]:
vocales_con_acento_min = [chr(x) for x in [ord('á'), ord('é'), ord('í'), ord('ó'), ord('ú')]]
vocales_con_acento_may = [chr(x) for x in [ord('Á'), ord('É'), ord('Í'), ord('Ó'), ord('Ú')]]
allowed_characters = [chr(x) for x in range(97,123)] + vocales_con_acento_min + [chr(241)] + [chr(10), chr(32)] + [chr(x) for x in range(48,58)] # los caracteres de letras minúsculas, espacio en blanco y fin de linea y números
characters_to_replace = [chr(x) for x in range(65,91)] + vocales_con_acento_may + [chr(209)] #las mayúsculas
characters_to_replace_with = [chr(x) for x in range(97,123)] + vocales_con_acento_min + [chr(241)] #las minúsculas
replace_dict = dict(zip(characters_to_replace, characters_to_replace_with))

def limpiar_string (s) :
  res = ""
  for c in s :
    if c in allowed_characters :
      res += c
    elif c in characters_to_replace :
      res += replace_dict[c]
  return res

In [5]:
test_limpieza = "Veamos que pasa si cortamos un árbol ¿Será capaz de entender? El Árbol no sentirá el corte hasta que sea demaisado tarde: al buscar sus raices para nutrir las hojas, sentirá la desesperación de la falta." + '\n' + '¡Ósado el talador, que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero!'
print(test_limpieza)
print('\n')
print(limpiar_string(test_limpieza))

Veamos que pasa si cortamos un árbol ¿Será capaz de entender? El Árbol no sentirá el corte hasta que sea demaisado tarde: al buscar sus raices para nutrir las hojas, sentirá la desesperación de la falta.
¡Ósado el talador, que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero!


veamos que pasa si cortamos un árbol será capaz de entender el árbol no sentirá el corte hasta que sea demaisado tarde al buscar sus raices para nutrir las hojas sentirá la desesperación de la falta
ósado el talador que se preocupa más por el calor de su morada que la protección que ofrece el bosque y la protección de todas sus criaturas contra el silencio verdadero


#### Etiquetas para datos de entrada

**Nota**: es un planteo preliminar, imitando cómo nos piden entregar las respuestas, se pueden hacer modificaciones para lo que necesitemos como entrada

In [6]:
import pandas as pd
from funciones_dataset import generar_data_palabras, clasificacion_nivel_token

In [7]:
texto_original = "¿Cuándo vamos a McDonald's? Ellos no vienen. Entonces, ¿dónde están?"
data_texto_original = generar_data_palabras(instancia_id=1, instancia=texto_original)

texto_limpio = limpiar_string(texto_original)
tokens_texto_limpio = tokenizer.tokenize(texto_limpio)

clasificacion = clasificacion_nivel_token(tokens_texto_limpio, data_texto_original, tokenizer)
pd.DataFrame.from_dict(clasificacion)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,1,cu,16408,1,¿,
1,1,##án,4881,1,,
2,1,##do,2572,1,,
3,1,v,191,0,,
4,1,##amo,16931,0,,
5,1,##s,1116,0,,
6,1,a,170,0,,
7,1,m,182,2,,
8,1,##c,1665,2,,
9,1,##don,3842,2,,


In [8]:
data_test_limpieza = generar_data_palabras(instancia_id=2, instancia=test_limpieza)

test_limpieza_limpio = limpiar_string(test_limpieza)
tokens_texto_limpio = tokenizer.tokenize(test_limpieza_limpio)

clasificacion = clasificacion_nivel_token(tokens_texto_limpio, data_test_limpieza, tokenizer)
pd.DataFrame.from_dict(clasificacion).head(26)

Unnamed: 0,instancia_id,token,token_id,capitalizacion,puntuacion_inicial,puntuacion_final
0,2,ve,1396,1,,
1,2,##amo,16931,1,,
2,2,##s,1116,1,,
3,2,que,15027,0,,
4,2,p,185,0,,
5,2,##asa,18384,0,,
6,2,si,27466,0,,
7,2,co,1884,0,,
8,2,##rta,16242,0,,
9,2,##mos,11828,0,,
