In [1]:
#Importamos librerías
import warnings
import matplotlib as mpl
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn import tree
import plotly.express as px
import matplotlib.pyplot as plt
from matplotlib.ticker import PercentFormatter
import statistics
warnings.filterwarnings('ignore')
%config InlineBackend.figure_format='retina'
import torch
import sentencepiece
import onmt
import pyonmttok # Tokenizer de OpenNMT-py

## Tokenizer pyonmttok
pyonmttok is a Python library that provides tools to efficiently tokenize text. It is designed specifically for use in neural machine translation systems and focuses on fast, high-quality tokenization of text in multiple languages.

Here are some key features of the pyonmttok tokenizer:

Efficiency: It is designed to be fast and efficient, making it suitable for use in natural language processing (NLP) applications that require tokenization of large volumes of text.

Multilingual support: It is capable of tokenizing text in multiple languages, making it useful for machine translation systems and other projects that work with data in multiple languages.

Configurability: Provides several configuration options that allow you to adjust the tokenization behavior according to the specific needs of the project. For example, you can control word start and end characters, hyphenation rules, and other aspects of the tokenization process.

OpenNMT Integration: pyonmttok is commonly used in combination with the OpenNMT machine translation framework to tokenize input and output text in neural translation models.

In summary, pyonmttok is a useful tool for efficiently and accurately tokenizing text in a variety of languages, making it suitable for a wide range of natural language processing applications, especially those involving machine translation.

As we can see, this tokenizer not only tokenizes languages quite well but also specifications such as an indigenous language, in this case Wixaurika, an indigenous language of Huichol origin in Mexico.

In [5]:
import pyonmttok

# Creamos el tokenizador con joiner_annotate=True
tokenizer = pyonmttok.Tokenizer("conservative", joiner_annotate=True)

# Ruta al archivo de texto con las oraciones
ruta_archivo = r"C:\Users\joser\OneDrive\Documentos\Servicio\trai_es_real.wix.txt"

# Lista para almacenar las oraciones tokenizadas
oraciones_tokenizadas = []

# Abrimos el archivo y tokenizamos cada oración
with open(ruta_archivo, "r", encoding="utf-8") as archivo:
    for linea in archivo:
        # Tokenizamos la oración
        tokens = tokenizer.tokenize(linea.strip())
        # Agregamos los tokens a la lista
        oraciones_tokenizadas.append(tokens)

# Imprimimos las oraciones tokenizadas
for i, tokens in enumerate(oraciones_tokenizadas, start=1):
    print(f"Oración {i}: {tokens}")

Oración 1: (['meta', 'cegado', 'hetsie', 'mieme', 'yu', 'temawiet', '￭+', 'princesa', '￭,'], None)
Oración 2: (['+￭', 'kit', '￭+￭', 'arika', '￭:'], None)
Oración 3: (['kuit', '￭+￭', 'kieta', 'meputetinei', 'takua', 'h', '￭+￭', 'xie', 'kitenie', 'meta', 'mepek', '￭+', '￭.'], None)
Oración 4: (['panua', 'tawari', 'm', '￭+￭', 'pa', '￭+', 'reiti', 'h', '￭+￭', 'awet', '￭+￭', 'ya', 'naitsarie', '￭,'], None)
Oración 5: (['"￭', 'nekuri', '￭,', 'neneupit', '￭+￭', 'a', 'nepauta', 'hani', '￭.', '￭"￭', 'm', '￭+￭', 'pa', '￭+￭', 'ri', 'natineti', 'maim', '￭+￭', 'k', '￭+', 'kename', "'￭", 'ek', '￭+', 'pey', '￭+￭', 'ane', '￭.'], None)
Oración 6: (['penua', '+￭', 'rawe', 'p', '￭+￭', 'reu', 'tokaruwa', 'la', 'puerta', 're', 'hiwax', '￭+', '￭,'], None)
Oración 7: (['"', '￭¡￭', 'neura', '0', "￭'￭", 'eriwakaku', 'm', '￭+￭', 'k', '￭+', 'yunait', '￭+', 't', '￭+￭', 'ri', 'mauneye', 'x', '￭+￭', 'rienikie', 'kuatsari', '￭!', '￭"'], None)
Oración 8: (['waik', '￭+￭', 'ri', 'm', '￭+￭', 'k', '￭+￭', 'ta', 'mepekehew

In [3]:
# Creamos el tokenizador con joiner_annotate=True
tokenizer_es = pyonmttok.Tokenizer("conservative", joiner_annotate=True)

# Ruta al archivo de texto con las oraciones
ruta_archivo = r"C:\Users\joser\Downloads\corp-train (1).wix"

# Lista para almacenar las oraciones tokenizadas
oraciones_tokenizadas = []

# Abrimos el archivo y tokenizamos cada oración
with open(ruta_archivo, "r", encoding="utf-8") as archivo:
    for linea in archivo:
        # Tokenizamos la oración
        tokens = tokenizer_es.tokenize(linea.strip())
        # Agregamos los tokens a la lista
        oraciones_tokenizadas.append(tokens)

# Imprimimos las oraciones tokenizadas
for i, tokens in enumerate(oraciones_tokenizadas, start=1):
    print(f"Oración {i}: {tokens}")

Oración 1: (['y', 'cegado', 'por', 'el', 'encanto', 'de', 'la', 'princesa', '￭,'], None)
Oración 2: (['Enseñanza', '￭:'], None)
Oración 3: (['Al', 'final', 'bailaron', 'fuera', 'de', 'la', 'puerta', 'y', 'se', 'alejaron', '￭.'], None)
Oración 4: (['volvió', 'a', 'haber', 'escasez', 'por', 'todas', 'partes', '￭,'], None)
Oración 5: (['"￭', 'Hermana', '￭,', 'déjame', 'entrar', '￭.', '￭"', 'y', 'así', 'sabré', 'que', 'eres', 'tú', '￭.'], None)
Oración 6: (['llegó', 'el', 'lobo', 'y', 'tocó', 'a', 'la', 'puerta', 'y', 'gritó', '￭,'], None)
Oración 7: (['-', '￭"', '￭¡￭', 'Desearía', 'que', 'todos', 'esos', 'muchachos', 'se', 'convirtieran', 'en', 'cuervos', '￭!', '￭"', '￭-'], None)
Oración 8: (['que', 'ya', 'no', 'quisieron', 'salir', 'de', 'ella', 'nunca', 'más', '￭.'], None)
Oración 9: (['Blanca-Nieves', 'deseaba', 'la', 'manzana', '￭,'], None)
Oración 10: (['-', '￭"￭', 'Me', 'huele', '￭,', 'me', 'huele', 'a', 'carne', 'humana', '￭.', '￭"', '￭-'], None)
Oración 11: (['Los', 'ladrones', 's