# Word tokenization

## PATH

In [2]:
import os
import sys
PATH = os.getcwd()
DIR_DATA = PATH + '{0}data{0}matilda{0}'.format(os.sep)
sys.path.append(PATH) if PATH not in list(sys.path) else None
DIR_DATA

'C:\\Users\\epuerta\\OneDrive - Universidad Tecnológica de Bolívar\\Apps\\courseNLP\\examples\\data\\matilda\\'

## Python Libraries

In [5]:
import pandas as pd
import glob
import nltk
from nltk.tokenize import word_tokenize
import spacy

In [6]:
# Descargar recursos necesarios de NLTK (solo la primera vez)
# nltk.download('punkt')

In [9]:
# !python -m spacy download es_core_news_sm

In [11]:
# Cargar modelo en español (puedes cambiarlo por 'en_core_web_sm' para inglés)
nlp = spacy.load("es_core_news_sm")

In [14]:
ruta_archivos = DIR_DATA + "*.txt"

In [16]:
# Obtener lista de archivos
archivos = glob.glob(ruta_archivos)

In [18]:
# Leer y concatenar el contenido de todos los archivos en un solo string
texto_unido = ""

for archivo in archivos:
    with open(archivo, "r", encoding="utf-8") as file:
        texto_unido += file.read() + "\n"  # Agregar un salto de línea entre archivos

In [20]:
texto_unido[:1000]

'\x0cMatilda y las mujeres en ingeniería en América Latina\n\nConsejo Federal de Decanos de Ingeniería de Argentina – CONFEDI (www.confedi.org.ar)\n\nLatin American and Caribbean Consortium of Engineering Institutions – LACCEI (www.laccei.org)\n\nCompiladores - Editores:\nRoberto Giordano Lerena (Presidente CONFEDI 2018, UFASTA, Argentina)\nAdriana Cecilia Páez Pino (Presidente LACCEI 2018, USA, Colombia)\n\nDiseño y Revisión General:\nSandra Daniela Cirimelo (UFASTA, Argentina)\n\nDiseño de Tapa:\nFernanda Salerno (Subsecretaría de Comunicación y Marketing, UFASTA, Argentina)\n\n\n\nISBN e-book: 978-958-52071-0-3\n\nUniversidad FASTA Ediciones\n\ningenieria@ufasta.edu.ar\n\n1ª edición: 8 de marzo 2019\n\nUniversidad FASTA Ediciones es Miembro de la Red de Editoriales de Universidades Privadas de la República Argentina, REUP.\n\nLas expresiones vertidas en este libro son exclusiva responsabilidad de los autores y no representan la opinión\nde CONFEDI ni de LACCEI. Las cifras y datos pu

## Tokenición con NLTK

In [23]:
# Tokenizar el texto
tokens = word_tokenize(texto_unido)

tokens[:50]  # Mostrar los primeros 50 tokens

['Matilda',
 'y',
 'las',
 'mujeres',
 'en',
 'ingeniería',
 'en',
 'América',
 'Latina',
 'Consejo',
 'Federal',
 'de',
 'Decanos',
 'de',
 'Ingeniería',
 'de',
 'Argentina',
 '–',
 'CONFEDI',
 '(',
 'www.confedi.org.ar',
 ')',
 'Latin',
 'American',
 'and',
 'Caribbean',
 'Consortium',
 'of',
 'Engineering',
 'Institutions',
 '–',
 'LACCEI',
 '(',
 'www.laccei.org',
 ')',
 'Compiladores',
 '-',
 'Editores',
 ':',
 'Roberto',
 'Giordano',
 'Lerena',
 '(',
 'Presidente',
 'CONFEDI',
 '2018',
 ',',
 'UFASTA',
 ',',
 'Argentina']

## Tokenización con spaCy

In [30]:
chunk_size = 500000  # Dividir en fragmentos de 500,000 caracteres
chunks = [texto_unido[i:i+chunk_size] for i in range(0, len(texto_unido), chunk_size)]

tokens_totales = []

# Procesar cada fragmento por separado
for chunk in chunks:
    doc = nlp(chunk)
    tokens_totales.extend([token.text for token in doc])

print(tokens_totales[:50])  # Mostrar los primeros 50 tokens

['\x0c', 'Matilda', 'y', 'las', 'mujeres', 'en', 'ingeniería', 'en', 'América', 'Latina', '\n\n', 'Consejo', 'Federal', 'de', 'Decanos', 'de', 'Ingeniería', 'de', 'Argentina', '–', 'CONFEDI', '(', 'www.confedi.org.ar', ')', '\n\n', 'Latin', 'American', 'and', 'Caribbean', 'Consortium', 'of', 'Engineering', 'Institutions', '–', 'LACCEI', '(', 'www.laccei.org', ')', '\n\n', 'Compiladores', '-', 'Editores', ':', '\n', 'Roberto', 'Giordano', 'Lerena', '(', 'Presidente', 'CONFEDI']


In [36]:
for chunk in chunks:
    doc = nlp(chunk)
    print([token for token in doc])

[, Matilda, y, las, mujeres, en, ingeniería, en, América, Latina, 

, Consejo, Federal, de, Decanos, de, Ingeniería, de, Argentina, –, CONFEDI, (, www.confedi.org.ar, ), 

, Latin, American, and, Caribbean, Consortium, of, Engineering, Institutions, –, LACCEI, (, www.laccei.org, ), 

, Compiladores, -, Editores, :, 
, Roberto, Giordano, Lerena, (, Presidente, CONFEDI, 2018, ,, UFASTA, ,, Argentina, ), 
, Adriana, Cecilia, Páez, Pino, (, Presidente, LACCEI, 2018, ,, USA, ,, Colombia, ), 

, Diseño, y, Revisión, General, :, 
, Sandra, Daniela, Cirimelo, (, UFASTA, ,, Argentina, ), 

, Diseño, de, Tapa, :, 
, Fernanda, Salerno, (, Subsecretaría, de, Comunicación, y, Marketing, ,, UFASTA, ,, Argentina, ), 



, ISBN, e-book, :, 978-958-52071-0-3, 

, Universidad, FASTA, Ediciones, 

, ingenieria@ufasta.edu.ar, 

, 1ª, edición, :, 8, de, marzo, 2019, 

, Universidad, FASTA, Ediciones, es, Miembro, de, la, Red, de, Editoriales, de, Universidades, Privadas, de, la, República, Argentina, ,, R