<center>

<div align="center">
    <img src="../Images/javeriana.PNG" width="800" height="600">
</div>

**Juan David Villate Lemus**

**José Rafael Peña Gutiérrez**

**Laura Katherine Moreno Giraldo**

**William Ricardo Fernández Garnica**

### Tokenización

En NLP el proceso de convertir nuestras secuencias de caracteres, palabras o párrafos en inputs para la computadora se llama **tokenización**. Se puede pensar al token como la unidad para procesamiento semántico.

In [2]:
from nltk.tokenize import WhitespaceTokenizer
tk = WhitespaceTokenizer()
texto = "¿Cuánto tiempo pasó desde que comí una manzana?"
texto_tokenizado = tk.tokenize(texto)
print(texto_tokenizado)

['¿Cuánto', 'tiempo', 'pasó', 'desde', 'que', 'comí', 'una', 'manzana?']


como vemos *manzana* y *cuánto* figuran con el signo de pregunta. Y si tuvieramos la palabra manzana mencionada otra vez saldría nuevamente como un token diferente. Lo mismo nos sucedería si aparece una coma o un punto ¿Cómo hacemos para evitarlo?

Podemos utilizar `TreebankWordTokenizer` en lugar de `WhitespaceTokenizer`. También podemos preprocesar el texto quitando comas y signos de puntuación y separar por espacios, o bien utilizar opciones como `WordPunctTokenizer` que separa por palabras tomando como separadores todo lo que no sea un caracter alfabetico.

In [3]:
from nltk.tokenize import WordPunctTokenizer
from nltk.tokenize import TreebankWordTokenizer
texto = "¿Cuánto tiempo pasó desde que comí una manzana?"
texto_tokenizado1 = WordPunctTokenizer().tokenize(texto)
texto_tokenizado2 = TreebankWordTokenizer().tokenize(texto)

In [4]:
print(texto_tokenizado1)

['¿', 'Cuánto', 'tiempo', 'pasó', 'desde', 'que', 'comí', 'una', 'manzana', '?']


In [5]:
print(texto_tokenizado2)

['¿Cuánto', 'tiempo', 'pasó', 'desde', 'que', 'comí', 'una', 'manzana', '?']


Como evidenciamos la opción de `TreebankWordTokenizer` es la más popular en inglés el signo de apertura de pregunta "¿" fue un problema para ella. Mientras que la opción de WordPunctTokenizer no tuvo ningún problema.

## Respuesta

¿cómo crees que se comportarían frente a una apóstrofe?

In [4]:
# Texto con apóstrofe
texto_apostrofe = "I can't believe it's already noon"

# Tokenizar el texto usando WordPunctTokenizer
texto_apostrofe_tokenizado1 = WordPunctTokenizer().tokenize(texto_apostrofe)

# Tokenizar el texto usando TreebankWordTokenizer
texto_apostrofe_tokenizado2 = TreebankWordTokenizer().tokenize(texto_apostrofe)

# Imprimir los resultados
texto_apostrofe_tokenizado1, texto_apostrofe_tokenizado2

(['I', 'can', "'", 't', 'believe', 'it', "'", 's', 'already', 'noon'],
 ['I', 'ca', "n't", 'believe', 'it', "'s", 'already', 'noon'])

Con WordPunctTokenizer: La frase se divide en ['I', 'can', "'", 't', 'believe', 'it', "'", 's', 'already', 'noon']. Este tokenizador separa las apóstrofes del resto de la palabra, tratándolas como tokens independientes. Por lo tanto, las contracciones como "can't" y "it's" se dividen en partes: "can" y "'t" para "can't", "it" y "'s" para "it's".

Con TreebankWordTokenizer: La frase se tokeniza como ['I', 'ca', "n't", 'believe', 'it', "'s", 'already', 'noon']. Este enfoque muestra cómo el TreebankWordTokenizer maneja las contracciones de manera más precisa, manteniendo la negación "n't" como un token separado y correctamente asociado con "can't", y haciendo algo similar con "'s" en "it's". Este comportamiento refleja un manejo más sofisticado de las apóstrofes, más adecuado para el procesamiento de textos en inglés, donde las contracciones son comunes.

Otra Aproximacion, seria validar una limpieza previa


In [10]:
import re

# Función para reemplazar contracciones comunes por sus formas extendidas
def reemplazar_contracciones(texto):
    # Diccionario de reemplazos
    reemplazos = {
        "can't": "cannot",
        "it's": "it is",
        "'re": " are",
        "n't": " not",
        "'s": " is",
        "'m": " am",
        "'ll": " will",
        "'d": " would",
        "'ve": " have"
    }
    
    # Realizar reemplazos
    for contraccion, reemplazo in reemplazos.items():
        texto = re.sub(contraccion, reemplazo, texto)
        
    return texto

# Texto original con apóstrofes
texto_apostrofe_original = "I can't believe it's already noon"

# Reemplazar contracciones
texto_sin_contracciones = reemplazar_contracciones(texto_apostrofe_original)

# Tokenizar el texto limpio usando ambos tokenizadores
texto_tokenizado_sin_contracciones1 = WordPunctTokenizer().tokenize(texto_sin_contracciones)
texto_tokenizado_sin_contracciones2 = TreebankWordTokenizer().tokenize(texto_sin_contracciones)

print('Texto Limpio:    ',texto_sin_contracciones)
print('Texto WordPunctTokenizer:    ',texto_tokenizado_sin_contracciones1)
print('Texto TreebankWordTokenizer:    ',texto_tokenizado_sin_contracciones2)

Texto Limpio:     I cannot believe it is already noon
Texto WordPunctTokenizer:     ['I', 'cannot', 'believe', 'it', 'is', 'already', 'noon']
Texto TreebankWordTokenizer:     ['I', 'can', 'not', 'believe', 'it', 'is', 'already', 'noon']


Con WordPunctTokenizer: La frase se tokeniza como ['I', 'cannot', 'believe', 'it', 'is', 'already', 'noon']. Este tokenizador maneja el texto limpio de manera efectiva, sin separar incorrectamente las palabras debido a las apóstrofes.

Con TreebankWordTokenizer: La frase se tokeniza como ['I', 'can', 'not', 'believe', 'it', 'is', 'already', 'noon']. Interesantemente, este tokenizador separa "cannot" en "can" y "not", lo cual es una peculiaridad de cómo maneja ciertas palabras, incluso después de la normalización.