# Tokenización

Quizás una de las operaciones más básicas que podemos realizar sobre textos es contar palabras. 
Imaginemos un caso extremadamente sencillo relacionado con el aprendizaje automático. 
Pensemos en un **clasificador de positividad / negatividad**.

Podríamos usar una regla simple como:

> **Si "bueno" está en el texto, clasificamos como positivo.**

Claramente, un enfoque tan sencillo va a ser propenso a muchos errores. 
A lo largo del curso iremos viendo cómo aplicarlo y mejorarlo.

La operación de separar los textos en unidades básicas (o **tokens**) se llama **tokenización**.

## Ejemplo de tokenización simple

Supongamos que tenemos el siguiente texto:


In [2]:
doc2 = 'Usualmente, existe una relación costo-beneficio entre las distintas técnicas.'

Una forma muy básica de tokenizar sería dividir el texto usando los espacios:

In [5]:
tokens = doc2.split(' ')
print(tokens)

['Usualmente,', 'existe', 'una', 'relación', 'costo-beneficio', 'entre', 'las', 'distintas', 'técnicas.']


Observamos que al hacer una división simple por espacios, los signos de puntuación (como las comas y puntos) permanecen unidos a las palabras, lo que puede ser un problema para algunas aplicaciones de procesamiento de lenguaje natural.

**Limitaciones de este enfoque:**

1. Los signos de puntuación permanecen unidos a las palabras ("Usualmente,")
2. Las palabras compuestas se dividen incorrectamente ("costo-beneficio" debería ser un token)
3. No maneja contracciones ("del" debería ser "de" + "el")
4. No normaliza el texto (mayúsculas, acentos)

# Variaciones en el lenguaje natural y normalización

Vemos que, en castellano, el lenguaje natural (escrito) puede presentar distintas fuentes de variaciones:

- Uso de **mayúsculas**
- **Tildes** en las palabras
- **Signos ortográficos** (comas, puntos, signos de exclamación, etc.)
- **Errores de tipeo**
- **Variaciones propias del lenguaje** como la conjugación verbal
- **Artefactos de la escritura informal**, como la repetición de letras: `"holaaa"`

## ¿Cómo abordarán esto nuestros algoritmos?

Una solución es aplicar la **normalización**.

> **Normalización**: en este contexto, tiene una acepción similar (aunque distinta) a la que usamos en estadística. 
> Significa transformar los textos para que las representaciones sean uniformes, minimizando variaciones que no aportan significado semántico.

## Ejemplos de normalización

Algunas acciones comunes de normalización son:

- **Eliminar espacios innecesarios**
- **Convertir todo a minúsculas**
- **Quitar tildes** o acentos
- **Eliminar signos de puntuación**
- **Corregir errores de tipeo** (cuando sea posible)
- **Reducir repeticiones** (por ejemplo, cambiar `"holaaa"` a `"hola"`)

## Ejemplo práctico en Python

Veamos cómo podríamos aplicar algunas de estas normalizaciones básicas:

In [10]:
import unicodedata
import re

def normalizar_texto(texto):
    # Pasar a minúsculas
    texto = texto.lower()
    # Quitar tildes
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    # Eliminar signos de puntuación
    texto = re.sub(r'[^\w\s]', '', texto)
    # Eliminar espacios extra
    texto = ' '.join(texto.split())
    return texto

# Ejemplo de uso
texto_original = "¡Holaaa! ¿Cómo estás? Espero que muy bieeen."
texto_normalizado = normalizar_texto(texto_original)

print("Texto original:", texto_original)
print("Texto normalizado:", texto_normalizado)


Texto original: ¡Holaaa! ¿Cómo estás? Espero que muy bieeen.
Texto normalizado: holaaa como estas espero que muy bieeen


Otra forma sería:

# Instalación y uso de Unidecode para normalización de textos

Para trabajar con textos eliminando acentos (tildes) y caracteres especiales, podemos utilizar la librería **unidecode**.

Primero, asegurémonos de instalarla:


In [14]:
%%capture
!pip install unidecode

Usamos %%capture para suprimir la salida de la instalación en el notebook.

*Normalización rápida de un texto tokenizado*

Supongamos que ya tenemos un texto que queremos procesar:

In [19]:
doc2 = 'Usualmente, existe una relación costo-beneficio entre las distintas técnicas.'

Podemos tokenizar el texto rápidamente y aplicar normalización sobre cada palabra:

In [22]:
import unidecode

tokens_normalizados = [
    unidecode.unidecode(w.lower().strip()) 
    for w in doc2.split(' ')
]

print(tokens_normalizados)

['usualmente,', 'existe', 'una', 'relacion', 'costo-beneficio', 'entre', 'las', 'distintas', 'tecnicas.']


**¿Qué estamos haciendo aquí?**

  w.lower() → Pasamos cada palabra a minúsculas.

  strip() → Quitamos espacios extra al inicio y final de cada palabra.

  unidecode.unidecode() → Quitamos tildes o caracteres especiales, pasando todo a su versión ASCII básica.



**Otras normalizaciones más sofisticadas serían:**

  - Pasar de plural al singular
  - Convertir el genero de la plabras
  - Conjugar los verbos en infinitivo

¡Es de esperarse de que se requieran métodos más complejos!

Podemos observar que con la tokenización anterior, todavía tenemos palabras con signos de puntuación y caracteres "pegados".
Armar nuestro vocabulario es un paso clave 
