# Preprocesamiento de Texto

## Introducción

El preprocesamiento de texto es el primer paso para trabajar con datos textuales en proyectos de Procesamiento de Lenguaje Natural (NLP). Antes de aplicar modelos o algoritmos, es necesario transformar los textos en un formato más estructurado y limpio que permita analizarlos con mayor facilidad. Este proceso ayuda a reducir el ruido en los datos y resaltar lo que es realmente útil para las tareas posteriores.

En este cuaderno vamos a explorar técnicas básicas y avanzadas de preprocesamiento aplicadas a un texto literario, utilizando un fragmento de "Cien Años de Soledad". El objetivo es aprender a preparar los datos para tareas como clasificación, análisis de sentimiento o generación de texto.

### ¿Qué veremos?

1. **Normalización del texto**: Minúsculas, eliminación de caracteres innecesarios y formatos consistentes.
2. **Tokenización**: Separar el texto en palabras o frases.
3. **Eliminación de palabras comunes (stopwords)**: Filtrar palabras que no aportan información útil.
4. **Stemming y lematización**: Simplificar palabras a su raíz o forma base.
5. **Representación numérica**: Convertir el texto en vectores para análisis cuantitativo.


In [1]:
import re ## Exprexiones regulares
import nltk ## Procesamiento de lenguaje natural
from nltk.corpus import stopwords ## Palabras vacias
from nltk.stem import SnowballStemmer ## Stemming
from nltk.tokenize import word_tokenize ## Tokenizacion
from nltk.tokenize import RegexpTokenizer ## Tokenizacion
from sklearn.feature_extraction.text import CountVectorizer ## Vectorizador


############## Descarga de recursos de nltk ################
nltk.download('punkt') ## Tokenizador
nltk.download('stopwords') ## Palabras vacias
nltk.download('snowball_data') ## Stemming
nltk.download('wordnet') ## Lematizacion

############## Es necesario descargar estos recursos para poder ejecutar el script ################

[nltk_data] Downloading package punkt to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package snowball_data to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package snowball_data is already up-to-date!
[nltk_data] Downloading package wordnet to /home/isaac-
[nltk_data]     zainea/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

## 2. Cargar el texto

Para este ejercicio inicial usaremos un texto sencillo, el cual se cargará en una variable.

In [2]:
texto = """Hace varios años, en el pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. """

In [3]:
## En el caso de un corpus se puede hacer a tra ves de un csv
import pandas as pd

Corpus_DF=pd.read_csv('../../Datos/Datos Crudos/corpus_chismofilias.csv')
Corpus_DF

Unnamed: 0,Comentario,Sentimiento
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo
1,"Es increíble, escucho cosas que nunca imaginé....",Positivo
2,"La calidad del audio es sorprendente, puedo es...",Positivo
3,"La batería dura mucho tiempo, lo uso todo el d...",Positivo
4,"No puedo creer que exista algo así, es como te...",Positivo
5,"El diseño es muy discreto, nadie sospecha que ...",Positivo
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo
7,"Es muy caro para lo que ofrece, esperaba más f...",Negativo
8,A veces se desconecta y pierdo lo que estaban ...,Negativo
9,"No cumple con las expectativas, el sonido es m...",Negativo


## 3. Normalización

La **normalización de texto** se refiere al proceso de transformar un texto para que tenga un formato uniforme y consistente. Esto puede incluir convertir a minúsculas, eliminar caracteres especiales, números o espacios adicionales. Su principal objetivo es reducir la complejidad y estandarizar el texto antes de aplicar técnicas de análisis.

### ¿Cuándo usar la normalización?

La normalización es útil en varios contextos, pero no siempre es necesaria. Aquí te dejo una guía sobre cuándo es apropiado aplicarla:

#### **1. Modelos tradicionales de NLP**
- **Modelos como Bag of Words (BoW), TF-IDF o Word2Vec**: 
  - Estos enfoques se benefician de textos más limpios y homogéneos, ya que cualquier variación (como diferencias en el uso de mayúsculas) puede aumentar innecesariamente la dimensionalidad.
  - Ejemplo: `Casa` y `casa` serán consideradas distintas si no se normaliza el texto.

#### **2. Análisis de frecuencia o clustering**
- En tareas como la identificación de palabras más comunes, búsqueda de temas o clustering de textos, la normalización es esencial para evitar que caracteres especiales o inconsistencias afecten los resultados.

#### **3. Modelos avanzados como LLMs (e.g., GPT, BERT)**
- Los modelos de lenguaje de gran tamaño ya incluyen mecanismos integrados para manejar textos sin normalizar. **No es necesario preprocesar demasiado**:
  - Estos modelos tienen vocabularios entrenados que incluyen variaciones comunes como mayúsculas o caracteres especiales.
  - Sin embargo, en algunos casos, eliminar información irrelevante (como emojis o HTML) puede ser beneficioso dependiendo del dominio de los datos.

### **¿Qué pasos incluye la normalización?**

#### 1. **Conversión a minúsculas**
   - Utilidad: Evita que `Casa` y `casa` se traten como diferentes.
   - Ejemplo: `"Hola Mundo"` → `"hola mundo"`

#### 2. **Eliminación de caracteres especiales**
   - Utilidad: Simplifica el análisis al eliminar puntuación, emojis o símbolos irrelevantes.
   - Ejemplo: `"¡Hola! ¿Cómo estás?"` → `"Hola Como estas"`

#### 3. **Eliminación de números (opcional)**
   - Utilidad: En textos narrativos o sentimentales, los números suelen no ser informativos.
   - Ejemplo: `"En el año 2023"` → `"En el año"`

#### 4. **Eliminación de espacios adicionales**
   - Utilidad: Limpia la estructura del texto.
   - Ejemplo: `"Hola     Mundo"` → `"Hola Mundo"`

### **¿Cuándo evitar la normalización?**

- **Textos donde las mayúsculas son significativas**: En análisis de sentimiento, una frase como `"¡GRACIAS!"` puede tener un impacto emocional diferente a `"gracias"`.
- **Datos con emojis o símbolos relevantes**: En algunos dominios, eliminar emojis podría perder información clave.
- **Entradas para LLMs**: Estos modelos ya gestionan caracteres especiales y capitalización, por lo que normalizar excesivamente podría eliminar información útil.

<img src="https://www.mermaidchart.com/raw/9218311f-e863-4e37-824a-b23305925151?theme=light&version=v0.1&format=svg" alt="Diagrama de flujo para la normalización" style="width:100%; max-width:800px;">

In [4]:
############## Normalización ################

## Convertir a minusculas

texto = texto.lower()

## Eliminar caracteres especiales

texto = re.sub(r"[\W_]+", " ", texto) ## Elimina caracteres especiales y numeros la expresion regular \W es para caracteres especiales y \d para numeros, todo lo que no sea una letra se reemplaza por un espacio.



In [5]:
### Ahora hagamos ese proceso de normalización para todo el corpus

## Convert

Corpus_DF['Comentario Limpio'] = Corpus_DF['Comentario'].str.lower()

## Eliminar caracteres especiales

Corpus_DF['Comentario Limpio'] = Corpus_DF['Comentario Limpio'].apply(lambda x: re.sub(r"[\W_]+", " ", x))

Corpus_DF


Unnamed: 0,Comentario,Sentimiento,Comentario Limpio
0,"Me encanta usar las chismofilias, ahora estoy ...",Positivo,me encanta usar las chismofilias ahora estoy a...
1,"Es increíble, escucho cosas que nunca imaginé....",Positivo,es increíble escucho cosas que nunca imaginé m...
2,"La calidad del audio es sorprendente, puedo es...",Positivo,la calidad del audio es sorprendente puedo esc...
3,"La batería dura mucho tiempo, lo uso todo el d...",Positivo,la batería dura mucho tiempo lo uso todo el dí...
4,"No puedo creer que exista algo así, es como te...",Positivo,no puedo creer que exista algo así es como ten...
5,"El diseño es muy discreto, nadie sospecha que ...",Positivo,el diseño es muy discreto nadie sospecha que e...
6,"El alcance es limitado, no puedo escuchar lo q...",Negativo,el alcance es limitado no puedo escuchar lo qu...
7,"Es muy caro para lo que ofrece, esperaba más f...",Negativo,es muy caro para lo que ofrece esperaba más fu...
8,A veces se desconecta y pierdo lo que estaban ...,Negativo,a veces se desconecta y pierdo lo que estaban ...
9,"No cumple con las expectativas, el sonido es m...",Negativo,no cumple con las expectativas el sonido es ma...


### Tokenización

La **tokenización** es el proceso de dividir un texto en unidades más pequeñas llamadas **tokens**. Estos pueden ser palabras, frases o incluso caracteres individuales, dependiendo del enfoque. Este paso es fundamental en Procesamiento de Lenguaje Natural (NLP) porque transforma el texto en fragmentos manejables que los algoritmos pueden analizar y procesar.

---

### ¿Por qué es importante la tokenización?

1. **Transformación estructurada**:
   - Convierte el texto no estructurado en datos que pueden procesarse de manera computacional.
   - Ejemplo: 
     ```python
     texto = "El gato está sobre la mesa."
     tokens = ["El", "gato", "está", "sobre", "la", "mesa"]
     ```

2. **Preparación para análisis posterior**:
   - Muchos algoritmos de NLP, como Bag of Words (BoW) o TF-IDF, requieren que el texto esté tokenizado para calcular frecuencias o relaciones entre palabras.

3. **Reducción de complejidad**:
   - Ayuda a simplificar problemas complejos al dividirlos en componentes más pequeños y manejables.

4. **Facilita el preprocesamiento**:
   - La tokenización es un paso previo a tareas como la eliminación de palabras vacías (stopwords), stemming, lematización o creación de embeddings.

---

### ¿Cómo se realiza la tokenización?

Existen diversas técnicas de tokenización, desde las más simples hasta las más avanzadas:

1. **Basada en espacios**:
   - Divide las palabras donde hay espacios.
   - Ejemplo: `"Hola, mundo"` → `["Hola,", "mundo"]`
   - Problema: Incluye signos de puntuación como parte de los tokens.

2. **Basada en expresiones regulares**:
   - Usa patrones para identificar palabras, números o caracteres específicos.
   - Ejemplo: Eliminando puntuación:
     ```python
     import re
     texto = "Hola, mundo."
     tokens = re.findall(r'\w+', texto)  # ["Hola", "mundo"]
     ```

3. **Tokenización de subpalabras**:
   - Divide las palabras en fragmentos más pequeños (subword units), como en BERT o WordPiece.
   - Ejemplo:
     - Palabra: `"corriendo"`
     - Tokens: `["corr", "iendo"]`
   - Ventaja: Maneja vocabularios más pequeños y es más robusto frente a palabras desconocidas.

4. **Tokenización basada en caracteres**:
   - Divide el texto en caracteres individuales.
   - Útil en tareas que analizan patrones a nivel de carácter.

---

### Tokenización en modelos avanzados como BERT

Modelos avanzados como **BERT, GPT o RoBERTa** tienen sus propias estrategias de tokenización diseñadas para maximizar la eficiencia y la cobertura del vocabulario:

1. **Vocabulario fijo**:
   - Utilizan un vocabulario limitado, generado previamente, que incluye palabras comunes y fragmentos de palabras.
   - Ejemplo: `"imposible"` → `["im", "pos", "ible"]`

2. **Manejo de palabras desconocidas**:
   - Si una palabra no está en el vocabulario, el modelo la divide en subpalabras para asegurar su representación.

3. **Codificación específica (WordPiece, Byte-Pair Encoding)**:
   - Estas técnicas dividen las palabras en subword units basadas en frecuencias observadas durante el entrenamiento.
   - Ejemplo: `"autonomía"` podría ser dividida en `["auto", "nomía"]`.

4. **Preservación de contexto**:
   - La tokenización específica permite que estos modelos capturen relaciones entre palabras y subpalabras, mejorando el análisis semántico.

---

### ¿Cuándo usar tokenización personalizada?

1. **Modelos preentrenados (e.g., BERT, GPT)**:
   - **No necesitas tokenización manual**. Estos modelos ya incluyen su propio tokenizador, optimizado para su arquitectura y vocabulario.
   - Ejemplo con el tokenizador de BERT:
     ```python
     from transformers import BertTokenizer
     tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
     tokens = tokenizer.tokenize("El gato está sobre la mesa.")
     print(tokens)  # ['el', 'gato', 'está', 'sobre', 'la', 'mesa', '.']
     ```

2. **Modelos tradicionales (TF-IDF, BoW)**:
   - Aquí se recomienda una tokenización básica o basada en expresiones regulares.

3. **Textos en lenguajes complejos (e.g., Chino, Japonés)**:
   - La tokenización puede requerir herramientas específicas como **Jieba** o **MeCab** para manejar caracteres que no están separados por espacios.

---


La tokenización es ¡importantísima! en NLP porque permite estructurar el texto para tareas posteriores. Sin embargo, **la forma de tokenizar depende del modelo y el problema**:

- **Modelos tradicionales** requieren una tokenización explícita.
- **Modelos avanzados como BERT** incluyen su propio tokenizador optimizado, lo que simplifica el preprocesamiento.

Esta flexibilidad es clave para decidir el enfoque más adecuado según el proyecto. ¿Te gustaría que agregue ejemplos prácticos de código o diagramas?

<img src="https://www.mermaidchart.com/raw/c333babf-e00a-4830-9c01-ec02d8e4b8aa?theme=light&version=v0.1&format=svg" alt="Diagrama de flujo para la normalización" style="width:100%; max-width:1000px;">

In [None]:
############## Tokenizacion ################

## Tokenizador por palabras

texto_tokenizado = word_tokenize(texto)

### La funcion word_tokenize de nltk permite tokenizar un texto en palabras, por detrás esta utilizando expresiones regulares para separar las palabras.

texto_tokenizado

In [None]:
## Tokenizador por expresiones regulares

tokenizer = RegexpTokenizer(r'\w+')
texto_tokenizado = tokenizer.tokenize(texto)

### La clase RegexpTokenizer de nltk permite tokenizar un texto utilizando expresiones regulares, en este caso se tokeniza por palabras.

texto_tokenizado

## 5. Eliminación de stopwords

Las stopwords son palabras que no aportan significado al texto, como artículos, preposiciones, etc. En este paso, se eliminarán las stopwords del texto.

In [None]:
############## Eliminación de palabras vacias ################

## Palabras vacias en español

stopwords_esp = stopwords.words('spanish')

## Eliminar palabras vacias

texto_filtrado = [palabra for palabra in texto_tokenizado if palabra not in stopwords_esp]

### La lista stopwords.words('spanish') contiene las palabras vacias en español, se filtran las palabras vacias del texto tokenizado.

stopwords_esp

In [None]:
texto_filtrado

## 6. Lematización o stemming

La lematización es el proceso de convertir una palabra a su forma base. Por ejemplo, las palabras "corriendo" y "corrió" se convertirían a "correr". En este paso, se lematizarán las palabras del texto. No obstante, también se puede realizar stemming, que es un proceso similar, pero menos preciso, en el cual se eliminan sufijos y prefijos de las palabras.

In [None]:
############## Stemming ################

## Stemmer en español

stemmer = SnowballStemmer('spanish')

## Stemming

texto_stemming = [stemmer.stem(palabra) for palabra in texto_filtrado]

### La clase SnowballStemmer de nltk permite realizar stemming en español, se aplica stemming a las palabras filtradas.

texto_stemming

In [None]:
############## Lematización ################

## Lematizador en español

lemmatizer = nltk.stem.WordNetLemmatizer()

## Lematización

texto_lematizado = [lemmatizer.lemmatize(palabra) for palabra in texto_filtrado]

### La clase WordNetLemmatizer de nltk permite realizar lematización en inglés, se aplica lematización a las palabras filtradas.

texto_lematizado

## 7. Bag of words

Finalmente, se creará una representación de las palabras del texto en forma de vector. En este caso, se usará la técnica de bag of words, que consiste en contar la frecuencia de las palabras en el texto.



In [None]:
############## Bag of words ################

## Vectorizador

vectorizador = CountVectorizer()

## Bolsa de palabras

texto_bow = vectorizador.fit_transform([' '.join(texto_lematizado)])

## Veamos un dataframe con la bolsa de palabras

import pandas as pd

df = pd.DataFrame(texto_bow.toarray(), columns=vectorizador.get_feature_names_out())
df_index = pd.DataFrame([' '.join(texto_lematizado)], columns=['Texto'])

df = pd.concat([df_index, df], axis=1)

df

## 8. Conclusiones

En este notebook, se presentaron los pasos más comunes en el preprocesamiento de texto. Es importante tener en cuenta que estos pasos pueden variar dependiendo del problema y del texto que se esté analizando. Para las siguientes tareas es probable que se hagan algunos de los pasos mencionados anteriormente.