# Preprocesamiento de texto

## Introducción

El preprocesamiento de texto es una tarea elemental en el procesamiento de lenguaje natural. Consiste en una serie de pasos que se realizan antes de aplicar cualquier algoritmo de aprendizaje automático, si bien en algunas nuevas herramientas de procesamiento de lenguaje natural, como BERT, se realizan algunos pasos de preprocesamiento de forma implícita, es importante conocer los pasos que se realizan en dicho proceso.En este notebook, se presentan los pasos más comunes. 

## 1. Importar librerías

En este caso, se importarán las librerías necesarias para realizar el preprocesamiento de texto.

In [None]:
import re ## Exprexiones regulares
import nltk ## Procesamiento de lenguaje natural
from nltk.corpus import stopwords ## Palabras vacias
from nltk.stem import SnowballStemmer ## Stemming
from nltk.tokenize import word_tokenize ## Tokenizacion
from nltk.tokenize import RegexpTokenizer ## Tokenizacion
from sklearn.feature_extraction.text import CountVectorizer ## Vectorizador


############## Descarga de recursos de nltk ################
nltk.download('punkt') ## Tokenizador
nltk.download('stopwords') ## Palabras vacias
nltk.download('snowball_data') ## Stemming
nltk.download('wordnet') ## Lematizacion

############## Es necesario descargar estos recursos para poder ejecutar el script ################

## 2. Cargar el texto

Para este ejercicio inicial usaremos un texto sencillo, el cual se cargará en una variable.

In [None]:
texto = """Hace varios años, en el pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. """

## 3. Normalización

La normalización es el proceso de convertir texto en un formato estándar. En este caso, se convertirá el texto a minúsculas. En este paso también se pueden eliminar caracteres especiales, números, etc.

In [None]:
############## Normalización ################

## Convertir a minusculas

texto = texto.lower()

## Eliminar caracteres especiales

texto = re.sub(r"[\W_]+", " ", texto) ## Elimina caracteres especiales y numeros la expresion regular \W es para caracteres especiales y \d para numeros, todo lo que no sea una letra se reemplaza por un espacio.



## 4. Tokenización

La tokenización es el proceso de dividir el texto en palabras, frases u oraciones. En este caso, se dividirá el texto en palabras.

In [None]:
############## Tokenizacion ################

## Tokenizador por palabras

texto_tokenizado = word_tokenize(texto)

### La funcion word_tokenize de nltk permite tokenizar un texto en palabras, por detrás esta utilizando expresiones regulares para separar las palabras.

texto_tokenizado

In [None]:
## Tokenizador por expresiones regulares

tokenizer = RegexpTokenizer(r'\w+')
texto_tokenizado = tokenizer.tokenize(texto)

### La clase RegexpTokenizer de nltk permite tokenizar un texto utilizando expresiones regulares, en este caso se tokeniza por palabras.

texto_tokenizado

## 5. Eliminación de stopwords

Las stopwords son palabras que no aportan significado al texto, como artículos, preposiciones, etc. En este paso, se eliminarán las stopwords del texto.

In [None]:
############## Eliminación de palabras vacias ################

## Palabras vacias en español

stopwords_esp = stopwords.words('spanish')

## Eliminar palabras vacias

texto_filtrado = [palabra for palabra in texto_tokenizado if palabra not in stopwords_esp]

### La lista stopwords.words('spanish') contiene las palabras vacias en español, se filtran las palabras vacias del texto tokenizado.

stopwords_esp

In [None]:
texto_filtrado

## 6. Lematización o stemming

La lematización es el proceso de convertir una palabra a su forma base. Por ejemplo, las palabras "corriendo" y "corrió" se convertirían a "correr". En este paso, se lematizarán las palabras del texto. No obstante, también se puede realizar stemming, que es un proceso similar, pero menos preciso, en el cual se eliminan sufijos y prefijos de las palabras.

In [None]:
############## Stemming ################

## Stemmer en español

stemmer = SnowballStemmer('spanish')

## Stemming

texto_stemming = [stemmer.stem(palabra) for palabra in texto_filtrado]

### La clase SnowballStemmer de nltk permite realizar stemming en español, se aplica stemming a las palabras filtradas.

texto_stemming

In [None]:
############## Lematización ################

## Lematizador en español

lemmatizer = nltk.stem.WordNetLemmatizer()

## Lematización

texto_lematizado = [lemmatizer.lemmatize(palabra) for palabra in texto_filtrado]

### La clase WordNetLemmatizer de nltk permite realizar lematización en inglés, se aplica lematización a las palabras filtradas.

texto_lematizado

## 7. Bag of words

Finalmente, se creará una representación de las palabras del texto en forma de vector. En este caso, se usará la técnica de bag of words, que consiste en contar la frecuencia de las palabras en el texto.



In [None]:
############## Bag of words ################

## Vectorizador

vectorizador = CountVectorizer()

## Bolsa de palabras

texto_bow = vectorizador.fit_transform([' '.join(texto_lematizado)])

## Veamos un dataframe con la bolsa de palabras

import pandas as pd

df = pd.DataFrame(texto_bow.toarray(), columns=vectorizador.get_feature_names_out())
df_index = pd.DataFrame([' '.join(texto_lematizado)], columns=['Texto'])

df = pd.concat([df_index, df], axis=1)

df

## 8. Conclusiones

En este notebook, se presentaron los pasos más comunes en el preprocesamiento de texto. Es importante tener en cuenta que estos pasos pueden variar dependiendo del problema y del texto que se esté analizando. Para las siguientes tareas es probable que se hagan algunos de los pasos mencionados anteriormente.