# Introducción al procesamiento de lenguaje natural (PLN)

El Procesamiento de Lenguaje Natural (PLN) es un campo de la inteligencia artificial que busca desarrollar herramientas y algoritmos capaces de comprender, interpretar y generar lenguaje humano. A medida que el volumen de datos textuales crece exponencialmente, las técnicas de PLN son fundamentales para extraer información valiosa, mejorar la interacción entre humanos y máquinas, y automatizar tareas como la traducción, el análisis de sentimiento y la clasificación de documentos. Dos de las técnicas más importantes para la representación de texto en PLN son el modelo Bag of Words (BoW) y el método TF-IDF (Term Frequency-Inverse Document Frequency), que se utilizan para transformar palabras en representaciones numéricas comprensibles para los algoritmos.

El PLN abarca una amplia gama de tareas, desde la simple tokenización (dividir el texto en palabras o frases) hasta la comprensión semántica compleja, que implica interpretar el significado de frases en su contexto. Las aplicaciones del PLN son numerosas y se han expandido significativamente en los últimos años. Entre las más comunes se encuentran los motores de búsqueda, los asistentes virtuales, los traductores automáticos, y los sistemas de análisis de sentimiento. A pesar de los avances en esta área, el PLN sigue enfrentando desafíos complejos, como la ambigüedad del lenguaje, la ironía, los dialectos y la evolución constante del vocabulario.

## Preprocesamiento

El preproceso y normalización de texto es una parte muy importante para su posterior modelación y análisis. Este puede incluir alguno de los siguientes operaciones:

- Convertir letras a minúsculas o mayúsculas
- Remover números o convertirlos a palabras
- Remover signos de puntuación, acentos y otros signos diacríticos
- Remover caracteres repetidos, incluídos espacios en blanco
- Remover caracteres con poca frecuencia
- Remover palabras funcionales o stop words
- Convertir símbolos a palabras (emojis y otros)
- Stemming, lematización y POS-tagging

### Stemming

Proceso heurístico para, secuencialmente, remover las partes finales de una palabra (affixes) para obtener su "raíz". Es una forma básica para hacer análisis morfológico. Por ejemplo, considera las palabras

|token | stemming|
| --- | --- |
|  operate     |   oper |
|  operating   |   oper |
|  operates    |   oper |
|  operation   |   oper |
|  operative   |   oper |
|  operatives  |   oper |
|  operational |   oper |

**Ejemplo de stemming en ingles**

In [8]:
sentence="Hello, You have to build a very good site and I love visiting your site."
words = word_tokenize(sentence)
ps = PorterStemmer()

for w in words:
    print("Stemming for {} is {}".format(w,ps.stem(w)))

Stemming for Hello is hello
Stemming for , is ,
Stemming for You is you
Stemming for have is have
Stemming for to is to
Stemming for build is build
Stemming for a is a
Stemming for very is veri
Stemming for good is good
Stemming for site is site
Stemming for and is and
Stemming for I is i
Stemming for love is love
Stemming for visiting is visit
Stemming for your is your
Stemming for site is site
Stemming for . is .


**Ejemplo de stemming en español**

In [9]:
sentence="Hola, mi nombre es Daniel, mucho gusto conocerlos"
words = word_tokenize(sentence)
stemmer = SnowballStemmer("spanish")

for w in words:
    print("Stemming para {} es {}".format(w,stemmer.stem(w)))

Stemming para Hola es hol
Stemming para , es ,
Stemming para mi es mi
Stemming para nombre es nombr
Stemming para es es es
Stemming para Daniel es daniel
Stemming para , es ,
Stemming para mucho es much
Stemming para gusto es gust
Stemming para conocerlos es conoc


### Lematización

Análisis morfológico para obtener el *"lema"* de cada palabra, es decir, una forma normalizada de un conjunto de términos morfológicamente relacionados (como aparece generalmente en un diccionario).
    
|      token  | stemming |      lemma| POS |
|      ---  | --- |      ---| --- |
|    operate  |   oper |    operate  | VB  |
|  operating  |   oper |    operate  | VBG |
|   operates  |   oper |    operate  | VBZ |
|  operation  |   oper |  operation  | NN  |
|  operative  |   oper |  operative  | NN  |
| operatives  |   oper |  operative  | NNS |
|operational  |   oper | operational |  JJ |

Hay diferentes formas de realizarlo. El más común es obtener su etiqueta gramatical (POS-tag) y luego obtener su lema en un diccionario. Dependiente del idioma.

## Representaciones de textos

Uno de los pasos esenciales en el análisis de texto es la representación de texto. Para que los algoritmos puedan procesar el lenguaje humano, las palabras deben ser convertidas en una forma numérica. Aquí es donde entran en juego el modelo Bag of Words y el método TF-IDF.

### One-hot encoding

Dado un vocabulario, usamos variables *dummy* para indicar la presencia o ausencia de las palabras del vocabulario en algún documento. Cabe señalar que: 

__El orden NO es importante__

In [13]:
samples = ['El perro se comió mi tarea.', 'Mi vecina se pelea con otra vecina.', 'El gato toca el piano.']

vectorizer = CountVectorizer(lowercase=True, ngram_range= (1,1), max_features=25, binary=True)
X = vectorizer.fit_transform(samples)
one_hot = X.toarray()
one_hot_df = pd.DataFrame(one_hot,columns=vectorizer.get_feature_names_out())
one_hot_df

Unnamed: 0,comió,con,el,gato,mi,otra,pelea,perro,piano,se,tarea,toca,vecina
0,1,0,1,0,1,0,0,1,0,1,1,0,0
1,0,1,0,0,1,1,1,0,0,1,0,0,1
2,0,0,1,1,0,0,0,0,1,0,0,1,0


### Bolsa de palabras (Bag of words)

El modelo Bag of Words es una de las técnicas más simples y ampliamente utilizadas para representar texto en PLN. Este método convierte un texto en una representación numérica basada en la frecuencia de aparición de las palabras, ignorando su gramática o el orden de las palabras. La idea básica es tratar el texto como una "bolsa" de palabras, donde solo importa la presencia o ausencia de las palabras y la cantidad de veces que aparecen en un documento.

El proceso de BoW comienza con la creación de un vocabulario de todas las palabras únicas en el conjunto de datos. Luego, para cada documento o frase, se crea un vector en el que cada posición corresponde a una palabra del vocabulario, y su valor indica la frecuencia de dicha palabra en el documento. Aunque es sencillo y efectivo en muchas tareas, el BoW tiene algunas limitaciones. Por ejemplo, no tiene en cuenta el significado o el contexto de las palabras, lo que puede resultar en la pérdida de información semántica. Además, tiende a generar vectores muy grandes y dispersos, lo que puede aumentar el costo computacional.

In [14]:
samples = ['El perro se comió mi tarea.', 'Mi vecina se pelea con otra vecina.', 'El gato toca el piano.']

vectorizer = CountVectorizer(lowercase=True, ngram_range= (1,1), max_features=25, binary=False)
X = vectorizer.fit_transform(samples)
bow = X.toarray()
bow_df = pd.DataFrame(bow,columns=vectorizer.get_feature_names_out())
bow_df

Unnamed: 0,comió,con,el,gato,mi,otra,pelea,perro,piano,se,tarea,toca,vecina
0,1,0,1,0,1,0,0,1,0,1,1,0,0
1,0,1,0,0,1,1,1,0,0,1,0,0,2
2,0,0,2,1,0,0,0,0,1,0,0,1,0


### Term Frequency - Inverse Document Frequency (TF-IDF)

Para abordar algunas de las limitaciones del modelo BoW, se introdujo el método TF-IDF. Este enfoque no solo considera la frecuencia de una palabra en un documento (como lo hace BoW), sino también la relevancia de esa palabra en el conjunto total de documentos. TF-IDF se utiliza para evaluar la importancia de una palabra en un documento en relación con todo el corpus. Combina dos métricas principales:

- TF (Term Frequency): Representa la frecuencia de una palabra en un documento. Se calcula como el número de veces que aparece la palabra en el documento dividido por el número total de palabras en ese documento.

- IDF (Inverse Document Frequency): Evalúa la importancia de la palabra en el conjunto de documentos. Se calcula como el logaritmo inverso de la fracción de documentos que contienen esa palabra. Las palabras comunes que aparecen en muchos documentos, como "el" o "una", tienen un valor IDF bajo, mientras que las palabras raras tienen un valor IDF alto.

La fórmula final de TF-IDF consiste en:

- Frecuencia de términos: $tf_{t,d} = \text{count}(t,d)$, o también: $tf = log(\text{count}(t,d)+1)$
- Frecuencia de documentos: $df_t = \text{count}(d:t\in d)$
- Frecuencia de documentos inversa: $idf_t = \log\frac{N}{1+df_t}$


Entonces
\begin{align*}
\text{TF-IDF}: tf_{t,d} \times idf_t
\end{align*}


In [15]:
max_words = 10000
samples = ['El perro se comió mi tarea.', 'Mi vecina se pelea con otra vecina.', 'El gato toca el piano.']

vectorizer = TfidfVectorizer(lowercase=False, ngram_range= (1,1), max_features=max_words)
X = vectorizer.fit_transform(samples)
tf_idf = X.toarray()
tf_idf_df = pd.DataFrame(tf_idf,columns=vectorizer.get_feature_names_out())
tf_idf_df

Unnamed: 0,El,Mi,comió,con,el,gato,mi,otra,pelea,perro,piano,se,tarea,toca,vecina
0,0.334907,0.0,0.440362,0.0,0.0,0.0,0.440362,0.0,0.0,0.440362,0.0,0.334907,0.440362,0.0,0.0
1,0.0,0.341426,0.0,0.341426,0.0,0.0,0.0,0.341426,0.341426,0.0,0.0,0.259663,0.0,0.0,0.682852
2,0.355432,0.0,0.0,0.0,0.467351,0.467351,0.0,0.0,0.0,0.0,0.467351,0.0,0.0,0.467351,0.0


Si bien los modelos basados en representaciones tipo BOW son muy útiles para ciertas tareas y ciertos corpus de textos, para otros no es la mejor opción.

Básicamente, los problemas de BOW y sus extensiones son
- Altamente dimensional
- Sparse