## Natural Language Processing (NLP)

El procesamiento del lenguaje natural (**NLP**), se define ampliamente como la manipulación automática del lenguaje natural, como el habla y el texto, por parte del software.

El estudio de **NLP** existe desde hace más de 50 años y surgió del campo de la lingüística con el auge de los ordenadores.

**El lenguaje natural se refiere a la forma en que nosotros, los humanos, nos comunicamos entre nosotros.**

Dada la importancia de este tipo de datos, debemos tener métodos para comprender y razonar sobre el lenguaje natural, tal como lo hacemos con otros tipos de datos.

En Python, tenemos la librería **NLTK** (**Natural Language ToolKit**), éste es un modulo que contiene herramientas para el manejo del lenguaje natural.

```python
pip install nltk
```

_**Documentación:** https://www.nltk.org/_

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import nltk

In [None]:
df_completo = pd.read_csv("Data/100178_Comentarios.csv",sep=";")

df_completo.head(3)

In [None]:
df_completo.isna().sum()

In [None]:
df_no_nan = df_completo.dropna()

In [None]:
df_no_nan.isna().sum()

In [None]:
df=df_no_nan

In [None]:


# Lista para almacenar el texto combinado de todas las filas
texto = []
texto_fila = []
# Iteramos sobre cada fila del DataFrame
for columns in df:
    # Convertimos la fila (Series de pandas) a lista y luego la unimos en una cadena
    texto_fila = (" ".join(columns))

# Unimos todas las filas combinadas en un texto final, separado por espacio
texto_final = " ".join(texto)

print(texto_final)

In [None]:
print(df["texto"])

In [None]:
texto = []

for columns in df["texto"]:
    df_lista = (columns)
    texto.append(df_lista)

texto_final = " ".join(texto)

In [None]:
type(texto_final)

In [None]:
texto_final

In [None]:
import nltk
from nltk.tokenize import word_tokenize


# Tokenizar cada elemento de la lista df_str
tokens = [word_tokenize(texto_final, language="spanish")]
          
#texto_nltk = nltk.Text(tokens)

#texto_nltk

In [None]:
type(tokens)

In [None]:
len(texto_nltk)

In [None]:
from nltk.tokenize import sent_tokenize

frases = sent_tokenize(text = texto_nltk) # Crea tokens de oranciones 
frases

In [None]:
len(frases)

### Total de palabras y Palabras únicas

In [None]:
set(texto_final)

In [None]:
total_palabras = len(frases)

print(f"Total de palabras en el texto: {total_palabras}")

palabras_diferentes = len(set(frases))

print(f"Total de palabras diferentes en el texto: {palabras_diferentes}")

### Riqueza Léxica

La riqueza léxica es la relación que existe entre la extensión de un texto y el número de palabras distintas que contiene. 

In [None]:
riqueza_lexica = palabras_diferentes / total_palabras

print(f"Riqueza Lexica: {riqueza_lexica}")

In [None]:
# Funcion para calcular la riqueza lexica

def riqueza_lexica_fun(frases):
    
    total_palabras = len(frases)
    palabras_diferentes = len(set(frases))
    
    riqueza_lexica = palabras_diferentes / total_palabras
    
    return riqueza_lexica

In [None]:
riqueza_lexica_fun(frases)

### .Text()

Transforma un objeto string a un objeto **`Text`** para ser manipulado por **`NLTK`**.

In [None]:
texto_nltk = nltk.Text(frases)

texto_nltk

In [None]:
type(texto_nltk)

### .concordance()

Retorna las concordancias de una palabras (todas las veces que aparece en el texto).

In [None]:
texto_nltk.concordance(word = "artículo")

In [None]:
texto_nltk.concordance(word = "constitución")

### .similar()

Encuentra otras palabras que aparecen en el mismo contexto que la palabra especificada, muestra las palabras más similares primero.

In [None]:
texto_nltk.similar(word = "constitución")

In [None]:
# Tokenizar

tokens = nltk.word_tokenize(text = frases, language = "spanish")

In [None]:
tokens

In [None]:
frases = sent_tokenize(text = texto) # Crea tokens de oranciones 
frases

In [None]:
total_palabras = len(tokens)

print(f"Total de palabras en el texto: {total_palabras}")

palabras_diferentes = len(set(tokens))

print(f"Total de palabras diferentes en el texto: {palabras_diferentes}")

print(f"Riqueza Lexica: {riqueza_lexica_fun(tokens)}")

In [None]:
# .Text()

texto_nltk = nltk.Text(tokens = tokens)

In [None]:
# .concordance()

texto_nltk.concordance(word = "libertad")

In [None]:
# .similar()

texto_nltk.similar(word = "madre")

### .text.ContextIndex() y .similar_words()

**`.text.ContextIndex`** y **`.similar_words`** son utilizados para encontrar palabras similares.

**Simililares no significa que sean sinónimos, sino que son palabras que van a encontrarse en un contexto similar o tienen similitud con la palabra de busqueda.**


In [None]:
idx = nltk.text.ContextIndex(tokens = tokens)

palabras_similares = idx.similar_words(word = "madre")
palabras_similares

In [None]:
nltk.word_tokenize("naturaleza madre")

In [None]:
# Si quisieramos encontrar las palabras similares de más de una palabra podemos usar el siguiente bucle:

similares = list()

for word in nltk.word_tokenize("naturaleza madre"):
    similares.append(nltk.text.ContextIndex(tokens).similar_words(word))
    
pd.DataFrame(data = similares, index = ["naturaleza", "madre"]).T

### .dispersion_plot()

In [None]:

def dispersion_plot(words, text, ignore_case=False):
    """
    Crea un gráfico de dispersión para mostrar la aparición de palabras en un texto.
    
    :param words: Lista de palabras para la dispersión.
    :param text: Texto en forma de lista de palabras.
    :param ignore_case: Indica si se debe ignorar la distinción entre mayúsculas y minúsculas.
    :param title: Título del gráfico.
    """
    if ignore_case:
        text = [word.lower() for word in text]
        words = [word.lower() for word in words]

    word_positions = {word: [idx for idx, token in enumerate(text) if token == word] for word in words}

    plt.figure(figsize=(8, 6))  # Ajustar el tamaño del gráfico
    for word, positions in word_positions.items():
        plt.scatter(positions, [word] * len(positions), marker='|', label=word)

    plt.title("Dispersión de Palabras")
    plt.xlabel('Desplazamiento en el Texto')  # Cambiar a eje x
    plt.ylabel('Palabras')  # Cambiar a eje y
    plt.yticks(rotation=45)  # Rotar las etiquetas del eje y para una mejor visualización
    plt.tight_layout()  # Ajustar el diseño del gráfico
    plt.show()


In [None]:

lista_palabras = ["las", "los", "el", "ella", "ensueño", "resplandor", "padre", "madre", "libertad"] 

tokens = nltk.word_tokenize(text = texto, language = "spanish") 
texto_nltk = nltk.Text(tokens = tokens) 
dispersion_plot(lista_palabras, texto_nltk)

### .FreqDist()

Retorna un diccionario donde las llaves son la palabras del texto y el valor son las veces que aparece en el texto.

In [None]:
distribucion = nltk.FreqDist(samples = texto_nltk)

distribucion

In [None]:
distribucion.most_common()

In [None]:
distribucion.plot(20)

### Hapax

Un hapax es una palabra que aparece únicamente una vez en el texto.

In [None]:
# .Text()
texto_nltk = nltk.Text(tokens = tokens)

# .FreqDist()
distribucion = nltk.FreqDist(samples = texto_nltk)

# .hapaxes
hapaxes = distribucion.hapaxes()

for hapax in hapaxes: 
    print(hapax)

In [None]:
print(len(hapaxes))

In [None]:

dispersion_plot(hapaxes[:30], texto_nltk)

### STOPWORDS

Las **`stopwords`** (palabras funcionales o palabras vacias) son las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos **NLP**.

En ocaciones la eliminacion de stopwords es una tecnica comun en el procesamineto de texto y puede tener varios propositos:

- Reducción del ruido: Las stopwords suelen aparecer con mucha frecuencia en el texto y, en muchos casos, no aportan información útil para el análisis. Al eliminar estas palabras, se puede reducir el ruido en el análisis de texto y centrarse en las palabras más relevantes.

- Mejora de la eficiencia: Al reducir el número de palabras en un texto, se puede mejorar la eficiencia computacional en tareas de procesamiento de texto, como la  tokenización, el stemming y el cálculo de características en modelos de aprendizaje automático.

- Enfoque en las palabras clave: Al eliminar las stopwords, se pueden destacar más fácilmente las palabras clave y los temas importantes en un texto. Esto puede ser útil para tareas como la extracción de información, la clasificación de documentos y el análisis de sentimientos.

- Normalización del texto: La eliminación de stopwords puede ayudar a normalizar el texto al reducir las diferencias entre diferentes documentos o fragmentos de texto, lo que facilita la comparación y el análisis.

Es importante tener en cuenta que la lista de stopwords puede variar según el contexto y la tarea específica de procesamiento de texto. En algunos casos, puede ser necesario ajustar o personalizar la lista de stopwords según las necesidades del proyecto. Además, en ciertas situaciones, las stopwords pueden contener información útil y su eliminación puede no ser apropiada, por lo que es importante considerar cuidadosamente su uso en cada caso.

- Artículos: "el", "la", "los", "las", "un", "una", "unos", "unas".
- Pronombres personales: "yo", "tú", "él", "ella", "nosotros", "vosotros", "ellos", "ellas".
- Pronombres demostrativos: "este", "ese", "aquel", "esta", "esa", "aquella".
- Pronombres posesivos: "mi", "tu", "su", "nuestro", "vuestro", "su".
- Preposiciones: "a", "ante", "bajo", "con", "de", "desde", "en", "entre", "hacia", "para", "por", "sin", "sobre", "tras".
- Conjunciones: "y", "o", "pero", "porque", "si".
- Adverbios de frecuencia: "siempre", "nunca", "jamás", "a menudo", "raramente", "tal vez".
- Otros términos comunes: "ser", "estar", "tener", "hacer", "ir", "haber", "poder", "querer", "saber".

In [None]:
stopwords = nltk.corpus.stopwords.words("spanish")

for stopword in stopwords:
    print(stopword, end = " | ")

In [None]:
tokens = nltk.word_tokenize(text = texto, language = "spanish")

tokens_limpios = list() 

tokens = [token.lower() for token in tokens]

for token in tokens: 
    if token not in stopwords: 
        tokens_limpios.append(token)
        
print(f"Tamaño original: {len(tokens)}") 
print(f"Tamaño despues de stopwords: {len(tokens_limpios)}")

In [None]:
nltk.FreqDist(nltk.Text(tokens_limpios)).plot(20)

plt.show()

In [None]:
# Eliminamos elementos de tamaño 2 o menor:

tokens_limpios = list()

for token in tokens: 
    if token not in stopwords: 
        if len(token) > 2: 
            tokens_limpios.append(token)
            
print(len(tokens_limpios))

In [None]:
nltk.FreqDist(nltk.Text(tokens_limpios)).plot(20)

plt.show()

### Stemming

Reducir palabras a su raíz (pueden no tener significado):
 + Organise, organising, organisation --> organis
 + intelligence, intelligently --> intelligen

Esto ayuda a mejorar la eficiencia y precision del procesamiento del texto.  
Estas son algunas razones por la cual hacer stemming es util:
1. **Reducción de la dimensionalidad:** Al reducir las palabras a su raíz, se reduce la cantidad de palabras distintas que se manejan en el análisis de texto, lo que puede ayudar a reducir la complejidad computacional y la memoria requerida.

2. **Normalización del texto:** El stemming puede ayudar a normalizar el texto al agrupar variantes de una palabra bajo una sola forma base. Esto facilita el análisis al tratar diferentes formas de una palabra como equivalentes.

3. **Mejora de la precisión en la recuperación de información:** Al reducir las palabras a su forma base, se pueden agrupar variantes de una palabra en una sola entidad, lo que puede mejorar la precisión al buscar información en un corpus de texto.

4. **Preprocesamiento para tareas de minería de texto:** El stemming es a menudo una parte importante del preprocesamiento de texto para tareas de minería de texto, como la clasificación de documentos, la agrupación de documentos y la recuperación de información.

Sin embargo, es importante tener en cuenta que el stemming puede no ser perfecto y puede generar raíces que no son palabras reales o pueden generar raíces incorrectas en algunos casos. Esto puede conducir a la pérdida de información semántica o a la introducción de ruido en el análisis de texto. Por esta razón, en algunos casos, se prefieren enfoques más avanzados como la lematización, que tiene en cuenta el contexto de las palabras y puede generar formas base más precisas.
 
Para hacer stemming usamos el algoritmo _**Porter Stemmer:** https://tartarus.org/martin/PorterStemmer/_

In [None]:
from nltk.stem import PorterStemmer

In [None]:
texto = "hi dear students, how are you doing? we are almost finishing the bootcamp. we hope you are learning and enjoying the course."
texto

In [None]:
# Inicializamos un objeto PorterStemmer()
stemmer = PorterStemmer()

" ".join([stemmer.stem(word) for word in nltk.word_tokenize(text = texto, language = "english")])

### Lematización
Similar al stemming, pero reduce la palabra a una raíz que sí tiene significado:
+ going, goes, gone --> go
+ intelligence, intelligently --> intelligent

La lematización es útil por varias razones:

1. **Normalización del texto**: Ayuda a normalizar las palabras de manera que diferentes formas de la misma palabra se reduzcan a una forma única, lo que facilita el análisis de texto y la extracción de información.

2. **Reducción de la dimensionalidad**: Al reducir las palabras a sus lemas, se reduce la cantidad de palabras únicas en el texto, lo que puede mejorar la eficiencia computacional en tareas de PLN como la clasificación de textos, agrupación de documentos, etc.

3. **Mejora la precisión**: En muchos casos, la lematización puede ayudar a mejorar la precisión de los modelos de PLN, ya que se enfoca en la esencia semántica de las palabras en lugar de en su forma específica.

4. **Mejora la búsqueda de información**: Al lematizar las consultas de búsqueda o los documentos indexados, se puede mejorar la precisión y exhaustividad de los resultados de búsqueda al considerar variantes de palabras.

5. **Facilita la interpretación**: Al reducir las palabras a su forma base, se puede facilitar la interpretación del significado del texto, ya que las palabras se presentan en una forma más comprensible y significativa.

En resumen, la lematización es una técnica fundamental en el procesamiento del lenguaje natural que ayuda a normalizar y simplificar el texto, lo que facilita su análisis y mejora el rendimiento de las aplicaciones de PLN.

In [None]:
from nltk.stem import WordNetLemmatizer

In [None]:
texto = "hi dear students, how are you doing? we are almost finishing the bootcamp. we hope you are learning and enjoying the course."
texto

In [None]:
# Inicializamos un objeto WordNetLemmatizer()
lemmatizer = WordNetLemmatizer()

" ".join([lemmatizer.lemmatize(word, pos = "v") for word in nltk.word_tokenize(text = texto, language = "english")])

### Analisis de Sentimiento

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

sia = SentimentIntensityAnalyzer()

In [None]:
texto = """The National Guard has been released in Minneapolis to do the job that the Democrat Mayor couldn’t do.
           Should have been used 2 days ago & there would not have been damage & Police Headquarters would not have
           been taken over & ruined. Great job by the National Guard. No games!"""

tokens = nltk.word_tokenize(text = texto)

In [None]:
for token in tokens:
    ss = sia.polarity_scores(token)
    print(token)
    print(ss)



In [None]:
################################################################################################################################