## Procesamiento del lenguaje natural - NLTK

### Anaconda Prompt
conda activate myenv
conda install -c anaconda nltk

pip install nltk

In [None]:
import nltk
nltk.download("stopwords")
nltk.download("punkt")

## Preprocesamiento

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize

texto = "Hola, ¿cómo estás? ¡Espero que bien!"
palabras = word_tokenize(texto, language="spanish")
oraciones = sent_tokenize(texto, language="spanish")
palabras

In [None]:
print(oraciones)

In [None]:
print(palabras)

In [None]:
# Stopwords
from nltk.corpus import stopwords

palabras_filtradas = [palabra for palabra in palabras if palabra.lower() not in stopwords.words('spanish')]

In [None]:
print(palabras_filtradas)

In [None]:
# Stemming
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("spanish")
palabras_stemmed = [stemmer.stem(palabra) for palabra in palabras_filtradas]

In [None]:
print(palabras_stemmed)

## Clustering de textos

El objetivo es agrupar un conjunto de documentos de texto en clusters basados en su contenido y similitud.

In [1]:
# Importar las bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

In [2]:
# Conjunto de datos
data = ["La liga española anunció el calendario de la nueva temporada.",
        "Recetas fáciles para preparar en menos de 20 minutos.",
        "Tecnología: Los nuevos smartphones que esperamos ver este año.",
        "Análisis del partido de ayer entre Barcelona y Real Madrid.",
        "Los mejores utensilios para tu cocina moderna.",
        "Comparativa de las mejores cámaras digitales del mercado.",
        "Los jugadores más destacados de la última década.",
        "Cómo hacer pan casero y otros panes fáciles.",
        "Avances en inteligencia artificial y machine learning."]

# Convertir a un DataFrame de pandas
df = pd.DataFrame(data, columns=['text'])

In [7]:
# Conjunto de datos
data = ["Fútbol: La liga española anunció el calendario de la nueva temporada.",
        "Cocina: Recetas fáciles para preparar en menos de 20 minutos.",
        "Tecnología: Los nuevos smartphones que esperamos ver este año.",
        "Fútbol: Análisis del partido de ayer entre Barcelona y Real Madrid.",
        "Cocina: Los mejores utensilios para tu cocina moderna.",
        "Tecnología: Comparativa de las mejores cámaras digitales del mercado.",
        "Fútbol: Los jugadores más destacados de la última década.",
        "Cocina: Cómo hacer pan casero y otros panes fáciles.",
        "Tecnología: Avances en inteligencia artificial y machine learning."]

# Convertir a un DataFrame de pandas
df = pd.DataFrame(data, columns=['text'])


In [8]:
# Inicializar el Vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer(stop_words='english')

# Ajustar y transformar los documentos
tfidf_matrix = tfidf_vectorizer.fit_transform(df['text'])

In [9]:
# Número de clusters
num_clusters = 3

# Inicializar K-Means
km = KMeans(n_clusters=num_clusters)

# Ajustar el modelo
km.fit(tfidf_matrix)



In [10]:
# Predicciones de clusters
clusters = km.labels_.tolist()

In [11]:
# Asignar el cluster a cada documento
df['Cluster'] = clusters

# Ver los documentos agrupados por cluster
print(df.sort_values(by='Cluster'))

                                                text  Cluster
2  Tecnología: Los nuevos smartphones que esperam...        0
5  Tecnología: Comparativa de las mejores cámaras...        0
8  Tecnología: Avances en inteligencia artificial...        0
0  Fútbol: La liga española anunció el calendario...        1
3  Fútbol: Análisis del partido de ayer entre Bar...        1
6  Fútbol: Los jugadores más destacados de la últ...        1
1  Cocina: Recetas fáciles para preparar en menos...        2
4  Cocina: Los mejores utensilios para tu cocina ...        2
7  Cocina: Cómo hacer pan casero y otros panes fá...        2


## Análisis de sentimientos

In [22]:
# Librerías
import pandas as pd
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Asegúrate de haber descargado los recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\roage\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\roage\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
# Reseñas de películas
data = {
    'review': [
        '¡Me encantó la película!',
        'Fue una película fantástica.',
        'No me gustó la película.',
        'La película fue aburrida.',
        'Qué gran película, me divertí mucho.',
        'La película fue horrible.',
        'Disfruté mucho la película.',
        'Fue una película terrible.'
    ],
    'sentiment': ['positivo', 'positivo', 'negativo', 'negativo', 'positivo', 'negativo', 'positivo', 'negativo']
}

df = pd.DataFrame(data)

In [25]:
# Función de limpieza y preparación el texto en español
def preprocess_text_es(text):
    tokens = word_tokenize(text.lower(), language='spanish')
    filtered_tokens = [token for token in tokens if token.isalpha() and token not in stopwords.words('spanish')]
    return filtered_tokens

# Aplicar la limpieza y tokenización al conjunto de datos en español
df['processed_review'] = df['review'].apply(preprocess_text_es)

# Mostrar el resultado de la limpieza
print(df[['review', 'processed_review']])


                                 review           processed_review
0              ¡Me encantó la película!        [encantó, película]
1          Fue una película fantástica.     [película, fantástica]
2              No me gustó la película.          [gustó, película]
3             La película fue aburrida.       [película, aburrida]
4  Qué gran película, me divertí mucho.  [gran, película, divertí]
5             La película fue horrible.       [película, horrible]
6           Disfruté mucho la película.       [disfruté, película]
7            Fue una película terrible.       [película, terrible]


In [39]:
# Nuevo conjunto de reseñas en español para análisis
new_reviews = [
    'La película no cumplió mis expectativas.',
    'Totalmente emocionante y llena de suspenso.',
    'No vale la pena, tiempo perdido.',
    'Una obramaestra, me dejó sin palabras.',
    'Olvidable, esperaba mucho más.',
    'Innovadora, una experiencia cinematográfica única.',
    'Demasiado predecible, me aburrí a mitad de camino.',
    'El guión es brillante, los actores lo hicieron genial.'
]

# Añadir las nuevas reseñas al dataframe
new_df = pd.DataFrame({'review': new_reviews})
new_df['processed_review'] = new_df['review'].apply(preprocess_text_es)


In [40]:
# Definir palabras clave asociadas con sentimientos positivos y negativos
positive_keywords = ['emocionante', 'obra maestra', 'innovadora', 'brillante']
negative_keywords = ['no cumplió', 'tiempo perdido', 'olvidable', 'predecible', 'aburrí']

In [41]:
# Función para determinar el sentimiento basado en palabras clave
def determine_sentiment(review):
    positive_score = sum(1 for word in review if word in positive_keywords)
    negative_score = sum(1 for word in review if word in negative_keywords)
    return 'positivo' if positive_score > negative_score else 'negativo'

In [42]:
# Aplicar análisis de sentimiento a las reseñas
new_df['sentiment'] = new_df['processed_review'].apply(determine_sentiment)

# Mostrar resultados
print(new_df[['review', 'sentiment']])

                                              review sentiment
0           La película no cumplió mis expectativas.  negativo
1        Totalmente emocionante y llena de suspenso.  positivo
2                   No vale la pena, tiempo perdido.  negativo
3             Una obramaestra, me dejó sin palabras.  positivo
4                     Olvidable, esperaba mucho más.  negativo
5  Innovadora, una experiencia cinematográfica ún...  positivo
6  Demasiado predecible, me aburrí a mitad de cam...  negativo
7  El guión es brillante, los actores lo hicieron...  positivo
