<a href="https://colab.research.google.com/github/iDanielSoto/modelo_NLP_rese-as/blob/main/NLP_rese%C3%B1as.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📊CREACIÓN DEL DATASET

In [327]:
import csv
import pandas as pd
import numpy as np
from nltk.tokenize import word_tokenize
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

In [328]:
# Creación de un dataset local sobre reseñas buenas y malas etiquetadas con 0 = mala, 1 = buena
data = [
  ["Este restaurante es realmente bueno, la comida es deliciosa y el servicio es excepcional. ¡Volveré definitivamente!", 1],
  ["No recomendaría este lugar ni siquiera a mi peor enemigo. La comida estaba fría y el personal era grosero.", 0],
  ["La película que vi anoche fue increíble, me mantuvo al borde de mi asiento todo el tiempo. ¡Altamente recomendada!", 1],
  ["Qué decepción, esperaba mucho más de este producto. No vale la pena el dinero que pagué por él.", 0],
  ["Mi experiencia en este hotel fue maravillosa. Las habitaciones eran cómodas y limpias, y el personal era amable y atento. Definitivamente regresaré.", 1],
  ["Este libro es un completo desastre. La trama es confusa y los personajes son planos. No pude terminarlo.", 0],
  ["¡Qué maravillosa sorpresa! Esta exposición de arte me dejó sin palabras. Las obras de arte eran simplemente asombrosas.", 1],
  ["No volvería a este lugar ni aunque me pagaran. La comida era terrible y el servicio era lento.", 0],
  ["Esta nueva serie de televisión es impresionante. La historia es cautivadora y los actores hacen un trabajo excepcional.", 1],
  ["Este teléfono es una pesadilla. Se bloquea constantemente y la batería dura menos de una hora. No lo recomiendo en absoluto.", 0],
]

# Se guarda el dataset en un archivo csv y se clasifica por texto y etiqueta.
with open('data_texts.csv', 'w', newline='') as csvfile:
  csvwriter = csv.writer(csvfile)
  csvwriter.writerow(['Texto', 'Etiqueta'])
  csvwriter.writerows(data)

# Cargar datos desde el archivo CSV
data = pd.read_csv('data_texts.csv')

In [329]:
# Tokenización del texto
data['Texto'] = data['Texto'].apply(word_tokenize)

# Convertir tokens a texto nuevamente
data['Texto'] = data['Texto'].apply(lambda tokens: ' '.join(tokens))

# Separación de datos de entrenamiento y prueba
train_data, test_data, train_labels, test_labels = train_test_split(data['Texto'], data['Etiqueta'], test_size=0.2, random_state=42)

# Vectorización
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(train_data)
X_test = vectorizer.transform(test_data)

In [330]:
# Visualización de la matriz de entrenamiento y prueba
print("Matriz de entrenamiento:")
print(X_train)
print("Tamaño de la matriz de entrenamiento:", X_train.shape)

print("\nMatriz de prueba:")
print(X_test)
print("Tamaño de la matriz de prueba:", X_test.shape)

Matriz de entrenamiento:
  (0, 34)	1
  (0, 46)	1
  (0, 31)	2
  (0, 92)	1
  (0, 15)	1
  (0, 24)	1
  (0, 43)	1
  (0, 91)	1
  (0, 16)	1
  (0, 49)	1
  (0, 66)	1
  (0, 84)	1
  (0, 69)	1
  (0, 59)	1
  (0, 72)	1
  (0, 87)	1
  (1, 34)	1
  (1, 31)	3
  (1, 43)	1
  (1, 79)	1
  (1, 75)	1
  (1, 13)	1
  (1, 14)	1
  (1, 23)	1
  (1, 27)	1
  :	:
  (6, 56)	1
  (6, 57)	1
  (6, 71)	1
  (6, 94)	1
  (6, 65)	1
  (6, 25)	1
  (6, 62)	1
  (6, 70)	1
  (6, 98)	1
  (7, 53)	1
  (7, 19)	2
  (7, 52)	1
  (7, 44)	1
  (7, 30)	1
  (7, 74)	1
  (7, 85)	1
  (7, 33)	1
  (7, 37)	1
  (7, 5)	2
  (7, 22)	1
  (7, 83)	1
  (7, 63)	1
  (7, 60)	1
  (7, 82)	1
  (7, 7)	1
Tamaño de la matriz de entrenamiento: (8, 99)

Matriz de prueba:
  (0, 19)	1
  (0, 31)	2
  (0, 33)	1
  (0, 35)	1
  (0, 43)	1
  (0, 49)	1
  (0, 92)	1
  (1, 14)	1
  (1, 27)	1
  (1, 29)	1
  (1, 34)	1
  (1, 43)	1
  (1, 50)	1
  (1, 55)	1
  (1, 58)	1
  (1, 59)	1
  (1, 67)	1
Tamaño de la matriz de prueba: (2, 99)


# 🤖 CREACIÓN DEL MODELO

In [331]:
# Definición y compilación del modelo
model = keras.Sequential([
    layers.Input(shape=(X_train.shape[1],)),  # Capa de entrada con la forma adecuada
    layers.Dense(64, activation='relu'),  # Capa oculta con 64 neuronas y función de activación ReLU
    layers.Dense(1, activation='sigmoid')  # Capa de salida con 1 neurona y función de activación sigmoide (clasificación binaria)
])

model.compile(
    optimizer='adam',  # Optimizador Adam
    loss='binary_crossentropy',  # Pérdida para clasificación binaria
    metrics=['accuracy']  # Métrica para medir el rendimiento
)

In [332]:
# Entrenamiento del modelo
history = model.fit(X_train.toarray(), train_labels,  # Datos de entrenamiento y etiquetas
 validation_data=(X_test.toarray(), test_labels),  # Datos de prueba y etiquetas
  epochs=100,  # Número de épocas
  batch_size=8)  # Tamaño del lote


Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

In [333]:
test_loss, test_accuracy = model.evaluate(X_test.toarray(), test_labels)
print(f'Precisión en datos de prueba: {test_accuracy:.4f}')

Precisión en datos de prueba: 0.5000


# 💻 PROGRAMA FINAL: PREDICCIÓN DE RESEÑAS POSITIVAS O NEGATIVAS.

In [334]:
# @title ⭐ Escribe una reseña sobre algún lugar. { vertical-output: true, form-width: "75%" }
new_text = ["Muy buen sitio, me encanto la comida."]  # Convierte la cadena de texto en una lista de un solo elemento
new_text_vectorized = vectorizer.transform(new_text)  # Vectorización del nuevo texto
prediction = model.predict(new_text_vectorized, verbose=False)
predicted_probability = prediction[0, 0] * 100  # Convierte la probabilidad en porcentaje
print(f'Hay un {predicted_probability:.2f}% de que sea positiva. ({prediction[0, 0]:.4f})')
threshold = 0.5  # Umbral para clasificar como positiva o negativa
if prediction[0, 0] > threshold:
  print("La reseña es POSITIVA ✅")
else:
  print("La reseña es NEGATIVA ❌")

Hay un 51.70% de que sea positiva. (0.5170)
La reseña es POSITIVA ✅
