#### Realizaremos un modelo que identifique si un comentario es positivo o negativo con TensorFlow

1. importamos la librer√≠as que nos permitir√° hacer un buen manejo de lso datos 

In [None]:
# Pandas: Librer√≠a para manipulaci√≥n y an√°lisis de datos estructurados (DataFrames, CSV, etc.)
import pandas as pd  

# NumPy: Manejo eficiente de arreglos num√©ricos y c√°lculos matem√°ticos avanzados
import numpy as np  

# Matplotlib: Creaci√≥n de gr√°ficos y visualizaci√≥n de datos
import matplotlib.pyplot as plt  

# Deep Translator: Traducci√≥n autom√°tica de textos utilizando Google Translate
from deep_translator import GoogleTranslator  

2. ahora importaremos la librer√≠a que nos permitir√° hacer el modelo 

In [None]:
# TensorFlow: Framework de aprendizaje autom√°tico que permite construir y entrenar redes neuronales
import tensorflow as tf 

# Tokenizer: Convierte textos en secuencias num√©ricas para que el modelo las procese
from tensorflow.keras.preprocessing.text import Tokenizer  

# pad_sequences: Asegura que todas las secuencias tengan la misma longitud agregando ceros si es necesario
from tensorflow.keras.preprocessing.sequence import pad_sequences  

# train_test_split: Divide los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo
from sklearn.model_selection import train_test_split  

# load_model: Carga un modelo previamente entrenado desde un archivo
from keras.models import load_model

3. cargamos el DataSet

In [None]:
# Carga un archivo CSV en un DataFrame de Pandas
df = pd.read_csv('sentiment-analysis.csv')  

# Muestra las primeras cinco filas del DataFrame
df.head()  

4. traducimos todo los datos de la columna Text para trabajar con datos en espa√±ol 

In [None]:
# Traduce cada texto autom√°ticamente al espa√±ol
df['Text'] = df['Text'].apply(lambda x: GoogleTranslator(source='auto', target='es').translate(x))  

# Muestra las primeras cinco filas del DataFrame para verificar la traducci√≥n
df.head()  

5. una ves traducido los textos ahora hay que traducir las forma de sentimiento ( parte opcional )

In [None]:
# Traduce cada etiqueta de sentimiento al espa√±ol
df['Sentiment'] = df['Sentiment'].apply(lambda x: GoogleTranslator(source='auto', target='es').translate(x))  

# Muestra las primeras cinco filas del DataFrame para verificar la traducci√≥n
df.head() 

6. por ultimo traducimos de donde es el usuario 

In [None]:
# Traduce autom√°ticamente cada ubicaci√≥n al espa√±ol
df['Location'] = df['Location'].apply(lambda x: GoogleTranslator(source='auto', target='es').translate(x))  

# Muestra las primeras cinco filas del DataFrame para verificar la traducci√≥n
df.head()  

7. exportamos el DataFrame a csv para usarlo para el modelo 

In [None]:
# Guarda el DataFrame como un archivo CSV sin incluir el √≠ndice
df.to_csv('an√°lisis_de_sentimientos.csv', index=False)  

8. una ves traducida y formateada al lenguaje que queremos lo leemos de vuelta para para el modelo

In [None]:
# Carga el archivo CSV en un DataFrame de Pandas
df = pd.read_csv('an√°lisis_de_sentimientos.csv')  

# Muestra las primeras cinco filas del DataFrame
df.head()  

9. convertimos el tipo de sentimiento en Positivo a 1 Negativo a 0

In [None]:
# Convierte las etiquetas de sentimiento de texto a valores num√©ricos (1 para positivo, 0 para negativo)
df['Sentiment'] = df['Sentiment'].map({'Positivo': 1, 'Negativo': 0})  

# Muestra las primeras cinco filas del DataFrame para verificar la conversi√≥n
df.head()  

10. debemos hacer que los valores del la columna Text se conviertan a n√∫meros

In [None]:
# Define un tokenizador que usa hasta 5000 palabras y asigna "<OOV>" a palabras desconocidas
tokenizer = Tokenizer(num_words=5000, oov_token="<OOV>")  

# Ajusta el tokenizador usando los textos del dataset
tokenizer.fit_on_texts(df["Text"])  


11. convertimos los valores de Text en una secuencia num√©rica

In [None]:
# Convierte los textos en secuencias num√©ricas
sequences = tokenizer.texts_to_sequences(df['Text'])  

# Muestra las primeras cinco secuencias generadas
sequences[:5] 

In [None]:
# Ajusta la longitud de todas las secuencias agregando ceros al final cuando sea necesario
padded_sequences = pad_sequences(sequences, padding='post')

# Muestra las primeras cinco secuencias despu√©s de aplicar el padding
padded_sequences[:5]

12. Divisi√≥n en entrenamiento y prueba

In [None]:
# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    padded_sequences,  # üîπ Datos de entrada: secuencias num√©ricas de los textos procesados
    df["Sentiment"],  # üîπ Etiquetas de salida: 1 para positivo, 0 para negativo
    test_size=0.2,  # üîπ Reservamos el 20% de los datos para prueba y el 80% para entrenamiento
    random_state=42  # üîπ Usamos una semilla aleatoria para asegurar que la divisi√≥n sea reproducible en cada ejecuci√≥n
)

13. Construcci√≥n del Modelo

In [None]:
# üîπ Creaci√≥n del modelo secuencial
model = tf.keras.Sequential([

    #  Capa de Embedding: convierte palabras en vectores num√©ricos
    tf.keras.layers.Embedding(
        input_dim=5000,  # Define el tama√±o del vocabulario (m√°ximo 5000 palabras √∫nicas)
        output_dim=16,  # Especifica la dimensi√≥n de los vectores de palabras (cada palabra se representar√° con 16 valores)
        input_length=padded_sequences.shape[1]  # Define la longitud esperada de las secuencias de entrada
    ),

    #  Global Average Pooling: reduce la dimensi√≥n del Embedding promediando los valores
    tf.keras.layers.GlobalAveragePooling1D(),

    #  Capa completamente conectada (oculta) con 16 neuronas y activaci√≥n ReLU
    tf.keras.layers.Dense(16, activation='relu'),

    #  Capa de salida con una √∫nica neurona y activaci√≥n sigmoide para clasificaci√≥n binaria
    tf.keras.layers.Dense(1, activation='sigmoid')
])

14. compilamos el modelo y mostramos el resumen 

In [None]:
# üîπ Compilamos el modelo antes de entrenarlo
model.compile(
    loss='binary_crossentropy',  #  Funci√≥n de p√©rdida utilizada en clasificaci√≥n binaria; mide la diferencia entre la predicci√≥n y la etiqueta real
    optimizer='adam',  #  Optimizador Adam ajusta los pesos del modelo para mejorar su precisi√≥n
    metrics=['accuracy']  #  Se usa la m√©trica de precisi√≥n para evaluar el rendimiento durante el entrenamiento
)

# üîπ Muestra la estructura del modelo, incluyendo el n√∫mero de capas y par√°metros
model.summary()

15. entrenamos el modelo

In [None]:
# üîπ Entrenamos el modelo con los datos de entrenamiento
history = model.fit(
    X_train,  #  Datos de entrada para entrenamiento (secuencias de texto numerizadas)
    y_train,  #  Etiquetas de salida para entrenamiento (1 = positivo, 0 = negativo)
    epochs=100,  #  N√∫mero de √©pocas (veces que el modelo ver√° los datos para aprender)
    validation_data=(X_test, y_test)  # üìå Datos de validaci√≥n para evaluar el rendimiento del modelo durante el entrenamiento
)

16. Evaluaci√≥n del Modelo

In [None]:
# üîπ Evaluamos el modelo con los datos de prueba para medir su rendimiento
loss, accuracy = model.evaluate(
    X_test,  #  Conjunto de datos de prueba (secuencias num√©ricas)
    y_test   #  Etiquetas reales de prueba (1 = positivo, 0 = negativo)
)

# üîπ Imprimimos la precisi√≥n del modelo con dos decimales
print(f"Accuracy: {accuracy:.2f}")  #  Muestra la precisi√≥n en porcentaje, indicando qu√© tan bien predice el modelo

17. hacemos el gr√°fico de perdida para para saber como le fue al modelo 

#### Este gr√°fico representa la evoluci√≥n de la p√©rdida del modelo durante el entrenamiento y la validaci√≥n a lo largo de las √©pocas.

- Eje X (Epochs): Muestra el n√∫mero de √©pocas, es decir, la cantidad de veces que el modelo ha procesado el conjunto de datos para ajustar sus par√°metros.

- Eje Y (Loss): Representa el valor de la p√©rdida, que indica qu√© tan bien (o mal) el modelo est√° prediciendo los resultados. Un menor valor de p√©rdida 
significa un mejor ajuste del modelo.

- L√≠nea azul ("P√©rdida de Entrenamiento"): Indica c√≥mo disminuye la p√©rdida en el conjunto de entrenamiento a medida que el modelo aprende.

- L√≠nea roja ("P√©rdida de Validaci√≥n"): Muestra la p√©rdida en el conjunto de validaci√≥n, que eval√∫a el rendimiento del modelo en datos que no ha visto 
durante el entrenamiento.


In [None]:
# Definimos la lista de √©pocas basada en la cantidad de iteraciones del entrenamiento
epochs = range(1, len(history.history['loss']) + 1)

# Configuramos el tama√±o de la figura para mejorar la visualizaci√≥n
plt.figure(figsize=(30, 8))

# Creamos el primer gr√°fico: evoluci√≥n de la p√©rdida durante el entrenamiento y la validaci√≥n
plt.subplot(1, 2, 1)  # Dividimos la figura en 1 fila y 2 columnas, seleccionando la primera celda
plt.plot(epochs, history.history['loss'], 'bo-', label='P√©rdida de Entrenamiento')  # Trazamos la p√©rdida del conjunto de entrenamiento
plt.plot(epochs, history.history['val_loss'], 'r*-', label='P√©rdida de Validaci√≥n')  # Trazamos la p√©rdida del conjunto de validaci√≥n
plt.xlabel('Epochs')  # Etiqueta del eje X (√©pocas del entrenamiento)
plt.ylabel('Loss')  # Etiqueta del eje Y (valor de p√©rdida)
plt.title('Training and Validation Loss')  # T√≠tulo del gr√°fico
plt.legend()  # Muestra la leyenda para diferenciar las l√≠neas de entrenamiento y validaci√≥n
plt.grid()  # Agrega una cuadr√≠cula para mejorar la visualizaci√≥n


18. ahora hacemos el gr√°fico de precision 

#### Este gr√°fico representa la evoluci√≥n de la precisi√≥n del modelo durante el entrenamiento y la validaci√≥n a lo largo de las √©pocas.

- Eje X (√©pocas): Indica el n√∫mero de ciclos completos que el modelo ha realizado con los datos de entrenamiento. Cada √©poca representa una pasada completa por el conjunto de datos.

- Eje Y (nivel de precisi√≥n): Muestra la precisi√≥n del modelo, es decir, la proporci√≥n de predicciones correctas con respecto al total de ejemplos evaluados.

- L√≠nea azul ("Precisi√≥n de Entrenamiento"): Representa c√≥mo mejora la precisi√≥n del modelo en el conjunto de datos utilizados para el entrenamiento. En general, esta l√≠nea deber√≠a aumentar con cada √©poca.

- L√≠nea roja ("Precisi√≥n de Validaci√≥n"): Indica la precisi√≥n del modelo al evaluar datos nuevos que no ha visto antes. Si esta l√≠nea comienza a disminuir mientras la precisi√≥n de entrenamiento sigue aumentando, puede ser una se√±al de sobreajuste.



In [None]:
# Configuramos el tama√±o de la figura para mejorar la visualizaci√≥n de la precisi√≥n
plt.figure(figsize=(30, 8))

# Creamos el segundo gr√°fico: evoluci√≥n de la precisi√≥n durante el entrenamiento y la validaci√≥n
plt.subplot(1, 2, 2)  # Dividimos la figura en 1 fila y 2 columnas, seleccionando la segunda celda
plt.plot(epochs, history.history['accuracy'], 'bo-', label='Precisi√≥n de Entrenamiento')  # Trazamos la precisi√≥n del conjunto de entrenamiento
plt.plot(epochs, history.history['val_accuracy'], 'r*-', label='Precisi√≥n de Validaci√≥n')  # Trazamos la precisi√≥n del conjunto de validaci√≥n
plt.xlabel('√©pocas')  # Etiqueta del eje X (√©pocas de entrenamiento)
plt.ylabel('nivel de precisi√≥n')  # Etiqueta del eje Y (nivel de precisi√≥n)
plt.title('Precision de entrenamiento y validaciones ')  # T√≠tulo del gr√°fico
plt.legend()  # Muestra la leyenda para diferenciar las l√≠neas de entrenamiento y validaci√≥n
plt.grid()  # Agrega una cuadr√≠cula para mejorar la lectura de los valores

# Mostramos el gr√°fico en pantalla
plt.show()

19. hacemos unos textos positivos y negativos para hacer uan predicci√≥n de prueba final 

In [None]:
# Definimos un nuevo texto positivo para evaluar el modelo
new_text_positive = "Me encanta este producto, es incre√≠ble y funciona perfectamente."

# Convertimos el texto en una secuencia num√©rica utilizando el tokenizador entrenado
new_sequence = tokenizer.texts_to_sequences([new_text_positive])

# Aplicamos padding a la secuencia para igualar la longitud esperada por el modelo
new_padded_positive = pad_sequences(
    new_sequence,  # Secuencia num√©rica generada a partir del texto
    padding="post",  # Agrega ceros al final si la secuencia es m√°s corta que el tama√±o esperado
    maxlen=padded_sequences.shape[1]  # Define la longitud m√°xima basada en las secuencias utilizadas en el entrenamiento
)

In [None]:
# Definimos un nuevo texto negativo para evaluar el modelo
new_text_negative = "muy malo el producto no me gust√≥ para nada"

# Convertimos el texto en una secuencia num√©rica utilizando el tokenizador entrenado
new_sequence = tokenizer.texts_to_sequences([new_text_negative])

# Aplicamos padding a la secuencia para igualar la longitud esperada por el modelo
new_padded_negative = pad_sequences(
    new_sequence,  # Secuencia num√©rica generada a partir del texto
    padding="post",  # Agrega ceros al final si la secuencia es m√°s corta que el tama√±o esperado
    maxlen=padded_sequences.shape[1]  # Define la longitud m√°xima basada en las secuencias utilizadas en el entrenamiento
)

20. hacemos la predicci√≥n de los dos comentarios 

In [None]:
# Realizamos la predicci√≥n utilizando el modelo entrenado
prediction = model.predict(new_padded_positive)  # Genera una probabilidad de que el texto tenga un sentimiento positivo

# Interpretamos la predicci√≥n: si el resultado es mayor a 0.5, se considera positivo; de lo contrario, negativo
sentimiento = "Positivo" if prediction[0] > 0.5 else "Negativo"

# Imprimimos el texto analizado junto con el sentimiento estimado y la probabilidad calculada
print(f'"{new_text_positive}" ‚Üí Sentimiento: {sentimiento} ({prediction[0][0]:.2f})')

In [None]:
# Realizamos la predicci√≥n utilizando el modelo entrenado
prediction = model.predict(new_padded_negative)  # Genera una probabilidad de que el texto tenga un sentimiento positivo

# Interpretamos la predicci√≥n: si el resultado es mayor a 0.5, se considera positivo; de lo contrario, negativo
sentimiento = "Positivo" if prediction[0] > 0.5 else "Negativo"

# Imprimimos el texto analizado junto con el sentimiento estimado y la probabilidad calculada
print(f'"{new_text_negative}" ‚Üí Sentimiento: {sentimiento} ({prediction[0][0]:.2f})')

21. exportamos el modelo

In [None]:
# Guardamos el modelo en formato HDF5 (.h5)
model.save("modelo_sentimientos.h5")  
# Guarda toda la arquitectura, pesos y configuraci√≥n del modelo

22. cargamos el modelo para probarlo de vuelta asi sabemos si funciona correctamente

In [None]:
# Cargamos el modelo guardado en formato HDF5
modelo_cargado = load_model("modelo_sentimientos.h5")


In [None]:

# Realiza una predicci√≥n con el modelo cargado con el texto negativo
prediction = modelo_cargado.predict(new_padded_negative)  

sentimiento = "Positivo" if prediction[0] > 0.5 else "Negativo"

print(f'"{new_text_negative}" ‚Üí Sentimiento: {sentimiento} ({prediction[0][0]:.2f})')

In [None]:
# realiza una predicci√≥n con el modelo cargado con el texto positivo
prediction = modelo_cargado.predict(new_padded_positive)

sentimiento = "Positivo" if prediction[0] > 0.5 else "Negativo"

print(f'"{new_text_positive}" ‚Üí Sentimiento: {sentimiento} ({prediction[0][0]:.2f})')
