In [105]:
import pandas as pd
import nltk
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import normalize
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
nltk.download("punkt")
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download("stopwords")

df_posts = pd.read_csv("posts.csv")

[nltk_data] Downloading package punkt to /Users/marcofura/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/marcofura/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Tokenizacion de Palabras

In [106]:
print(df_posts.head())

                                                post  sentimiento
0  Hoy disfruté de un delicioso almuerzo con amigos.            1
1         Estoy tan emocionado por mi próximo viaje.            1
2  Qué día tan hermoso para salir a caminar por e...            1
3  Mi corazón está roto. No puedo creer que haya ...           -1
4  ¡Acabo de conseguir un nuevo trabajo! ¡Estoy t...            1


In [107]:
tokenized_posts = [
    word_tokenize(post.lower()) for post in df_posts['post']
]  # Convertir a minúsculas para consistencia

# Mostrar los resultados
for i, post in enumerate(tokenized_posts, start=1):
    print(f"Tokens del post {i}: {post}")

Tokens del post 1: ['hoy', 'disfruté', 'de', 'un', 'delicioso', 'almuerzo', 'con', 'amigos', '.']
Tokens del post 2: ['estoy', 'tan', 'emocionado', 'por', 'mi', 'próximo', 'viaje', '.']
Tokens del post 3: ['qué', 'día', 'tan', 'hermoso', 'para', 'salir', 'a', 'caminar', 'por', 'el', 'parque', '.']
Tokens del post 4: ['mi', 'corazón', 'está', 'roto', '.', 'no', 'puedo', 'creer', 'que', 'haya', 'terminado', 'así', '.']
Tokens del post 5: ['¡acabo', 'de', 'conseguir', 'un', 'nuevo', 'trabajo', '!', '¡estoy', 'tan', 'feliz', '!']
Tokens del post 6: ['la', 'vida', 'a', 'veces', 'puede', 'ser', 'difícil', ',', 'pero', 'sigo', 'adelante', '.']
Tokens del post 7: ['estoy', 'cansado', 'de', 'todo', 'el', 'drama', 'en', 'las', 'redes', 'sociales', '.']
Tokens del post 8: ['¡felicidades', 'a', 'mi', 'mejor', 'amigo', 'por', 'su', 'boda', '!']
Tokens del post 9: ['¡hoy', 'es', 'mi', 'cumpleaños', 'y', 'estoy', 'emocionado', 'por', 'lo', 'que', 'el', 'año', 'nuevo', 'traerá', '!']
Tokens del post 1

In [108]:
stopwords_es = set(stopwords.words("spanish"))

In [109]:
# Eliminar stopwords de cada post
filtered_posts = [
    [word for word in post if word not in stopwords_es] for post in tokenized_posts
]

# Mostrar los resultados
for i, post in enumerate(filtered_posts, start=1):
    print(f"Tokens del post {i} después de eliminar stopwords: {post}")

Tokens del post 1 después de eliminar stopwords: ['hoy', 'disfruté', 'delicioso', 'almuerzo', 'amigos', '.']
Tokens del post 2 después de eliminar stopwords: ['tan', 'emocionado', 'próximo', 'viaje', '.']
Tokens del post 3 después de eliminar stopwords: ['día', 'tan', 'hermoso', 'salir', 'caminar', 'parque', '.']
Tokens del post 4 después de eliminar stopwords: ['corazón', 'roto', '.', 'puedo', 'creer', 'terminado', 'así', '.']
Tokens del post 5 después de eliminar stopwords: ['¡acabo', 'conseguir', 'nuevo', 'trabajo', '!', '¡estoy', 'tan', 'feliz', '!']
Tokens del post 6 después de eliminar stopwords: ['vida', 'veces', 'puede', 'ser', 'difícil', ',', 'sigo', 'adelante', '.']
Tokens del post 7 después de eliminar stopwords: ['cansado', 'drama', 'redes', 'sociales', '.']
Tokens del post 8 después de eliminar stopwords: ['¡felicidades', 'mejor', 'amigo', 'boda', '!']
Tokens del post 9 después de eliminar stopwords: ['¡hoy', 'cumpleaños', 'emocionado', 'año', 'nuevo', 'traerá', '!']
Token

In [110]:
nlp = spacy.load("es_core_news_md")

In [111]:
# Lematizar cada token en cada post
lemmatized_posts = [
    [token.lemma_ for token in nlp(" ".join(post))] for post in filtered_posts
]

# Mostrar los resultados
for i, post in enumerate(lemmatized_posts, start=1):
    print(f"Tokens del post {i} después de lematización: {post}")

Tokens del post 1 después de lematización: ['hoy', 'disfruté', 'delicioso', 'almuerzo', 'amigo', '.']
Tokens del post 2 después de lematización: ['tanto', 'emocionado', 'próximo', 'viaje', '.']
Tokens del post 3 después de lematización: ['día', 'tanto', 'hermoso', 'salir', 'caminar', 'parque', '.']
Tokens del post 4 después de lematización: ['corazón', 'roto', '.', 'poder', 'creer', 'terminado', 'así', '.']
Tokens del post 5 después de lematización: ['¡', 'acabar', 'conseguir', 'nuevo', 'trabajo', '!', '¡', 'estar', 'tanto', 'feliz', '!']
Tokens del post 6 después de lematización: ['vida', 'vez', 'poder', 'ser', 'difícil', ',', 'seguir', 'adelante', '.']
Tokens del post 7 después de lematización: ['cansado', 'drama', 'red', 'social', '.']
Tokens del post 8 después de lematización: ['¡', 'felicidad', 'mejor', 'amigo', 'boda', '!']
Tokens del post 9 después de lematización: ['¡', 'hoy', 'cumpleaños', 'emocionado', 'año', 'nuevo', 'traer', '!']
Tokens del post 10 después de lematización: 

In [112]:
# Convertir los posts lematizados de nuevo a texto
lemmatized_posts_text = [" ".join(post) for post in lemmatized_posts]

# Crear un objeto TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()

# Aplicar TF-IDF a los posts lematizados
tfidf_matrix = tfidf_vectorizer.fit_transform(lemmatized_posts_text)

# Mostrar la matriz TF-IDF
print("Matriz TF-IDF:")
print(type(tfidf_matrix))
print(tfidf_matrix.shape)
for i, post in enumerate(tfidf_matrix, start=1):
    print(f"Post {i}: {post}")
print(tfidf_matrix.toarray())

Matriz TF-IDF:
<class 'scipy.sparse._csr.csr_matrix'>
(94, 227)
Post 1:   (0, 12)	0.38983613802156125
  (0, 9)	0.5036759584510153
  (0, 54)	0.5036759584510153
  (0, 62)	0.5036759584510153
  (0, 100)	0.2948887453393017
Post 2:   (0, 215)	0.6084304337452373
  (0, 170)	0.49271972952185983
  (0, 68)	0.3798248854043043
  (0, 195)	0.49271972952185983
Post 3:   (0, 146)	0.46201643830011996
  (0, 35)	0.46201643830011996
  (0, 183)	0.46201643830011996
  (0, 97)	0.39613221707862833
  (0, 66)	0.2917081970533469
  (0, 195)	0.3429402667895249
Post 4:   (0, 19)	0.4392668537855498
  (0, 200)	0.4392668537855498
  (0, 48)	0.4392668537855498
  (0, 161)	0.2938210523964493
  (0, 181)	0.4392668537855498
  (0, 45)	0.37662675665706574
Post 5:   (0, 86)	0.4024084818565733
  (0, 77)	0.37642445703423677
  (0, 208)	0.43903090793924077
  (0, 139)	0.3258788307435239
  (0, 44)	0.43903090793924077
  (0, 2)	0.31381800612923266
  (0, 195)	0.3258788307435239
Post 6:   (0, 3)	0.4640029356366644
  (0, 185)	0.464002935636

In [113]:
normalized_tfidf_matrix = normalize(tfidf_matrix, norm="l2", axis=1)

# Mostrar la matriz normalizada
print("Matriz TF-IDF normalizada:")
print(normalized_tfidf_matrix.toarray())

Matriz TF-IDF normalizada:
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [114]:
labels_mapping = {-1: 0, 0: 1, 1: 2}
labels = [labels_mapping[label] for label in df_posts['sentimiento']]

# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(
    normalized_tfidf_matrix, labels, test_size=0.2, random_state=42,shuffle=True
)

# Mostrar las formas de los conjuntos de datos
print("Forma de X_train:", X_train.shape)
print("Forma de X_test:", X_test.shape)
print("Forma de y_train:", len(y_train))
print("Forma de y_test:", len(y_test))

Forma de X_train: (75, 227)
Forma de X_test: (19, 227)
Forma de y_train: 75
Forma de y_test: 19


In [115]:
print(type(X_train))
print(type(X_test))
print(type(y_train))
print(type(y_test))

<class 'scipy.sparse._csr.csr_matrix'>
<class 'scipy.sparse._csr.csr_matrix'>
<class 'list'>
<class 'list'>


In [116]:
print(X_train.toarray().shape)
print(np.array(y_train).shape)

(75, 227)
(75,)


In [117]:
import numpy as np
# Definir el modelo de red neuronal
model = models.Sequential(
    [
        layers.Dense(64, activation="relu", input_shape=(X_train.shape[1],)),
        layers.Dense(
            3, activation="softmax"
        ),  # Capa de salida con 3 neuronas para 3 clases de polaridad
    ]
)

# Compilar el modelo
model.compile(
    optimizer="adam",
    loss="sparse_categorical_crossentropy",  # Usar esta función de pérdida para etiquetas numéricas
    metrics=["accuracy"],
)

# Entrenar el modelo
history = model.fit(
    X_train.toarray(), np.array(y_train), epochs=10, validation_split=0.2
)

# Evaluar el modelo en el conjunto de prueba
test_loss, test_acc = model.evaluate(X_test.toarray(), np.array(y_test))
print("Precisión en el conjunto de prueba:", test_acc)



Epoch 1/10


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 68ms/step - accuracy: 0.4125 - loss: 1.0879 - val_accuracy: 0.4667 - val_loss: 1.0841
Epoch 2/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.5340 - loss: 1.0698 - val_accuracy: 0.5333 - val_loss: 1.0706
Epoch 3/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - accuracy: 0.6958 - loss: 1.0517 - val_accuracy: 0.6000 - val_loss: 1.0575
Epoch 4/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - accuracy: 0.8368 - loss: 1.0314 - val_accuracy: 0.6667 - val_loss: 1.0445
Epoch 5/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - accuracy: 0.8799 - loss: 1.0110 - val_accuracy: 0.6667 - val_loss: 1.0318
Epoch 6/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.8799 - loss: 1.0004 - val_accuracy: 0.6667 - val_loss: 1.0196
Epoch 7/10
[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m

In [129]:
# Definir la frase a predecir
frase = "Detesto encontrar las empresas que estan afectando a los pobladores del campo."

tokenized_frase=word_tokenize(frase.lower())
tokenized_frase_stop = [word for word in tokenized_frase if word not in stopwords_es]
lemmatized_frase=[token.lemma_ for token in nlp(" ".join(tokenized_frase_stop))]

lemmatized_frase = [
    word for word in lemmatized_frase if word in tfidf_vectorizer.vocabulary_
]

# Tokenizar y lematizar el nuevo texto
print(lemmatized_frase)
# Convertir el texto tokenizado en una matriz TF-IDF usando el mismo vectorizador
tfidf_new_text = tfidf_vectorizer.transform([" ".join(lemmatized_frase)])
print('tfdidf new text ',tfidf_new_text)
print('tfdidf shape ',tfidf_new_text.shape)
# Ahora puedes usar tfidf_new_text para hacer una predicción con tu modelo
prediction = model.predict(tfidf_new_text)

# Mapear el resultado de la predicción al sentimiento correspondiente
print("Predicción:", prediction)
# Imprimir el resultado
print("El sentimiento de la frase es:", np.argmax(prediction, axis=1))

['encontrar', 'estar']
tfdidf new text    (0, 77)	0.7071067811865476
  (0, 70)	0.7071067811865476
tfdidf shape  (1, 227)
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step
Predicción: [[0.30586234 0.31609133 0.37804633]]
El sentimiento de la frase es: [2]
