In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.regularizers import l2
import spacy
import nlpaug.augmenter.word as naw

ModuleNotFoundError: No module named 'nlpaug'

In [None]:
df = pd.read_csv("diario_emociones.csv")

# Aumentación de datos con NLP Aug
def aumentar_datos(df, num_aug=3):
    aug = naw.ContextualWordEmbsAug(
        model_path='bert-base-multilingual-uncased',
        action="substitute",
        aug_max=2
    )
    
    nuevos_datos = []
    for _, fila in df.iterrows():
        for _ in range(num_aug):
            texto_aug = aug.augment(fila["texto"])
            nuevos_datos.append({
                "fecha": fila["fecha"],
                "texto": texto_aug,
                "emocion": fila["emocion"]
            })
    return pd.concat([df, pd.DataFrame(nuevos_datos)], ignore_index=True)

df = aumentar_datos(df, num_aug=2)

In [None]:
nlp = spacy.load("es_core_news_sm")

def limpiar_texto(texto):
    doc = nlp(texto.lower())
    tokens = [
        token.lemma_ 
        for token in doc 
        if not token.is_stop 
        and not token.is_punct
        and token.is_alpha
    ]
    return " ".join(tokens)

df["texto_limpio"] = df["texto"].apply(limpiar_texto)

In [None]:
vectorizer = TfidfVectorizer(
    max_features=3000,
    ngram_range=(1, 2),  # Considera bigramas
    min_df=3,            # Ignora términos raros
    max_df=0.85          # Ignora términos muy comunes
)
X = vectorizer.fit_transform(df["texto_limpio"]).toarray()

# Codificación de emociones
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(df["emocion"])


In [None]:
model = Sequential()
model.add(Dense(
    128, 
    input_shape=(X.shape[1],),
    activation='relu',
    kernel_regularizer=l2(0.01)
))
model.add(Dropout(0.6))
model.add(Dense(
    64,
    activation='relu',
    kernel_regularizer=l2(0.005)
))
model.add(Dropout(0.5))
model.add(Dense(
    len(label_encoder.classes_), 
    activation='softmax'
))

model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42,
    stratify=y  # Mantiene distribución de clases
)

# Early stopping manual basado en val_loss
best_val_loss = float('inf')
patience = 3
no_improve = 0

for epoch in range(100):
    history = model.fit(
        X_train, y_train,
        batch_size=32,
        epochs=1,
        validation_data=(X_test, y_test),
        verbose=0
    )
    
    current_val_loss = history.history['val_loss'][0]
    
    # Guardar mejor modelo
    if current_val_loss < best_val_loss:
        best_val_loss = current_val_loss
        no_improve = 0
        model.save("mejor_modelo.h5")
    else:
        no_improve += 1
    
    if no_improve >= patience:
        print(f"Early stopping en época {epoch+1}")
        break

In [None]:
from tensorflow.keras.models import load_model
model = load_model("mejor_modelo.h5")

# Función mejorada de predicción
def predecir_emocion(texto, umbral_confianza=0.7):
    texto_limpio = limpiar_texto(texto)
    texto_vector = vectorizer.transform([texto_limpio]).toarray()
    prediccion = model.predict(texto_vector, verbose=0)
    
    if np.max(prediccion) < umbral_confianza:
        return "indefinido"
    
    return label_encoder.inverse_transform([np.argmax(prediccion)])[0]

In [None]:
def chatbot_respuesta(texto):
    emocion = predecir_emocion(texto)
    
    recursos = {
        "tristeza": {
            "mensaje": "Parece que te sientes triste. Te recomiendo:",
            "recursos": [
                "Meditación guiada para la tristeza (15 min)",
                "Ejercicio: Escribe 3 cosas que aprecies de ti mismo"
            ]
        },
        "ansiedad": {
            "mensaje": "Detecté ansiedad. Prueba estos recursos:",
            "recursos": [
                "Técnica de respiración 4-7-8",
                "Ejercicio de grounding: Nombra 5 cosas que ves alrededor"
            ]
        },
        "estrés": {
            "mensaje": "Sugiero estos recursos para el estrés:",
            "recursos": [
                "Meditación de relajación muscular",
                "Lista de priorización de tareas"
            ]
        },
        "indefinido": {
            "mensaje": "¿Puedes contarme más sobre cómo te sientes?",
            "recursos": []
        }
    }
    
    respuesta = recursos.get(emocion, recursos["indefinido"])
    return f"{respuesta['mensaje']}\n" + "\n".join(respuesta['recursos'])

In [None]:
test_cases = [
    "Tengo miedo de no cumplir con los plazos del trabajo",
    "Mi pareja me hizo sentir muy mal hoy",
    "Estoy feliz porque logré terminar mi proyecto",
    "El ruido constante me está volviendo loco"
]

for caso in test_cases:
    print(f"Usuario: {caso}")
    print(f"Chatbot: {chatbot_respuesta(caso)}\n")