In [5]:
import pandas as pd
import numpy as np
from faker import Faker
import random  # Módulo completo importado
import datetime

fake = Faker('es_ES')
emociones = ["felicidad", "tristeza", "enojo", "ansiedad", "estrés"]

# =============================================
# 1. Plantillas y vocabulario completo
# =============================================
plantillas = {
    "felicidad": [
        "Hoy {verbo} {actividad} y me siento {adjetivo}",
        "{verbo} {actividad} siempre me {efecto}",
        "Qué {adjetivo} día para {actividad}"
    ],
    "tristeza": [
        "No puedo dejar de pensar en {situacion}",
        "Me siento {adjetivo} desde que {evento}",
        "{sensacion} en el pecho cuando {contexto}"
    ],
    "enojo": [
        "Estoy {adjetivo} porque {situacion}",
        "{persona} me hizo sentir {adjetivo} al {accion}",
        "No soporto cuando {situacion}"
    ],
    "ansiedad": [
        "Tengo miedo de que {posibilidad}",
        "No puedo {accion} sin sentir {sintoma}",
        "Mi mente no deja de pensar en {tema}"
    ],
    "estrés": [
        "Entre {responsabilidad1} y {responsabilidad2} no puedo {accion}",
        "Necesito {solucion} pero {obstaculo}",
        "El {fuente} me tiene al límite"
    ]
}

vocabulario = {
    "verbo": ["disfruté", "compartí", "logré", "descubrí", "experimenté"],
    "actividad": ["un tiempo con mi familia", "un logro personal", "un momento de paz", 
                "una caminata al aire libre", "una conversación significativa"],
    "adjetivo": {
        "felicidad": ["eufórico", "agradecido", "pleno", "optimista", "entusiasmado"],
        "tristeza": ["vacío", "desolado", "abatido", "nostálgico", "desanimado"],
        "enojo": ["indignado", "frustrado", "irritado", "exasperado", "resentido"],
        "ansiedad": ["nervioso", "inquieto", "vulnerable", "atormentado", "agobiado"],
        "estrés": ["sobrecargado", "agotado", "tenso", "presionado", "abrumado"]
    },
    "situacion": ["me ignoraron en la reunión", "rompieron mis pertenencias", 
                 "no cumplieron su promesa", "me criticaron sin razón"],
    "persona": ["mi jefe", "mi pareja", "mi vecino", "un desconocido", "mi familiar"],
    "posibilidad": ["todo salga mal", "pierda el control", "me juzguen", "fracase"],
    "solucion": ["un descanso", "organizarme mejor", "pedir ayuda", "delegar tareas"],
    "efecto": ["llena de energía", "motiva", "da paz", "inspira", "alegra"],
    "sensacion": ["Un peso", "Un vacío", "Una opresión", "Un dolor sordo"],
    "contexto": ["recuerdo lo sucedido", "pienso en el futuro", "escucho esa canción"],
    "evento": ["perdí mi trabajo", "terminó nuestra relación", "mudaron lejos"],
    "accion": ["hablar en público", "tomar decisiones", "confrontar a alguien"],
    "sintoma": ["mareos", "palpitaciones", "sudores fríos", "temblores"],
    "tema": ["lo que dijeron de mí", "el próximo examen", "la situación económica"],
    "responsabilidad1": ["el trabajo", "los estudios", "el cuidado de los niños"],
    "responsabilidad2": ["las deudas", "los quehaceres domésticos", "el proyecto final"],
    "fuente": ["tráfico", "ruido constante", "jefe exigente", "plazos ajustados"],
    "obstaculo": ["no tengo tiempo", "me falta energía", "no me escuchan"]
}

# =============================================
# 2. Función para generar textos realistas
# =============================================
def generar_texto(emocion):
    plantilla = random.choice(plantillas[emocion])  # Usando random
    
    reemplazos = {}
    for key in plantilla.split("{"):
        if "}" in key:
            key = key.split("}")[0]
            if key in vocabulario:
                if isinstance(vocabulario[key], dict):
                    reemplazos[key] = random.choice(vocabulario[key][emocion])
                else:
                    reemplazos[key] = random.choice(vocabulario[key])
    
    texto = plantilla.format(**reemplazos)
    
    # Variaciones naturales
    if random.randint(0, 1):  # Usando random
        texto = texto.replace(".", random.choice([",", "!", "..."])).lower()
    
    return texto.capitalize()

# =============================================
# 3. Generación de datos balanceados
# =============================================
n_registros = 5000  # 1000 por emoción
data = []

for emocion in emociones:
    for _ in range(n_registros // len(emociones)):
        fecha = fake.date_between(
            start_date=datetime.date(2020, 1, 1),
            end_date=datetime.date(2024, 12, 31)
        ).strftime('%Y-%m-%d')
        
        texto = generar_texto(emocion)
        
        # Añadir ruido realista
        if randint(0, 10) == 0:
            texto = texto[:len(texto)//2] + "  " + texto[len(texto)//2:]
        
        data.append({
            "fecha": fecha,
            "texto": texto,
            "emocion": emocion
        })

# Mezclar registros
np.random.shuffle(data)

# =============================================
# 4. Crear y guardar dataset
# =============================================
df = pd.DataFrame(data)
df.to_csv("diario_emociones_realista.csv", index=False, encoding="utf-8-sig")

print("\n✅ Dataset generado con éxito! Muestra:")
print(df.sample(3).to_string(index=False))


✅ Dataset generado con éxito! Muestra:
     fecha                                                                    texto  emocion
2022-04-21 Entre el cuidado de los niños y las deudas no puedo confrontar a alguien   estrés
2021-06-14                               Necesito pedir ayuda pero me falta energía   estrés
2024-05-04                      No puedo dejar de pensar en me criticaron sin razón tristeza
