In [1]:
import pandas as pd
import numpy as np
from faker import Faker
from random  import randint
import datetime

fake = Faker('es_ES')
emociones = ["felicidad", "tristeza", "enojo", "ansiedad", "estrés"]

# =============================================
# 1. Plantillas y vocabulario completo
# =============================================
plantillas = {
    "felicidad": [
        "Hoy {verbo} {actividad} y me siento {adjetivo}",
        "{verbo} {actividad} siempre me {efecto}",
        "Qué {adjetivo} día para {actividad}"
    ],
    "tristeza": [
        "No puedo dejar de pensar en {situacion}",
        "Me siento {adjetivo} desde que {evento}",
        "{sensacion} en el pecho cuando {contexto}"
    ],
    "enojo": [
        "Estoy {adjetivo} porque {situacion}",
        "{persona} me hizo sentir {adjetivo} al {accion}",
        "No soporto cuando {situacion}"
    ],
    "ansiedad": [
        "Tengo miedo de que {posibilidad}",
        "No puedo {accion} sin sentir {sintoma}",
        "Mi mente no deja de pensar en {tema}"
    ],
    "estrés": [
        "Entre {responsabilidad1} y {responsabilidad2} no puedo {accion}",
        "Necesito {solucion} pero {obstaculo}",
        "El {fuente} me tiene al límite"
    ]
}

vocabulario = {
    "verbo": ["disfruté", "compartí", "logré", "descubrí", "experimenté"],
    "actividad": ["un tiempo con mi familia", "un logro personal", "un momento de paz", 
                "una caminata al aire libre", "una conversación significativa"],
    "adjetivo": {
        "felicidad": ["eufórico", "agradecido", "pleno", "optimista", "entusiasmado"],
        "tristeza": ["vacío", "desolado", "abatido", "nostálgico", "desanimado"],
        "enojo": ["indignado", "frustrado", "irritado", "exasperado", "resentido"],
        "ansiedad": ["nervioso", "inquieto", "vulnerable", "atormentado", "agobiado"],
        "estrés": ["sobrecargado", "agotado", "tenso", "presionado", "abrumado"]
    },
    "situacion": ["me ignoraron en la reunión", "rompieron mis pertenencias", 
                 "no cumplieron su promesa", "me criticaron sin razón"],
    "persona": ["mi jefe", "mi pareja", "mi vecino", "un desconocido", "mi familiar"],
    "posibilidad": ["todo salga mal", "pierda el control", "me juzguen", "fracase"],
    "solucion": ["un descanso", "organizarme mejor", "pedir ayuda", "delegar tareas"],
    "efecto": ["llena de energía", "motiva", "da paz", "inspira", "alegra"],
    "sensacion": ["Un peso", "Un vacío", "Una opresión", "Un dolor sordo"],
    "contexto": ["recuerdo lo sucedido", "pienso en el futuro", "escucho esa canción"],
    "evento": ["perdí mi trabajo", "terminó nuestra relación", "mudaron lejos"],
    "accion": ["hablar en público", "tomar decisiones", "confrontar a alguien"],
    "sintoma": ["mareos", "palpitaciones", "sudores fríos", "temblores"],
    "tema": ["lo que dijeron de mí", "el próximo examen", "la situación económica"],
    "responsabilidad1": ["el trabajo", "los estudios", "el cuidado de los niños"],
    "responsabilidad2": ["las deudas", "los quehaceres domésticos", "el proyecto final"],
    "fuente": ["tráfico", "ruido constante", "jefe exigente", "plazos ajustados"],
    "obstaculo": ["no tengo tiempo", "me falta energía", "no me escuchan"]
}

# =============================================
# 2. Función para generar textos realistas
# =============================================
def generar_texto(emocion):
    plantilla = random.choice(plantillas[emocion])  # Usando random
    
    reemplazos = {}
    for key in plantilla.split("{"):
        if "}" in key:
            key = key.split("}")[0]
            if key in vocabulario:
                if isinstance(vocabulario[key], dict):
                    reemplazos[key] = random.choice(vocabulario[key][emocion])
                else:
                    reemplazos[key] = random.choice(vocabulario[key])
    
    texto = plantilla.format(**reemplazos)
    
    # Variaciones naturales
    if random.randint(0, 1):  # Usando random
        texto = texto.replace(".", random.choice([",", "!", "..."])).lower()
    
    return texto.capitalize()

# =============================================
# 3. Generación de datos balanceados
# =============================================
n_registros = 20000  # 1000 por emoción
data = []

for emocion in emociones:
    for _ in range(n_registros // len(emociones)):
        fecha = fake.date_between(
            start_date=datetime.date(2020, 1, 1),
            end_date=datetime.date(2024, 12, 31)
        ).strftime('%Y-%m-%d')
        
        texto = generar_texto(emocion)
        
        # Añadir ruido realista
        if randint(0, 10) == 0:
            texto = texto[:len(texto)//2] + "  " + texto[len(texto)//2:]
        
        data.append({
            "fecha": fecha,
            "texto": texto,
            "emocion": emocion
        })

# Mezclar registros
np.random.shuffle(data)

# =============================================
# 4. Crear y guardar dataset
# =============================================
df = pd.DataFrame(data)
df.to_csv("diario_emociones.csv", index=False, encoding="utf-8-sig")

print("\n✅ Dataset generado con éxito! Muestra:")
print(df.sample(3).to_string(index=False))

NameError: name 'random' is not defined

In [17]:
'''
import pandas as pd
import numpy as np
import random
import datetime
from faker import Faker
from string import Formatter

# Configuración inicial
fake = Faker('es_ES')
random.seed(42)
np.random.seed(42)

# Lista de emociones
emociones = ["felicidad", "tristeza", "enojo", "ansiedad", "estrés"]

# =============================================
# Plantillas y vocabulario completo y corregido
# =============================================
plantillas = {
    "felicidad": [
        "Hoy {verbo} {actividad} y me siento {adjetivo} {contexto_extra}",
        "{verbo} {actividad} siempre me {efecto}, {razon}",
        "Qué {adjetivo} día para {actividad} aunque {contradiccion}"
    ],
    "tristeza": [
        "No puedo dejar de pensar en {situacion} {tiempo_referencia}",
        "Me siento {adjetivo} desde que {evento} {perspectiva}",
        "{sensacion} cuando {contexto} {reflexion}"
    ],
    "enojo": [
        "{persona} me hizo sentir {adjetivo} al {accion} {intensidad}",
        "Estoy {adjetivo} porque {situacion} {consecuencia}",
        "No tolero cuando {situacion} {reaccion}"
    ],
    "ansiedad": [
        "Tengo miedo de que {posibilidad} {tiempo}",
        "No puedo {accion} sin {sintoma} {duracion}",
        "Mi mente {actividad_mental} sobre {tema} {frecuencia}"
    ],
    "estrés": [
        "Entre {responsabilidad} y {problema} no puedo {accion_necesaria}",
        "{fuente_estres} me tiene {adjetivo} {tiempo_duracion}",
        "Necesito {solucion} pero {obstaculo} {alternativa}"
    ]
}

vocabulario = {
    "verbo": ["disfruté", "compartí", "logré", "descubrí", "experimenté", "aproveché", "viví", "aprendí"],
    "actividad": [
        "un tiempo con mi familia", "un logro personal", "un momento de paz",
        "una caminata al aire libre", "una conversación significativa", 
        "un proyecto creativo", "una cena especial", "un acto de generosidad"
    ],
    "adjetivo": {
        "felicidad": ["eufórico", "agradecido", "pleno", "optimista", "entusiasmado", "radiante", "satisfecho"],
        "tristeza": ["vacío", "desolado", "abatido", "nostálgico", "desanimado", "afligido", "desesperanzado"],
        "enojo": ["indignado", "frustrado", "irritado", "exasperado", "resentido", "airado", "furioso"],
        "ansiedad": ["nervioso", "inquieto", "vulnerable", "atormentado", "agobiado", "paranoico", "tenso"],
        "estrés": ["sobrecargado", "agotado", "tenso", "presionado", "abrumado", "colapsado", "acelerado"]
    },
    "contexto_extra": [
        "aunque tengo mucho por hacer", "a pesar de los desafíos", 
        "sin embargo sé que debo seguir", "lo que me da nueva energía"
    ],
    "razon": [
        "porque valoro estos momentos", "ya que necesito equilibrio",
        "pues me conecta con lo importante", "pues alimenta mi alma"
    ],
    "contradiccion": [
        "me preocupa que no dure", "siento que algo falta",
        "no quiero que termine", "debería sentirme más pleno"
    ],
    "situacion": [
        "me ignoraron en la reunión", "rompieron mis pertenencias",
        "no cumplieron su promesa", "me criticaron sin razón",
        "me faltaron al respeto", "pasaron por alto mi esfuerzo"
    ],
    "tiempo_referencia": [
        "desde hace semanas", "últimamente", "en estos días",
        "desde aquel incidente", "constantemente"
    ],
    "perspectiva": [
        "y no sé cómo superarlo", "pero trato de seguir adelante",
        "aunque sé que debo ser fuerte", "lo que me desconcierta"
    ],
    "sensacion": ["Un peso en el pecho", "Un vacío profundo", "Una opresión constante", "Un nudo en la garganta"],
    "reflexion": [
        "y no encuentro salida", "lo que me hace cuestionar todo",
        "aunque intento distraerme", "pero el sentimiento persiste"
    ],
    "persona": ["mi jefe", "mi pareja", "mi vecino", "un desconocido", "mi familiar", "un colega"],
    "intensidad": [
        "de manera inesperada", "sin ninguna consideración",
        "de forma repetitiva", "con total indiferencia"
    ],
    "consecuencia": [
        "y afectó mi autoestima", "lo que me tiene desconcertado",
        "alterando mi paz mental", "generando un malestar persistente"
    ],
    "reaccion": [
        "y exploto internamente", "me hierve la sangre",
        "siento que pierdo el control", "me cuesta respirar"
    ],
    "posibilidad": [
        "todo salga mal", "pierda el control", "me juzguen",
        "fracase estrepitosamente", "quede en evidencia"
    ],
    "tiempo": [
        "en el próximo mes", "durante la reunión",
        "al presentar mi trabajo", "cuando me evalúen"
    ],
    "duracion": [
        "desde hace horas", "por varios días",
        "de manera intermitente", "constantemente"
    ],
    "actividad_mental": [
        "da vueltas obsesivamente", "se bloquea recurrentemente",
        "se acelera sin control", "se nubla por completo"
    ],
    "frecuencia": [
        "sin poder parar", "a todas horas",
        "incluso al dormir", "hasta en mis sueños"
    ],
    "responsabilidad": [
        "el trabajo", "los estudios", "las deudas",
        "el cuidado familiar", "las obligaciones sociales"
    ],
    "problema": [
        "la falta de tiempo", "los imprevistos constantes",
        "las demandas contradictorias", "la presión externa"
    ],
    "accion_necesaria": [
        "organizarme", "encontrar soluciones",
        "mantener la calma", "priorizar tareas"
    ],
    "fuente_estres": [
        "El tráfico caótico", "Los plazos imposibles",
        "Las discusiones frecuentes", "La carga laboral excesiva"
    ],
    "tiempo_duracion": [
        "desde hace meses", "desde que comenzó el proyecto",
        "durante toda la semana", "desde el cambio de equipo"
    ],
    "alternativa": [
        "tal vez debería pedir ayuda", "quizás necesite un descanso",
        "probablemente deba reorganizarme", "posiblemente requiera apoyo"
    ],
    "efecto": ["llena de energía", "motiva", "da paz", "inspira", "alegra", "renueva", "fortalece"],
    # Nuevas entradas corregidas
    "accion": [
        "tomar decisiones", "hablar en público", "manejar situaciones sociales",
        "cumplir plazos", "expresar mis opiniones", "concentrarme"
    ],
    "sintoma": [
        "sudoración excesiva", "palpitaciones fuertes", "mareos repentinos",
        "temblores incontrolables", "náuseas intensas", "dificultad para respirar"
    ],
    "contexto": [
        "escucho críticas", "estoy en lugares concurridos", "me evalúan",
        "hay discusiones", "me siento observado", "hablo de mis sentimientos"
    ],
    "evento": [
        "perdí mi trabajo", "terminó mi relación", "me mudé de ciudad",
        "enfermé gravemente", "tuve un accidente", "fallé en un proyecto importante"
    ],
    "tema": [
        "el futuro incierto", "las finanzas personales", "la salud familiar",
        "las responsabilidades pendientes", "las relaciones interpersonales", "mi desempeño laboral"
    ],
    "solucion": [
        "descansar adecuadamente", "organizar mi tiempo", "pedir ayuda",
        "establecer prioridades", "hacer ejercicio", "meditar"
    ],
    "obstaculo": [
        "no tengo recursos", "el tiempo no alcanza", "me siento abrumado",
        "no tengo apoyo", "las circunstancias no ayudan", "mi ansiedad me lo impide"
    ]
}

# =============================================
# Función de generación mejorada y corregida
# =============================================
def generar_texto(emocion):
    plantilla = random.choice(plantillas[emocion])
    keys = [fn for _, fn, _, _ in Formatter().parse(plantilla) if fn is not None]
    
    reemplazos = {}
    for key in keys:
        if key in vocabulario:
            if isinstance(vocabulario[key], dict):
                reemplazos[key] = random.choice(vocabulario[key][emocion])
            else:
                reemplazos[key] = random.choice(vocabulario[key])
        else:
            # Sistema de respaldo para claves faltantes
            defaults = {
                "accion": "actuar",
                "sintoma": "malestar físico",
                "contexto": "en esta situación",
                "evento": "ocurrió algo importante",
                "tema": "asuntos personales",
                "solucion": "encontrar una solución",
                "obstaculo": "existen dificultades"
            }
            reemplazos[key] = defaults.get(key, "[valor desconocido]")
    
    # Validación final de campos requeridos
    for key in keys:
        if not reemplazos[key].strip():
            reemplazos[key] = random.choice(vocabulario.get(key, ["[información faltante]"]))

    texto = plantilla.format(**reemplazos)
    
    # Añadir mezcla de emociones (10% de casos)
    if random.random() < 0.1:
        emocion_sec = random.choice([e for e in emociones if e != emocion])
        texto += f" Aunque también me siento {random.choice(vocabulario['adjetivo'][emocion_sec])}."
    
    # Ruido lingüístico controlado
    modificaciones = [
        lambda s: s.replace("..", "."),
        lambda s: s.replace(",", ", "),
        lambda s: s.capitalize(),
        lambda s: s + random.choice(["", " ¿Me entiendes?", ""])
    ]
    
    for _ in range(random.randint(0, 2)):
        texto = random.choice(modificaciones)(texto)
    
    # Corrección final de formato
    texto = texto.replace("  ", " ").strip()
    if texto[-1] not in [".", "!", "?"]:
        texto += "."
    
    return texto.capitalize()

# =============================================
# Generación de datos
# =============================================
n_registros = 20000  # 4000 por emoción
data = []

for emocion in emociones:
    print(f"Generando {n_registros//len(emociones)} registros de {emocion}...")
    for _ in range(n_registros // len(emociones)):
        texto = generar_texto(emocion)
        data.append({
            "fecha": fake.date_between(
                start_date=datetime.date(2020, 1, 1),
                end_date=datetime.date(2024, 12, 31)
            ).strftime('%Y-%m-%d'),
            "texto": texto,
            "emocion": emocion
        })

# Mezclar y guardar datos
random.shuffle(data)
df = pd.DataFrame(data)
df.to_csv("diario_emociones.csv", index=False, encoding="utf-8-sig")

# Validación final
print("\n✅ Dataset generado exitosamente!")
print(f"Total de registros: {len(df)}")
print("\nDistribución de emociones:")
print(df['emocion'].value_counts())
print("\nEjemplos de registros:")
print(df.sample(5).to_string(index=False, header=True))
'''

Generando 4000 registros de felicidad...
Generando 4000 registros de tristeza...
Generando 4000 registros de enojo...
Generando 4000 registros de ansiedad...
Generando 4000 registros de estrés...

✅ Dataset generado exitosamente!
Total de registros: 20000

Distribución de emociones:
emocion
felicidad    4000
enojo        4000
estrés       4000
tristeza     4000
ansiedad     4000
Name: count, dtype: int64

Ejemplos de registros:
     fecha                                                                                               texto   emocion
2021-01-23 El tráfico caótico me tiene presionado desde el cambio de equipo aunque también me siento inquieto.    estrés
2022-10-23                    Entre las obligaciones sociales y la presión externa no puedo mantener la calma.    estrés
2024-12-20                    Qué satisfecho día para una caminata al aire libre aunque no quiero que termine. felicidad
2021-06-07                     Me siento nostálgico desde que tuve un accidente pero

In [None]:
'''
import pandas as pd
import numpy as np
import random
import datetime
from faker import Faker
from string import Formatter

fake = Faker('es_ES')
random.seed(42)
np.random.seed(42)

emociones = ["felicidad", "tristeza", "enojo", "ansiedad", "estrés"]

# =============================================
# 1. Vocabulario completo y validado
# =============================================
plantillas = {
    "felicidad": [
        "Hoy {verbo_pasado} {actividad_positiva} y me siento {adjetivo}",
        "{verbo_presente} {actividad_positiva} siempre me {efecto_positivo}",
        "Qué {adjetivo} día para {actividad_positiva}"
    ],
    "tristeza": [
        "No puedo superar {situacion_dificil}",
        "Me siento {adjetivo} desde {evento_triste}",
        "{sensacion_fisica} constante cuando {contexto_emocional}"
    ],
    "enojo": [
        "Estoy {adjetivo} por {situacion_injusta}",
        "{persona_relevante} me {accion_ofensiva} {modo_accion}",
        "No tolero {situacion_recurrente}"
    ],
    "ansiedad": [
        "Temo constantemente que {posibilidad_negativa}",
        "Me {sintoma_fisico} cuando debo {situacion_estresante}",
        "No puedo dejar de pensar en {preocupacion_recurrente}"
    ],
    "estrés": [
        "Estoy {adjetivo} entre {responsabilidad1} y {responsabilidad2}",
        "Necesito {solucion_practica} pero {obstaculo_concreto}",
        "La presión de {fuente_estresor} me afecta diariamente"
    ]
}

vocabulario = {
    "verbo_pasado": ["disfruté", "compartí", "logré", "viví", "aproveché"],
    "verbo_presente": ["disfruto", "comparto", "logro", "vivo", "aprovecho"],
    "actividad_positiva": [
        "un momento especial con mi familia",
        "un gran logro profesional",
        "una experiencia enriquecedora"
    ],
    "adjetivo": {
        "felicidad": ["eufórico", "agradecido", "pleno", "optimista", "realizado"],
        "tristeza": ["desolado", "abatido", "desesperanzado", "vacío", "afligido"],
        "enojo": ["indignado", "frustrado", "exasperado", "irritado", "resentido"],
        "ansiedad": ["nervioso", "agobiado", "paranoico", "inquieto", "vulnerable"],
        "estrés": ["sobrecargado", "agotado", "abrumado", "tenso", "colapsado"]
    },
    # Resto del vocabulario...
}

# =============================================
# 2. Función de generación con seguridad integrada
# =============================================
def generar_texto(emocion):
    plantilla = random.choice(plantillas[emocion])
    claves = [fn for _, fn, _, _ in Formatter().parse(plantilla) if fn is not None]
    
    reemplazos = {}
    for clave in claves:
        try:
            if clave == 'adjetivo':
                reemplazos[clave] = random.choice(vocabulario['adjetivo'][emocion])
            else:
                reemplazos[clave] = random.choice(vocabulario[clave])
        except KeyError:
            reemplazos[clave] = random.choice(list(vocabulario.values())[0])
    
    # Garantizar adjetivo siempre presente
    if 'adjetivo' not in reemplazos:
        reemplazos['adjetivo'] = random.choice(vocabulario['adjetivo'][emocion])
    
    texto = plantilla.format(**reemplazos)
    texto = texto[0].upper() + texto[1:] + ('' if texto[-1] in '.!?' else '.')
    return texto.replace("  ", " ").strip()

# =============================================
# 3. Generación de datos robusta
# =============================================
n_registros = 5000
data = []

for emocion in emociones:
    registros_generados = 0
    while registros_generados < n_registros//len(emociones):
        try:
            texto = generar_texto(emocion)
            if len(texto.split()) >= 5:
                data.append({
                    "fecha": fake.date_between(
                        start_date=datetime.date(2020, 1, 1),
                        end_date=datetime.date(2024, 12, 31)
                    ).strftime('%Y-%m-%d'),
                    "texto": texto,
                    "emocion": emocion
                })
                registros_generados += 1
        except:
            continue

df = pd.DataFrame(data).sample(frac=1).reset_index(drop=True)
df.to_csv("diario_emociones.csv", index=False, encoding='utf-8-sig')

print("✅ Dataset generado exitosamente!")
'''