In [34]:
import pandas as pd
from faker import Faker
import random
from datetime import datetime, timedelta

In [35]:
fake = Faker('es_ES')
num_filas = 1000

In [36]:
def generar_turnos(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))] # Generar más empleados para variedad
    tipos_turno = ['Mañana', 'Tarde', 'Noche', 'Libre']
    ubicaciones = ['Oficina Central', 'Almacén', 'Planta de Producción', 'Oficina Remota']
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha = fake.date_between(start_date='-1y', end_date='today')
        hora_inicio = fake.time(pattern="%H:%M")
        # Simular hora fin basada en inicio (rangos típicos)
        hora_inicio_dt = datetime.strptime(hora_inicio, "%H:%M")
        duracion = random.choice([timedelta(hours=6), timedelta(hours=7), timedelta(hours=8)])
        hora_fin_dt = hora_inicio_dt + duracion
        hora_fin = hora_fin_dt.strftime("%H:%M")
        tipo_turno = random.choice(tipos_turno)
        ubicacion = random.choice(ubicaciones)
        notas = fake.sentence(nb_words=5) if random.random() < 0.1 else ''
        data.append([empleado_id, fecha, hora_inicio, hora_fin, tipo_turno, ubicacion, notas])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha', 'hora_inicio', 'hora_fin', 'tipo_turno', 'ubicacion', 'notas'])

In [37]:
def generar_vacaciones(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    estados = ['Pendiente', 'Aprobada', 'Rechazada']
    aprobadores = [f'RRHH{i+1:02d}' for i in range(5)]
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha_inicio_date = fake.date_between(start_date='-1y', end_date='+6mo')
        fecha_inicio = fecha_inicio_date.strftime('%Y-%m-%d') # Convertir a string
        duracion = random.randint(3, 21)
        fecha_fin = (datetime.strptime(fecha_inicio, '%Y-%m-%d') + timedelta(days=duracion)).strftime('%Y-%m-%d')
        dias_solicitados = duracion
        estado = random.choices(estados, weights=[0.3, 0.6, 0.1])[0]
        fecha_solicitud = fake.date_between(start_date='-1y', end_date=fecha_inicio_date).strftime('%Y-%m-%d') # Asegurarse de que fecha_solicitud también sea string
        aprobador_id = random.choice(aprobadores) if estado == 'Aprobada' or estado == 'Rechazada' else ''
        motivo_rechazo = fake.sentence(nb_words=8) if estado == 'Rechazada' else ''
        data.append([empleado_id, fecha_inicio, fecha_fin, dias_solicitados, estado, fecha_solicitud, aprobador_id, motivo_rechazo])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha_inicio', 'fecha_fin', 'dias_solicitados', 'estado', 'fecha_solicitud', 'aprobador_id', 'motivo_rechazo'])

In [38]:
def generar_bajas(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    tipos_baja = ['Enfermedad común', 'Accidente laboral', 'Asunto personal', 'Cita médica']
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha_inicio_date = fake.date_between(start_date='-6mo', end_date='today')
        fecha_inicio = fecha_inicio_date.strftime('%Y-%m-%d') # Convertir a string
        duracion = random.randint(1, 15)
        fecha_fin = (datetime.strptime(fecha_inicio, '%Y-%m-%d') + timedelta(days=duracion)).strftime('%Y-%m-%d')
        tipo_baja = random.choice(tipos_baja)
        certificado_presentado = random.choice(['Sí', 'No']) if tipo_baja != 'Asunto personal' else 'No'
        fecha_presentacion_date = fake.date_between(start_date=fecha_inicio_date, end_date='today') if certificado_presentado == 'Sí' else None
        fecha_presentacion = fecha_presentacion_date.strftime('%Y-%m-%d') if fecha_presentacion_date else '' # Convertir a string si no es None
        notas = fake.sentence(nb_words=6) if random.random() < 0.2 else ''
        data.append([empleado_id, fecha_inicio, fecha_fin, tipo_baja, certificado_presentado, fecha_presentacion, notas])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha_inicio', 'fecha_fin', 'tipo_baja', 'certificado_presentado', 'fecha_presentacion', 'notas'])

In [39]:
def generar_retencion(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    satisfaccion_niveles = [1, 2, 3, 4, 5]
    intenciones = ['Sí', 'No']
    motivos_insatisfaccion = [None, 'Salario bajo', 'Falta de reconocimiento', 'Pocas oportunidades de crecimiento', 'Mal ambiente laboral', 'Problemas con el supervisor']
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha_encuesta = fake.date_between(start_date='-1y', end_date='today')
        satisfaccion_general = random.choice(satisfaccion_niveles)
        oportunidades_crecimiento = random.choice(satisfaccion_niveles)
        relacion_supervisor = random.choice(satisfaccion_niveles)
        ambiente_laboral = random.choice(satisfaccion_niveles)
        beneficios = random.choice(satisfaccion_niveles)
        intencion_abandono = random.choices(intenciones, weights=[0.2, 0.8])[0] if satisfaccion_general <= 2 else 'No'
        motivo_insatisfaccion_empleado = random.choice(motivos_insatisfaccion) if intencion_abandono == 'Sí' and random.random() < 0.7 else None
        sugerencias = fake.sentence(nb_words=10) if satisfaccion_general <= 3 and random.random() < 0.5 else ''
        data.append([empleado_id, fecha_encuesta, satisfaccion_general, oportunidades_crecimiento, relacion_supervisor, ambiente_laboral, beneficios, intencion_abandono, motivo_insatisfaccion_empleado, sugerencias])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha_encuesta', 'satisfaccion_general', 'oportunidades_crecimiento', 'relacion_supervisor', 'ambiente_laboral', 'beneficios', 'intencion_abandono', 'motivo_insatisfaccion', 'sugerencias'])

In [40]:
def generar_nomina(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha_pago = fake.date_between(start_date='-1y', end_date='today')
        salario_base = round(random.uniform(1500, 5000), 2)
        horas_extras = round(random.uniform(0, 10) * 25, 2) if random.random() < 0.3 else 0.00
        bonificaciones = round(random.uniform(0, 500), 2) if random.random() < 0.4 else 0.00
        deducciones = round(random.uniform(50, 300), 2)
        impuestos = round(salario_base * random.uniform(0.15, 0.25), 2)
        total_pagado = round(salario_base + horas_extras + bonificaciones - deducciones - impuestos, 2)
        discrepancia = random.choice(['Sí', 'No']) if random.random() < 0.05 else 'No'
        motivo_discrepancia = fake.sentence(nb_words=5) if discrepancia == 'Sí' else ''
        explicacion_discrepancia = fake.sentence(nb_words=10) if discrepancia == 'Sí' and random.random() < 0.7 else ''
        data.append([empleado_id, fecha_pago, salario_base, horas_extras, bonificaciones, deducciones, impuestos, total_pagado, discrepancia, motivo_discrepancia, explicacion_discrepancia])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha_pago', 'salario_base', 'horas_extras', 'bonificaciones', 'deducciones', 'impuestos', 'total_pagado', 'discrepancia', 'motivo_discrepancia', 'explicacion_discrepancia'])

In [41]:
def generar_candidatos(n):
    data = []
    habilidades_cv = ['marketing', 'ventas', 'estrategia', 'desarrollo', 'java', 'python', 'diseño ux', 'ui', 'prototipado', 'finanzas', 'contabilidad', 'impuestos', 'recursos humanos', 'nóminas', 'selección']
    habilidades_blandas = ['Comunicación efectiva', 'Trabajo en equipo', 'Liderazgo', 'Resolución de problemas', 'Creatividad', 'Atención al detalle', 'Análisis', 'Organización', 'Empatía', 'Negociación']
    resultados_psicometricos = ['Alto', 'Medio', 'Bajo']
    encaje_cultural = ['Alto', 'Medio', 'Bajo']
    decisiones = ['Contratado', 'No contratado', 'En revisión']
    for i in range(n):
        candidato_id = f'C{i+1:03d}'
        nombre = fake.name()
        email = fake.email()
        cv_keywords = ','.join(random.sample(habilidades_cv, random.randint(3, 7)))
        prueba_psicometrica_resultado = random.choice(resultados_psicometricos)
        habilidades_blandas_evaluacion = ','.join(random.sample(habilidades_blandas, random.randint(2, 4)))
        experiencia_anos = random.randint(0, 15)
        encaje_cultural_potencial = random.choice(encaje_cultural)
        decision_rrhh = random.choice(decisiones)
        data.append([candidato_id, nombre, email, cv_keywords, prueba_psicometrica_resultado, habilidades_blandas_evaluacion, experiencia_anos, encaje_cultural_potencial, decision_rrhh])
    return pd.DataFrame(data, columns=['candidato_id', 'nombre', 'email', 'cv_keywords', 'prueba_psicometrica_resultado', 'habilidades_blandas_evaluacion', 'experiencia_anos', 'encaje_cultural_potencial', 'decision_rrhh'])

In [42]:
def generar_chatbot_logs(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    preguntas_frecuentes = [
        "¿Cuántos días de vacaciones me quedan?",
        "¿Cuál es la política de teletrabajo?",
        "No he recibido mi nómina.",
        "¿Cómo solicito una baja médica?",
        "¿Hay oportunidades de formación?",
        "¿Cuál es mi salario?",
        "¿Cómo puedo cambiar mi información personal?",
        "¿Qué beneficios ofrece la empresa?",
        "¿Cuál es el horario de trabajo?",
        "¿Cómo puedo contactar con RRHH?"
    ]
    intenciones_asociadas = [
        "Consultar_vacaciones", "Consultar_politica", "Reclamar_nomina", "Solicitar_baja", "Consultar_formacion",
        "Consultar_salario", "Actualizar_info", "Consultar_beneficios", "Consultar_horario", "Contactar_RRHH"
    ]
    respuestas_genericas = [
        "Tienes [X] días disponibles.",
        "La política se encuentra en [Y].",
        "Por favor, contacta con el departamento de nóminas.",
        "Debes seguir los siguientes pasos: [Z].",
        "Sí, puedes encontrar información en [W].",
        "Tu salario es [S].",
        "Puedes hacerlo a través de [U].",
        "Ofrecemos [B] como beneficios.",
        "El horario es de [H].",
        "Puedes contactarnos por [C]."
    ]
    for i in range(n):
        timestamp = fake.date_time_between(start_date='-3mo', end_date='now').strftime("%Y-%m-%d %H:%M:%S")
        empleado_id = random.choice(empleados)
        pregunta = random.choice(preguntas_frecuentes)
        intencion_detectada = intenciones_asociadas[preguntas_frecuentes.index(pregunta)]
        respuesta_chatbot = random.choice(respuestas_genericas).replace('[X]', str(random.randint(5, 30))).replace('[Y]', 'el portal del empleado').replace('[Z]', 'el sistema de gestión').replace('[W]', 'la intranet').replace('[S]', str(round(random.uniform(1500, 4000), 2))).replace('[U]', 'tu perfil').replace('[B]', 'seguro médico, plan de pensiones').replace('[H]', '9:00 a 18:00').replace('[C]', 'email o teléfono')
        satisfaccion_usuario = random.randint(3, 5) if random.random() < 0.8 else random.randint(1, 2)
        data.append([timestamp, empleado_id, pregunta, intencion_detectada, respuesta_chatbot, satisfaccion_usuario])
    return pd.DataFrame(data, columns=['timestamp', 'empleado_id', 'pregunta', 'intencion_detectada', 'respuesta_chatbot', 'satisfaccion_usuario'])

In [43]:
def generar_encuestas(n):
    data = []
    empleados = [f'E{i+1:03d}' for i in range(int(n * 1.2))]
    preguntas_encuesta = [
        "¿Qué tan satisfecho estás con tu salario y beneficios?",
        "¿Sientes que tienes oportunidades de crecimiento y desarrollo profesional en la empresa?",
        "¿Cómo calificarías la comunicación con tu supervisor directo?",
        "¿Qué tan positivo dirías que es el ambiente laboral en tu equipo?",
        "¿Consideras que la empresa se preocupa por el bienestar de sus empleados?",
        "¿Recomendarías esta empresa a un amigo/a para trabajar?",
        "¿Qué tan claras son las políticas y procedimientos de la empresa?",
        "¿Sientes que tu trabajo es valorado y reconocido?",
        "¿Estás satisfecho con el equilibrio entre tu vida laboral y personal?",
        "¿Hay algo específico que te gustaría que la empresa mejorara?"
    ]
    for i in range(n):
        empleado_id = random.choice(empleados)
        fecha_encuesta = fake.date_between(start_date='-1y', end_date='today')
        for pregunta in preguntas_encuesta:
            respuesta = random.randint(1, 5) if "¿Hay algo específico" not in pregunta else ''
            comentarios = fake.sentence(nb_words=10) if "¿Hay algo específico" in pregunta and random.random() < 0.5 else ''
            data.append([empleado_id, fecha_encuesta, pregunta, respuesta, comentarios])
    return pd.DataFrame(data, columns=['empleado_id', 'fecha_encuesta', 'pregunta', 'respuesta', 'comentarios'])

In [None]:


# Generar y guardar los DataFrames en archivos CSV
generar_turnos(num_filas).to_csv('data/turnos.csv', index=False)
generar_vacaciones(num_filas).to_csv('data/vacaciones.csv', index=False)
generar_bajas(num_filas).to_csv('data/bajas.csv', index=False)
generar_retencion(num_filas).to_csv('data/retencion.csv', index=False)
generar_nomina(num_filas).to_csv('data/nomina.csv', index=False)
generar_candidatos(num_filas).to_csv('data/candidatos.csv', index=False)
generar_chatbot_logs(num_filas).to_csv('data/chatbot_logs.csv', index=False)
generar_encuestas(num_filas).to_csv('data/encuestas.csv', index=False)

print(f"Se han generado datos aleatorio para cada uno de los 8 apartados en archivos CSV.")

Se han generado 1000 filas de datos aleatorios (aproximadamente) para cada uno de los 8 apartados en archivos CSV.
