In [None]:
import pandas as pd
import numpy as np
from random import choice, randint, uniform
from datetime import datetime, timedelta

In [245]:
# Definición de los valores posibles
generos = ['Masculino', 'Femenino']
tipos_contrato = ['A plazo indeterminado', 'De naturaleza temporal', 'De naturaleza ocasional', 'De naturaleza accidental', 'Tiempo parcial', 'Otros']
regimen_pensionario = ['Sistema Privado de Pensiones','Sistema Nacional de Pensiones','Otro regimen pensionario','Sin regimen pensionario']
regimen_salud = ['ESSALUD', 'ESSALUD Agrario', 'SIS']

In [None]:
# datos sintéticos
ruc = pd.read_csv('data/ruc.csv')
nombres = pd.read_csv('data/nombres.csv')
apellidos = pd.read_csv('data/apellidos.csv')
apellidos = np.hstack(apellidos.values.tolist())
departamentos = pd.read_csv('data/departamentos.csv')
departamentos = np.hstack(departamentos.values.tolist())

In [247]:
def random_date(start, end):
    return start + timedelta(days=randint(0, (end - start).days))

In [248]:
num_trabajadores = 1000  # Número de registros a generar

# Generación de datos
data = {
    'id_trabajador': range(1, num_trabajadores + 1),
    'ruc': [],
    'regimen_laboral': [],
    'dni': [str(randint(10000000, 99999999)) for _ in range(num_trabajadores)],
    'tipo_contrato': [choice(tipos_contrato) for _ in range(num_trabajadores)],
    'remuneracion': [round(uniform(1000.00, 5000.00), 2) for _ in range(num_trabajadores)],
    'regimen_pensionario': [choice(regimen_pensionario) for _ in range(num_trabajadores)],
    'regimen_salud': [choice(regimen_salud) for _ in range(num_trabajadores)],
    'fecha_inicio': [random_date(datetime(2010, 1, 1), datetime(2023, 10, 31)).date() for _ in range(num_trabajadores)],
    'fecha_nac': [random_date(datetime(1950, 1, 1), datetime(2000, 12, 31)).date() for _ in range(num_trabajadores)],
    'nombres': [],
    'apellidos': [choice(apellidos) for _ in range(num_trabajadores)],
    'genero': [],
    'departamento': [choice(departamentos) for _ in range(num_trabajadores)],
}

In [249]:
# Generar RUC y régimen laboral usando el mismo índice
for _ in range(num_trabajadores):
    index = randint(0, len(ruc) - 1)  # Genera un índice aleatorio
    data['ruc'].append(ruc.iloc[index, 0])  # RUC basado en el índice
    data['regimen_laboral'].append(ruc.iloc[index, 1])  # Régimen laboral basado en el mismo índice

In [250]:
for _ in range(num_trabajadores):
    index = randint(0, len(nombres) - 1)  # Genera un índice aleatorio
    data['nombres'].append(nombres.iloc[index,0])  # Nombre basado en el índice
    data['genero'].append(nombres.iloc[index,1])  # Género basado en el mismo índice

In [251]:
df = pd.DataFrame(data)

In [252]:
df.duplicated(subset=['dni']).sum()

np.int64(0)

In [253]:
df

Unnamed: 0,id_trabajador,ruc,regimen_laboral,dni,tipo_contrato,remuneracion,regimen_pensionario,regimen_salud,fecha_inicio,fecha_nac,nombres,apellidos,genero,departamento
0,1,20123456845,General,25096185,Tiempo parcial,3654.87,Sistema Nacional de Pensiones,ESSALUD Agrario,2016-09-25,1996-01-17,Hugo,Mejia Diaz,Masculino,Apurimac
1,2,20123456809,General,60872743,De naturaleza ocasional,2253.59,Sistema Nacional de Pensiones,ESSALUD Agrario,2019-10-25,1955-07-30,Julieta,Nuñez Castro,Femenino,Cajamarca
2,3,20123456838,No precisa,34015611,Tiempo parcial,2927.53,Sistema Nacional de Pensiones,ESSALUD,2020-12-21,1965-10-29,Eduardo,Castañeda Rodriguez,Masculino,Ayacucho
3,4,20123456792,Pequena empresa,47919222,De naturaleza ocasional,3658.33,Sistema Privado de Pensiones,ESSALUD,2016-02-22,1993-11-30,Mauricio,Zarate Perez,Masculino,Ancash
4,5,20123456821,General,41833115,Otros,3597.65,Otro regimen pensionario,ESSALUD,2021-10-01,1961-04-18,Alvaro,Gomez Cordova,Masculino,La Libertad
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,20123456838,No precisa,68259502,Otros,3826.33,Sistema Nacional de Pensiones,ESSALUD,2014-02-08,1951-06-29,Alejo,Martinez Ruiz,Masculino,Piura
996,997,20123456869,General,56427961,De naturaleza accidental,1312.68,Sistema Nacional de Pensiones,SIS,2018-03-23,1965-03-27,Gonzalo,Aguilar Jimenez,Masculino,Huancavelica
997,998,20123456834,Pequena empresa,28053518,De naturaleza accidental,3259.24,Sistema Nacional de Pensiones,SIS,2015-05-15,1980-04-11,Gabriela,Aldana Sanchez,Femenino,Ica
998,999,20123456790,No precisa,87524909,De naturaleza accidental,1234.09,Sistema Privado de Pensiones,ESSALUD Agrario,2017-11-12,1952-12-26,Ana,Sierra Gonzalez,Femenino,Junin


In [None]:
# Generar las sentencias INSERT para SQL Server
insert_statements = []
for index, row in df.iterrows():
    insert_statement = f"""
    INSERT INTO trabajador (ruc, regimen_laboral, dni, tipo_contrato, 
                                remuneracion, regimen_pensionario, 
                                regimen_salud, fecha_inicio, 
                                nombre, apellido, genero, 
                                fecha_nac, departamento) 
    VALUES ('{row['ruc']}', '{row['regimen_laboral']}', '{row['dni']}', 
            '{row['tipo_contrato']}', {row['remuneracion']}, 
            '{row['regimen_pensionario']}', '{row['regimen_salud']}', 
            '{row['fecha_inicio']}', '{row['nombres']}', 
            '{row['apellidos']}', '{row['genero']}', 
            '{row['fecha_nac']}', '{row['departamento']}');
    """
    insert_statements.append(insert_statement)

# Unir todas las sentencias en un solo string (opcional)
all_insert_statements = "\n".join(insert_statements)

# Guardar en un archivo .sql (opcional)
with open('insertion.sql', 'w') as f:
    f.write(all_insert_statements)

# Para mostrar las primeras 5 sentencias generadas
print(all_insert_statements[:5])  # Muestra solo las primeras 5 para no saturar la salida



    
