<h1 style="color:#555; font-size:3em">Generador de fake data para la base de datos 'Laboratorio'</h1>
<h2 style="color:#555">Curso de SQL de CoderHouse</h2>

AUTOR: LEANDRO HORNOS

Este notebook contiene el código para generar data ficticia, con el fin de rellenar de información la base de datos MySQL del proyecto final del curso de SQL de CoderHouse, 2022. <br>
Para generar los datos se utiliza la librería Faker, la cual cuenta con la capacidad de generar un gran abanico de datos inventados en distintos idiomas. Dado que algunas funciones no están disponibles en español (por ejemplo el lorem), se utiliza el traductor de Google mediante la librería Deep Translator para pasar del inglés al español. Tener en cuenta que se requiere una conexión a internet para ejecutar el código por la necesidad de usar el servicio de traducción de Google. <br>
Los scripts pueden ser lentos dependiendo de la velocidad de conexión a internet y la cantidad de texto a traducir.

In [1]:
import pandas as pd
from datetime import datetime, timedelta
import time
import random

from faker import Faker
from faker.providers import person

from deep_translator import GoogleTranslator

In [2]:
# set the seed
Faker.seed(100)

# Uso el locale en español de España
fake = Faker('es_ES')

# El locale solo tiene algunas cosas, por ejemplo el lorem queda en latin
# para los casos en que necesito explícitamente indicar que use faker en inglés
# genero una segunda instancia de faker en ingles.
fake_en = Faker('en_US')

In [3]:
# Encierro la lógica de la generación de cada tabla
# en una función que devuelve un dataframe.
# El template de la función es:

def generateTableDf_TABLENAME(count=100):
    data = {}
    
    df = pd.DataFrame(data)
    
    return df

**Funciones generales**

In [4]:
def toSpanish(text):
    try:
        translated = GoogleTranslator(source='auto', target='es').translate(text)
    except Exception as e:
        print(e)
        return text
    return translated

def generateParentChildPairs(parentList, childrenList, offspring=2):
    
    # Eliminamos los duplicados
    
    if len( parentList ) != len( set(parentList) ):
        print('Cuidado, la lista padre contiene duplicados.'
             'Solo se utilizarán los valores únicos')
        
        parentList = list( set(parentList) )
        
        
    if len( childrenList ) != len( set(childrenList) ):
        print('Cuidado, la lista de hijos contiene duplicados.'
            'Solo se utilizarán los valores únicos')
        
        childrenList = list( set(childrenList) )
        
    # Un elemento de la lista parent no puede tener más
    # hijos únicos que el total de elementos en la lista children
    
    if offspring > len(childrenList):
        limit = len(childrenList)
        
        print('Se han indicado más hijos por padre que el número '
             'de elementos únicos en la lista de hijos. Se utiliza '
             'el total de elementos de la lista children.')
    else:
        limit = offspring
        
    # Creo una lista para almacenar los pares
    pairs = []

    for parent in parentList:
        
        # Hago esto para generar una copia de la lista
        # y poder modificarla sin afectar original
        candidates = list(childrenList)

        for n in range(limit):
            index = random.randint(0, len(candidates)-1 )
            child = candidates.pop(index)
            pairs.append( (parent, child) )
    
    print(f'Se han generado {len(pairs)} pares de elementos.')
    return pairs

        

<h2>1: NIVEL_ACCESO</h2>

In [5]:
def generateTableDf_NIVEL_ACCESO(count=3):
    data = {}

    # Generamos los datos

    print('Generando datos...')

    data['ID_NIVEL_ACCESO'] = [n+1 for n in range(count)]
    data['NIVEL'] = [random.choice(['A','B','C']) for n in range(count)]
    data['DESCRIPCION_NIVEL'] = [toSpanish(fake.catch_phrase()).title() for n in range(count)]

    print('Listo')
    
    # Guardamos la data en un dataframe de pandas
    df = pd.DataFrame(data)
    
    return df

In [6]:
# df_nivel_acceso = generateTableDf_NIVEL_ACCESO()
# df_nivel_acceso.head()

**Salida a CSV**

In [7]:
# df_nivel_acceso.to_csv('csv/01-Nivel_acceso.csv', index=False)

In [8]:
df_nivel_acceso = pd.read_csv('csv/01-Nivel_acceso.csv')
df_nivel_acceso.head()

Unnamed: 0,ID_NIVEL_ACCESO,NIVEL,DESCRIPCION_NIVEL
0,1,A,Inteligencia Artificial Operativa Habilitada P...
1,2,A,Núcleo De Recursos Humanos Multiplataforma
2,3,B,Interfaz Asimilada Impulsada Por El Cliente


<h2 style="color:#777">2: EMPLEADO</h2>

**Funciones**

In [9]:
def generateFakeDNI(min=2, max=3):
    M = fake.random_int(min, max)
    rest = fake.numerify(text='#.###.###')
    return (f'{M}{rest}')

def generateFakeGender(nb_threshold = 0.05):
    choice = random.uniform(0, 1)
    
    if(choice < nb_threshold):
        return 'x'
    if(choice < 0.5):
        return 'M'
    else:
        return 'F'

def generateProfession():
    options = ["Técnico Químico", "Ingeniero Químico", "Licenciado en Química", "Bioquímico", "Farmacéutico", "Biotecnólogo"]
    return random.choice(options)

def generateGenderedName(gender):
    if gender == 'M':
        return fake.first_name_male()
    if gender == 'F':
        return fake.first_name_female()
    else:
        return fake.first_name_nonbinary()
    
def generateEmailFromName(first_name="john", last_name="doe"):
    provs = ['fakemail', 'truchomail', 'altomail','repiolamail']
    email = f'{first_name.lower()}.{last_name.lower()}{str(fake.random_int(min=100, max=999))}@{random.choice(provs)}.com'
    return email


**Generación de datos**

In [10]:
def generateTableDf_EMPLEADO(count=20):
    data = {}
    # Generamos la información básica de cada empleado

    print('Generando datos...')

    data['ID_EMPLEADO'] = [n+1 for n in range(count)]
    data['APELLIDO'] = [fake.last_name() for n in range(count)]
    data['DNI'] = [generateFakeDNI() for n in range(count)]
    data['GENERO'] = [generateFakeGender() for n in range(count)]
    data['TELEFONO_MOVIL'] = [fake.phone_number() for n in range(count)]
    data['FECHA_NACIMIENTO'] =[fake.date_between(start_date = "-65y", end_date = "-18y") for n in range(count)]
    data['TITULO_UNIVERSITARIO'] = [generateProfession() for n in range(count)]
    data['DIRECCION'] = [fake.address() for n in range(count)]
    data['FECHA_CONTRATACION'] =[fake.date_between(start_date = "-10y", end_date = "-1y") for n in range(count)]
    data['ID_NIVEL_ACCESO'] = [fake.random_int(min=1, max=3) for n in range(count)]
    
    print('Listo')
    
    # Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    # Sacamos los saltos de línea \n en la dirección:
    df['DIRECCION'] = df['DIRECCION'].apply(lambda x: x.replace('\n', '; '))

    # Generamos el nombre sabiendo el género
    df['NOMBRE'] = df.apply(lambda row: generateGenderedName(row['GENERO']), axis=1)

    # General el email sabiendo nombre y appellido
    df['EMAIL'] = df.apply(lambda row: generateEmailFromName(row['NOMBRE'], row['APELLIDO']), axis=1)

    # Ordenamos alfabeticamente las columnas
    df = df.reindex(sorted(df_empleado.columns), axis=1)

    return df

In [11]:
# df_empleado = generateTableDf_EMPLEADO()
# df_empleado.head()

**Salida a csv**

In [12]:
# df_empleado.to_csv('csv/02-Empleado.csv', index=False)

In [13]:
df_empleado = pd.read_csv('csv/02-Empleado.csv')
df_empleado.head()

Unnamed: 0,APELLIDO,DIRECCION,DNI,FECHA_CONTRATACION,FECHA_NACIMIENTO,GENERO,ID_EMPLEADO,ID_NIVEL_ACCESO,TELEFONO_MOVIL,TITULO_UNIVERSITARIO
0,Paredes,"Ronda de Ezequiel Bautista 650; Lleida, 68717",31.537.919,2016-03-09,1968-11-06,F,1,2,+34 734 981 403,Biotecnólogo
1,Vega,"Via Felicia Alberto 9; Córdoba, 77386",23.649.495,2015-12-29,1967-07-07,M,2,1,+34936 811 967,Ingeniero Químico
2,Dominguez,Rambla Carlito Soriano 957 Apt. 73 ; Guipúzcoa...,29.158.589,2013-02-27,1988-03-28,F,3,3,+34726123446,Ingeniero Químico
3,Ramón,Via de Gervasio Sevilla 665 Puerta 5 ; Albacet...,28.982.034,2015-03-03,1961-12-12,F,4,3,+34986 294 324,Técnico Químico
4,Figuerola,"Plaza de Máximo Abril 44 Piso 7 ; Zamora, 73597",39.144.146,2017-03-19,1997-12-07,F,5,1,+34687086014,Biotecnólogo


<h2 style="color:#777">3: PROYECTO</h2>

In [14]:
def generateProjectTitle():
    phrase = toSpanish(fake.catch_phrase())
    words = phrase.split()
    title =(f'{words[0]} {words[-1]}').title()
    return title

**Generación de datos**

In [15]:
def generateTableDf_PROYECTO(count=5):
    data = {}

    # Generamos la información básica de cada proyecto
    print('Generando datos...')

    data['ID_PROYECTO'] = [n+1 for n in range(count)]
    data['NOMBRE_PROYECTO'] = [generateProjectTitle() for n in range(count)]
    data['FECHA_CREACION'] =[fake.date_between(start_date = "-10y", end_date = "now") for n in range(count)]
    data['DESCRIPCION'] = [toSpanish(fake_en.paragraph(nb_sentences=3)) for n in range(count)]

    print('Listo')
    
    #Guardamos los datos en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [16]:
# Guardamos la data en un dataframe
# df_proyecto = generateTableDf_PROYECTO()
# df_proyecto.head()

In [17]:
# df_proyecto.to_csv('csv/03-Proyecto.csv', index=False)

In [18]:
df_proyecto = pd.read_csv('csv/03-Proyecto.csv')
df_proyecto.head()

Unnamed: 0,ID_PROYECTO,NOMBRE_PROYECTO,FECHA_CREACION,DESCRIPCION
0,1,Capacidad Equipo,2016-12-05,El árbol de estudio de letras calientes recibe...
1,2,Solución Reducido,2022-04-14,Donde ingresa el elemento de regla de preocupa...
2,3,Alianza Objetos,2016-10-14,Tarea republicana cambio entorno taza banco es...
3,4,Emulación Generación,2014-05-09,El soporte del libro parece médico en sí mismo...
4,5,Monitoreo Multicanal,2018-05-26,Viejo minuto costo feliz entrenamiento propiet...


<h2 style="color:#777">4: EXPERIMENTO</h2>

**Funciones**

In [19]:
def calculateEndTime(start, days=1):
    end = start + timedelta(days=days)
    return end
    

**Generación de datos**

In [20]:
def generateTableDf_EXPERIMENTO(fkeys, count=50):
    data = {}

    # Generamos la data principal

    print('Generando datos...')

    data['ID_EXPERIMENTO'] = [n+1 for n in range(count)]
    data['ID_PROYECTO'] = [ random.choice( fkeys['ID_PROYECTO'] ) for n in range(count) ]
    data['TITULO_EXPERIMENTO'] =[ toSpanish( fake.bs() ).title() for n in range(count) ]
    data['OBJETIVO'] = [toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count) ]
    data['DESCRIPCION_EXPERIMENTO'] = [ toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count)]
    data['CONCLUSION'] = [ toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count)]
    data['FECHA_INICIO'] =  [ fake.date_time_between( start_date = "-10y", end_date = "now" ) for n in range(count)]

    print('Listo')
    
    # Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    # Se calcula la fecha de finalización como un día después del inicio
    df['FECHA_FINALIZACION'] = df['FECHA_INICIO'].apply(calculateEndTime)
    
    return df

In [21]:
fkeys={'ID_PROYECTO' : list(df_proyecto['ID_PROYECTO']) }

In [22]:
# df_experimento = generateTableDf_EXPERIMENTO(fkeys, count=2)
# df_experimento.head()

In [23]:
# Exportamos a csv
# df_experimento.to_csv('csv/04-Experimento.csv', index=False)

In [24]:
df_experimento = pd.read_csv('csv/04-Experimento.csv')
df_experimento.head()

Unnamed: 0,ID_EXPERIMENTO,ID_PROYECTO,TITULO_EXPERIMENTO,OBJETIVO,DESCRIPCION_EXPERIMENTO,CONCLUSION,FECHA_INICIO,FECHA_FINALIZACION
0,1,5,Generar Ricos E-Tailers,Especialmente miembro de reclamo temprano. Act...,Desarrollar evitar lejos total en lugar de rel...,Ciudad de factor oscuro de la comunidad intern...,2016-06-15 14:08:37,2016-06-16 14:08:37
1,2,4,Acelerar Las Cadenas De Suministro Listas Para...,Lucha contra la preocupación de los fondos peq...,Misma cuatro diseños hablan piel posible. Es q...,El sujeto debe probar la dirección del camino.,2020-01-14 22:13:36,2020-01-15 22:13:36
2,3,1,Monetizar Sinergias Llave En Mano,Sujeto abogado ataque varios políticos. Tenga ...,Mujer también esposa que árbol. Explique el ni...,Simple esperanza particular idea teoría preocu...,2013-04-24 13:10:27,2013-04-25 13:10:27
3,4,1,Maximizar Nichos Dinámicos,Base de tareas de la misión que. Soporte bolsa...,Olvídese del nombre disponible del país de prá...,Red de posición de práctica de campaña de regl...,2021-02-09 19:33:07,2021-02-10 19:33:07
4,5,1,Escalar Soluciones Extensibles,Congreso bastante religioso. No mejora el rend...,Buena compañía significa ayuda. Atrapa la hora...,Así cada mano da a lo largo de la derecha. Esp...,2021-11-21 15:45:52,2021-11-22 15:45:52


<h2 style="color:#777">5: SUSTANCIA</h2>

**Funciones**

In [25]:
def generateSmiles(threshold=0.3):
    atoms = ['C','n','o','O','s','S','Cl','Br','I','F','(c)','(C)','(n)','(o)','(O)','(s)','(S)']
    length = fake.random_int(min=10, max=30)
    smiles_list = []
    for n in range(length):
        choice = random.uniform(0,1)
        if choice < threshold:
            smiles_list.append(random.choice(atoms))
        else:
            smiles_list.append('c')
    smiles = ''.join(smiles_list)
    return(smiles)


**Generación de datos**

In [26]:
def generateTableDf_SUSTANCIA(susts, fkeys, count=50):
    data = {}

    # Foreing Keys
    id_nivel_acceso = fkeys['ID_NIVEL_ACCESO']

    sustancias = [random.choice(susts) for n in range(count)]

    # Generamos la data

    print('Generando datos...')

    data['ID_SUSTANCIA'] = [n+1 for n in range(count)]
    data['ID_NIVEL_ACCESO'] = [random.choice(id_nivel_acceso) for n in range(count)]
    data['NOMBRE_COMUN'] = sustancias
    data['NRO_CAS'] = [fake.numerify(text='##-###-###') for n in range(count)]
    data['NOMBRE_IUPAC'] = [sust.lower().replace(' ','-') for sust in sustancias]
    data['SMILES'] = [generateSmiles() for n in range(count) ]
    data['PESO_MOLECULAR'] = [ float(fake.random_int(min=100, max=700) + random.uniform(0,1)) for n in range(count)  ]

    print('Listo')
    
    #Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [27]:
# Para los nombres de las sustancias uso una lista de productos
# obtenida de una distribuidora química, la que se encuentra en un
# archivo de texto, con una sustancia por línea. 
# Importamos las sustacias a una lista

filename = 'sustancias.txt'

with open(filename, encoding='utf-8') as file:
    susts = file.readlines()
    susts = [sust.rstrip() for sust in susts]
    
fkeys = {'ID_NIVEL_ACCESO': list(df_nivel_acceso['ID_NIVEL_ACCESO'])}

In [28]:
#Guardamos la data en un dataframe
# df_sustancia = generateTableDf_SUSTANCIA(susts, fkeys)
# df_sustancia.head()

In [29]:
# Exportamos a csv
# df_sustancia.to_csv('csv/05-Sustancia.csv', index=False)

In [30]:
df_sustancia = pd.read_csv('csv/05-Sustancia.csv')
df_sustancia.head()

Unnamed: 0,ID_SUSTANCIA,ID_NIVEL_ACCESO,NOMBRE_COMUN,NRO_CAS,NOMBRE_IUPAC,SMILES,PESO_MOLECULAR
0,1,1,Alcohol Bencilico,28-125-394,alcohol-bencilico,cnIccc(O)cccc,446.161328
1,2,2,Bicarbonato de Sodio,02-270-431,bicarbonato-de-sodio,(c)ccccccssocccoccc(S)cnc(O)c,118.560761
2,3,1,Carbonato de Litio,13-450-361,carbonato-de-litio,ncc(o)ccccccccClcc(S)cc(n)ccc,228.67191
3,4,3,Pirofosfato Acido de Sodio,52-049-502,pirofosfato-acido-de-sodio,ccccnScc(S)c(o)cc(C)ccccccccc,636.926749
4,5,1,Acetona,09-535-890,acetona,nccc(o)c(C)cc(C)(o)cO,401.940669


<h2 style="color:#777">6: EQUIPAMIENTO</h2>

In [31]:
def generateTableDf_EQUIPAMIENTO(fkeys, count=20):
    data = {}

    id_nivel_acceso = fkeys['ID_NIVEL_ACCESO']
    
    equipos = [
        'Agitador Magnético',
        'Agitador Mecánico',
        'Manto Calefactor',
        'pHmetro',
        'Balón 3 bocas 100ml',
        'Balón 3 bocas 250ml',
        'Balón 3 bocas 500ml',
        'Balón 3 bocas 1000ml',
        'Termómetro electrónico',
        'Refrigerante recto',
        'Viscosímetro',
        'Densímetro',
        'HPLC',
        'GC',
        'Espectrofotómetro',
        'Balanza analítica',
        'Balanza granataria'    
    ]

    marcas = [
        'Garófalo S.A.',
        'Truch Instrumental',
        'Phalopa Inc.',
        'Juliet Pakard',
        'Sorny',
        'Sheneral Electric',
        'Supergood Chemical Solutions',
        'Cositorto Labware Enterprise'
    ]

    print('Generando Datos...')

    data['ID_EQUIPAMIENTO'] =  [ n+1 for n in range(count) ]
    data['ID_NIVEL_ACCESO'] = [ random.choice(id_nivel_acceso) for n in range(count) ]
    data['NOMBRE_EQUIPO'] = [ random.choice(equipos) for n in range(count) ]
    data['DESCRIPCION'] = [ 
        toSpanish( fake_en.paragraph(nb_sentences=2) ) 
        for n in range(count) 
    ]
    data['MARCA'] = [ random.choice(marcas) for n in range(count) ]
    data['MODELO'] = [ fake.numerify(text='#####-####') for n in range(count) ]

    print('listo')
    
    #Guardamos los datos en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [32]:
fkeys = {'ID_NIVEL_ACCESO' : list( df_nivel_acceso['ID_NIVEL_ACCESO'] ) }

In [33]:
# df_equipamiento = generateTableDf_EQUIPAMIENTO(fkeys,count=2)
# df_equipamiento.head()

In [34]:
# Exportamos a csv
# df_equipamiento.to_csv('csv/06-Equipamiento.csv', index=False)

In [35]:
df_equipamiento = pd.read_csv('csv/06-Equipamiento.csv')
df_equipamiento.head()

Unnamed: 0,ID_EQUIPAMIENTO,ID_NIVEL_ACCESO,NOMBRE_EQUIPO,DESCRIPCION,MARCA,MODELO
0,1,1,Espectrofotómetro,Éxito internacional reducir control movimiento...,Garófalo S.A.,08473-4050
1,2,1,Balón 3 bocas 250ml,Ejecute la posición de nivel de reflejo. A lo ...,Sorny,74812-6630
2,3,1,GC,Ver piso por qué llamar.,Sheneral Electric,38025-3466
3,4,3,HPLC,Mañana indicar ver.,Cositorto Labware Enterprise,69024-5264
4,5,3,HPLC,Campo mí tres desde entonces pero varios. Crea...,Garófalo S.A.,50429-5719


<h2 style="color:#777">7: DOCUMENTO</h2>

In [36]:
def generateDocUrl(spanish=False):
    extensions = [
        '.docx',
        '.xls',
        '.txt',
        '.pdf',
        '.pptx'
    ]
    
    providers = [
        'madstorage.com',
        'amazondrive.',
        'gigaupload.com',
        'dropbasket.net'
    ]
    
    suburls = [
        '/usr/storage/',
        '/drive/files/',
        '/api/getfiles/'
    ]
    
    if spanish:
        filename = toSpanish(fake.catch_phrase()).replace(' ','-').lower()
        print('listo')
    else:
        filename = fake.catch_phrase().replace(' ','-').lower()
    
    e = random.choice(extensions)
    p = random.choice(providers)
    s = random.choice(suburls)
    
    url = f'https://{p}{s}{filename}{e}'
    return url
    


In [37]:
def generateTableDf_DOCUMENTO(fkeys, count=100):
    data = {}
    
    cats = ['Reporte','Presentacion','Informe','Protocolo','Resultado de análisis']
    
    print('Generating data...')
    
    data['ID_DOCUMENTO'] =  [ n+1 for n in range(count) ]
    data['ID_EXPERIMENTO'] = [ random.choice( fkeys['ID_EXPERIMENTO'] ) for n in range(count) ]
    data['CATEGORIA'] = [ random.choice( cats ) for n in range(count) ]
    data['NOMBRE_DOCUMENTO'] = [ fake.catch_phrase() for n in range(count) ]
    data['URL'] = [ generateDocUrl() for n in range(count) ]
    
    print('listo')
    
    df = pd.DataFrame(data)
    
    return df

In [38]:
fkeys = { 'ID_EXPERIMENTO': list( df_experimento['ID_EXPERIMENTO'] ) }

In [39]:
# df_documento = generateTableDf_DOCUMENTO(fkeys)
# df_documento.head()

In [40]:
# Exportamos a csv
# df_documento.to_csv('csv/07-Documento.csv', index=False)

In [41]:
df_documento = pd.read_csv('csv/07-Documento.csv')
df_documento.head()

Unnamed: 0,ID_DOCUMENTO,ID_EXPERIMENTO,CATEGORIA,NOMBRE_DOCUMENTO,URL
0,1,11,Presentacion,Polarized impactful task-force,https://gigaupload.com/api/getfiles/organic-re...
1,2,35,Presentacion,Centralized bandwidth-monitored framework,https://gigaupload.com/usr/storage/inverse-bac...
2,3,7,Informe,Streamlined intermediate extranet,https://gigaupload.com/usr/storage/mandatory-r...
3,4,34,Protocolo,Front-line tertiary structure,https://madstorage.com/drive/files/stand-alone...
4,5,9,Resultado de análisis,Optional zero administration migration,https://gigaupload.com/api/getfiles/ergonomic-...


<h2 style="color:#777">8: MUESTRA</h2>

In [42]:
def generateTableDf_MUESTRA(fkeys, count=100):
    
    clases = ['Muestra de proceso', 'Materia Prima', 'Producto Elaborado']
    data = {}
    
    print('Generando datos...  ')
    
    data['ID_MUESTRA'] = [ n+1 for n in range(count) ]
    data['ID_EXPERIMENTO'] = [ random.choice( fkeys['ID_EXPERIMENTO'] ) for n in range(count) ]
    data['ID_EMPLEADO'] = [ random.choice( fkeys['ID_EMPLEADO'] ) for n in range(count) ]
    data['CODIGO_MUESTRA'] = [fake.numerify(text='###-###-###') for n in range(count) ]
    data['DESCRIPCION_MUESTRA'] = [fake_en.paragraph() for n in range(count) ]
    data['CLASE_MUESTRA'] =  [ random.choice( clases ) for n in range(count) ]
    data['FECHA_MUESTREO'] =  [ fake.date_time_between( start_date = "-10y", end_date = "now" ) for n in range(count) ]
    
    print('Listo...')
    
    df = pd.DataFrame(data)
    
    return df

In [43]:
fkeys = { 
    'ID_EXPERIMENTO': list( df_experimento['ID_EXPERIMENTO'] ),
    'ID_EMPLEADO': list( df_empleado['ID_EMPLEADO'] ),
        }

In [44]:
# df_muestra = generateTableDf_MUESTRA(fkeys)
# df_muestra.head()

In [45]:
# df_muestra.to_csv('csv/08-Muestra.csv', index=False)

In [46]:
df_muestra = pd.read_csv('csv/08-Muestra.csv')
df_muestra.head()

Unnamed: 0,ID_MUESTRA,ID_EXPERIMENTO,ID_EMPLEADO,CODIGO_MUESTRA,DESCRIPCION_MUESTRA,CLASE_MUESTRA,FECHA_MUESTREO
0,1,31,15,624-389-800,Strategy weight probably ball let. Budget how ...,Materia Prima,2015-03-19 08:26:52
1,2,34,4,133-012-416,Personal region much education from. Able pret...,Producto Elaborado,2012-10-25 02:10:09
2,3,10,16,561-282-243,Against question not should. Section but opera...,Producto Elaborado,2017-08-27 16:38:28
3,4,2,2,501-755-469,Argue place fall security garden black none fa...,Producto Elaborado,2017-10-11 00:28:27
4,5,5,14,416-640-140,Commercial boy ten. A choice deal consumer feel.,Materia Prima,2014-01-10 14:26:22


<h2 style="color:#777">9: STOCK_SUSTANCIAS</h2>

In [47]:
def generateTableDf_STOCK_SUSTANCIAS( fkeys, count=200 ):
    data = {}
    
    ubicaciones = ['Depósito A', 'Depósito B', 'Bajomesada', 'Estante']
    unidades = ['g', 'kg', 'ml', 'l']
    marcas = ['WW Chemicals', 'Forza Pharmaceuticals', 'Química El Cholo', 'Simba Arlich', 'Merke' ]
    
    data['ID_STOCK_SUSTANCIAS'] = [ n+1 for n in range(count) ]
    data['ID_SUSTANCIA'] = [ random.choice( fkeys['ID_SUSTANCIA'] ) for n in range(count) ]
    data['UBICACION'] = [ random.choice(ubicaciones) for n in range(count) ]
    data['CANTIDAD'] = [ fake.random_int(min=50, max=500) for n in range(count) ]
    data['UNIDAD'] = [ random.choice(unidades) for n in range(count) ]
    data['PUREZA'] = [ float(fake.random_int(min=5, max=99) + random.uniform(0,1)) for n in range(count) ]
    data['MARCA'] = [ random.choice(marcas) for n in range(count) ]
    data['FECHA_INGRESO'] = [ fake.date_between( start_date="-10y", end_date="-1y" ) for n in range(count) ]
    
    df = pd.DataFrame(data)
    
        # Se calcula la fecha de finalización como un día después del inicio
    df['FECHA_CADUCIDAD'] = df['FECHA_INGRESO'].apply( lambda x : calculateEndTime(x, days=730) )
    
    return df

In [48]:
fkeys = {
    'ID_SUSTANCIA': list( df_sustancia['ID_SUSTANCIA'] )
}

In [49]:
# df_stock_sustancias = generateTableDf_STOCK_SUSTANCIAS(fkeys)
# df_stock_sustancias.head()

In [50]:
# Exportamos a csv
# df_stock_sustancias.to_csv('csv/09-Stock_sustancias.csv', index=False)

In [51]:
df_stock_sustancias = pd.read_csv('csv/09-Stock_sustancias.csv')
df_stock_sustancias.head()

Unnamed: 0,ID_STOCK_SUSTANCIAS,ID_SUSTANCIA,UBICACION,CANTIDAD,UNIDAD,MARCA,FECHA_INGRESO,FECHA_CADUCIDAD
0,1,12,Bajomesada,470,l,Merke,2012-07-12,2014-07-12
1,2,42,Depósito A,199,kg,WW Chemicals,2017-03-19,2019-03-19
2,3,10,Estante,438,g,WW Chemicals,2016-09-18,2018-09-18
3,4,4,Depósito A,265,ml,Química El Cholo,2014-04-06,2016-04-05
4,5,46,Depósito B,128,l,Química El Cholo,2012-12-23,2014-12-23


<h2 style="color:#777">10: STOCK_EQUIPOS</h2>

In [52]:
# Encierro la lógica de la generación de cada tabla
# en una función que devuelve un dataframe.
# El template de la función es:

def generateTableDf_STOCK_EQUIPOS(fkeys, count=20):
    data = {}
    
    ubicaciones = ['Depósito A', 'Depósito B', 'Bajomesada', 'Estante']
    
    data['ID_STOCK_EQUIPOS'] = [ n+1 for n in range(count) ]
    data['ID_EQUIPAMIENTO'] = [ random.choice( fkeys['ID_EQUIPAMIENTO'] ) for n in range(count) ]
    data['UBICACION'] = [ random.choice(ubicaciones) for n in range(count) ]
    data['CANTIDAD'] = [ fake.random_int(min=1, max=10) for n in range(count) ]
    data['FECHA_INGRESO'] = [ fake.date_between( start_date="-10y", end_date="now" ) for n in range(count) ]
    
    df = pd.DataFrame(data)
    
    return df

In [53]:
fkeys = {
    'ID_EQUIPAMIENTO': list( df_equipamiento['ID_EQUIPAMIENTO'] )
}

In [54]:
# df_stock_equipos = generateTableDf_STOCK_EQUIPOS(fkeys)
# df_stock_equipos.head()

In [55]:
# Exportamos a csv
# df_stock_equipos.to_csv('csv/10-Stock_equipos.csv', index=False)

In [56]:
df_stock_equipos = pd.read_csv('csv/10-Stock_equipos.csv')
df_stock_equipos.head()

Unnamed: 0,ID_STOCK_EQUIPOS,ID_EQUIPAMIENTO,UBICACION,CANTIDAD,FECHA_INGRESO
0,1,3,Estante,6,2018-02-06
1,2,1,Depósito B,1,2018-03-03
2,3,3,Bajomesada,7,2016-07-10
3,4,13,Depósito B,2,2014-10-07
4,5,17,Bajomesada,10,2014-03-30


<h2 style="color:#777">11: PROYECTO_EMPLEADO</h2>

In [57]:
def generateTableDf_PROYECTO_EMPLEADO(fkeys, count=20, offspring=5):
    
    # offpring: nro de empleados por proyecto
    # count: cantidad de pares empleado-proyecto a retornar
    data = {}
    
    roles = [ 'Creador', 'Miembro', 'Invitado' ]
    
    # Generamos pares proyecto - empleado
    # Por cada proyecto se asocian N empleados al azar, siendo N el valor indicado en offspring
    # Los mismos empleados trabajan en muchos proyectos, pero no se repiten dentro de cada proyecto.
    
    pairs = generateParentChildPairs( fkeys['ID_PROYECTO'], fkeys['ID_EMPLEADO'], offspring )
    
    # Muestreamos sin reposición:
    pairs = random.sample(pairs, count) 
    
    data['ID_PROYECTO'] = [ pair[0] for pair in pairs ]
    data['ID_EMPLEADO'] = [ pair[1] for pair in pairs ]
    data['ROL'] = [ random.choice(roles) for n in range(count)  ]
    df = pd.DataFrame(data)
    
    return df
    

In [58]:
fkeys = {
    'ID_PROYECTO': list( df_proyecto['ID_PROYECTO'] ),
    'ID_EMPLEADO': list( df_empleado['ID_EMPLEADO'] )
}

In [59]:
# df_proyecto_empleado = generateTableDf_PROYECTO_EMPLEADO(fkeys, count=50, offspring=10)
# df_proyecto_empleado.head()

In [60]:
# Exportamos a csv
# df_empleado_proyecto.to_csv('csv/11-Proyecto_empleado.csv', index=False)

In [62]:
df_proyecto_empleado = pd.read_csv('csv/11-Proyecto_empleado.csv')
df_proyecto_empleado.head()

Unnamed: 0,ID_PROYECTO,ID_EMPLEADO,ROL
0,1,7,Ejecutor
1,2,4,Revisor
2,3,11,Suepervisor
3,4,11,Suepervisor
4,3,3,Suepervisor


<h2 style="color:#777">12: EXPERIMENTO_EMPLEADO</h2>

In [63]:
def generateTableDf_EXPERIMENTO_EMPLEADO(fkeys, count=10, offspring=3):
    # offpring: nro de empleados por proyecto
    # count: cantidad de pares empleado-experimento a retornar
    data = {}
    
    roles = [ 'Supervisor', 'Ejecutor', 'Responsable', 'Observador' ]
    
    # Generamos pares experimento - empleado
    # Por cada experimento se asocian N empleados al azar, siendo N el valor indicado en offspring
    # Los mismos empleados trabajan en muchos experimentos, pero no se repiten dentro de cada experimenmto.
    
    # Nota: dado que no está tomando en cuenta lo que pasa en la tabla proyecto_empleado,
    # se van a generar pares experimento_empleado donde el empleado no forma parte del proyecto
    # al cual corresponde el experimento. Dicho de otra forma,no existen restricciones en cuanto
    # a la pertenencia a un proyecto, en los experimentos pueden trabajar
    # 'invitados' que vienen de otros proyectos.
    
    pairs = generateParentChildPairs( fkeys['ID_EXPERIMENTO'], fkeys['ID_EMPLEADO'], offspring )
    
    # Muestreamos sin reposición:
    pairs = random.sample(pairs, count) 
    
    data['ID_EXPERIMENTO'] = [ pair[0] for pair in pairs ]
    data['ID_EMPLEADO'] = [ pair[1] for pair in pairs ]
    data['ROL'] = [ random.choice(roles) for n in range(count)  ]
    df = pd.DataFrame(data)
    
    return df

In [64]:
fkeys = {
    'ID_EXPERIMENTO': list( df_experimento['ID_EXPERIMENTO'] ),
    'ID_EMPLEADO': list( df_empleado['ID_EMPLEADO'] )
}

In [65]:
# df_experimento_empleado = generateTableDf_EXPERIMENTO_EMPLEADO(fkeys, count=100)
# df_experimento_empleado.head()

In [66]:
# Exportamos a csv
# df_experimento_empleado.to_csv('csv/12-Experimento_empleado.csv', index=False)

In [67]:
df_experimento_empleado = pd.read_csv('csv/12-Experimento_empleado.csv')
df_experimento_empleado.head()

Unnamed: 0,ID_EXPERIMENTO,ID_EMPLEADO,ROL
0,15,10,Supervisor
1,11,8,Observador
2,20,5,Responsable
3,31,2,Ejecutor
4,39,13,Responsable


<h2 style="color:#777">13: EXPERIMENTO_EQUIPAMIENTO</h2>

In [68]:
def generateTableDf_EXPERIMENTO_EQUIPAMIENTO(fkeys, count=10, offspring=3):
    # offpring: nro de empleados por proyecto
    # count: cantidad de pares empleado-experimento a retornar
    data = {}
    
    # Generamos pares experimento - equipos
    # Por cada experimento se asocian N equipos al azar, siendo N el valor indicado en offspring
    # Los mismos equipos se usan en muchos experimentos, pero no se repiten dentro de cada experimenmto.
    
    # cuidado con la cantidad: dado que no toma en cuenta lo que ocurre en la tabla stock, puede ser
    # que la cantidad asignada al azar supere el stock
        
    pairs = generateParentChildPairs( fkeys['ID_EXPERIMENTO'], fkeys['ID_STOCK_EQUIPOS'], offspring )
    
    # Muestreamos sin reposición:
    pairs = random.sample(pairs, count) 
    
    data['ID_EXPERIMENTO'] = [ pair[0] for pair in pairs ]
    data['ID_STOCK_EQUIPOS'] = [ pair[1] for pair in pairs ]
    data['CANTIDAD'] = [ fake.random_int(min=1, max=2) for n in range(count)  ]
    df = pd.DataFrame(data)
    
    return df

In [69]:
fkeys = {
    'ID_EXPERIMENTO': list( df_experimento['ID_EXPERIMENTO'] ),
    'ID_STOCK_EQUIPOS': list( df_stock_equipos['ID_STOCK_EQUIPOS'] )
}

In [70]:
# df_experimento_equipamiento = generateTableDf_EXPERIMENTO_EQUIPAMIENTO(fkeys, count=10, offspring=3)
# df_experimento_equipamiento.head()

In [71]:
# Exportamos a csv:
# df_experimento_equipamiento.to_csv('csv/13-Experimento_equipamiento.csv', index=False)

In [72]:
# Exportamos a csv:
df_experimento_equipamiento = pd.read_csv('csv/13-Experimento_equipamiento.csv')
df_experimento_equipamiento.head()

Unnamed: 0,ID_EXPERIMENTO,ID_STOCK_EQUIPOS,CANTIDAD
0,38,16,2
1,30,20,1
2,27,11,2
3,38,19,1
4,48,18,1


<h2 style="color:#777">14: EXPERIMENTO_SUSTANCIA</h2>

In [73]:
def generateTableDf_EXPERIMENTO_SUSTANCIA(fkeys, count=100):
    data = {}
    
    pairs = generateParentChildPairs( fkeys['ID_EXPERIMENTO'], fkeys['ID_SUSTANCIA'], offspring=5)
    
    # Muestreamos sin reposición:
    pairs = random.sample(pairs, count)
    
    
    data['ID_EXPERIMENTO'] = [ pair[0] for pair in pairs ]
    data['ID_SUSTANCIA'] = [ pair[1] for pair in pairs ]
    data['CANTIDAD'] = [ float(fake.random_int(min=100, max=700) + random.uniform(0,1)) for n in range(count)  ]
    df = pd.DataFrame(data)
    
    return df

In [74]:
fkeys = {
    'ID_EXPERIMENTO': list( df_experimento['ID_EXPERIMENTO'] ),
    'ID_SUSTANCIA': list( df_sustancia['ID_SUSTANCIA'] )
}

In [75]:
# df_experimento_sustancia = generateTableDf_EXPERIMENTO_SUSTANCIA(fkeys)
# df_experimento_sustancia.head()

In [76]:
# Exportamos a csv
# df_experimento_sustancia.to_csv('csv/14-Experimento_sustancia.csv', index=False)

In [77]:
df_experimento_sustancia = pd.read_csv('csv/14-Experimento_sustancia.csv')
df_experimento_sustancia.head()

Unnamed: 0,ID_EXPERIMENTO,ID_SUSTANCIA,CANTIDAD
0,35,11,388.573128
1,10,36,340.105112
2,19,50,433.19764
3,23,30,261.429803
4,42,43,571.882002


<h2 style="color:#777">15: MOVIMIENTO_SUSTANCIAS</h2>

In [78]:
def generateOperationDate(reference_date):
    if reference_date > datetime.today():
        return reference_date

    days = (datetime.today() - reference_date).days

    if days == 0:
        return reference_date

    random_delta = fake.random_int(min=0, max=days)

    date = calculateEndTime(reference_date, days= random_delta)

    return date
    
    
    

In [79]:
def generateTableDf_MOVIMIENTO_SUSTANCIAS(fkeys, count=10):
    data = {}
    
    operaciones = ['Ingreso', 'Consumo']
    
    data['ID_MOVIMIENTO_SUSTANCIAS'] = [ n+1 for n in range(count) ]
    data['ID_STOCK_SUSTANCIAS'] = [ random.choice( fkeys['ID_STOCK_SUSTANCIAS'] ) for n in range(count) ]
    data['ID_EMPLEADO'] = [ random.choice( fkeys['ID_EMPLEADO'] ) for n in range(count) ]
    data['OPERACION'] = [ random.choice( operaciones ) for n in range(count) ]
    data['CANTIDAD'] = [ float(fake.random_int(min=100, max=500) + random.uniform(0,1)) for n in range(count) ]
    
   
    df = pd.DataFrame(data)
    
    # Columna auxiliar con las fechas de referencia
    df['FECHA'] = df['ID_STOCK_SUSTANCIAS'].apply(lambda x: df_stock_sustancias['FECHA_INGRESO'][x])

    # Calculo la fecha de operación entre algún momento y ahora
    df['FECHA_OPERACION'] = df['FECHA'].apply(lambda x: generateOperationDate(datetime.strptime(x, '%Y-%m-%d')))
    
    df = df.drop('FECHA', axis=1)
    
    return df

In [80]:
fkeys = {
    'ID_STOCK_SUSTANCIAS': list( df_stock_sustancias['ID_STOCK_SUSTANCIAS'] ),
    'ID_EMPLEADO': list( df_empleado['ID_EMPLEADO'] )
}

In [81]:
# df_movimiento_sustancias = generateTableDf_MOVIMIENTO_SUSTANCIAS(fkeys, count=50)

In [82]:
# Exportamos a csv
# df_movimiento_sustancias.to_csv('csv/15-Movimiento_sustancias.csv', index=False)

In [83]:
df_movimiento_sustancias = df_movimiento_sustancias = pd.read_csv('csv/15-Movimiento_sustancias.csv')
df_movimiento_sustancias.head()

Unnamed: 0,ID_MOVIMIENTO_SUSTANCIAS,ID_STOCK_SUSTANCIAS,ID_EMPLEADO,OPERACION,CANTIDAD,FECHA_OPERACION
0,1,35,18,Consumo,174.190337,2015-11-29
1,2,172,3,Ingreso,168.686407,2018-02-08
2,3,13,5,Ingreso,394.131921,2017-05-04
3,4,144,20,Ingreso,329.104693,2019-06-20
4,5,66,14,Consumo,492.035348,2015-01-08


<h2 style="color:#777">16: MOVIMIENTO_EQUIPOS</h2>

In [84]:
def generateTableDf_MOVIMIENTO_EQUIPOS(fkeys, count=10):
    data = {}
    
    operaciones = ['Alta', 'Baja']
    
    data['ID_MOVIMIENTO_EQUIPOS'] = [ n+1 for n in range(count) ]
    data['ID_STOCK_EQUIPOS'] = [ random.choice( fkeys['ID_STOCK_EQUIPOS'] ) for n in range(count) ]
    data['ID_EMPLEADO'] = [ random.choice( fkeys['ID_EMPLEADO'] ) for n in range(count) ]
    data['OPERACION'] = [ random.choice( operaciones ) for n in range(count) ]
    data['CANTIDAD'] = [ fake.random_int(min=1, max=3) for n in range(count) ]
    
   
    df = pd.DataFrame(data)
    
    # Columna auxiliar con las fechas de referencia
    df['FECHA'] = df['ID_STOCK_EQUIPOS'].apply(lambda x: df_stock_equipos['FECHA_INGRESO'][x])

    # Calculo la fecha de operación entre algún momento y ahora
    df['FECHA_OPERACION'] = df['FECHA'].apply(lambda x: generateOperationDate(datetime.strptime(x, '%Y-%m-%d')))
    
    df = df.drop('FECHA', axis=1)
    
    return df

In [85]:
fkeys = {
    'ID_STOCK_EQUIPOS': list( df_stock_equipos['ID_STOCK_EQUIPOS'] ),
    'ID_EMPLEADO': list( df_empleado['ID_EMPLEADO'] )
}

In [86]:
# df_movimiento_equipos = generateTableDf_MOVIMIENTO_EQUIPOS(fkeys, count=50)

In [88]:
# Exportamos a csv
# df_movimiento_equipos.to_csv('csv/16-Movimiento_equipos.csv', index=False)

In [89]:
df_movimiento_equipos = pd.read_csv('csv/16-Movimiento_equipos.csv')
df_movimiento_equipos.head()

Unnamed: 0,ID_MOVIMIENTO_EQUIPOS,ID_STOCK_EQUIPOS,ID_EMPLEADO,OPERACION,CANTIDAD,FECHA_OPERACION
0,1,14,8,Baja,1,2021-09-16
1,2,2,18,Baja,2,2020-05-29
2,3,3,10,Alta,3,2021-08-20
3,4,15,3,Alta,2,2020-08-18
4,5,2,9,Baja,3,2020-10-03
