<h1 style="color:#555; font-size:3em">Generador de fake data para la base de datos 'Laboratorio'</h1>
<h2 style="color:#555">Curso de SQL de CoderHouse</h2>

AUTOR: LEANDRO HORNOS

Este notebook contiene el código para generar data ficticia, con el fin de rellenar de información la base de datos MySQL del proyecto final del curso de SQL de CoderHouse, 2022. <br>
Para generar los datos se utiliza la librería Faker, la cual cuenta con la capacidad de generar un gran abanico de datos inventados en distintos idiomas. Dado que algunas funciones no están disponibles en español (por ejemplo el lorem), se utiliza el traductor de Google mediante la librería Deep Translator para pasar del inglés al español. Tener en cuenta que se requiere una conexión a internet para ejecutar el código por la necesidad de usar el servicio de traducción de Google. <br>
Los scripts pueden ser lentos dependiendo de la velocidad de conexión a internet y la cantidad de texto a traducir.

In [1]:
import pandas as pd
import datetime
import random

from faker import Faker
from faker.providers import person

from deep_translator import GoogleTranslator

In [2]:
# set the seed
Faker.seed(100)

# Uso el locale en español de España
fake = Faker('es_ES')

# El locale solo tiene algunas cosas, por ejemplo el lorem queda en latin
# para los casos en que necesito explícitamente indicar que use faker en inglés
# genero una segunda instancia de faker en ingles.
fake_en = Faker('en_US')

**Funciones generales**

In [3]:
def toSpanish(text):
    try:
        translated = GoogleTranslator(source='auto', target='es').translate(text)
    except Exception as e:
        print(e)
        return text
    return translated

<h2>0: NIVEL_ACCESO</h2>

In [4]:
def generateTableDf_NIVEL_ACCESO(count=3):
    data = {}

    # Generamos los datos

    print('Generando datos...')

    data['ID_NIVEL_ACCESO'] = [n+1 for n in range(count)]
    data['NIVEL'] = [random.choice(['A','B','C']) for n in range(count)]
    data['DESCRIPCION_NIVEL'] = [toSpanish(fake.catch_phrase()).title() for n in range(count)]

    print('Listo')
    
    # Guardamos la data en un dataframe de pandas
    df = pd.DataFrame(data)
    
    return df

In [5]:
# df_nivel_aceso = generateTableDf_NIVEL_ACCESO()
# df_nivel_acceso.head()

**Salida a CSV**

In [6]:
# df_nivel_acceso.to_csv('csv/00-Nivel_Acceso.csv')

In [7]:
df_nivel_acceso = pd.read_csv('csv/00-Nivel_Acceso.csv')
df_nivel_acceso.head()

Unnamed: 0.1,Unnamed: 0,ID_NIVEL_ACCESO,NIVEL,DESCRIPCION_NIVEL
0,0,1,A,Circuito Sensible Al Contexto Ampliado
1,1,2,C,Hub Ergonómico Habilitado Para Rejilla
2,2,3,B,Base De Datos Incremental Autohabilitada


<h2 style="color:#777">1: EMPLEADO</h2>

**Funciones**

In [8]:
def generateFakeDNI(min=2, max=3):
    M = fake.random_int(min, max)
    rest = fake.numerify(text='#.###.###')
    return (f'{M}{rest}')

def generateFakeGender(nb_threshold = 0.05):
    choice = random.uniform(0, 1)
    
    if(choice < nb_threshold):
        return 'x'
    if(choice < 0.5):
        return 'M'
    else:
        return 'F'

def generateProfession():
    options = ["Técnico Químico", "Ingeniero Químico", "Licenciado en Química", "Bioquímico", "Farmacéutico", "Biotecnólogo"]
    return random.choice(options)

def generateGenderedName(gender):
    if gender == 'M':
        return fake.first_name_male()
    if gender == 'F':
        return fake.first_name_female()
    else:
        return fake.first_name_nonbinary()
    
def generateEmailFromName(first_name="john", last_name="doe"):
    provs = ['fakemail', 'truchomail', 'altomail','repiolamail']
    email = f'{first_name.lower()}.{last_name.lower()}{str(fake.random_int(min=100, max=999))}@{random.choice(provs)}.com'
    return email


**Generación de datos**

In [9]:
def generateTableDf_EMPLEADO(count=20):
    data = {}
    # Generamos la información básica de cada empleado

    print('Generando datos...')

    data['ID_EMPLEADO'] = [n+1 for n in range(count)]
    data['APELLIDO'] = [fake.last_name() for n in range(count)]
    data['DNI'] = [generateFakeDNI() for n in range(count)]
    data['GENERO'] = [generateFakeGender() for n in range(count)]
    data['TELEFONO_MOVIL'] = [fake.phone_number() for n in range(count)]
    data['FECHA_NACIMIENTO'] =[fake.date_between(start_date = "-65y", end_date = "-18y") for n in range(count)]
    data['TITULO_UNIVERSITARIO'] = [generateProfession() for n in range(count)]
    data['DIRECCION'] = [fake.address() for n in range(count)]
    data['FECHA_CONTRATACION'] =[fake.date_between(start_date = "-10y", end_date = "-1y") for n in range(count)]
    data['ID_NIVEL_ACCESO'] = [fake.random_int(min=1, max=3) for n in range(count)]
    
    print('Listo')
    
    # Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    # Sacamos los saltos de línea \n en la dirección:
    df['DIRECCION'] = df['DIRECCION'].apply(lambda x: x.replace('\n', '; '))

    # Generamos el nombre sabiendo el género
    df['NOMBRE'] = df.apply(lambda row: generateGenderedName(row['GENERO']), axis=1)

    # General el email sabiendo nombre y appellido
    df['EMAIL'] = df.apply(lambda row: generateEmailFromName(row['NOMBRE'], row['APELLIDO']), axis=1)

    # Ordenamos alfabeticamente las columnas
    df = df.reindex(sorted(df_empleado.columns), axis=1)

    return df

In [10]:
# df_empleado = generateTableDf_EMPLEADO()
# df_empleado.head()

**Salida a csv**

In [11]:
# df_empleado.to_csv('csv/01-Empleado.csv', index=False)

In [12]:
df_empleado = pd.read_csv('csv/01-Empleado.csv')
df_empleado.head()

Unnamed: 0,APELLIDO,DIRECCION,DNI,FECHA_CONTRATACION,FECHA_NACIMIENTO,GENERO,ID_EMPLEADO,ID_NIVEL_ACCESO,TELEFONO_MOVIL,TITULO_UNIVERSITARIO
0,Paredes,"Ronda de Ezequiel Bautista 650; Lleida, 68717",31.537.919,2016-03-09,1968-11-06,F,1,2,+34 734 981 403,Biotecnólogo
1,Vega,"Via Felicia Alberto 9; Córdoba, 77386",23.649.495,2015-12-29,1967-07-07,M,2,1,+34936 811 967,Ingeniero Químico
2,Dominguez,Rambla Carlito Soriano 957 Apt. 73 ; Guipúzcoa...,29.158.589,2013-02-27,1988-03-28,F,3,3,+34726123446,Ingeniero Químico
3,Ramón,Via de Gervasio Sevilla 665 Puerta 5 ; Albacet...,28.982.034,2015-03-03,1961-12-12,F,4,3,+34986 294 324,Técnico Químico
4,Figuerola,"Plaza de Máximo Abril 44 Piso 7 ; Zamora, 73597",39.144.146,2017-03-19,1997-12-07,F,5,1,+34687086014,Biotecnólogo


<h2 style="color:#777">2: PROYECTO</h2>

In [13]:
def generateProjectTitle():
    phrase = toSpanish(fake.catch_phrase())
    words = phrase.split()
    title =(f'{words[0]} {words[-1]}').title()
    return title

**Generación de datos**

In [14]:
def generateTableDf_PROYECTO(count=5):
    data = {}

    # Generamos la información básica de cada proyecto
    print('Generando datos...')

    data['ID_PROYECTO'] = [n+1 for n in range(count)]
    data['NOMBRE_PROYECTO'] = [generateProjectTitle() for n in range(count)]
    data['FECHA_CREACION'] =[fake.date_between(start_date = "-10y", end_date = "now") for n in range(count)]
    data['DESCRIPCION'] = [toSpanish(fake_en.paragraph(nb_sentences=3)) for n in range(count)]

    print('Listo')
    
    #Guardamos los datos en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [15]:
# Guardamos la data en un dataframe
# df_proyecto = generateTableDf_PROYECTO()
# df_proyecto.head()

In [16]:
# df_proyecto.to_csv('csv/02-Proyecto.csv', index=False)

In [17]:
df_proyecto = pd.read_csv('csv/02-Proyecto.csv')
df_proyecto.head()

Unnamed: 0,ID_PROYECTO,NOMBRE_PROYECTO,FECHA_CREACION,DESCRIPCION
0,1,Capacidad Equipo,2016-12-05,El árbol de estudio de letras calientes recibe...
1,2,Solución Reducido,2022-04-14,Donde ingresa el elemento de regla de preocupa...
2,3,Alianza Objetos,2016-10-14,Tarea republicana cambio entorno taza banco es...
3,4,Emulación Generación,2014-05-09,El soporte del libro parece médico en sí mismo...
4,5,Monitoreo Multicanal,2018-05-26,Viejo minuto costo feliz entrenamiento propiet...


<h2 style="color:#777">3: SUSTANCIA</h2>

**Funciones**

In [18]:
def generateSmiles(threshold=0.3):
    atoms = ['C','n','o','O','s','S','Cl','Br','I','F','(c)','(C)','(n)','(o)','(O)','(s)','(S)']
    length = fake.random_int(min=10, max=30)
    smiles_list = []
    for n in range(length):
        choice = random.uniform(0,1)
        if choice < threshold:
            smiles_list.append(random.choice(atoms))
        else:
            smiles_list.append('c')
    smiles = ''.join(smiles_list)
    return(smiles)


**Generación de datos**

In [19]:
def generateTableDf_SUSTANCIA(susts, fkeys, count=50):
    data = {}

    # Foreing Keys
    id_nivel_acceso = fkeys['ID_NIVEL_ACCESO']

    sustancias = [random.choice(susts) for n in range(count)]

    # Generamos la data

    print('Generando datos...')

    data['ID_SUSTANCIA'] = [n+1 for n in range(count)]
    data['ID_NIVEL_ACCESO'] = [random.choice(id_nivel_acceso) for n in range(count)]
    data['NOMBRE_COMUN'] = sustancias
    data['NRO_CAS'] = [fake.numerify(text='##-###-###') for n in range(count)]
    data['NOMBRE_IUPAC'] = [sust.lower().replace(' ','-') for sust in sustancias]
    data['SMILES'] = [generateSmiles() for n in range(count) ]
    data['PESO_MOLECULAR'] = [ float(fake.random_int(min=100, max=700) + random.uniform(0,1)) for n in range(count)  ]

    print('Listo')
    
    #Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [20]:
# Para los nombres de las sustancias uso una lista de productos
# obtenida de una distribuidora química, la que se encuentra en un
# archivo de texto, con una sustancia por línea. 
# Importamos las sustacias a una lista

filename = 'sustancias.txt'

with open(filename, encoding='utf-8') as file:
    susts = file.readlines()
    susts = [sust.rstrip() for sust in susts]
    
fkeys = {'ID_NIVEL_ACCESO': list(df_nivel_acceso['ID_NIVEL_ACCESO'])}

In [21]:
#Guardamos la data en un dataframe
# df_sustancia = generateTableDf_SUSTANCIA(susts, fkeys)
# df_sustancia.head()

In [22]:
# Exportamos a csv
# df_sustancia.to_csv('csv/03-Sustancia.csv', index=False)

In [23]:
df_sustancia = pd.read_csv('csv/03-Sustancia.csv')
df_sustancia.head()

Unnamed: 0,ID_SUSTANCIA,ID_NIVEL_ACCESO,NOMBRE_COMUN,NRO_CAS,NOMBRE_IUPAC,SMILES,PESO_MOLECULAR
0,1,1,Alcohol Bencilico,28-125-394,alcohol-bencilico,cnIccc(O)cccc,446.161328
1,2,2,Bicarbonato de Sodio,02-270-431,bicarbonato-de-sodio,(c)ccccccssocccoccc(S)cnc(O)c,118.560761
2,3,1,Carbonato de Litio,13-450-361,carbonato-de-litio,ncc(o)ccccccccClcc(S)cc(n)ccc,228.67191
3,4,3,Pirofosfato Acido de Sodio,52-049-502,pirofosfato-acido-de-sodio,ccccnScc(S)c(o)cc(C)ccccccccc,636.926749
4,5,1,Acetona,09-535-890,acetona,nccc(o)c(C)cc(C)(o)cO,401.940669


<h2 style="color:#777">4: EXPERIMENTO</h2>

**Funciones**

In [24]:
def calculateEndTime(start):
    end = start + datetime.timedelta(days=1)
    return end
    

**Generación de datos**

In [25]:
def generateTableDf_EXPERIMENTO(fkeys, count=50):
    data = {}

    # Generamos la data principal

    print('Generando datos...')

    data['ID_EXPERIMENTO'] = [n+1 for n in range(count)]
    data['ID_PROYECTO'] = [ random.choice( fkeys['ID_PROYECTO'] ) for n in range(count)]
    data['TITULO_EXPERIMENTO'] =[ toSpanish( fake.bs() ).title() for n in range(count)]
    data['OBJETIVO'] = [toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count)]
    data['DESCRIPCION_EXPERIMENTO'] = [ toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count)]
    data['CONCLUSION'] = [ toSpanish( fake_en.paragraph( nb_sentences=3 ) ) for n in range(count)]
    data['FECHA_INICIO'] =  [ fake.date_time_between( start_date = "-10y", end_date = "now" ) for n in range(count)]

    print('Listo')
    
    # Guardamos la data en un dataframe
    df = pd.DataFrame(data)
    
    # Se calcula la fecha de finalización como un día después del inicio
    df['FECHA_FINALIZACION'] = df['FECHA_INICIO'].apply(calculateEndTime)
    
    return df

In [26]:
fkeys={'ID_PROYECTO' : list(df_proyecto['ID_PROYECTO']) }

In [27]:
# df_experimento = generateTableDf_EXPERIMENTO(fkeys)
# df_experimento.head()

In [28]:
# Exportamos a csv
# df_experimento.to_csv('csv/04-Experimento.csv', index=False)

In [29]:
df_experimento = pd.read_csv('csv/04-Experimento.csv')
df_experimento.head()

Unnamed: 0,ID_EXPERIMENTO,ID_PROYECTO,TITULO_EXPERIMENTO,OBJETIVO,DESCRIPCION_EXPERIMENTO,CONCLUSION,FECHA_INICIO,FECHA_FINALIZACION
0,1,5,Generar Ricos E-Tailers,Especialmente miembro de reclamo temprano. Act...,Desarrollar evitar lejos total en lugar de rel...,Ciudad de factor oscuro de la comunidad intern...,2016-06-15 14:08:37,2016-06-16 14:08:37
1,2,4,Acelerar Las Cadenas De Suministro Listas Para...,Lucha contra la preocupación de los fondos peq...,Misma cuatro diseños hablan piel posible. Es q...,El sujeto debe probar la dirección del camino.,2020-01-14 22:13:36,2020-01-15 22:13:36
2,3,1,Monetizar Sinergias Llave En Mano,Sujeto abogado ataque varios políticos. Tenga ...,Mujer también esposa que árbol. Explique el ni...,Simple esperanza particular idea teoría preocu...,2013-04-24 13:10:27,2013-04-25 13:10:27
3,4,1,Maximizar Nichos Dinámicos,Base de tareas de la misión que. Soporte bolsa...,Olvídese del nombre disponible del país de prá...,Red de posición de práctica de campaña de regl...,2021-02-09 19:33:07,2021-02-10 19:33:07
4,5,1,Escalar Soluciones Extensibles,Congreso bastante religioso. No mejora el rend...,Buena compañía significa ayuda. Atrapa la hora...,Así cada mano da a lo largo de la derecha. Esp...,2021-11-21 15:45:52,2021-11-22 15:45:52


<h2 style="color:#777">5: EQUIPAMIENTO</h2>

In [35]:
def generateTableDf_EQUIPAMIENTO(fkeys, count=20):
    data = {}

    id_nivel_acceso = fkeys['ID_NIVEL_ACCESO']
    
    equipos = [
        'Agitador Magnético',
        'Agitador Mecánico',
        'Manto Calefactor',
        'pHmetro',
        'Balón 3 bocas 100ml',
        'Balón 3 bocas 250ml',
        'Balón 3 bocas 500ml',
        'Balón 3 bocas 1000ml',
        'Termómetro electrónico',
        'Refrigerante recto',
        'Viscosímetro',
        'Densímetro',
        'HPLC',
        'GC',
        'Espectrofotómetro',
        'Balanza analítica',
        'Balanza granataria'    
    ]

    marcas = [
        'Garófalo S.A.',
        'Truch Instrumental',
        'Phalopa Inc.',
        'Juliet Pakard',
        'Sorny',
        'Sheneral Electric',
        'Supergood Chemical Solutions',
        'Cositorto Labware Enterprise'
    ]

    print('Generando Datos...')

    data['ID_EQUIPAMIENTO'] =  [ n+1 for n in range(count) ]
    data['ID_NIVEL_ACCESO'] = [ random.choice(id_nivel_acceso) for n in range(count) ]
    data['NOMBRE_EQUIPO'] = [ random.choice(equipos) for n in range(count) ]
    data['DESCRIPCION'] = [ 
        toSpanish( fake_en.paragraph(nb_sentences=2) ) 
        for n in range(count) 
    ]
    data['MARCA'] = [ random.choice(marcas) for n in range(count) ]
    data['MODELO'] = [ fake.numerify(text='#####-####') for n in range(count) ]

    print('listo')
    
    #Guardamos los datos en un dataframe
    df = pd.DataFrame(data)
    
    return df

In [36]:
fkeys = {'ID_NIVEL_ACCESO' : list( df_nivel_acceso['ID_NIVEL_ACCESO'] ) }

In [38]:
# df_equipamiento = generateTableDf_EQUIPAMIENTO(fkeys,count=2)
# df_equipamiento.head()

In [39]:
# Exportamos a csv
# df_equipamiento.to_csv('csv/05-Equipamiento.csv', index=False)

In [40]:
df_equipamiento = pd.read_csv('csv/05-Equipamiento.csv')
df_equipamiento.head()

Unnamed: 0,ID_EQUIPAMIENTO,ID_NIVEL_ACCESO,NOMBRE_EQUIPO,DESCRIPCION,MARCA,MODELO
0,1,1,Espectrofotómetro,Éxito internacional reducir control movimiento...,Garófalo S.A.,08473-4050
1,2,1,Balón 3 bocas 250ml,Ejecute la posición de nivel de reflejo. A lo ...,Sorny,74812-6630
2,3,1,GC,Ver piso por qué llamar.,Sheneral Electric,38025-3466
3,4,3,HPLC,Mañana indicar ver.,Cositorto Labware Enterprise,69024-5264
4,5,3,HPLC,Campo mí tres desde entonces pero varios. Crea...,Garófalo S.A.,50429-5719
