<h1 style="color:#555; font-size:3em">Generador de fake data para la base de datos 'Laboratorio'</h1>
<h2 style="color:#555">Curso de SQL de CoderHouse</h2>

In [1]:
import pandas as pd
import random

from faker import Faker
from faker.providers import person

from deep_translator import GoogleTranslator

In [2]:
# set the seed
Faker.seed(100)

# Uso el locale en español de España
fake = Faker('es_ES')

# El locale solo tiene algunas cosas, por ejemplo el lorem queda en latin
# para los casos en que necesito explícitamente indicar que use faker en inglés
# genero una segunda instancia de faker en ingles.
fake_en = Faker('en_US')

**Funciones generales**

In [17]:
def toSpanish(text):
    try:
        translated = GoogleTranslator(source='auto', target='es').translate(text)
    except Exception as e:
        print(e)
        return text
    return translated

<h2>0: NIVEL_ACCESO</h2>

In [19]:
data = {}

# Indicar en <count> el número de filas que se quiere generar

count = 3

data['ID_NIVEL_ACCESO'] = [n+1 for n in range(count)]
data['NIVEL'] = [random.choice(['A','B','C']) for n in range(count)]
data['DESCRIPCION_NIVEL'] = [toSpanish(fake.catch_phrase()).title() for n in range(count)]

{'ID_NIVEL_ACCESO': [1, 2, 3],
 'NIVEL': ['C', 'B', 'A'],
 'DESCRIPCION_NIVEL': ['Colaboración Homogénea Versátil',
  'Soporte Bifurcado Centrado En Las Ganancias',
  'Línea Asegurada Motivadora Distribuida']}

In [20]:
df_nivel_acceso = pd.DataFrame(data)
df_nivel_acceso

Unnamed: 0,ID_NIVEL_ACCESO,NIVEL,DESCRIPCION_NIVEL
0,1,C,Colaboración Homogénea Versátil
1,2,B,Soporte Bifurcado Centrado En Las Ganancias
2,3,A,Línea Asegurada Motivadora Distribuida


**Salida a CSV**

In [21]:
df_nivel_acceso.to_csv('csv/00-Nivel_Acceso.csv')

<h2 style="color:#777">1: EMPLEADO</h2>

**Funciones**

In [5]:
def generateFakeDNI(min=2, max=3):
    M = fake.random_int(min, max)
    rest = fake.numerify(text='#.###.###')
    return (f'{M}{rest}')

def generateFakeGender(nb_threshold = 0.05):
    choice = random.uniform(0, 1)
    
    if(choice < nb_threshold):
        return 'x'
    if(choice < 0.5):
        return 'M'
    else:
        return 'F'

def generateProfession():
    options = ["Técnico Químico", "Ingeniero Químico", "Licenciado en Química", "Bioquímico", "Farmacéutico", "Biotecnólogo"]
    return random.choice(options)

def generateGenderedName(gender):
    if gender == 'M':
        return fake.first_name_male()
    if gender == 'F':
        return fake.first_name_female()
    else:
        return fake.first_name_nonbinary()
    
    
def generateEmailFromName(first_name="john", last_name="doe"):
    provs = ['fakemail', 'truchomail', 'altomail','repiolamail']
    email = f'{first_name.lower()}.{last_name.lower()}{str(fake.random_int(min=100, max=999))}@{random.choice(provs)}.com'
    return email


**Generación de datos**

In [6]:
data = {}

# Indicar en <count> el número de filas que se quiere generar

count = 20

# Generamos la información básica de cada empleado

data['ID_EMPLEADO'] = [n+1 for n in range(count)]
data['APELLIDO'] = [fake.last_name() for n in range(count)]
data['DNI'] = [generateFakeDNI() for n in range(count)]
data['GENERO'] = [generateFakeGender() for n in range(count)]
data['TELEFONO_MOVIL'] = [fake.phone_number() for n in range(count)]
data['FECHA_NACIMIENTO'] =[fake.date_between(start_date = "-65y", end_date = "-18y") for n in range(count)]
data['TITULO_UNIVERSITARIO'] = [generateProfession() for n in range(count)]
data['DIRECCION'] = [fake.address() for n in range(count)]
data['FECHA_CONTRATACION'] =[fake.date_between(start_date = "-10y", end_date = "-1y") for n in range(count)]
data['ID_NIVEL_ACCESO'] = [fake.random_int(min=1, max=3) for n in range(count)]

In [7]:
# Guardamos la data en un dataframe
df_empleado = pd.DataFrame(data)

**Información secundaria**<br>
A continuación completamos los campos con informacón que debe ser generada a partir de la data existente. El nombre de pila se elige a partir del género, mientras que el email se construye a partir del nombre y apellido.

In [8]:
# Sacamos los saltos de línea en la dirección:
df_empleado['DIRECCION'] = df_empleado['DIRECCION'].apply(lambda x: x.replace('\n', '; '))

# Generamos el nombre sabiendo el género
df_empleado['NOMBRE'] = df_empleado.apply(lambda row: generateGenderedName(row['GENERO']), axis=1)

# General el email sabiendo nombre y appellido
df_empleado['EMAIL'] = df_empleado.apply(lambda row: generateEmailFromName(row['NOMBRE'], row['APELLIDO']), axis=1)

# Ordenamos alfabeticamente las columnas
df_empleado = df_empleado.reindex(sorted(df_empleado.columns), axis=1)

# Vemos el resultado
df_empleado.head()

Unnamed: 0,APELLIDO,DIRECCION,DNI,EMAIL,FECHA_CONTRATACION,FECHA_NACIMIENTO,GENERO,ID_EMPLEADO,ID_NIVEL_ACCESO,NOMBRE,TELEFONO_MOVIL,TITULO_UNIVERSITARIO
0,Cámara,"Pasadizo Lucio Cuadrado 44 Piso 6 ; Álava, 18146",36.436.879,severino.cámara423@altomail.com,2015-11-30,1974-02-19,M,1,1,Severino,+34918 92 28 92,Biotecnólogo
1,Fernández,"Cuesta Isaura Merino 21 Piso 9 ; Melilla, 59268",32.095.204,marciano.fernández943@repiolamail.com,2013-07-23,1991-04-20,M,2,3,Marciano,+34 705961751,Bioquímico
2,Diego,"Ronda de Galo Roura 29 Piso 5 ; Girona, 07943",20.934.893,paulino.diego927@fakemail.com,2021-03-10,1963-12-24,M,3,2,Paulino,+34717 43 53 00,Ingeniero Químico
3,Amo,"Cuesta Epifanio Fuertes 16 Apt. 61 ; Burgos, 7...",35.701.738,jacinta.amo720@fakemail.com,2012-11-05,1993-06-11,F,4,2,Jacinta,+34 748181270,Farmacéutico
4,Gálvez,"Camino de Leonor Sáez 9 Puerta 2 ; Málaga, 08666",29.306.162,santos.gálvez114@fakemail.com,2017-12-10,1971-09-21,M,5,1,Santos,+34675 87 37 08,Bioquímico


**Salida a csv**

In [9]:
df_empleado.to_csv('csv/01-Empleado.csv', index=False)

<h2 style="color:#777">2: PROYECTO</h2>

**Generación de datos**

In [11]:
data = {}

# Indicar en <count> el número de filas que se quiere generar
count = 5

# Generamos la información básica de cada proyecto
data['ID_PROYECTO'] = [n+1 for n in range(count)]
data['NOMBRE_PROYECTO'] = [toSpanish(fake.bs()).title() for n in range(count)]
data['FECHA_CREACION'] =[fake.date_between(start_date = "-10y", end_date = "now") for n in range(count)]

data['DESCRIPCION'] = [toSpanish(fake_en.paragraph(nb_sentences=10)) for n in range(count)]

In [12]:
# Guardamos la data en un dataframe
df_proyecto = pd.DataFrame(data)
df_proyecto.head()

Unnamed: 0,ID_PROYECTO,NOMBRE_PROYECTO,FECHA_CREACION,DESCRIPCION
0,1,Reinventar La Convergencia Distribuida,2020-08-17,Equipo aunque mil millones de rendimiento. Seg...
1,2,Envisioneer Back-End Modelos,2014-01-17,El periódico científico determina el momento d...
2,3,Crear Estrategias De Canales De Ladrillos Y Clics,2012-07-01,La necesidad familiar podría sangre. Mira la p...
3,4,Entregar Elementos De Acción Estratégicos,2015-05-09,Conferencia tradicional del sistema de estilo ...
4,5,Impulsar El Comercio Electrónico De Clase Mundial,2014-10-01,Experto celular correr hombre volar primavera ...


In [13]:
df_proyecto.to_csv('csv/02-Proyecto.csv', index=False)

<h2 style="color:#777">3: SUSTANCIA</h2>

**Funciones**

In [40]:
def generateSmiles(threshold=0.3):
    atoms = ['C','n','o','O','s','S','Cl','Br','I','F','(c)','(C)','(n)','(o)','(O)','(s)','(S)']
    length = fake.random_int(min=10, max=30)
    smiles_list = []
    for n in range(length):
        choice = random.uniform(0,1)
        if choice < threshold:
            smiles_list.append(random.choice(atoms))
        else:
            smiles_list.append('c')
    smiles = ''.join(smiles_list)
    return(smiles)

generateSmiles()

'cccccccccCSccFcccccCcccOc'

In [55]:
filename = 'sustancias.txt'

with open(filename, encoding='utf-8') as file:
    susts = file.readlines()
    susts = [sust.rstrip() for sust in susts]


data = {}

# Foreing Keys
id_nivel_acceso = list(df_nivel_acceso['ID_NIVEL_ACCESO'])

# Indicar en <count> el número de filas que se quiere generar
count = 50

sustancias = [random.choice(susts) for n in range(count)]
# Genero la data

data['ID_SUSTANCIA'] = [n+1 for n in range(count)]
data['ID_NIVEL_ACCESO'] = [random.choice(id_nivel_acceso) for n in range(count)]
data['NOMBRE_COMUN'] = sustancias
data['NRO_CAS'] = [fake.numerify(text='##-###-###') for n in range(count)]
data['NOMBRE_IUPAC'] = [sust.lower().replace(' ','-') for sust in sustancias]
data['SMILES'] = [generateSmiles() for n in range(count) ]
data['PESO_MOLECULAR'] = [ float(fake.random_int(min=100, max=700) + random.uniform(0,1)) for n in range(count)  ]

In [56]:
df_sustancia = pd.DataFrame(data)
df_sustancia.head()

Unnamed: 0,ID_SUSTANCIA,ID_NIVEL_ACCESO,NOMBRE_COMUN,NRO_CAS,NOMBRE_IUPAC,SMILES,PESO_MOLECULAR
0,1,1,Cloroformo,82-606-874,cloroformo,ccClcncccccccocccc(S)ccc(C)(o)cc,250.481652
1,2,3,Cloruro de Magnesio,78-015-448,cloruro-de-magnesio,cOSccClccF(C)ccc,226.651598
2,3,1,Nitrato de Calcio,39-048-205,nitrato-de-calcio,c(n)ClCl(O)(s)cScc(C)cccccc(n)ccoc,558.459114
3,4,2,Carbonato de Magnesio,77-949-308,carbonato-de-magnesio,cCl(n)ccccc(O)cccOc(o)cccco(o)c,246.423368
4,5,1,Estearato de Sodio,69-112-916,estearato-de-sodio,Cc(n)c(o)ccBrcOc(C),298.120956


In [57]:
df_sustancia.to_csv('csv/03-Sustancia.csv', index=False)