<h1 style="color:#555; font-size:3em">Generador de fake data para la base de datos 'Laboratorio'</h1>
<h2 style="color:#555">Curso de SQL de CoderHouse</h2>

In [1]:
import pandas as pd
import datetime
import random

from faker import Faker
from faker.providers import person

from deep_translator import GoogleTranslator

In [2]:
# set the seed
Faker.seed(100)

# Uso el locale en español de España
fake = Faker('es_ES')

# El locale solo tiene algunas cosas, por ejemplo el lorem queda en latin
# para los casos en que necesito explícitamente indicar que use faker en inglés
# genero una segunda instancia de faker en ingles.
fake_en = Faker('en_US')

**Funciones generales**

In [3]:
def toSpanish(text):
    try:
        translated = GoogleTranslator(source='auto', target='es').translate(text)
    except Exception as e:
        print(e)
        return text
    return translated

<h2>0: NIVEL_ACCESO</h2>

In [4]:
data = {}

# Indicar en <count> el número de filas que se quiere generar

count = 3

data['ID_NIVEL_ACCESO'] = [n+1 for n in range(count)]
data['NIVEL'] = [random.choice(['A','B','C']) for n in range(count)]
data['DESCRIPCION_NIVEL'] = [toSpanish(fake.catch_phrase()).title() for n in range(count)]

In [5]:
df_nivel_acceso = pd.DataFrame(data)
df_nivel_acceso

Unnamed: 0,ID_NIVEL_ACCESO,NIVEL,DESCRIPCION_NIVEL
0,1,A,Base De Conocimiento Logística Digitalizada
1,2,C,Estrategia Visionaria Sensible Al Contexto
2,3,C,Hardware De Tendencia Ascendente Basado En Obj...


**Salida a CSV**

In [6]:
df_nivel_acceso.to_csv('csv/00-Nivel_Acceso.csv')

<h2 style="color:#777">1: EMPLEADO</h2>

**Funciones**

In [7]:
def generateFakeDNI(min=2, max=3):
    M = fake.random_int(min, max)
    rest = fake.numerify(text='#.###.###')
    return (f'{M}{rest}')

def generateFakeGender(nb_threshold = 0.05):
    choice = random.uniform(0, 1)
    
    if(choice < nb_threshold):
        return 'x'
    if(choice < 0.5):
        return 'M'
    else:
        return 'F'

def generateProfession():
    options = ["Técnico Químico", "Ingeniero Químico", "Licenciado en Química", "Bioquímico", "Farmacéutico", "Biotecnólogo"]
    return random.choice(options)

def generateGenderedName(gender):
    if gender == 'M':
        return fake.first_name_male()
    if gender == 'F':
        return fake.first_name_female()
    else:
        return fake.first_name_nonbinary()
    
    
def generateEmailFromName(first_name="john", last_name="doe"):
    provs = ['fakemail', 'truchomail', 'altomail','repiolamail']
    email = f'{first_name.lower()}.{last_name.lower()}{str(fake.random_int(min=100, max=999))}@{random.choice(provs)}.com'
    return email


**Generación de datos**

In [8]:
data = {}

# Indicar en <count> el número de filas que se quiere generar

count = 20

# Generamos la información básica de cada empleado

data['ID_EMPLEADO'] = [n+1 for n in range(count)]
data['APELLIDO'] = [fake.last_name() for n in range(count)]
data['DNI'] = [generateFakeDNI() for n in range(count)]
data['GENERO'] = [generateFakeGender() for n in range(count)]
data['TELEFONO_MOVIL'] = [fake.phone_number() for n in range(count)]
data['FECHA_NACIMIENTO'] =[fake.date_between(start_date = "-65y", end_date = "-18y") for n in range(count)]
data['TITULO_UNIVERSITARIO'] = [generateProfession() for n in range(count)]
data['DIRECCION'] = [fake.address() for n in range(count)]
data['FECHA_CONTRATACION'] =[fake.date_between(start_date = "-10y", end_date = "-1y") for n in range(count)]
data['ID_NIVEL_ACCESO'] = [fake.random_int(min=1, max=3) for n in range(count)]

In [9]:
# Guardamos la data en un dataframe
df_empleado = pd.DataFrame(data)

**Información secundaria**<br>
A continuación completamos los campos con informacón que debe ser generada a partir de la data existente. El nombre de pila se elige a partir del género, mientras que el email se construye a partir del nombre y apellido.

In [10]:
# Sacamos los saltos de línea en la dirección:
df_empleado['DIRECCION'] = df_empleado['DIRECCION'].apply(lambda x: x.replace('\n', '; '))

# Generamos el nombre sabiendo el género
df_empleado['NOMBRE'] = df_empleado.apply(lambda row: generateGenderedName(row['GENERO']), axis=1)

# General el email sabiendo nombre y appellido
df_empleado['EMAIL'] = df_empleado.apply(lambda row: generateEmailFromName(row['NOMBRE'], row['APELLIDO']), axis=1)

# Ordenamos alfabeticamente las columnas
df_empleado = df_empleado.reindex(sorted(df_empleado.columns), axis=1)

# Vemos el resultado
df_empleado.head()

Unnamed: 0,APELLIDO,DIRECCION,DNI,EMAIL,FECHA_CONTRATACION,FECHA_NACIMIENTO,GENERO,ID_EMPLEADO,ID_NIVEL_ACCESO,NOMBRE,TELEFONO_MOVIL,TITULO_UNIVERSITARIO
0,Rosselló,"Acceso de Moreno Criado 62 Piso 6 ; Ciudad, 18321",37.846.212,eulalia.rosselló181@altomail.com,2018-08-01,1989-06-25,F,1,3,Eulalia,+34973 329 984,Ingeniero Químico
1,Vendrell,"Callejón Perlita Tolosa 75; Pontevedra, 75518",29.629.232,teobaldo.vendrell137@repiolamail.com,2012-10-01,1982-07-13,M,2,2,Teobaldo,+34 727 269 981,Bioquímico
2,Canet,"Cañada de Joaquín Quintanilla 10; Ávila, 46784",23.762.980,claudio.canet422@truchomail.com,2017-06-11,1971-11-21,M,3,2,Claudio,+34842 19 93 06,Bioquímico
3,Carrión,Rambla de Chema Botella 49 Puerta 1 ; Salamanc...,29.849.585,amado.carrión779@repiolamail.com,2021-04-26,2002-05-07,M,4,3,Amado,+34736 511 076,Bioquímico
4,Bernat,"Urbanización de Morena Bernat 15; Las Palmas, ...",37.601.464,marciano.bernat278@altomail.com,2020-09-11,1992-08-06,M,5,3,Marciano,+34 892 711 418,Técnico Químico


**Salida a csv**

In [11]:
df_empleado.to_csv('csv/01-Empleado.csv', index=False)

<h2 style="color:#777">2: PROYECTO</h2>

In [12]:
def generateProjectTitle():
    phrase = toSpanish(fake.catch_phrase())
    words = phrase.split()
    title =(f'{words[0]} {words[-1]}').title()
    return title

generateProjectTitle()

'Colaboración Compartible'

**Generación de datos**

In [13]:
data = {}

# Indicar en <count> el número de filas que se quiere generar
count = 5

# Generamos la información básica de cada proyecto
data['ID_PROYECTO'] = [n+1 for n in range(count)]
data['NOMBRE_PROYECTO'] = [generateProjectTitle() for n in range(count)]
data['FECHA_CREACION'] =[fake.date_between(start_date = "-10y", end_date = "now") for n in range(count)]

data['DESCRIPCION'] = [toSpanish(fake_en.paragraph(nb_sentences=10)) for n in range(count)]

In [14]:
# Guardamos la data en un dataframe
df_proyecto = pd.DataFrame(data)
df_proyecto.head()

Unnamed: 0,ID_PROYECTO,NOMBRE_PROYECTO,FECHA_CREACION,DESCRIPCION
0,1,Soporte Adecuado,2012-07-29,Incendio ambiental después. Meta etapa número ...
1,2,Usuario Terciario,2019-10-09,Esos determinan el desafío del campo ambiental...
2,3,Capacidad Asegurada,2015-06-25,El tratamiento del pase de discusión probablem...
3,4,Estandarización Realineada,2017-05-18,Permitir que la causa registre el tema de la c...
4,5,Funcionalidades Multiplataforma,2016-04-30,Experto celular correr hombre volar primavera ...


In [15]:
df_proyecto.to_csv('csv/02-Proyecto.csv', index=False)

<h2 style="color:#777">3: SUSTANCIA</h2>

**Funciones**

In [16]:
def generateSmiles(threshold=0.3):
    atoms = ['C','n','o','O','s','S','Cl','Br','I','F','(c)','(C)','(n)','(o)','(O)','(s)','(S)']
    length = fake.random_int(min=10, max=30)
    smiles_list = []
    for n in range(length):
        choice = random.uniform(0,1)
        if choice < threshold:
            smiles_list.append(random.choice(atoms))
        else:
            smiles_list.append('c')
    smiles = ''.join(smiles_list)
    return(smiles)


**Generación de datos**

In [17]:
filename = 'sustancias.txt'

with open(filename, encoding='utf-8') as file:
    susts = file.readlines()
    susts = [sust.rstrip() for sust in susts]


data = {}

# Foreing Keys
id_nivel_acceso = list(df_nivel_acceso['ID_NIVEL_ACCESO'])

# Indicar en <count> el número de filas que se quiere generar
count = 50

sustancias = [random.choice(susts) for n in range(count)]

# Generamos la data
data['ID_SUSTANCIA'] = [n+1 for n in range(count)]
data['ID_NIVEL_ACCESO'] = [random.choice(id_nivel_acceso) for n in range(count)]
data['NOMBRE_COMUN'] = sustancias
data['NRO_CAS'] = [fake.numerify(text='##-###-###') for n in range(count)]
data['NOMBRE_IUPAC'] = [sust.lower().replace(' ','-') for sust in sustancias]
data['SMILES'] = [generateSmiles() for n in range(count) ]
data['PESO_MOLECULAR'] = [ float(fake.random_int(min=100, max=700) + random.uniform(0,1)) for n in range(count)  ]

In [18]:
#Guardamos la data en un dataframe
df_sustancia = pd.DataFrame(data)

In [19]:
# Exportamos a csv
df_sustancia.to_csv('csv/03-Sustancia.csv', index=False)

<h2 style="color:#777">4: EXPERIMENTO</h2>

**Funciones**

In [20]:
def calculateEndTime(start):
    end = start + datetime.timedelta(days=1)
    return end
    

**Generación de datos**

In [21]:
data = {}

# Número de experimentos a generar:
count = 2

# Generamos la data principal
data['ID_EXPERIMENTO'] = [n+1 for n in range(count)]
data['ID_PROYECTO'] = [random.choice(list(df_proyecto['ID_PROYECTO'])) for n in range(count)]
data['TITULO_EXPERIMENTO'] =[toSpanish(fake.bs()).title() for n in range(count)]
data['OBJETIVO'] = [toSpanish(fake_en.paragraph(nb_sentences=5)) for n in range(count)]
data['DESCRIPCION_EXPERIMENTO'] = [toSpanish(fake_en.paragraph(nb_sentences=10)) for n in range(count)]
data['CONCLUSION'] = [toSpanish(fake_en.paragraph(nb_sentences=5)) for n in range(count)]
data['FECHA_INICIO'] = [fake.date_time_between(start_date = "-10y", end_date = "now") for n in range(count)]

In [22]:
# Guardamos la data en un dataframe
df_experimento = pd.DataFrame(data)
df_experimento.head()

Unnamed: 0,ID_EXPERIMENTO,ID_PROYECTO,TITULO_EXPERIMENTO,OBJETIVO,DESCRIPCION_EXPERIMENTO,CONCLUSION,FECHA_INICIO
0,1,3,Aprovechar Usuarios Dinámicos,Amenaza sí noticias generalmente gobierno. El ...,Resto PM probar ancho. Crimen por qué color co...,Ya gire a tomar el patio del centro de la naci...,2015-04-16 16:32:02
1,2,4,Optimizar Métricas Dinámicas,Descubre un récord previene a la escritora de ...,Así que el crimen es probable. Patrón afecta a...,Su experiencia de trato de compra posible cora...,2018-11-03 05:16:03
2,3,1,Ingeniero De Comercio Electrónico B2B,Establezca la respuesta de la comunidad en el ...,Guardar niño. Enfréntate a un proyecto de ley ...,Cuerpo religioso duro amor de plomo. Opción ga...,2018-01-28 08:40:09
3,4,2,Funcionalidades Escalables De Morph,Fondo imagine tienda también desde asiento. Es...,Exactamente mensaje de ataque llamar a alguien...,Condición de drogas aún alcanzar. El enfoque d...,2017-02-10 00:46:44
4,5,1,Tecnologías Personalizadas Desintermedias,Recuerde que el gas de recogida de mosca de vi...,Conduciría la mención anterior al ser anterior...,Problema de desempeño del abogado del oficial ...,2016-06-07 08:55:06


**Información derivada**

In [23]:
# Se calcula la fecha de finalización como un día después del inicio
df_experimento['FECHA_FINALIZACION'] = df_experimento['FECHA_INICIO'].apply(lambda x: calculateEndTime(x))
df_experimento.head()

Unnamed: 0,ID_EXPERIMENTO,ID_PROYECTO,TITULO_EXPERIMENTO,OBJETIVO,DESCRIPCION_EXPERIMENTO,CONCLUSION,FECHA_INICIO,FECHA_FINALIZACION
0,1,3,Aprovechar Usuarios Dinámicos,Amenaza sí noticias generalmente gobierno. El ...,Resto PM probar ancho. Crimen por qué color co...,Ya gire a tomar el patio del centro de la naci...,2015-04-16 16:32:02,2015-04-17 16:32:02
1,2,4,Optimizar Métricas Dinámicas,Descubre un récord previene a la escritora de ...,Así que el crimen es probable. Patrón afecta a...,Su experiencia de trato de compra posible cora...,2018-11-03 05:16:03,2018-11-04 05:16:03
2,3,1,Ingeniero De Comercio Electrónico B2B,Establezca la respuesta de la comunidad en el ...,Guardar niño. Enfréntate a un proyecto de ley ...,Cuerpo religioso duro amor de plomo. Opción ga...,2018-01-28 08:40:09,2018-01-29 08:40:09
3,4,2,Funcionalidades Escalables De Morph,Fondo imagine tienda también desde asiento. Es...,Exactamente mensaje de ataque llamar a alguien...,Condición de drogas aún alcanzar. El enfoque d...,2017-02-10 00:46:44,2017-02-11 00:46:44
4,5,1,Tecnologías Personalizadas Desintermedias,Recuerde que el gas de recogida de mosca de vi...,Conduciría la mención anterior al ser anterior...,Problema de desempeño del abogado del oficial ...,2016-06-07 08:55:06,2016-06-08 08:55:06


In [24]:
# Exportamos a csv
# df_sustancia.to_csv('csv/04-Experimento.csv', index=False)