# CREAMOS LAS BASES DE DATOS (CSV)


<a id="0"></a> <br>
### ÍNDICE
1. [Base de datos de los usuarios logueados](#1)
2. [Base de datos cuestionario de los usuarios ](#2)


<a id="1"></a> <br>

### 1. BASE DA DATOS USUARIOS LOGUEADOS
<details>
<summary>Explicación detallada de la base de datos generada</summary>
<p>
Mediante el uso de la librería "Faker", hemos generado una base de datos con datos aleatorios que simulan la actividad de usuarios en nuestra aplicación web. Estos datos nos proporcionan una representación simulada de cómo se comportarán los usuarios cuando la aplicación esté en funcionamiento y nos permiten realizar investigaciones y análisis con fines demostrativos.

Al generar esta base de datos ficticia, podremos mostrar a nuestro equipo y a posibles interesados las funcionalidades y capacidades que tendrá nuestra aplicación cuando esté en pleno uso. Esto nos permitirá demostrar de manera efectiva cómo nuestra aplicación manejará y procesará datos reales, así como las distintas tareas de análisis, visualización y predicción que se pueden llevar a cabo con los datos generados.

Con esta simulación de datos, podremos anticipar escenarios y tomar decisiones fundamentadas antes de que la aplicación esté en pleno funcionamiento, lo que nos permitirá estar preparados para ofrecer un servicio de calidad y proporcionar información valiosa a los usuarios y al equipo de negocio. Además, esta base de datos nos brinda la oportunidad de probar y optimizar nuestras capacidades en data science, machine learning e inteligencia artificial, lo que nos permitirá ofrecer un producto más completo y eficiente.

En resumen, la generación de esta base de datos a través de "Faker" nos brinda una valiosa herramienta para demostrar el potencial de nuestra aplicación y asegurarnos de que estemos preparados para proporcionar un servicio excepcional y una experiencia enriquecedora a nuestros usuarios.


</p>
</details>

In [3]:
# Importamos las distintas librerias necesarias para el análisis

# Tratamiento de datos
import pandas as pd
import random
from faker import Faker
from datetime import datetime, timedelta


# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

In [3]:
VALID_POSTAL_CODES = [
    28001, 28002, 28003, 28004, 28005, 28006, 28007, 28008, 28009, 28010,
    28011, 28012, 28013, 28014, 28015, 28016, 28017, 28018, 28019, 28020,
    28021, 28022, 28023, 28024, 28025, 28026, 28027, 28028, 28029, 28030,
    28031, 28032, 28033, 28034, 28035, 28036, 28037, 28038, 28039, 28040,
    28041, 28042, 28043, 28044, 28045, 28046, 28047, 28048, 28049, 28050,
    28051, 28052, 28053, 28054, 28055, 28070, 28071, 28080, 28082, 28083,
    28085, 28086, 28087
]

def generate_unique_database(num_rows):
    fake = Faker()
    database = set()
    email_set = set()
    user_id_set = set()

    start_date = datetime(2023, 1, 1)
    end_date = datetime.now()

    while len(database) < num_rows:
        fecha = fake.date_of_birth(minimum_age=18, maximum_age=100).strftime("%d-%m-%Y")
        nombre = fake.name()
        cp = random.choice(VALID_POSTAL_CODES)
        
        n_hijos_menores = random.randint(0, 5)
        sexo = random.choice(["M", "H"])

        while True:
            email = fake.email()
            if email not in email_set:
                email_set.add(email)
                break

        while True:
            user_id = random.randint(100000, 999999)
            if user_id not in user_id_set:
                user_id_set.add(user_id)
                break
        
        registration_date = fake.date_between(start_date=start_date, end_date=end_date).strftime("%d-%m-%Y")
        
        row = (registration_date, nombre, user_id, sexo, fecha, cp, n_hijos_menores, email)
        database.add(row)

    return list(database)

# Example usage:
num_rows = 500

random_database = generate_unique_database(num_rows)

# Convert the list of tuples to a DataFrame
columns = ["fecha_registro", "nombre", "user_id", "sexo", "fecha_nacimiento", "cp", "n_hijos_menores", "email"]
df = pd.DataFrame(random_database, columns=columns)

# Display the DataFrame
df

Unnamed: 0,fecha_registro,nombre,user_id,sexo,fecha_nacimiento,cp,n_hijos_menores,email
0,24-04-2023,Lynn Moore,655346,M,27-09-1954,28023,5,thomasgeorge@example.com
1,02-06-2023,Lisa Valenzuela,279526,H,28-10-1934,28037,2,kbarrera@example.net
2,20-03-2023,Matthew Marshall,797457,H,17-09-1946,28035,2,joshuawagner@example.com
3,03-02-2023,Ryan Rogers,803906,H,13-06-1936,28026,2,wweber@example.net
4,25-01-2023,Destiny Shaffer,314182,H,27-12-1961,28024,0,ericksonsandra@example.com
...,...,...,...,...,...,...,...,...
495,01-03-2023,Hannah Luna,204336,H,14-08-2002,28083,4,romanmargaret@example.com
496,26-02-2023,Christopher Powell,802317,M,12-08-1930,28054,1,veronicajohnson@example.com
497,02-02-2023,Sara Morse,549513,M,22-07-1924,28053,2,liubrenda@example.net
498,04-02-2023,Dr. Peter Curry,292753,M,16-05-1942,28026,4,orivera@example.net


In [4]:
# Guardamos el DataFrame a la carpeta de "csv" con el nombre de "usuarios_logueados"
df.to_csv("csv/usuarios_logueados.csv",index=False)

In [4]:
# Leemos el DataFrame
df = pd.read_csv("csv/usuarios_logueados.csv")
df

Unnamed: 0,fecha_registro,nombre,user_id,sexo,fecha_nacimiento,cp,n_hijos_menores,email
0,24-04-2023,Lynn Moore,655346,M,27-09-1954,28023,5,thomasgeorge@example.com
1,02-06-2023,Lisa Valenzuela,279526,H,28-10-1934,28037,2,kbarrera@example.net
2,20-03-2023,Matthew Marshall,797457,H,17-09-1946,28035,2,joshuawagner@example.com
3,03-02-2023,Ryan Rogers,803906,H,13-06-1936,28026,2,wweber@example.net
4,25-01-2023,Destiny Shaffer,314182,H,27-12-1961,28024,0,ericksonsandra@example.com
...,...,...,...,...,...,...,...,...
495,01-03-2023,Hannah Luna,204336,H,14-08-2002,28083,4,romanmargaret@example.com
496,26-02-2023,Christopher Powell,802317,M,12-08-1930,28054,1,veronicajohnson@example.com
497,02-02-2023,Sara Morse,549513,M,22-07-1924,28053,2,liubrenda@example.net
498,04-02-2023,Dr. Peter Curry,292753,M,16-05-1942,28026,4,orivera@example.net


<a id="2"></a> <br>

### 2. BASE DA DATOS CUESTIONARIO DE LOS USUARIOS 
<details>
<summary>Explicación detallada de la base de datos generada</summary>
<p>

Mediante el uso de la librería "Faker", hemos creado una base de datos con datos simulados de usuarios que han completado nuestro cuestionario. Esta base de datos nos proporciona información aleatoria sobre los usuarios y sus respuestas, lo que nos permite tener un conjunto de datos con el que podemos trabajar y realizar simulaciones.

Al contar con esta base de datos simulada, podemos anticipar cómo se comportarán los usuarios una vez que la aplicación web esté en funcionamiento y los usuarios comiencen a responder el cuestionario de manera real. Esto nos ofrece la ventaja de tener datos en los que basarnos y realizar pruebas, análisis y visualizaciones antes de que los datos reales estén disponibles.

Esta simulación nos ayuda a evaluar nuestras capacidades en análisis de datos, machine learning e inteligencia artificial, lo que nos permite demostrar el potencial de nuestra aplicación y las funcionalidades que podremos ofrecer una vez que contemos con datos reales de los usuarios. También nos permite estar preparados para responder de manera efectiva a las necesidades y preferencias de los usuarios, proporcionando información valiosa y personalizada.

En resumen, la generación de esta base de datos simulada a través de "Faker" nos permite adelantarnos y estar preparados para ofrecer un servicio sólido y efectivo una vez que la aplicación web esté en pleno funcionamiento y los usuarios comiencen a interactuar con el cuestionario de manera real. Esto nos asegura que podremos proporcionar una experiencia enriquecedora y útil a nuestros usuarios, y que podremos ofrecer análisis y predicciones precisas basadas en datos reales.

</p>
</details>

In [5]:
# Create an empty dictionary to store the data for df2
data_dict = {'user_id': df['user_id']}  # Start with user_id column from df

# Generate random 0's and 1's for Q1 through Q10 columns
for i in range(1, 11):
    data_dict[f'Q{i}'] = [random.randint(0, 1) for _ in range(len(df))]

# Create df2 from the data_dict
df2 = pd.DataFrame(data_dict)

# Calculate the 'total' column by summing Q1 through Q10 per user ID
df2['total'] = df2.iloc[:, 1:11].sum(axis=1)

# Display the new DataFrame 'df2'
df2

Unnamed: 0,user_id,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,total
0,655346,0,0,1,1,1,0,0,1,0,1,5
1,279526,1,1,0,1,0,1,1,1,0,1,7
2,797457,0,0,1,0,1,1,1,1,1,0,6
3,803906,0,1,1,1,1,1,1,0,1,1,8
4,314182,0,1,0,1,1,0,1,1,0,0,5
...,...,...,...,...,...,...,...,...,...,...,...,...
495,204336,0,0,1,1,1,0,0,0,1,0,4
496,802317,0,1,1,0,0,1,0,1,0,1,5
497,549513,1,0,0,1,0,1,1,0,0,0,4
498,292753,0,1,1,0,1,1,0,0,1,1,6


In [6]:
# Guardamos el DataFrame a la carpeta de "csv" con el nombre de "usuarios_logueados"
df2.to_csv("csv/cuestionario_respuestas.csv",index=False)