## Ejercicio Crear BBDD

En este ejercicio vamos a crear una base de datos ficticia de estudiantes de HACK A BOSS.

Para esto vamos a separar este ejercicio en 3 partes:

1. Creación del modelo entidad-relación en SQL.
2. Crear datos ficticios en Python.
3. Llenar las tablas usando la librería de MySQL en Python.

---

### 1. Modelo Entidad-Relación

Existen muchas formas de crear una base de datos de estudiantes, para hacer este ejercicio vamos a guiarnos por este ejemplo:

![schema-estudiantes.png](attachment:91cb735e-0eb4-4c48-8509-ba956c2d6d07.png)

Donde existen 5 tablas:

- **Tabla _Modulos_**:
    - **modulo_id** es la **Primary Key**.
    - La tabla debe tener estos elementos.

|modulo_id|modulos         |
|---------|----------------|
|1        |Python          |
|2        |Matemáticas     |
|3        |Ciencia de Datos|
|4        |SQL             |
|5        |Machine Learning|
|6        |PySpark         |
|7        |Streamlit       |

---

- **Tabla _Bootcamps_**:
    - **bootcamp_id** es la **Primary Key**.
    - La primera fecha es del 2020.
    - Empieza un nuevo bootcamp cada 30 días.
    - Cada bootcamp termina después de 154 días.
    - La tabla tiene 200 elementos.
    
|bootcamp_id |bootcamp|inicio_bootcamp|final_bootcamp|
|------------|--------|---------------|--------------|
|1           |DSB01RT |2020-01-01     |2020-06-03    |
|2           |DSB02RT |2020-01-31     |2020-07-03    |
|3           |DSB03RT |2020-03-01     |2020-08-02    |
|4           |DSB04RT |2020-03-31     |2020-09-01    |
|5           |DSB05RT |2020-04-30     |2020-10-01    |
|...         |...     |...            |...           |
|196         |DSB196RT|2036-01-07     |2036-06-09    |
|197         |DSB197RT|2036-02-06     |2036-07-09    |
|198         |DSB198RT|2036-03-07     |2036-08-08    |
|199         |DSB199RT|2036-04-06     |2036-09-07    |
|200         |DSB200RT|2036-05-06     |2036-10-07    |

---

- **Tabla _Estudiantes_**:
    - **estudiante_id** es la **Primary Key**.
    - **bootcamp_id** es una **Foreign Key** de la **Tabla _Bootcamp_**.
    - **email** es una columna que no permite repetidos.
    - **beca** es una columna de booleanos.
    - **inscripcion** es una columna de fechas.
    - La tabla debe tener entre 5.000 y 8.000 elementos (número de filas aleatorio).
    - Las columnas **beca** y **bootcamp_id** son aleatorias.
    - La columna **inscripcion** solo tiene fechas del año 2019.

|estudiante_id|nombre     |apellido     |email                               |inscripcion|beca |bootcamp_id|
|-------------|-----------|-------------|------------------------------------|-----------|-----|-----------|
|1            |nombre00   |apellido00   |nombre00.apellido00@python.com      |2019-07-13 |True |177        |
|2            |nombre01   |apellido01   |nombre01.apellido01@python.com      |2019-12-07 |False|185        |
|3            |nombre02   |apellido02   |nombre02.apellido02@python.com      |2019-02-27 |True |69         |
|4            |nombre03   |apellido03   |nombre03.apellido03@python.com      |2019-11-07 |True |186        |
|5            |nombre04   |apellido04   |nombre04.apellido04@python.com      |2019-11-26 |True |116        |
|...          |...        |...          |...                                 |...        |...  |...        |
|7532         |nombre7531 |apellido7531 |nombre7531.apellido7531@python.com  |2019-08-21 |False|37         |

---

- **Tabla _Modulo - Bootcamp_**:
    - **bootcamp_id** y **modulo_id** son las **Primary Key**.
    - La columna **puntuacion** es generada aleatoriamente (números del 1 a 10).

|bootcamp_id|modulo_id|puntuacion|
|-----------|---------|----------|
|1          |1        |8         |
|1          |2        |7         |
|1          |3        |5         |
|1          |4        |5         |
|1          |5        |6         |
|...        |...      |...       |
|200        |3        |10        |
|200        |4        |2         |
|200        |5        |6         |
|200        |6        |9         |
|200        |7        |6         |


**Nota**: Para crear una tabla con dos columnas como **Primary Key**:
    
```mysql
CREATE TABLE table_name
(
 column_1 INT NOT NULL,
 column_2 INT NOT NULL,
 PRIMARY KEY (column_1, column_2)
);

```

---

- **Tabla _Asistencias_**:
    - **asistencia_id** es la **Primary Key**.
    - **estudiante_id** es una **Foreign Key** de la tabla **_Estudiantes_**.
    - **asistencia** es una columna de booleanos.
    - La primera **fecha** de cada **estudiante_id** es el inicio del bootcamp de cada estudiante.
    - La última **fecha** de cada **estudiante_id** es el final del bootcamp de cada estudiante.


|asistencia_id|estudiante_id|asistencia|fecha     |
|-------------|-------------|----------|----------|
|1            |1            |True      |2021-06-24|
|2            |1            |True      |2021-06-25|
|3            |1            |True      |2021-06-26|
|4            |1            |False     |2021-06-27|
|5            |1            |True      |2021-06-28|
|...          |...          |...       |...       |
|1159924      |7532         |True      |2032-04-26|
|1159925      |7532         |True      |2032-04-27|
|1159926      |7532         |True      |2032-04-28|
|1159927      |7532         |True      |2032-04-29|
|1159928      |7532         |True      |2032-04-30|

---

### 2. Datos en Python

Usando la librería de **random**, **datetime** y **pandas** genera datos ficticios siguiendo las especificaciones de la parte anterior.

Al finalizar esta parte deberían existir 5 **DataFrames**, uno para cada tabla.

Guarda los **DataFrames** como _csv_ o como _txt_.

### 3. Cargar datos a MySQL

Usa la librería de MySQL para cargar los datos de cada tabla en el siguiente orden:

1. Bootcamps
2. Modulos
3. Modulo-Bootcamp
4. Estudiantes
5. Asistencias

### 4. Queries

Usando la BBDD que acabamos de crear responde a las siguientes preguntas:

- ¿Que bootcamp tiene más estudiantes?
- ¿Cuantos bootcamps no tienen estudiantes?
- ¿Que estudiantes tienen más asistencias y cuales tiene menos?
- ¿Que modulo tiene mas puntuación de media y cual tiene menos puntuación de media?
- ¿Qué bootcamp tiene mayor puntuación de media?
- ¿Qué bootcamp tiene mas asistencias y cual tiene menos asistencias? Los bootcamps sin estudiantes no cuentan.
- ¿Qué día tiene el mayor número de asistencias y cual tiene el menor número de asistencias?
- ¿Cuales bootcamps le dan 10 al modulo de **Machine Learning**?
- Muestra los 10 estudiantes que tenga más asistencias (_subqueries_).


Las respuestas serán diferentes debido a la aleatoriedad de los datos.

In [1]:
# Ejercicio 1 - Crear base de datos estudiantes
import mysql.connector as con

# Crear archivo sql_schema_bootcamps.sql con el código SQL para crear la base de datos y las tablas

with open(file = 'sql_schema_bootcamps.sql', mode='r', encoding='utf-8') as file:
    sql = file.read()
    
connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "admin"
)
cursor = connection.cursor()
cursor.execute(sql)
cursor.close()
connection.close()

In [2]:
# Ejercicios 2 - Generar datos ficticios
import pandas as pd
import random
import datetime

In [3]:
# Tabla modulos: Crear datos
modulos = ['Python', 'Matemáticas', 'Ciencia de Datos', 'SQL', 'Machine Learning', 'PySpark', 'Streamlit']

df_modulos = pd.DataFrame(modulos, columns=['nombre'])

# generar columna modulo_id
df_modulos = df_modulos.reset_index().rename({'index': 'modulo_id'}, axis=1)
df_modulos['modulo_id'] = df_modulos['modulo_id'] + 1
df_modulos

Unnamed: 0,modulo_id,nombre
0,1,Python
1,2,Matemáticas
2,3,Ciencia de Datos
3,4,SQL
4,5,Machine Learning
5,6,PySpark
6,7,Streamlit


In [4]:
# tabla bootcamps: crear datos 200 filas
from datetime import datetime, timedelta
bootcamps = [f'DSB0{numero}RT' if numero < 10 else f'DSB{numero}RT' for numero in range(1, 201)]

inicio_bootcamp = [datetime(year=2020, month=1, day=1) + timedelta(days= numero * 30)
                   for numero in range(200)] # 30 * 0 = 0, 30 * 1 = 30, 30 * 2 = 60, 30 * 3 = 90,

final_bootcamp = [fecha + timedelta(days=154) for fecha in inicio_bootcamp]

df_bootcamps = pd.DataFrame(
    zip(bootcamps, inicio_bootcamp, final_bootcamp),
    columns=['bootcamp', 'inicio_bootcamp', 'final_bootcamp']
)

# Añadir columna pk:
df_bootcamps = df_bootcamps.reset_index().rename({'index': 'bootcamp_id'}, axis=1)
df_bootcamps['bootcamp_id'] = df_bootcamps['bootcamp_id'] + 1
df_bootcamps

Unnamed: 0,bootcamp_id,bootcamp,inicio_bootcamp,final_bootcamp
0,1,DSB01RT,2020-01-01,2020-06-03
1,2,DSB02RT,2020-01-31,2020-07-03
2,3,DSB03RT,2020-03-01,2020-08-02
3,4,DSB04RT,2020-03-31,2020-09-01
4,5,DSB05RT,2020-04-30,2020-10-01
...,...,...,...,...
195,196,DSB196RT,2036-01-07,2036-06-09
196,197,DSB197RT,2036-02-06,2036-07-09
197,198,DSB198RT,2036-03-07,2036-08-08
198,199,DSB199RT,2036-04-06,2036-09-07


In [5]:
# generar datos tabla estudiantes:
import random 

# Creamos el numero de filas aleatorias
n_filas = random.randint(5000, 8000)
n_filas

nombres = [f'nombre0{numero}' if numero < 10 else f'nombre{numero}' for numero in range(n_filas)]
apellidos = [f'apelido0{numero}' if numero < 10 else f'apelido{numero}' for numero in range(n_filas)]

# Ver logitud  
#print(len(nombres), len(apellidos))

emails = [f'{nombre}.{apellido}@python.com' for nombre, apellido in zip(nombres, apellidos)]

becas = [random.choices([True, False], weights=[0.70, 0.30])[0] for _ in range(n_filas)]

bootcamp_ids = [random.choice(df_bootcamps['bootcamp_id']) for _ in range(n_filas)]

# Opción 1: con pandas
# fechas_2019 = pd.date_range(start='2019-01-01', end='2019-12-31').to_list()

# Opción 2: datetime
fechas_2019 = [datetime(year=2019, month=1, day=1) + timedelta(days=numero) for numero in range(365)]
inscripciones = [random.choice(fechas_2019) for _ in range(n_filas)]
inscripciones

# Opción 3: 
# fechas_2019 = pd.date_range(start='2019-01-01', end='2019-12-31')
# fechas_2019 = fechas_2019.strftime('%Y-%m-%d')
# inscripciones = [random.choice(fechas_2019) for _ in range(n_filas)]

df_estudiantes = pd.DataFrame(
    zip(nombres, apellidos, emails, inscripciones, becas, bootcamp_ids),
    columns=['nombre', 'apellido', 'email', 'inscripcion', 'beca', 'bootcamp_id']
    )

df_estudiantes = df_estudiantes.reset_index().rename({'index': 'estudiante_id'}, axis=1)
df_estudiantes['estudiante_id'] = df_estudiantes['estudiante_id'] + 1
df_estudiantes

Unnamed: 0,estudiante_id,nombre,apellido,email,inscripcion,beca,bootcamp_id
0,1,nombre00,apelido00,nombre00.apelido00@python.com,2019-06-23,True,126
1,2,nombre01,apelido01,nombre01.apelido01@python.com,2019-10-15,True,147
2,3,nombre02,apelido02,nombre02.apelido02@python.com,2019-09-25,True,168
3,4,nombre03,apelido03,nombre03.apelido03@python.com,2019-10-23,False,28
4,5,nombre04,apelido04,nombre04.apelido04@python.com,2019-04-05,True,35
...,...,...,...,...,...,...,...
5686,5687,nombre5686,apelido5686,nombre5686.apelido5686@python.com,2019-06-25,False,106
5687,5688,nombre5687,apelido5687,nombre5687.apelido5687@python.com,2019-03-21,True,176
5688,5689,nombre5688,apelido5688,nombre5688.apelido5688@python.com,2019-03-07,True,177
5689,5690,nombre5689,apelido5689,nombre5689.apelido5689@python.com,2019-10-18,False,154


In [6]:
# bucle for anidado para agregar todos los módulos en todos los bootcamps
modulo_bootcamp = list()

for bootcamp_id in df_bootcamps['bootcamp_id']:
    for modulo_id in df_modulos['modulo_id']:
        puntuacion = random.randint(1, 10)
        modulo_bootcamp.append([bootcamp_id, modulo_id, puntuacion])


df_modulo_bootcamp = pd.DataFrame(
    modulo_bootcamp, 
    columns=['bootcamp_id', 'modulo_id', 'puntuacion']
    )
df_modulo_bootcamp

Unnamed: 0,bootcamp_id,modulo_id,puntuacion
0,1,1,1
1,1,2,4
2,1,3,7
3,1,4,10
4,1,5,10
...,...,...,...
1395,200,3,3
1396,200,4,7
1397,200,5,3
1398,200,6,1


In [7]:
# df_estudiantes: estudiante_id
# df_bootcamps: inicio_bootcamp

df_estudiantes_fechas = pd.merge(df_estudiantes, df_bootcamps, on='bootcamp_id')[['estudiante_id', 'inicio_bootcamp']]

estudiantes_con_asistencias = list() # todos los estudiantes con todas las asistencias

for estudiante_id, inicio_bootcamp in df_estudiantes_fechas.values:
    # calcular fechas asistencia: lista de 154 fechas sumando con timedelta a la fecha inicio:
    fechas_asistencias = [inicio_bootcamp + timedelta(days=numero) for numero in range(154)]
    
    # calcular booleans aleatorios para cada fecha: 154 booleans
    asistencias = [random.choices([True, False], weights=[0.95, 0.05])[0] for _ in range(154)]
    
    # combinar: estudiante_id + boolean + fecha. 154 asistencias para un estudiante
    estudiante_con_asistencias = [
        [estudiante_id, asistencia, fecha] for asistencia, fecha in zip(asistencias, fechas_asistencias)
    ] # un estudiante con todas sus asistencias
    
    # añadir a la lista global:
    estudiantes_con_asistencias.extend(estudiante_con_asistencias)


df_asistencias = pd.DataFrame(
    estudiantes_con_asistencias,
    columns=['estudiante_id','asistencia','fecha']
)

df_asistencias = df_asistencias.reset_index().rename({'index': 'asistencia_id'}, axis=1)
df_asistencias['asistencia_id'] = df_asistencias['asistencia_id'] + 1
df_asistencias

Unnamed: 0,asistencia_id,estudiante_id,asistencia,fecha
0,1,1,True,2030-04-08
1,2,1,True,2030-04-09
2,3,1,True,2030-04-10
3,4,1,True,2030-04-11
4,5,1,True,2030-04-12
...,...,...,...,...
876409,876410,5691,True,2026-02-27
876410,876411,5691,True,2026-02-28
876411,876412,5691,True,2026-03-01
876412,876413,5691,True,2026-03-02


In [8]:
df_modulos.to_csv('Data/tabla_modulos.csv', index=False)
df_bootcamps.to_csv('Data/tabla_bootcamps.csv', index=False)
df_modulo_bootcamp.to_csv('Data/tabla_modulo_bootcamp.csv', index=False)
df_estudiantes.to_csv('Data/tabla_estudiantes.csv', index=False)
df_asistencias.to_csv('Data/tabla_asistencias.csv', index=False)

In [15]:
# guardar en base de datos mysql

def insertar_dataframe(df, table_name):
    try:
        connection = con.connect(
            host="localhost",
            port="3306",
            user="root",
            password="admin",
            database='bootcamps'
        )
        cursor = connection.cursor()
        
        columns = ','.join(df.columns)
        placeholders = ','.join(['%s'] * len(df.columns))
        sql = f'INSERT INTO {table_name} ({columns}) VALUES ({placeholders});'
    
        rows = [tuple(row) for index, row in df.iterrows()] # lista de tuplas con los datos del dataframe

        cursor.executemany(sql, rows)
        
        connection.commit()
        return cursor.rowcount
    except con.Error as error:
        print(f"Ha ocurrido un error: {error}")
        if connection:
            connection.rollback()
        return 0
    finally:
        if cursor: 
            cursor.close()
        if connection:
            connection.close()

In [16]:
insertar_dataframe(df_modulos, 'modulos')

Ha ocurrido un error: 1062 (23000): Duplicate entry '1' for key 'modulos.PRIMARY'


0

In [18]:
insertar_dataframe(df_bootcamps, 'bootcamps')

Ha ocurrido un error: 1146 (42S02): Table 'bootcamps.bootcamps' doesn't exist


0

In [19]:
insertar_dataframe(df_estudiantes, 'estudiantes')

Ha ocurrido un error: 1146 (42S02): Table 'bootcamps.estudiantes' doesn't exist


0

In [13]:
insertar_dataframe(df_modulo_bootcamp, 'modulo_bootcamp')

Error 1146 (42S02): Table 'bootcamps.modulo_bootcamp' doesn't exist


0

In [14]:
insertar_dataframe(df_asistencias, 'asistencias')

Error 1146 (42S02): Table 'bootcamps.asistencias' doesn't exist


0