## Ejercicio Crear BBDD

En este ejercicio vamos a crear una base de datos ficticia de estudiantes de HACK A BOSS.

Para esto vamos a separar este ejercicio en 3 partes:

1. Creación del modelo entidad-relación en SQL.
2. Crear datos ficticios en Python.
3. Llenar las tablas usando la librería de MySQL en Python.

---

### 1. Modelo Entidad-Relación

Existen muchas formas de crear una base de datos de estudiantes, para hacer este ejercicio vamos a guiarnos por este ejemplo:

![schema-estudiantes.png](attachment:schema-estudiantes.png)

Donde existen 5 tablas:

- **Tabla _Modulos_**:
    - **modulo_id** es la **Primary Key**.
    - La tabla debe tener estos elementos.

|modulo_id|modulos         |
|---------|----------------|
|1        |Python          |
|2        |Matemáticas     |
|3        |Ciencia de Datos|
|4        |SQL             |
|5        |Machine Learning|
|6        |PySpark         |
|7        |Streamlit       |

---

- **Tabla _Bootcamps_**:
    - **bootcamp_id** es la **Primary Key**.
    - La primera fecha es del 2020.
    - Empieza un nuevo bootcamp cada 30 días.
    - Cada bootcamp termina después de 154 días.
    - La tabla tiene 200 elementos.
    
|bootcamp_id |bootcamp|inicio_bootcamp|final_bootcamp|
|------------|--------|---------------|--------------|
|1           |DSB01RT |2020-01-01     |2020-06-03    |
|2           |DSB02RT |2020-01-31     |2020-07-03    |
|3           |DSB03RT |2020-03-01     |2020-08-02    |
|4           |DSB04RT |2020-03-31     |2020-09-01    |
|5           |DSB05RT |2020-04-30     |2020-10-01    |
|...         |...     |...            |...           |
|196         |DSB196RT|2036-01-07     |2036-06-09    |
|197         |DSB197RT|2036-02-06     |2036-07-09    |
|198         |DSB198RT|2036-03-07     |2036-08-08    |
|199         |DSB199RT|2036-04-06     |2036-09-07    |
|200         |DSB200RT|2036-05-06     |2036-10-07    |

---

- **Tabla _Estudiantes_**:
    - **estudiante_id** es la **Primary Key**.
    - **bootcamp_id** es una **Foreign Key** de la **Tabla _Bootcamp_**.
    - **email** es una columna que no permite repetidos.
    - **beca** es una columna de booleanos.
    - **inscripcion** es una columna de fechas.
    - La tabla debe tener entre 5.000 y 8.000 elementos (número de filas aleatorio).
    - Las columnas **beca** y **bootcamp_id** son aleatorias.
    - La columna **inscripcion** solo tiene fechas del año 2019.

|estudiante_id|nombre     |apellido     |email                               |inscripcion|beca |bootcamp_id|
|-------------|-----------|-------------|------------------------------------|-----------|-----|-----------|
|1            |nombre00   |apellido00   |nombre00.apellido00@python.com      |2019-07-13 |True |177        |
|2            |nombre01   |apellido01   |nombre01.apellido01@python.com      |2019-12-07 |False|185        |
|3            |nombre02   |apellido02   |nombre02.apellido02@python.com      |2019-02-27 |True |69         |
|4            |nombre03   |apellido03   |nombre03.apellido03@python.com      |2019-11-07 |True |186        |
|5            |nombre04   |apellido04   |nombre04.apellido04@python.com      |2019-11-26 |True |116        |
|...          |...        |...          |...                                 |...        |...  |...        |
|7532         |nombre7531 |apellido7531 |nombre7531.apellido7531@python.com  |2019-08-21 |False|37         |

---

- **Tabla _Modulo - Bootcamp_**:
    - **bootcamp_id** y **modulo_id** son las **Primary Key**.
    - La columna **puntuacion** es generada aleatoriamente (números del 1 a 10).

|bootcamp_id|modulo_id|puntuacion|
|-----------|---------|----------|
|1          |1        |8         |
|1          |2        |7         |
|1          |3        |5         |
|1          |4        |5         |
|1          |5        |6         |
|...        |...      |...       |
|200        |3        |10        |
|200        |4        |2         |
|200        |5        |6         |
|200        |6        |9         |
|200        |7        |6         |


**Nota**: Para crear una tabla con dos columnas como **Primary Key**:
    
```mysql
CREATE TABLE table_name
(
 column_1 INT NOT NULL,
 column_2 INT NOT NULL,
 PRIMARY KEY (column_1, column_2)
);

```

---

- **Tabla _Asistencias_**:
    - **asistencia_id** es la **Primary Key**.
    - **estudiante_id** es una **Foreign Key** de la tabla **_Estudiantes_**.
    - **asistencia** es una columna de booleanos.
    - La primera **fecha** de cada **estudiante_id** es el inicio del bootcamp de cada estudiante.
    - La última **fecha** de cada **estudiante_id** es el final del bootcamp de cada estudiante.


|asistencia_id|estudiante_id|asistencia|fecha     |
|-------------|-------------|----------|----------|
|1            |1            |True      |2021-06-24|
|2            |1            |True      |2021-06-25|
|3            |1            |True      |2021-06-26|
|4            |1            |False     |2021-06-27|
|5            |1            |True      |2021-06-28|
|...          |...          |...       |...       |
|1708010      |7532         |True      |2032-04-26|
|1708011      |7532         |True      |2032-04-27|
|1708012      |7532         |True      |2032-04-28|
|1708013      |7532         |True      |2032-04-29|
|1708014      |7532         |True      |2032-04-30|

---

### 2. Datos en Python

Usando la librería de **random**, **datetime** y **pandas** genera datos ficticios siguiendo las especificaciones de la parte anterior.

Al finalizar esta parte deberían existir 5 **DataFrames**, uno para cada tabla.

Guarda los **DataFrames** como _csv_ o como _txt_.

### 3. Cargar datos a MySQL

Usa la librería de MySQL para cargar los datos de cada tabla en el siguiente orden:

1. Bootcamps
2. Modulos
3. Modulo-Bootcamp
4. Estudiantes
5. Asistencias

### 4. Queries

Usando la BBDD que acabamos de crear responde a las siguientes preguntas:

- ¿Que bootcamp tiene más estudiantes?
- ¿Cuantos bootcamps no tienen estudiantes?
- ¿Que estudiantes tienen más asistencias y cuales tiene menos?
- ¿Que modulo tiene mas puntuación de media y cual tiene menos puntuación de media?
- ¿Qué bootcamp tiene mayor puntuación de media?
- ¿Qué bootcamp tiene mas asistencias y cual tiene menos asistencias? Los bootcamps sin estudiantes no cuentan.
- ¿Qué día tiene el mayor número de asistencias y cual tiene el menor número de asistencias?
- ¿Cuales bootcamps le dan 10 al modulo de **Machine Learning**?
- Muestra los estudiantes del bootcamp que tenga más asistencias (_subqueries_).


Las respuestas serán diferentes debido a la aleatoriedad de los datos.

In [34]:
import pandas as pd
import mysql.connector
from datetime import datetime, timedelta

def execute_query(query, database, host = "localhost", user = "root", password = "password"):
    
    db = mysql.connector.connect(host     = host,
                                 user     = user,
                                 password = password,
                                 database = database)

    cursor = db.cursor()

    cursor.execute(query)

    cursor.fetchall() # Vaciamos el cursor
    cursor.close()
    db.close()
    
def create_database(database, host = "localhost", user = "root", password = "password"):
    
    db = mysql.connector.connect(host     = host,
                                 user     = user,
                                 password = password)

    cursor = db.cursor()
    
    cursor.execute(f"CREATE DATABASE IF NOT EXISTS {database};")
    
    cursor.close()
    db.close()
    

def insert_to_table(data, table, database, host = "localhost", user = "root", password = "password"):
    
    db = mysql.connector.connect(host     = host,
                                 user     = user,
                                 password = password,
                                 database = database)
    cursor = db.cursor()

    # Seleccionamos las columnas de la tabla, omitiendo la Primary Key
    cursor.execute(f"SELECT * FROM {table} LIMIT 0;")
    column_names = cursor.column_names[1:]
    cursor.fetchall()

    insert_query = f"INSERT INTO {table} ({', '.join(column_names)}) VALUES ({', '.join(['%s' for _ in column_names])})".replace("'", "")
    values = [tuple(row) for row in data]

    # .executemany ejecuta el query de INSERT INTO con cada uno de los elementos de "values"
    cursor.executemany(insert_query, values)
    
    # Guarda los resultados
    db.commit()

    print(f"Añadidas: {cursor.rowcount} filas")

    cursor.fetchall() # Vaciamos el cursor
    cursor.close()
    db.close()

In [47]:
create_database(database = "dsb06rt")

In [6]:
# data = [[1, "Python"],
#         [2, "Matemáticas"],
#         [3, "Ciencia de Datos"],
#         [4, "SQL"],
#         [5, "Machine Learning"],
#         [6, "PySpark"],
#         [7, "Streamlit"]]

data = {"modulo_id" : list(range(1, 8)),
        "modulos" : ["Python", "Matemáticas", "Ciencia de Datos", "SQL", "Machine Learning", "PySpark", "Streamlit"]}

modulos = pd.DataFrame(data = data, columns = ["modulo_id", "modulos"])

modulos

Unnamed: 0,modulo_id,modulos
0,1,Python
1,2,Matemáticas
2,3,Ciencia de Datos
3,4,SQL
4,5,Machine Learning
5,6,PySpark
6,7,Streamlit


In [49]:
query = """CREATE TABLE modulos (
           modulos_id INT AUTO_INCREMENT PRIMARY KEY,
           modulos VARCHAR(20));"""

execute_query(query = query, database = "dsb06rt")

In [50]:
insert_to_table(data = modulos.values[:, 1:],
                table = "modulos",
                database = "dsb06rt")

Añadidas: 7 filas


In [51]:
query = """CREATE TABLE bootcamps (
           bootcamp_id INT AUTO_INCREMENT PRIMARY KEY,
           bootcamp VARCHAR(255),
           inicio_bootcamp DATE,
           final_bootcamp DATE);"""


execute_query(query = query, database = "dsb06rt")

In [32]:
primera_columna = list(range(1, 201))

segunda_columna = [f"DSB{i}RT" if i > 9 else f"DSB0{i}RT" for i in range(1, 201)]

tercera_columna = [(datetime(2020, 1, 1) + timedelta(days = 30*i)).strftime("%Y-%m-%d") for i in range(200)]

cuarta_columna = [(datetime.strptime(x, "%Y-%m-%d") + timedelta(days = 154*num)).strftime("%Y-%m-%d") for num, x in enumerate(tercera_columna, start = 1)]

bootcamps = pd.DataFrame(data = zip(primera_columna, segunda_columna, tercera_columna, cuarta_columna),
                         columns = ["bootcamp_id", "bootcamp", "inicio_bootcamp", "final_bootcamp"])
bootcamps

Unnamed: 0,bootcamp_id,bootcamp,inicio_bootcamp,final_bootcamp
0,1,DSB01RT,2020-01-01,2020-06-03
1,2,DSB02RT,2020-01-31,2020-12-04
2,3,DSB03RT,2020-03-01,2021-06-06
3,4,DSB04RT,2020-03-31,2021-12-07
4,5,DSB05RT,2020-04-30,2022-06-09
...,...,...,...,...
195,196,DSB196RT,2036-01-07,2118-08-29
196,197,DSB197RT,2036-02-06,2119-03-01
197,198,DSB198RT,2036-03-07,2119-09-01
198,199,DSB199RT,2036-04-06,2120-03-03


In [52]:
primera_columna = []

for i in range(1, 201):
    primera_columna.append(i)
    
primera_columna

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 107,
 108,
 109,
 110,
 111,
 112,
 113,
 114,
 115,
 116,
 117,
 118,
 119,
 120,
 121,
 122,
 123,
 124,
 125,
 126,
 127,
 128,
 129,
 130,
 131,
 132,
 133,
 134,
 135,
 136,
 137,
 138,
 139,
 140,
 141,
 142,
 143,
 144,
 145,
 146,
 147,
 148,
 149,
 150,
 151,
 152,
 153,
 154,
 155,
 156,
 157,
 158,
 159,
 160,
 161,
 162,
 163,
 164,
 165,
 166,
 167,
 168,
 169,
 170,
 171,
 172,
 173,
 174,
 175,
 176,
 177,
 178,
 179,
 180,
 181,
 182,
 183,
 184,
 185

In [54]:
segunda_columna = []

for i in range(1, 201):
    
    if i < 10:
    
        string = f"DSB0{i}RT"
    
    else:

        string = f"DSB{i}RT"
        
    segunda_columna.append(string)
    
segunda_columna

['DSB01RT',
 'DSB02RT',
 'DSB03RT',
 'DSB04RT',
 'DSB05RT',
 'DSB06RT',
 'DSB07RT',
 'DSB08RT',
 'DSB09RT',
 'DSB10RT',
 'DSB11RT',
 'DSB12RT',
 'DSB13RT',
 'DSB14RT',
 'DSB15RT',
 'DSB16RT',
 'DSB17RT',
 'DSB18RT',
 'DSB19RT',
 'DSB20RT',
 'DSB21RT',
 'DSB22RT',
 'DSB23RT',
 'DSB24RT',
 'DSB25RT',
 'DSB26RT',
 'DSB27RT',
 'DSB28RT',
 'DSB29RT',
 'DSB30RT',
 'DSB31RT',
 'DSB32RT',
 'DSB33RT',
 'DSB34RT',
 'DSB35RT',
 'DSB36RT',
 'DSB37RT',
 'DSB38RT',
 'DSB39RT',
 'DSB40RT',
 'DSB41RT',
 'DSB42RT',
 'DSB43RT',
 'DSB44RT',
 'DSB45RT',
 'DSB46RT',
 'DSB47RT',
 'DSB48RT',
 'DSB49RT',
 'DSB50RT',
 'DSB51RT',
 'DSB52RT',
 'DSB53RT',
 'DSB54RT',
 'DSB55RT',
 'DSB56RT',
 'DSB57RT',
 'DSB58RT',
 'DSB59RT',
 'DSB60RT',
 'DSB61RT',
 'DSB62RT',
 'DSB63RT',
 'DSB64RT',
 'DSB65RT',
 'DSB66RT',
 'DSB67RT',
 'DSB68RT',
 'DSB69RT',
 'DSB70RT',
 'DSB71RT',
 'DSB72RT',
 'DSB73RT',
 'DSB74RT',
 'DSB75RT',
 'DSB76RT',
 'DSB77RT',
 'DSB78RT',
 'DSB79RT',
 'DSB80RT',
 'DSB81RT',
 'DSB82RT',
 'DSB83RT',
 'DS

In [60]:
tercera_columna = []

for i in range(0, 200):
    
    primera_fecha = datetime(2020, 1, 1)
    
    suma = timedelta(days = 30*i)
    
    resultado = (primera_fecha + suma).strftime("%Y-%m-%d")
    
    tercera_columna.append(resultado)
    
tercera_columna

['2020-01-01',
 '2020-01-31',
 '2020-03-01',
 '2020-03-31',
 '2020-04-30',
 '2020-05-30',
 '2020-06-29',
 '2020-07-29',
 '2020-08-28',
 '2020-09-27',
 '2020-10-27',
 '2020-11-26',
 '2020-12-26',
 '2021-01-25',
 '2021-02-24',
 '2021-03-26',
 '2021-04-25',
 '2021-05-25',
 '2021-06-24',
 '2021-07-24',
 '2021-08-23',
 '2021-09-22',
 '2021-10-22',
 '2021-11-21',
 '2021-12-21',
 '2022-01-20',
 '2022-02-19',
 '2022-03-21',
 '2022-04-20',
 '2022-05-20',
 '2022-06-19',
 '2022-07-19',
 '2022-08-18',
 '2022-09-17',
 '2022-10-17',
 '2022-11-16',
 '2022-12-16',
 '2023-01-15',
 '2023-02-14',
 '2023-03-16',
 '2023-04-15',
 '2023-05-15',
 '2023-06-14',
 '2023-07-14',
 '2023-08-13',
 '2023-09-12',
 '2023-10-12',
 '2023-11-11',
 '2023-12-11',
 '2024-01-10',
 '2024-02-09',
 '2024-03-10',
 '2024-04-09',
 '2024-05-09',
 '2024-06-08',
 '2024-07-08',
 '2024-08-07',
 '2024-09-06',
 '2024-10-06',
 '2024-11-05',
 '2024-12-05',
 '2025-01-04',
 '2025-02-03',
 '2025-03-05',
 '2025-04-04',
 '2025-05-04',
 '2025-06-

In [69]:
cuarta_columna = []

for fecha in tercera_columna:
    
    fecha = datetime.strptime(fecha, "%Y-%m-%d")
    
    resultado = (fecha + timedelta(days = 154)).strftime("%Y-%m-%d")
    
    cuarta_columna.append(resultado)
    
cuarta_columna

['2020-06-03',
 '2020-07-03',
 '2020-08-02',
 '2020-09-01',
 '2020-10-01',
 '2020-10-31',
 '2020-11-30',
 '2020-12-30',
 '2021-01-29',
 '2021-02-28',
 '2021-03-30',
 '2021-04-29',
 '2021-05-29',
 '2021-06-28',
 '2021-07-28',
 '2021-08-27',
 '2021-09-26',
 '2021-10-26',
 '2021-11-25',
 '2021-12-25',
 '2022-01-24',
 '2022-02-23',
 '2022-03-25',
 '2022-04-24',
 '2022-05-24',
 '2022-06-23',
 '2022-07-23',
 '2022-08-22',
 '2022-09-21',
 '2022-10-21',
 '2022-11-20',
 '2022-12-20',
 '2023-01-19',
 '2023-02-18',
 '2023-03-20',
 '2023-04-19',
 '2023-05-19',
 '2023-06-18',
 '2023-07-18',
 '2023-08-17',
 '2023-09-16',
 '2023-10-16',
 '2023-11-15',
 '2023-12-15',
 '2024-01-14',
 '2024-02-13',
 '2024-03-14',
 '2024-04-13',
 '2024-05-13',
 '2024-06-12',
 '2024-07-12',
 '2024-08-11',
 '2024-09-10',
 '2024-10-10',
 '2024-11-09',
 '2024-12-09',
 '2025-01-08',
 '2025-02-07',
 '2025-03-09',
 '2025-04-08',
 '2025-05-08',
 '2025-06-07',
 '2025-07-07',
 '2025-08-06',
 '2025-09-05',
 '2025-10-05',
 '2025-11-

In [73]:
bootcamps = pd.DataFrame(data = zip(primera_columna, segunda_columna, tercera_columna, cuarta_columna),
                         columns = ["bootcamp_id", "bootcamp", "inicio_bootcamp", "final_bootcamp"])

bootcamps

Unnamed: 0,bootcamp_id,bootcamp,inicio_bootcamp,final_bootcamp
0,1,DSB01RT,2020-01-01,2020-06-03
1,2,DSB02RT,2020-01-31,2020-07-03
2,3,DSB03RT,2020-03-01,2020-08-02
3,4,DSB04RT,2020-03-31,2020-09-01
4,5,DSB05RT,2020-04-30,2020-10-01
...,...,...,...,...
195,196,DSB196RT,2036-01-07,2036-06-09
196,197,DSB197RT,2036-02-06,2036-07-09
197,198,DSB198RT,2036-03-07,2036-08-08
198,199,DSB199RT,2036-04-06,2036-09-07


In [74]:
# bootcamps["inicio_bootcamp"] = pd.to_datetime(bootcamps["inicio_bootcamp"])
# bootcamps["final_bootcamp"] = pd.to_datetime(bootcamps["final_bootcamp"])

In [76]:
insert_to_table(data = bootcamps.iloc[:, 1:].values,
                table = "bootcamps",
                database = "dsb06rt")

Añadidas: 200 filas


In [None]:
################################################################################################################################