## Ejercicio Crear BBDD

En este ejercicio vamos a crear una base de datos ficticia de estudiantes de HACK A BOSS.

Para esto vamos a separar este ejercicio en 3 partes:

1. Creación del modelo entidad-relación en SQL.
2. Crear datos ficticios en Python.
3. Llenar las tablas usando la librería de MySQL en Python.

---

### 1. Modelo Entidad-Relación

Existen muchas formas de crear una base de datos de estudiantes, para hacer este ejercicio vamos a guiarnos por este ejemplo:

![schema-estudiantes.png](attachment:91cb735e-0eb4-4c48-8509-ba956c2d6d07.png)

Donde existen 5 tablas:

- **Tabla _Modulos_**:
    - **modulo_id** es la **Primary Key**.
    - La tabla debe tener estos elementos.

|modulo_id|modulos         |
|---------|----------------|
|1        |Python          |
|2        |Matemáticas     |
|3        |Ciencia de Datos|
|4        |SQL             |
|5        |Machine Learning|
|6        |PySpark         |
|7        |Streamlit       |

---

- **Tabla _Bootcamps_**:
    - **bootcamp_id** es la **Primary Key**.
    - La primera fecha es del 2020.
    - Empieza un nuevo bootcamp cada 30 días.
    - Cada bootcamp termina después de 154 días.
    - La tabla tiene 200 elementos.
    
|bootcamp_id |bootcamp|inicio_bootcamp|final_bootcamp|
|------------|--------|---------------|--------------|
|1           |DSB01RT |2020-01-01     |2020-06-03    |
|2           |DSB02RT |2020-01-31     |2020-07-03    |
|3           |DSB03RT |2020-03-01     |2020-08-02    |
|4           |DSB04RT |2020-03-31     |2020-09-01    |
|5           |DSB05RT |2020-04-30     |2020-10-01    |
|...         |...     |...            |...           |
|196         |DSB196RT|2036-01-07     |2036-06-09    |
|197         |DSB197RT|2036-02-06     |2036-07-09    |
|198         |DSB198RT|2036-03-07     |2036-08-08    |
|199         |DSB199RT|2036-04-06     |2036-09-07    |
|200         |DSB200RT|2036-05-06     |2036-10-07    |

---

- **Tabla _Estudiantes_**:
    - **estudiante_id** es la **Primary Key**.
    - **bootcamp_id** es una **Foreign Key** de la **Tabla _Bootcamp_**.
    - **email** es una columna que no permite repetidos.
    - **beca** es una columna de booleanos.
    - **inscripcion** es una columna de fechas.
    - La tabla debe tener entre 5.000 y 8.000 elementos (número de filas aleatorio).
    - Las columnas **beca** y **bootcamp_id** son aleatorias.
    - La columna **inscripcion** solo tiene fechas del año 2019.

|estudiante_id|nombre     |apellido     |email                               |inscripcion|beca |bootcamp_id|
|-------------|-----------|-------------|------------------------------------|-----------|-----|-----------|
|1            |nombre00   |apellido00   |nombre00.apellido00@python.com      |2019-07-13 |True |177        |
|2            |nombre01   |apellido01   |nombre01.apellido01@python.com      |2019-12-07 |False|185        |
|3            |nombre02   |apellido02   |nombre02.apellido02@python.com      |2019-02-27 |True |69         |
|4            |nombre03   |apellido03   |nombre03.apellido03@python.com      |2019-11-07 |True |186        |
|5            |nombre04   |apellido04   |nombre04.apellido04@python.com      |2019-11-26 |True |116        |
|...          |...        |...          |...                                 |...        |...  |...        |
|7532         |nombre7531 |apellido7531 |nombre7531.apellido7531@python.com  |2019-08-21 |False|37         |

---

- **Tabla _Modulo - Bootcamp_**:
    - **bootcamp_id** y **modulo_id** son las **Primary Key**.
    - La columna **puntuacion** es generada aleatoriamente (números del 1 a 10).

|bootcamp_id|modulo_id|puntuacion|
|-----------|---------|----------|
|1          |1        |8         |
|1          |2        |7         |
|1          |3        |5         |
|1          |4        |5         |
|1          |5        |6         |
|...        |...      |...       |
|200        |3        |10        |
|200        |4        |2         |
|200        |5        |6         |
|200        |6        |9         |
|200        |7        |6         |


**Nota**: Para crear una tabla con dos columnas como **Primary Key**:
    
```mysql
CREATE TABLE table_name
(
 column_1 INT NOT NULL,
 column_2 INT NOT NULL,
 PRIMARY KEY (column_1, column_2)
);

```

---

- **Tabla _Asistencias_**:
    - **asistencia_id** es la **Primary Key**.
    - **estudiante_id** es una **Foreign Key** de la tabla **_Estudiantes_**.
    - **asistencia** es una columna de booleanos.
    - La primera **fecha** de cada **estudiante_id** es el inicio del bootcamp de cada estudiante.
    - La última **fecha** de cada **estudiante_id** es el final del bootcamp de cada estudiante.


|asistencia_id|estudiante_id|asistencia|fecha     |
|-------------|-------------|----------|----------|
|1            |1            |True      |2021-06-24|
|2            |1            |True      |2021-06-25|
|3            |1            |True      |2021-06-26|
|4            |1            |False     |2021-06-27|
|5            |1            |True      |2021-06-28|
|...          |...          |...       |...       |
|1159924      |7532         |True      |2032-04-26|
|1159925      |7532         |True      |2032-04-27|
|1159926      |7532         |True      |2032-04-28|
|1159927      |7532         |True      |2032-04-29|
|1159928      |7532         |True      |2032-04-30|

---

### 2. Datos en Python

Usando la librería de **random**, **datetime** y **pandas** genera datos ficticios siguiendo las especificaciones de la parte anterior.

Al finalizar esta parte deberían existir 5 **DataFrames**, uno para cada tabla.

Guarda los **DataFrames** como _csv_ o como _txt_.

### 3. Cargar datos a MySQL

Usa la librería de MySQL para cargar los datos de cada tabla en el siguiente orden:

1. Bootcamps
2. Modulos
3. Modulo-Bootcamp
4. Estudiantes
5. Asistencias

### 4. Queries

Usando la BBDD que acabamos de crear responde a las siguientes preguntas:

- ¿Que bootcamp tiene más estudiantes?
- ¿Cuantos bootcamps no tienen estudiantes?
- ¿Que estudiantes tienen más asistencias y cuales tiene menos?
- ¿Que modulo tiene mas puntuación de media y cual tiene menos puntuación de media?
- ¿Qué bootcamp tiene mayor puntuación de media?
- ¿Qué bootcamp tiene mas asistencias y cual tiene menos asistencias? Los bootcamps sin estudiantes no cuentan.
- ¿Qué día tiene el mayor número de asistencias y cual tiene el menor número de asistencias?
- ¿Cuales bootcamps le dan 10 al modulo de **Machine Learning**?
- Muestra los 10 estudiantes que tenga más asistencias (_subqueries_).


Las respuestas serán diferentes debido a la aleatoriedad de los datos.

In [None]:
# Ejercicio 1 - Crear base de datos estudiantes o cursos o bootcamps

# hacemos el codigo SQL que se ejcute desde python o desde workbench

# crear archivo sql_schema_bootcamps.sql con el códuigo SQL para crear la base de datos y las tablas

with open(file = 'sql_schema_bootcamps.sql', mode = 'r', encoding = 'utf-8') as file:
    sql = file.read()

connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "1234abcd"
)
cursor = connection.cursor()
cursor.execute(sql)
cursor.close()
connection.close()


In [11]:
# Ejercicio 2 - generar datos ficticios
import pandas as pd
import random
import datetime

# tabla modulos: crear datos
modulos = ['Python', 'Matemáticas', 'Ciencia de Datos', 'SQL', 'Machine Learning', 'PySpark', 'Streamlit']

df_modulos = pd.DataFrame(modulos, columns=['nombre'])

# generar columna modulo_id aprovechando que ya tiene un índice incremental 
df_modulos = df_modulos.reset_index().rename({'index': 'modulo_id'}, axis=1)
df_modulos['modulo_id'] = df_modulos['modulo_id'] + 1
# Crear columna modulo_id con datos 1,2,3,4

df_modulos

Unnamed: 0,modulo_id,nombre
0,1,Python
1,2,Matemáticas
2,3,Ciencia de Datos
3,4,SQL
4,5,Machine Learning
5,6,PySpark
6,7,Streamlit


In [12]:
# tabla bootcampa: crear datos
#n_bootcamps = 200
#for bootcamp in range(1,n_bootcamps + 1) # para llegar hasta 200
#for bootcamp in range(1, 201) # para llegar hasta 200
import pandas as pd
import random
import datetime

from datetime import datetime, timedelta
bootcamps = [ f'DSB0{numero}RT' if numero < 10 else f'DSB{numero}RT' for numero in range(1, 201)]      

inicio_bootcamp = [datetime(year=2020, month=1, day=1) + timedelta(days= numero * 30)
                    for numero in range(200)] # empieza en cero para tener la fecha inicial 0,1,2,3,4... 199
final_bootcamp = [ fecha + timedelta(days=154) for fecha in inicio_bootcamp]

df_bootcamps = pd.DataFrame(
    zip(bootcamps, inicio_bootcamp, final_bootcamp),
    columns = ['bootcamp', 'inicio_bootcamp', 'final_bootcamp']
)

# Añadir columna pk:
df_bootcamps = df_bootcamps.reset_index().rename({'index': 'bootcamp_id'}, axis=1)
df_bootcamps['bootcamp_id'] = df_bootcamps['bootcamp_id'] + 1
df_bootcamps


Unnamed: 0,bootcamp_id,bootcamp,inicio_bootcamp,final_bootcamp
0,1,DSB01RT,2020-01-01,2020-06-03
1,2,DSB02RT,2020-01-31,2020-07-03
2,3,DSB03RT,2020-03-01,2020-08-02
3,4,DSB04RT,2020-03-31,2020-09-01
4,5,DSB05RT,2020-04-30,2020-10-01
...,...,...,...,...
195,196,DSB196RT,2036-01-07,2036-06-09
196,197,DSB197RT,2036-02-06,2036-07-09
197,198,DSB198RT,2036-03-07,2036-08-08
198,199,DSB199RT,2036-04-06,2036-09-07


In [38]:
# [numero for numero in range(200)]
datetime(year=2020, month=1, day=1) + timedelta(days=30)




datetime.datetime(2020, 1, 31, 0, 0)

In [13]:
# generar datos tabla estudiantes
import random

n_filas = random.randint(5000, 8000)
n_filas # es el numero de estudiantes, lo usaremos para generar los nombres

nombres = [f'nombre0{numero}' if numero < 10 else f'nombre{numero}' for numero in range(n_filas)]
apellidos = [f'apellido0{numero}' if numero < 10 else f'apellido{numero}' for numero in range(n_filas)]
print(len(nombres), len(apellidos))

# Generar correos electrónicos combinando nombres y apellidos
emails = [f"{nombre}.{apellido}@python.com" for nombre, apellido in zip(nombres, apellidos)]

becas = [random.choices([True, False], weights=[0.7, 0.3])[0] for _ in range(n_filas)] # es un booleano

bootcamp_ids = [random.choice(df_bootcamps['bootcamp_id']) for _ in range(n_filas)]

# son fechas comprendidas entre 1-1-2019 y el 31-12-2019
# Opcion 1: con Pandas
# fechas_2019  = pd.date_range(start='2019-01-01', end='2019-12-31').to_list()
# Opcion 2: con datetime
fechas_2019 = [datetime(year=2019, month=1, day=1) + timedelta(days=numero) for numero in range(365)]
inscripciones = [random.choice(fechas_2019) for _ in range(n_filas)] 
inscripciones

# Opcion 3 : 
#fechas_2019 = pd.date_range(start='2019-01-01', end='2019-12-31')
#fechas_2019 = fechas_2019.strftime('%Y-%m-%d')
#inscripciones = [random.choice(fechas_2019) for _ in range(n_filas)]

df_estudiantes = pd.DataFrame(
    zip(nombres, apellidos, emails, inscripciones, becas, bootcamp_ids),
    columns=['nombre', 'apellido', 'email', 'inscripcion', 'beca', 'bootcamp_id']
    )
df_estudiantes = df_estudiantes.reset_index().rename({'index': 'estudiante_id'}, axis=1)
df_estudiantes['estudiante_id'] = df_estudiantes['estudiante_id'] + 1
df_estudiantes

5857 5857


Unnamed: 0,estudiante_id,nombre,apellido,email,inscripcion,beca,bootcamp_id
0,1,nombre00,apellido00,nombre00.apellido00@python.com,2019-01-30,False,120
1,2,nombre01,apellido01,nombre01.apellido01@python.com,2019-10-04,True,110
2,3,nombre02,apellido02,nombre02.apellido02@python.com,2019-12-23,False,129
3,4,nombre03,apellido03,nombre03.apellido03@python.com,2019-02-09,False,90
4,5,nombre04,apellido04,nombre04.apellido04@python.com,2019-10-19,False,195
...,...,...,...,...,...,...,...
5852,5853,nombre5852,apellido5852,nombre5852.apellido5852@python.com,2019-04-24,False,162
5853,5854,nombre5853,apellido5853,nombre5853.apellido5853@python.com,2019-08-14,True,164
5854,5855,nombre5854,apellido5854,nombre5854.apellido5854@python.com,2019-08-31,True,22
5855,5856,nombre5855,apellido5855,nombre5855.apellido5855@python.com,2019-12-27,False,118


In [81]:
#random.choices([True, False], weights=[0.7, 0.3])[0] 
# queremos meter un booleano dentro de una lista, hay que coger solo el primer elemento porque si no meteriamos una lista en una lista
# weights da el porcentaje que queremos de cada uno, el peso de cada booleano

#help(random.choices)

Help on method choices in module random:

choices(population, weights=None, *, cum_weights=None, k=1) method of random.Random instance
    Return a k sized list of population elements chosen with replacement.

    If the relative weights or cumulative weights are not specified,
    the selections are made with equal probability.



In [87]:
#random.choice(df_bootcamps['bootcamp_id'])

np.int64(34)

In [14]:
# bucle for anidado para agregar todos los módulos en todos los bootcamps
modulo_bootcamp = list()
for bootcamp_id in df_bootcamps['bootcamp_id']:
    for modulo_id in df_modulos['modulo_id']:
        puntuacion = random.randint(1, 10)
        modulo_bootcamp.append([bootcamp_id, modulo_id, puntuacion])
        
df_modulo_bootcamp = pd.DataFrame(
    modulo_bootcamp,
    columns = ['bootcamp_id', 'modulo_id', 'puntuacion']
)
df_modulo_bootcamp

Unnamed: 0,bootcamp_id,modulo_id,puntuacion
0,1,1,10
1,1,2,7
2,1,3,5
3,1,4,1
4,1,5,2
...,...,...,...
1395,200,3,9
1396,200,4,4
1397,200,5,7
1398,200,6,3


In [16]:
# Hay que usar las fechas que tnemos en la tabla bootcamps
# podemos hacer un merge de df_estudiantes, que nos da el id del estudiante
# para cada estudiante se ha asignado al menos un bootcamp, y cada uno tiene fechas distintas!!
# df_estudiantes: estudiante_id
# df_bootcamps: inicio_bootcamp

df_estudiantes_fechas = pd.merge(df_estudiantes, df_bootcamps, on='bootcamp_id')[['estudiante_id', 'inicio_bootcamp']]

estudiantes_con_asistencias = list() # todos los estudiantes con todas las asistencias

for estudiante_id, inicio_bootcamp in df_estudiantes_fechas.values:
    # calcular fecha asistencias: lista de las 154 fechas de cada bootcamp, sumando con timedelta a la fecha de inicio
    fechas_asistencias = [inicio_bootcamp + timedelta(days=numero) for numero in range(154)]
 
    # calcular booleans aleatorios para cada fecha : 154 booleans
    asistencias = [random.choices([True, False], weights=[0.95, 0.05])[0] for _ in range(154)]
 
    # combinar:  estudiante_id + boolean + fecha. 154 asistencias para cada estudiante
    estudiante_con_asistencias = [
        [estudiante_id, asistencia, fecha] for asistencia, fecha in zip(asistencias, fechas_asistencias)
    ] # un estudiante con todas sus asistencias
 
    # añadir a la lista global:
    estudiantes_con_asistencias.extend(estudiante_con_asistencias)
    
estudiantes_con_asistencias 

df_asistencias = pd.DataFrame(
    estudiantes_con_asistencias,
    columns=['estudiante_id','asistencia','fecha']
)

df_asistencias = df_asistencias.reset_index().rename({'index': 'asistencia_id'}, axis=1)
df_asistencias['asistencia_id'] = df_asistencias['asistencia_id'] + 1
    
    

In [17]:
df_modulos.to_csv('../Data/tabla_modulos.csv', index=False)
df_bootcamps.to_csv('../Data/tabla_bootcamps.csv', index=False)
df_modulo_bootcamp.to_csv('../Data/tabla_modulo_bootcamp.csv', index=False)
df_estudiantes.to_csv('../Data/tabla_estudiantes.csv', index=False)
df_asistencias.to_csv('../Data/tabla_asistencias.csv', index=False)





In [18]:
import inspect
names = [name for name in inspect.currentframe().f_globals.items()]
names

[('__name__', '__main__'),
 ('__doc__',
  'Automatically created module for IPython interactive environment'),
 ('__package__', None),
 ('__loader__', None),
 ('__spec__', None),
 ('__builtin__', <module 'builtins' (built-in)>),
 ('__builtins__', <module 'builtins' (built-in)>),
 ('_ih',
  ['',
   "# Hay que usar las fechas que tnemos en la tabla bootcamps\n# podemos hacer un merge de df_estudiantes, que nos da el id del estudiante\n# para cada estudiante se ha asignado al menos un bootcamp, y cada uno tiene fechas distintas!!\n# df_estudiantes: estudiante_id\n# df_bootcamps: inicio_bootcamp\n\ndf_estudiantes_fechas = pd.merge(df_estudiantes, df_bootcamps, on='bootcamp_id')[['estudiante_id', 'inicio_bootcamps']]\n\nestudiantes_con_asistencias = list() # todos los estudiantes con todas las asistencias\n\nfor estudiante_id, inicio_bootcamp in df_estudiantes_fechas.values:\n    # calcular fecha asistencias: lista de las 154 fechas de cada bootcamp, sumando con timedelta a la fecha de inic