## Ejercicio Crear BBDD

En este ejercicio vamos a crear una base de datos ficticia de estudiantes de un bootcamp

1. Crear datos ficticios en Python.
3. Llenar las tablas usando la librería de MySQL en Python.

---



- **Tabla _Modulos_**:
    - **modulo_id** es la **Primary Key**.
    - La tabla debe tener estos elementos.

|modulo_id|modulos         |
|---------|----------------|
|1        |Python          |
|2        |Matemáticas     |
|3        |Ciencia de Datos|
|4        |SQL             |
|5        |Machine Learning|
|6        |PySpark         |
|7        |Streamlit       |

---

- **Tabla _Bootcamps_**:
    - **bootcamp_id** es la **Primary Key**.
    - La primera fecha es del 2020.
    - Empieza un nuevo bootcamp cada 30 días.
    - Cada bootcamp termina después de 154 días.
    - La tabla tiene 200 elementos.
    
|bootcamp_id |bootcamp|inicio_bootcamp|final_bootcamp|
|------------|--------|---------------|--------------|
|1           |DSB01RT |2020-01-01     |2020-06-03    |
|2           |DSB02RT |2020-01-31     |2020-07-03    |
|3           |DSB03RT |2020-03-01     |2020-08-02    |
|4           |DSB04RT |2020-03-31     |2020-09-01    |
|5           |DSB05RT |2020-04-30     |2020-10-01    |
|...         |...     |...            |...           |
|196         |DSB196RT|2036-01-07     |2036-06-09    |
|197         |DSB197RT|2036-02-06     |2036-07-09    |
|198         |DSB198RT|2036-03-07     |2036-08-08    |
|199         |DSB199RT|2036-04-06     |2036-09-07    |
|200         |DSB200RT|2036-05-06     |2036-10-07    |

---

- **Tabla _Estudiantes_**:
    - **estudiante_id** es la **Primary Key**.
    - **bootcamp_id** es una **Foreign Key** de la **Tabla _Bootcamp_**.
    - **email** es una columna que no permite repetidos.
    - **beca** es una columna de booleanos.
    - **inscripcion** es una columna de fechas.
    - La tabla debe tener entre 5.000 y 8.000 elementos (número de filas aleatorio).
    - Las columnas **beca** y **bootcamp_id** son aleatorias.
    - La columna **inscripcion** solo tiene fechas del año 2019.

|estudiante_id|nombre     |apellido     |email                               |inscripcion|beca |bootcamp_id|
|-------------|-----------|-------------|------------------------------------|-----------|-----|-----------|
|1            |nombre00   |apellido00   |nombre00.apellido00@python.com      |2019-07-13 |True |177        |
|2            |nombre01   |apellido01   |nombre01.apellido01@python.com      |2019-12-07 |False|185        |
|3            |nombre02   |apellido02   |nombre02.apellido02@python.com      |2019-02-27 |True |69         |
|4            |nombre03   |apellido03   |nombre03.apellido03@python.com      |2019-11-07 |True |186        |
|5            |nombre04   |apellido04   |nombre04.apellido04@python.com      |2019-11-26 |True |116        |
|...          |...        |...          |...                                 |...        |...  |...        |
|7532         |nombre7531 |apellido7531 |nombre7531.apellido7531@python.com  |2019-08-21 |False|37         |


### 2. Datos en Python

Usando la librería de **random**, **datetime** y **pandas** genera datos ficticios siguiendo las especificaciones de la parte anterior.

Al finalizar esta parte deberían existir 5 **DataFrames**, uno para cada tabla.

Guarda los **DataFrames** como _csv_ o como _txt_.

### 3. Cargar datos a MySQL

Usa la librería de MySQL para cargar los datos de cada tabla en el siguiente orden:

1. Bootcamps
2. Modulos
4. Estudiantes



**RESOLUCION DEL EJERCICIO**

**CREACIÓN DE LA BASE DE DATOS***
En primer lugar, creare una base de datos que llamaré "EjercicioBoothcamp". Importare las librerias Pandas, Mysql conector y de la libreria Datetime importo datetime, timedelta.

1. Parámetros de Entrada de la función create_database

- database: Nombre de la base de datos que se va a crear.
- host, user, y password: Parámetros opcionales para la conexión a MySQL. 

2. Establecer Conexión:

- Utilizo la biblioteca mysql.connector para establecer una conexión con MySQL, utilizando los parámetros proporcionados.

3. Crear Base de Datos:
- Ejecuta una sentencia SQL para crear la base de datos especificada (CREATE DATABASE IF NOT EXISTS {database};).
- La cláusula IF NOT EXISTS evita que se cree la base de datos si ya existe.

4. Cerrar Conexión:
- Cierra el cursor y la conexión después de ejecutar la sentencia SQL.

5. Llamada a la función para crear la base de datos que habia definido al inicio como database = "EjercicioBoothcamp"

In [2]:
import pandas as pd
import mysql.connector
from datetime import datetime, timedelta


def create_database(database, host = "localhost", user = "prueba", password = "C4g5^1t0"):
    
    db = mysql.connector.connect(host     = host,
                                 user     = user,
                                 password = password)

    cursor = db.cursor()
    
    cursor.execute(f"CREATE DATABASE IF NOT EXISTS {database};")
    
    cursor.close()
    db.close()

    

In [4]:
database = "EjercicioBootcamp"

In [5]:
create_database(database = database)

Imagen de la base de datos creada en Workbench

![Base de datos](home/sibyl/Documentos/Boothcamp_proyectos/mod4-mysql/14_11_2023/data%20ejercicio/create_database_ejercicioboothcamp.png) 



In [6]:
#Introduzco una funcion para crear una tabla que me puede ser util más adelante

def execute_query(query, database, host = "localhost", user = "prueba", password = "C4g5^1t0"):
    
    db = mysql.connector.connect(host     = "localhost",
                             user     = "prueba",
                             password = "C4g5^1t0",
                             database = database)

    cursor = db.cursor()

    cursor.execute(query)

    cursor.fetchall() # Vaciamos el cursor
    cursor.close()
    db.close()

***TABLA MODULOS***


1. Se define una lista llamada data que contiene sublistas, cada una con dos elementos: un identificador de módulo (número entero) y el nombre del módulo (cadena de texto).

2. Se utiliza el constructor de DataFrame de pandas para crear un DataFrame llamado modulos a partir del diccionario data. Se especifican las columnas del DataFrame como "modulo_id" y "modulos".

De esta manera utilizo pandas para organizar la información sobre módulos en un formato tabular, facilitando su manipulación y análisis.

In [7]:
data = [[1, "Python"],
         [2, "Matemáticas"],
         [3, "Ciencia de Datos"],
         [4, "SQL"],
         [5, "Machine Learning"],
         [6, "PySpark"],
         [7, "Streamlit"]]

modulos = pd.DataFrame(data = data, columns = ["modulo_id", "modulos"])

modulos

Unnamed: 0,modulo_id,modulos
0,1,Python
1,2,Matemáticas
2,3,Ciencia de Datos
3,4,SQL
4,5,Machine Learning
5,6,PySpark
6,7,Streamlit


In [8]:
#Utilizare MySQL alchemy para trasladar la tabla a MySql.
#Como primer paso descargaré ñas librerias necesarias y estableceré la conexión con la base de datos.

import pandas as pd
from sqlalchemy import create_engine

user = "prueba"
password = "C4g5^1t0"
database = database

engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")


#Ahora que ya tengo la conexión establecida, puedo pasar la tabla a MySql.
modulos.to_sql(name = "modulos", con = engine, if_exists = "replace", index = False)


7

Comprobando en MySQL Workbench, la tabla ha sido trasladada correctamente.


![Tabla Modulos](home/sibyl/Documentos/Boothcamp_proyectos/mod4-mysql/14_11_2023/data%20ejercicio/modulos.png)


**Crear la tabla Boothcamps**

Recordamos que el ejercicio nos pide: 

    - **bootcamp_id** es la **Primary Key**.
    - La primera fecha es del 2020.
    - Empieza un nuevo bootcamp cada 30 días.
    - Cada bootcamp termina después de 154 días.
    - La tabla tiene 200 elementos.
    
|bootcamp_id |bootcamp|inicio_bootcamp|final_bootcamp|
|------------|--------|---------------|--------------|
|1           |DSB01RT |2020-01-01     |2020-06-03    |
|2           |DSB02RT |2020-01-31     |2020-07-03    |
|3           |DSB03RT |2020-03-01     |2020-08-02    |
|4           |DSB04RT |2020-03-31     |2020-09-01    |
|5           |DSB05RT |2020-04-30     |2020-10-01    |
|...         |...     |...            |...           |
|196         |DSB196RT|2036-01-07     |2036-06-09    |
|197         |DSB197RT|2036-02-06     |2036-07-09    |
|198         |DSB198RT|2036-03-07     |2036-08-08    |
|199         |DSB199RT|2036-04-06     |2036-09-07    |
|200         |DSB200RT|2036-05-06     |2036-10-07    |



Para obtener la segunda tabla, voy a realizar los siguientes pasos:

1. Crear la tabla "Bootcamps" con las columnas `bootcamp_id`, `bootcamp`, `inicio_bootcamp` y `final_bootcamp`, donde `bootcamp_id` será la clave primaria.
2. Generar los datos para insertar en la tabla. Cada bootcamp comienza 30 días después del inicio del bootcamp anterior y termina 154 días después de su inicio. El primer bootcamp comienza el 1 de enero de 2020.
3. Insertar los datos en la tabla.





In [9]:
# Conectar a la base de datos
db = mysql.connector.connect(host = "localhost", user = "prueba", password = "C4g5^1t0")
cursor = db.cursor()

# Usar la base de datos
cursor.execute (f"USE {database}")

# Crear la tabla Bootcamps
cursor.execute("""
CREATE TABLE IF NOT EXISTS Bootcamps (
    bootcamp_id INT AUTO_INCREMENT PRIMARY KEY,
    bootcamp VARCHAR(255),
    inicio_bootcamp DATE,
    final_bootcamp DATE
)
""")

# Generar e insertar los datos
start_date = datetime(2020, 1, 1)
for i in range(1, 201):
    bootcamp_id = i
    bootcamp_name = f"DSB{i:03d}RT"
    inicio_bootcamp = start_date + timedelta(days=(i - 1) * 30)
    final_bootcamp = inicio_bootcamp + timedelta(days=154)

    cursor.execute("""
    INSERT INTO Bootcamps (bootcamp_id, bootcamp, inicio_bootcamp, final_bootcamp)
    VALUES (%s, %s, %s, %s)
    """, (bootcamp_id, bootcamp_name, inicio_bootcamp, final_bootcamp))

# Guardar los cambios
db.commit()

# Cerrar la conexión
cursor.close()
db.close()

1. Se inicializa la conexión con SQL indicando los paramentros necesarios.
2. Define la estructura de la tabla Bootcamps mediante la ejecución de la sentencia SQL create_table.
3. Se utiliza un bucle para generar los datos de bootcamp y las fechas de inicio y finalización.
   El bucle itera 200 veces, creando un nuevo bootcamp en intervalos de 30 días.
4. Realiza la confirmación de los cambios en la base de datos y cierra el cursor y la conexión.
5. Se ejecuta la función sobre la base de datos.

![workbench con tabla bootcamp creada](
home/sibyl/Documentos/Boothcamp_proyectos/mod4-mysql/14_11_2023/data%20ejercicio/Creacion%20de%20tabla%20bootcamp.png)


**TABLA 3. Estudiantes**

Para la tabla Estudiantes el ejercicio nos pide lo siguiente:

    - **estudiante_id** es la **Primary Key**.
    - **bootcamp_id** es una **Foreign Key** de la **Tabla _Bootcamp_**.
    - **email** es una columna que no permite repetidos.
    - **beca** es una columna de booleanos.
    - **inscripcion** es una columna de fechas.
    - La tabla debe tener entre 5.000 y 8.000 elementos (número de filas aleatorio).
    - Las columnas **beca** y **bootcamp_id** son aleatorias.
    - La columna **inscripcion** solo tiene fechas del año 2019.

Nos dan un ejemplo de cómo deberia quedar la tabla

|estudiante_id|nombre     |apellido     |email                               |inscripcion|beca |bootcamp_id|
|-------------|-----------|-------------|------------------------------------|-----------|-----|-----------|
|1            |nombre00   |apellido00   |nombre00.apellido00@python.com      |2019-07-13 |True |177        |
|2            |nombre01   |apellido01   |nombre01.apellido01@python.com      |2019-12-07 |False|185        |
|3            |nombre02   |apellido02   |nombre02.apellido02@python.com      |2019-02-27 |True |69         |
|4            |nombre03   |apellido03   |nombre03.apellido03@python.com      |2019-11-07 |True |186        |
|5            |nombre04   |apellido04   |nombre04.apellido04@python.com      |2019-11-26 |True |116        |
|...          |...        |...          |...                                 |...        |...  |...        |
|7532         |nombre7531 |apellido7531 |nombre7531.apellido7531@python.com  |2019-08-21 |False|37         |

Gracias a la función definida con anterioridad execute_query se pudo crear la tabla Estudiantes aportando nuevos valores para la query con la misma base de datos.

In [10]:
query = ('''
    CREATE TABLE IF NOT EXISTS Estudiantes (
        estudiante_id INTEGER AUTO_INCREMENT PRIMARY KEY,
        nombre TEXT,
        apellido TEXT,
        email VARCHAR(255) UNIQUE,
        inscripcion DATE,
        beca BOOLEAN,
        bootcamp_id INTEGER,
        FOREIGN KEY (bootcamp_id) REFERENCES Bootcamps(bootcamp_id)
    )
''')

execute_query(query, database)


![Crear tabla Estudiantes](home/sibyl/Documentos/Boothcamp_proyectos/mod4-mysql/14_11_2023/data%20ejercicio/Crear%20tabla%20estudiantes.png)


In [14]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from datetime import datetime, timedelta

# Configurar Faker
fake = Faker()

# Configurar el rango de fechas para inscripciones en el año 2019
fecha_inicio = datetime(2019, 1, 1)
fecha_fin = datetime(2019, 12, 31)

# Generar datos aleatorios
num_filas = random.randint(5000, 8000)
estudiante_ids = np.arange(1, num_filas + 1)
nombres = [fake.first_name() for _ in range(num_filas)]
apellidos = [fake.last_name() for _ in range(num_filas)]
emails = [f"{nombre.lower()}.{apellido.lower()}@python.com" for nombre, apellido in zip(nombres, apellidos)]
inscripciones = [fake.date_time_between(fecha_inicio, fecha_fin).strftime('%Y-%m-%d') for _ in range(num_filas)]
becas = [random.choice([True, False]) for _ in range(num_filas)]
bootcamp_ids = [random.randint(1, 200) for _ in range(num_filas)]

# Crear el DataFrame
data = {
    'estudiante_id': estudiante_ids,
    'nombre': nombres,
    'apellido': apellidos,
    'email': emails,
    'inscripcion': inscripciones,
    'beca': becas,
    'bootcamp_id': bootcamp_ids
}

df = pd.DataFrame(data)



df.head ()
 



Unnamed: 0,estudiante_id,nombre,apellido,email,inscripcion,beca,bootcamp_id
0,1,James,Myers,james.myers@python.com,2019-06-17,True,138
1,2,Chelsea,Garcia,chelsea.garcia@python.com,2019-04-22,True,182
2,3,Brendan,Farrell,brendan.farrell@python.com,2019-07-13,False,169
3,4,April,Briggs,april.briggs@python.com,2019-04-03,False,71
4,5,Kristi,Wang,kristi.wang@python.com,2019-03-14,True,134


In [13]:
import mysql.connector
from sqlalchemy import create_engine


# Crear la conexión
engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")

# Abrir una conección
connection = engine.connect()

# Insertar datos en la tabla Estudiantes

df.to_sql('Estudiantes', con=engine, if_exists='replace', index=False)


connection.commit()

# Cerrar la conexión
connection.close()

![datosEstudiantes](home/sibyl/Documentos/Boothcamp_proyectos/mod4-mysql/14_11_2023/data%20ejercicio/estudiantes.png)


Este ejercicio es la primera parte de un ejercicio completo de 5 tablas relacionales. Hasta aquí la primera parte.

In [None]:
################################################################################################################################