# Notebook #2: Carga: creación de Base de Datos SQL

En este segundo notebook crearemos y cargaremos nuestra base de datos.

- El primer paso será importar las librerías necesarias:

In [1]:
# Librerías para tratamiento de datos

import pandas as pd
pd.set_option('display.max_columns', None) # Parámetro que modifica la visualización de los DFs

# Librería para el acceso a variables y funciones
import sys
sys.path.append("../")
from src import soporte_funciones as sf #Archivo .py donde encontraremos todas nuestras funciones.
from src import soporte_variables as sv

# Librería para trabajar con bases de datos SQL
import psycopg2
from psycopg2 import OperationalError, errorcodes, errors

# Librería para ignorar avisos
import warnings
warnings.filterwarnings("ignore") # Ignora TODOS los avisos



- Ahora importaremos los CSVs creados en el notebook anterior, y crearemos listas de tuplas, que es el formato necesario para la carga a la base de datos.

In [None]:
csvs = ["supermercados", "productos", "categorias", "historico"]
df_dict = {csv: pd.DataFrame() for csv in csvs}
dicc_tuplas = {}

# Carga de archivos CSV
for csv in csvs:
    directorio = f"../datos/df_{csv}.csv"
    df_dict[csv] = pd.read_csv(directorio, index_col=0)

# Conversión a tuplas (tipo de dato aceptado para cargar datos a una base de datos SQL)
for csv in csvs:
    dicc_tuplas[csv] = [tuple(fila) for fila in df_dict[csv].values]

# list(df.itertuples(index=False, name=None))

# Asignación a variables
lista_tuplas_supermercados = dicc_tuplas["supermercados"]
lista_tuplas_productos = dicc_tuplas["productos"]
lista_tuplas_categorias = dicc_tuplas["categorias"]
lista_tuplas_historico = dicc_tuplas["historico"]

- El tercer paso consiste en crear la base de datos, para lo cual, usaremos la función `dbeaver_crear_db()`, que recibe como único argumento el nombre de la base de datos que deseamos crear. En su código, se crea la conexión a DBeaver, utilizando los parámetros de conexión (usuario y contraseña) que se han guardado en el soporte `../src/.env` (oculto) e importado en  `../src/soporte_funciones.py`.

- Llamaremos a la base de datos "AlquileresMadrid".

In [None]:
#sf.dbeaver_crear_db("alquileresmadrid")

Base de datos AlquileresMadrid creada con éxito


- Los datos se insertarán en las tablas que crearemos a continuación, con ayuda de las queries de creación definidas en `../src/soporte_variables.py`.

- Para crear esas tablas, hemos decidido que nuestra base de datos se estructurará de la manera en que vemos en el siguiente esquema entidad relación, que muestra la información que contiene cada tabla y cómo se relaciona entre sí. En el README del proyecto se explica su diseño.

<img src="../images/DiagramaER.png" width="400">


- En este caso utilizaremos dos funciones:

    - `sf.dbeaver_conexion()`: recibe como parámetro el nombre de la base de datos de DBeaver y crea la conexión entre el notebook y la base de datos.
    - `sf.dbeaver_commit()`: recibe como parámetros la conexión a DBeaver y la query de creación, realizando el commit hacia la base de datos.

In [5]:
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_distritos)
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_airbnb)
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_idealista)
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_redpiso)
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_ingreso_hogar)
sf.dbeaver_commit(sf.dbeaver_conexion("alquileresmadrid"),sv.query_creacion_poblacion)

Commit realizado
Commit realizado
Commit realizado
Commit realizado
Commit realizado
Commit realizado


- Con las tablas preparadas, continuamos con la inserción de los mismos.
- Usaremos la función `sf.dbeaver_commitmany()`, que recibe como argumentos:
    - la conexión a DBeaver (usando la función de conexión),
    - las queries de inserción que hemos definido en `src/soporte_variables.py` y,
    - los datos que deseamos insertar, en este caso, las listas de tuplas preparadas anteriormente.
- Esta función envía múltiples datos desde el notebook hacia la base de datos DBeaver.

In [None]:
sf.dbeaver_commitmany(sf.dbeaver_conexion("AlquileresMadrid"),sv.query_insercion_distritos,lista_tuplas_distritos)

Commit realizado


- Con los datos insertados, podemos empezar a trabajar sobre nuestra base de datos. Continuamos con las consultas a la base de datos, la visualización y el análisis en el Notebook #3.