# Configuración del entorno de trabajo

Jupyter Notebook es una herramienta interactiva ampliamente utilizada en el ámbito de la ciencia de datos, análisis y desarrollo de software. Permite combinar código, texto, visualizaciones y resultados en un único documento, lo que facilita la documentación y la reproducibilidad de los ejemplos. Se basa en la creación de _notebooks_, que son documentos formados por _celdas_ de código. Estas celdas pueden contener código en diferentes lenguajes de programación, como Python, y código en formato Markdown para la documentación. Estas celdas se pueden ejecutar de forma independiente, lo que permite realizar pruebas y experimentos de manera interactiva.

En el contexto de bases de datos, Jupyter es especialmente útil para:

- **Conexión a bases de datos**: A través de extensiones como `jupysql`, un fork de `ipython-sql`, es posible conectarse a diferentes sistemas de gestión de bases de datos (PostgreSQL, MySQL, SQLite, entre otros) y ejecutar consultas SQL directamente desde las celdas del notebook. En entornos online de Jupyter, como Google Colab o JupyterHub, esta funcionalidad puede estar preconfigurada para facilitar el acceso a bases de datos específicas.
- **Exploración de datos**: Permite realizar consultas, visualizar tablas y analizar los datos de manera interactiva.
- **Documentación**: Gracias al soporte de Markdown, se pueden documentar los pasos realizados, explicar los resultados y compartir el análisis con otros.
- **Integración con Python**: Combina la potencia de SQL para consultas con las capacidades analíticas y de visualización de Python.

Esto convierte a Jupyter en una herramienta ideal para trabajar con bases de datos de manera eficiente y colaborativa.


## Conexión a bases de datos con SQL Alchemy

`SQL Alchemy` es una biblioteca de Python que proporciona una forma flexible y potente de trabajar con bases de datos relacionales. Permite interactuar con diferentes motores de bases de datos, como MySQL, PostgreSQL y SQLite, entre otros. En función del motor de base de datos que se utilice, es necesario instalar el controlador adecuado para establecer la conexión. Por ejemplo, para MySQL se utiliza `pymysql`, mientras que para PostgreSQL se emplea `psycopg2`. Estos paquetes se pueden instalar utilizando `pip`. 


### Instalación de dependencias

Es posible que el entorno que se esté utilizando, ya sea local o online, tenga instaladas las dependencias necesarias para conectarse a una base de datos específica. Por tanto, se producirán errores si se intenta conectar a una base de datos sin tener instalados los controladores adecuados. Una forma de comprobar si las dependencias están instaladas es intentar importar las bibliotecas necesarias en una celda de Jupyter Notebook:


In [None]:
import sqlalchemy

# Para MySQL
import pymysql

# Para PostgreSQL
# import psycopg2  

Si el código anterior se ejecuta sin errores, significa que las dependencias están instaladas correctamente. Si se produce un error de importación, será necesario instalar las bibliotecas correspondientes. Para instalar las dependencias necesarias, se pueden utilizar los siguientes comandos de `pip` en una celda de Jupyter Notebook:

In [None]:
pip install sqlalchemy pymysql psycopg2-binary

Tras instalar las dependencias, el script anterior debería ejecutarse sin errores.

In [None]:
import sqlalchemy

# Para MySQL
import pymysql

# Para PostgreSQL
# import psycopg2  

**Para poder visualizar los resultados de las consultas SQL en Jupyter Notebook, es necesario instalar la extensión `jupysql`. Esta extensión facilita la ejecución de consultas SQL y la visualización de los resultados directamente en el notebook.**

In [None]:
pip install jupysql

### Extensión SQL en Jupyter Notebook

Para cargar la extensión `SQL` en un Jupyter Notebook, se usa el comando `%load_ext sql`. Esta extensión permite ejecutar consultas SQL directamente desde las celdas del notebook, utilizando una sintaxis especial que comienza con `%%sql` para celdas mágicas o `%sql` para comandos en línea. Esta extensión es especialmente útil para conectarse a bases de datos y realizar consultas de manera interactiva, integrando los resultados directamente en el flujo de trabajo del notebook. Esto facilita la exploración y análisis de datos almacenados en bases de datos relacionales.

In [None]:
%load_ext sql

### URI de conexión a bases de datos

Para conectarse a una base de datos se necesita la URI de conexión, que normalmente incluye el nombre de usuario, la contraseña, la dirección del servidor y el nombre de la base de datos. Además, incluye el dialecto y el controlador que se utilizarán para la conexión. El dialect especifica el tipo de base de datos (por ejemplo, `mysql`, `postgresql`, `sqlite`), mientras que el controlador indica la biblioteca específica que se utilizará para interactuar con esa base de datos (por ejemplo, `pymysql` para MySQL, `psycopg2` para PostgreSQL). En un entorno de Jupyter Notebook, la URI de conexión tiene el siguiente formato:

```bash
dialect+driver://username:password@host:port/database
```

A continuación se muestran algunos ejemplos de URL de conexión para diferentes bases de datos:

- MySQL: `mysql+pymysql://username:password@host:port/database` (requiere el controlador `pymysql`)
- PostgreSQL: `postgresql+psycopg2://username:password@host:port/database` (requiere el controlador `psycopg2`)
- SQLite: `sqlite:///path/to/database.db`

## Ejemplo de conexión a una base de datos MySQL

Tras haber cargado la extensión SQL en Jupyter Notebook y tener la URI de conexión adecuada, se puede establecer una conexión a una base de datos MySQL utilizando el siguiente código, sustituyendo los valores de usuario, contraseña, host, puerto y base de datos según sea necesario (Usaremos las credenciales del servidor MySQL de Aiven):

In [None]:
%%sql 
mysql+pymysql://uuu:ppp@mysql-xxxxxxxx-dbds.b.aivencloud.com:28830/defaultdb

Tras la conexión, se puede ejecutar un código de inicialización de una base de datos, como la siguiente, que corresponde a un ejemplo sencillo de un banco.

In [None]:
%%sql
DROP TABLE IF EXISTS transacciones;
DROP TABLE IF EXISTS ctacli;
DROP TABLE IF EXISTS cuentas;
DROP TABLE IF EXISTS empleados;
DROP TABLE IF EXISTS sucursales;
DROP TABLE IF EXISTS clientes;

CREATE TABLE sucursales (
    nombresuc varchar(10),
    ciudadsuc varchar(10),
    activo decimal(8,1),
    PRIMARY KEY(nombresuc)
);

CREATE TABLE empleados (
    nombreemp varchar(8),
    dniemp smallint,
    telefono integer,
    nombresuc varchar(8),
    PRIMARY KEY (dniemp),
    FOREIGN KEY(nombresuc) REFERENCES sucursales(nombresuc)
);

CREATE TABLE cuentas (
    numerocta smallint,
    saldo decimal(6,1),
    nombresuc varchar(8),
    PRIMARY KEY(numerocta),
    FOREIGN KEY(nombresuc) REFERENCES sucursales(nombresuc)
);

CREATE TABLE clientes (
    nombrecli varchar(8),
    dnicli smallint,
    domicilio varchar(23),
    PRIMARY KEY (dnicli)
);

CREATE TABLE ctacli (
    dnicli smallint,
    numerocta smallint,
    PRIMARY KEY(dnicli, numerocta),
    FOREIGN KEY(dnicli) REFERENCES clientes(dnicli),
    FOREIGN KEY(numerocta) REFERENCES cuentas(numerocta)
);

CREATE TABLE transacciones (
    numerocta smallint,
    numerotrans smallint,
    fecha date,
    importe decimal(6,1),
    PRIMARY KEY(numerocta, numerotrans),
    FOREIGN KEY(numerocta) REFERENCES cuentas(numerocta)
);


-- Insertar datos en sucursales
INSERT INTO sucursales VALUES 
('Downtown','Brooklyn',9000000.0),
('Redwood','Palo Alto',2100000.0),
('Perrydge','Horseneck',1700000.0),
('Mianus','Horseneck',400000.0),
('Round Hill','Horseneck',8000000.0),
('Pownal','Bennington',300000.0),
('North Town','Rye',3700000.0),
('Brighton','Brooklyn',7100000.0);

-- Insertar datos en empleados
INSERT INTO empleados VALUES 
('Smith',10,101010,'Downtown'),
('Kortz',11,111111,'Downtown'),
('Hansen',12,121212,'Perrydge'),
('Dubitzky',13,131313,'Perrydge'),
('Henson',14,141414,'Mianus'),
('Kravitz',15,151515,'Brighton');

-- Insertar datos en cuentas
INSERT INTO cuentas VALUES 
(1,10000.0,'Downtown'),
(2,20000.0,'Downtown'),
(3,30000.0,'Perrydge'),
(4,40000.0,'Perrydge'),
(5,50000.0,'Mianus'),
(6,60000.0,'Brighton');

-- Insertar datos en clientes
INSERT INTO clientes VALUES 
('Johnson',1,'La Reina nº 7'),
('Smith',2,'Fragata Azul nº 8'),
('Hayes',3,'Gibraltar Español nº 14'),
('Turner',4,'Gibraltar Español nº 17'),
('Williams',5,'Diamante S/N'),
('Lindsay',6,'Gato negro nº 13'),
('Green',7,'Perro nº 1');

-- Insertar datos en ctacli
INSERT INTO ctacli VALUES 
(1,1),(1,2),(1,6),(2,3),(3,4),(4,5),(5,5),(6,5),(7,6);

-- Insertar datos en transacciones
INSERT INTO transacciones VALUES 
(1,1,'2024-01-01',10000.0),
(2,1,'2024-01-01',30000.0),
(2,2,'2024-01-01',-20000.0),
(3,1,'2024-01-01',30000.0),
(4,1,'2024-01-01',40000.0),
(5,1,'2024-01-01',50000.0),
(6,1,'2024-01-01',60000.0);

Tras inicializar las tablas, se pueden realizar consultas SQL para explorar los datos almacenados en la base de datos. Por ejemplo, se puede consultar la lista de empleados:

In [None]:
%%sql
SELECT * FROM empleados

Tras comprrobar la conexión, se pueden eliminar las tablas creadas para dejar la base de datos limpia

In [None]:
%%sql
DROP TABLE IF EXISTS transacciones;
DROP TABLE IF EXISTS ctacli;
DROP TABLE IF EXISTS cuentas;
DROP TABLE IF EXISTS empleados;
DROP TABLE IF EXISTS sucursales;
DROP TABLE IF EXISTS clientes;