# Sprint 8 - Bases de Datos y SQL (Sesiones)
**Versión para estudiantes**

El propósito de estos ejercicios es introducir en el uso de herramientas para administrar bases de datos, y junto con esto aprender la sintaxis básica **SQL** que permitirá interactuar con dichas bases de datos. Vamos a enfocarnos en los siguientes temas en concreto:

* Conexión Postgres - VS Code
* Creación de bases de datos
* Consultas mediante SQL
* Consultas de bases de datos con Python

Para facilitar el cumplimiento de este objetivo, te recomiendo descargar e instalar **PostgreSQL** desde el link https://www.postgresql.org/download/. Durante la instalación se requerirá que establezcas una contraseña que deberás definirla tú y recordarla. Una vez instalado puedes probar que todo esté funcionando bien abriendo la app **pgAdmin**.

Adicionalmente, en VS Code busca e instala la extensión **PostgreSQL** de Microsoft:

![](Postgres.png)

Si has seguido correctamente estas recomendaciones, verás que en el lado izquierdo de tu VS Code aparece el ícono ![](icon.png) (Podría ser necesario que reinicies tu equipo para que todos los cambios y aplicaciones empiecen a funcionar satisfactoriamente).

## Conexión Postgres - VS Code

En primera instancia vamos a conectarnos al servidor local **Postgres** desde VS Code. Para esto da click en el ícono ![](icon.png). y se te desplegará lo siguiente:

![](im1.png)

A continuación da click en "Add Connection" y en la ventana emergente completa esta información:

* *Server Name*:            localhost
* *Authentication Type*:    Password
* *User Name*:              postgres
* *Password*:               [tu contraseña definida en la instalación de **PostgreSQL**]
* *Connection Name*:        Servidor_Local
* *Port*:                   5432

Si todo fue hecho correctamente verás aparecer tu servidor local:

![](im2.png)

En general, recuerda que siempre va a ser necesario conectarse a un servidor de Bases de Datos para poder trabajar en ellas.

## Creación de bases de datos

Vamos a crear nuestra primera base de datos en el servidor. Para esto abre un nuevo archivo de texto y selecciona **SQL** como nuevo lenguaje con las teclas *Ctrl + K M*.

Además de esto, en la parte superior del archivo verás que aparece ![](im3.png). Dale clik a esta opción y conecta el archivo a tu Servidor_Local. El texto cambiará a ![](im4.png). 

Una vez hecho esto, escribe el comando para crear la base de datos con el nombre **db_grupoxx** (xx siendo el número de tu cohorte).

Ejecútalo seleccionándolo **por completo** y presionando *Shift + Enter*.

Conéctate ahora a la base de datos que has creado dando click en la parte superior donde dice "postgres" hasta que veas que el texto de arriba cambia a ![](im5.png). 

Ahora bien, una base de datos tiene justamente eso: datos. Crea entonces una tabla con los siguientes criterios:

* **fac_visitasweb** con las siguientes columnas:
    * id_visitas de tipo entero y que sea la clave primaria.
    * url de tipo texto.
    * hora de tipo texto restringido a 5 caracteres.
    * dia de tipo entero.
    * direccion_ip de tipo texto.
    * duracion_seg de tipo real (o flotante).

Crea 3 tablas adicionales que cumplan los criterios descritos a continuación:

* **cat_ip** con las siguientes columnas:
    * ip de tipo texto y que sea la clave primaria.
    * pais de tipo texto.

* **cat_url** con las siguientes columnas:
    * url de tipo texto y que sea la clave primaria.
    * categoria de tipo texto.
    * categoria_blog de tipo texto.

* **cat_empleados** con las siguientes columnas:
    * id_empleado de tipo entero y que sea la clave primaria.
    * nombre de tipo texto restringido a 255 caracteres.
    * apellido de tipo texto restringido a 255 caracteres.
    * pais de tipo texto restringido a 255 caracteres.
    * email de tipo texto restringido a 255 caracteres.
    * salario de tipo entero.
    * incremento de tipo real (o flotante).
    * antiguedad de tipo fecha.
    * departamento de tipo texto restringido a 255 caracteres.
    * contrato_permanente de tipo buleano.
    * ultimo_ingreso de tipo fecha - hora (timestamp). 

**NOTA:** Si deseas eliminar alguna de estas tablas (porque escribiste mal algo o no funcionan) puedes hacerlo con el comando siguiente:

 ```sql
 DROP TABLE nombre_tabla
 ```

Por ahora hemos creado tablas pero no contienen información. Ejecuta el comando a continuación para verificar esto:

```sql
SELECT * FROM fac_visitasweb
```

Descarga por tanto la información que contendrán estas tablas desde el link

https://github.com/jsaraujott/datos/raw/refs/heads/main/Datasets_SQL.zip

Extrae los archivos de la carpeta comprimida y guárdalos en algun directorio PÚBLICO de tu computadora (Recomiendo el **Escritorio** pue ssuele ser una carpeta pública).

Llena las tablas **fac_visitasweb**, **cat_ip** y **cat_url** con los archivos *csv* descargados. 

Verifica que las tablas ya contengan datos.

Las tablas que creaste, y llenaste de datos desde fuentes externas, contienen información asociada a la navegación en el dominio web https://www.mashpilodge.com. Mashpi es un hotel ubicado en medio de una reserva natural en Ecuador y famoso a nivel mundial no solamente por el servicio hotelero que ofrece, sino por el enfoque en la conservación e investigación biológica y botánica a lo que se suscribe. 

* La tabla **fac_visitasweb** concretamente detalla todos los puntos de navegación en dicho dominio durante un mes en específico, mostrando la ip (una suerte de identificación de usuario), el día y hora, la duración y la url específica que fue visitada.
* La tabla **cat_ip** es un diccionario que asocia a cada ip un país, y por tanto permite la geolocalización de usuarios del dominio web en cuestión.
* La tabla **cat_url** es un diccionario que asocia a cada url una categoría específica, permitiendo así agrupar diferentes tipologías de navegación. 

Visto esto, altera las tablas creadas de forma que en la base de datos todas ellas se asocien a través de sus columnas clave.

Si hiciste todo bien, ya has creado una base de datos que no solamente contiene tablas, sino también un modelo de datos coherente con el contexto de la información. Así es como se ve el modelo mencionado de forma visual:

![](modelo_datos.png)

Llena ahora de forma manual la tabla **cat_empleados**, la cual debe contener un registro de algunos colaboradores que trabajan a nivel mundial en Mashpi Lodge.

```sql
INSERT INTO cat_empleados VALUES
(1, 'Raul', 'Martinez', 'MX', 'raul.martinez@hml.com', 25000, 0.15, DATE '2015/01/01', 'Recursos Humanos', TRUE, TIMESTAMP '2023/03/01 9:00:15'),
(2, 'Ana', 'Sosa', 'MX', 'ana.sosa@hml.com', 35000, 0.10, DATE '2021/11/01', 'Recursos Humanos', TRUE, TIMESTAMP '2023/03/01 9:05:22'),
(3, 'Fernanda', 'Gomez', 'AR', 'fernanda.gomez@hml.com', 28000, 0.12, DATE '2018/10/15', 'Recursos Humanos', TRUE, TIMESTAMP '2023/03/01 8:45:22'),
(4, 'Omar', 'Diaz', 'PE', 'omar.diaz@hml.com', 20000, 0.10, DATE '2022/03/01', 'Recursos Humanos', FALSE, TIMESTAMP '2023/03/01 8:34:15'),
(5, 'Sara', 'Klein', 'CR', 'sara.klein@hml.com', 40000, 0.15, DATE '2021/09/01', 'Recursos Humanos', TRUE, TIMESTAMP '2023/03/01 10:23:58'),
(6, 'Karla', 'Maxwell', 'CO', 'karla.maxwell@hml.com', 38000, 0.12, DATE '2010/09/15', 'Recursos Humanos', TRUE, TIMESTAMP '2023/03/01 8:57:34'),
(7, 'Rodolfo', 'Sanchez', 'MX', 'ana.sosa@hml.com', 45000, 0.10, DATE '2005/11/01', 'Finanzas', TRUE, TIMESTAMP '2023/02/01 9:05:22'),
(8, 'Maria Luisa', 'Dominguez', 'CH', 'ana.sosa@hml.com', 29000, 0.08, DATE '2009/11/01', 'Finanzas', TRUE, TIMESTAMP '2023/02/01 9:02:29'),
(9, 'Carlos', 'Ruiz', 'CO', 'carlos.ruiz@hml.com', 35000, 0.10, DATE '2016/10/15', 'Comercial', TRUE, TIMESTAMP '2023/02/01 11:12:20'),
(10, 'Ana Maria', 'Castro', 'PE', 'ana.castro@hml.com', 60000, 0.20, DATE '2017/11/01', 'Comercial', TRUE, TIMESTAMP '2023/02/22 9:14:22'),
(11, 'Eduardo', 'Martinez', 'AR', 'eduardo.martinez@hml.com', 15000, 0.15, DATE '2023/02/01', 'Comercial', FALSE, TIMESTAMP '2023/02/25 9:05:22'),
(12, 'Veronica', 'Beristain', 'CO', 'veronica.beristain@hml.com', 22000, 0.10, DATE '2024/02/01', 'Comercial', TRUE, TIMESTAMP '2023/02/21 9:05:22'),
(13, 'Tracy', 'Powell', 'MX', 'tracy.powell@hml.com', 30000, 0.10, DATE '2011/11/15', 'Comercial', FALSE, TIMESTAMP '2023/03/01 9:05:22'),
(14, 'Carlos', 'Chavez', 'CH', 'carlos.chavez@hml.com', 35000, 0.12, DATE '2014/11/15', 'Comercial', TRUE, TIMESTAMP '2023/02/24 9:05:22'),
(15, 'Miguel', 'Barbosa', 'AR', 'miguel.barbosa@hml.com', 25000, 0.07, DATE '2018/03/01', 'Comercial', FALSE, TIMESTAMP '2023/02/25 9:05:22')
```

## Consultas mediante SQL

Vamos a explorar estas tablas haciendo algunas consultas específicas para luego concluir la sección creando otros elementos en nuestra base de datos, las vistas.

### Filtros

Muestra toda la información de la categoría Blogs en **cat_url**.

Muestra todas las visitas web realizadas el día 10 y que tuvieron una duración de 20 segundos o menos.

Muestra los nombres y apellidos de los empleados que pertenecen al área Comercial o de Finanzas.

Muestra los nombres y apellidos de los empleados cuyo apellido termina en "ez".

### Cálculos 

Has un resumen de la información de visitas web donde sea posible conocer:

* Cuántas visitas se hicieron.
* Cuántas urls se visitaron.
* Cuántos usuarios existieron (un usuario se puede interpretar como una ip única).
* Cuanto tiempo de navegación total se dio en minutos.
* Cuánto tiempo en promedio estuvo un usuario en el dominio (en minutos). 

Muestra el nombre completo de los empleados que pertenecen al área Comercial o de Finanzas. Asegúrate que el nombre completo tenga el nombre y apellido unido.  

Muestra el nombre completo, usuario de email y los años de antiguedad que tiene cada empleado.

### Agrupaciones

Has un listado de los usuarios web indicando además las visitas que tuvo cada uno y su tiempo total de navegación en minutos.

Modifica el código anterior para que solamente muestre aquellos usuarios que tuvieron más de 30 visitas pero menos de media hora de tiempo de navegacion.

Cuenta cuántas urls hay por cada categoría y categoría de blog, y ordena el resultado de mayor a menor.

Muestra un top 5 de las urls más visitadas.

Calcula el salario promedio por pais de residencia de los empleados y muestra aquellos casos con un promedio mayor o igual a 10,000 USD.

### Unión de tablas

Has un listado del top 10 de países que más visitas web han mantenido.

De los dos países de mayor cantidad de visitas encontrados en el ejercicio anterior, muestra el orden descendente de preferencia las categorías de urls.

Muestra una tabla que consolide la información de las tablas **fac_visitasweb**, **cat_ip** y **cat_url**.

### Creación de vistas

Una vista se puede entender como un esquema tabular de los datos provenientes de tablas en una base de datos, los cuales han sido trabajados previamente mediante consultas específicas, y que se guardan como parte de la misma base de datos. Por lo general, estas vistas suelen ser aquellas consultadas por los usuarios de la base de datos como son los analistas o científicos de datos, garantizando así la fidelidad y calidad de las fuentes originales (tablas).

Crea entonces vistas para todas las consultas hechas en la sección anterior.

Crea finalmente una vista con la información procesada que consideres relevante de **cat_empleados**. Utiliza funciones que hemos practicado en este documento.

Las vistas, al igual que las tablas, pueden consultarse mediante lenguaje **SQL**. Pruébalo mostrando las primeras 5 filas de tu vista consolidada.

## Consultas de bases de datos con Python

Veamos finalmente cómo podemos consultar a nuestra base de datos desde Python. Abre un nuevo jupyter notebook en VS Code, carga **pandas** y alguna de las siguientes librerías que te ayudarán a crear una conexión desde tu notebook con la base de datos en tu servidor de **PostgreSQL**:

* **psycopg2**
* **sqlalchemy**

Si no tienes estas librerías aún deberás instalarlas desde tu terminal con el comando `pip install`.

### Usando psycopg2

Genera la conexión con la base de datos (Aquí deberás ingresar los mismos parámetros que cuando te conectaste con VS Code).

Escribe una consulta para extraer toda la información de la vista de empleados que creaste y guardala en la variable `query`.

Carga los datos en `df_empleados` desde la base de datos utilizando la consulta y la conexión creada. Puedes emplear la función `read_sql`de **pandas**.

Muestra la estructura general de este dataframe para verificar que la información se cargó correctamente.

Cierra la conexión creada para garantizar la seguridad de tu base de datos.

### Usando sqlalchemy

Al igual que antes crea una conexion con la base de datos. 

Crea una consulta para extraer toda la información de la vista consolidada.

Carga los datos desde la base de datos y guárdalos en `df_consolidada`.

Imprime una muestra del dataframe para verificar que la carga fue correcta.

Recuerda cerrar la conexión para terminar el proceso.

Estamos listos. A partir de aquí podemos empezar con nuestro análisis de datos de la forma en que lo hemos venido haciendo con **Python**.