# Sprint 3 - Bases de Datos y SQL (Sesiones)

**Versión para estudiantes**

El propósito de estos ejercicios es introducir en el uso de herramientas para administrar bases de datos, y junto con esto aprender la sintaxis básica **SQL** que permitirá interactuar con dichas bases de datos. Vamos a enfocarnos en los siguientes temas en concreto:

* Creación de bases de datos
* Consultas mediante SQL
* Integración de consultas con Google Sheets

Para facilitar el cumplimiento de este objetivo, te recomiendo descargar e instalar **PostgreSQL** desde el link https://www.postgresql.org/download/. Durante la instalación se requerirá que establezcas una contraseña que deberás definirla tú y recordarla. Una vez instalado puedes probar que todo esté funcionando bien abriendo la app **pgAdmin**.

## Creación de bases de datos

Vamos a crear nuestra primera base de datos en el servidor **PostgreSQL**. Para esto ingresa en **pgAdmin** y conéctate al servidor con tu contraseña.

Una vez realizado este paso da click derecho sobre *Databases* y crea una nueva base de datos con el nombre "db_grupoXX" (siendo XX el numero de tu cohorte).

Conéctate ahora a la base de datos que has creado dando click sobre ella, y a continuación abre la herramienta de consultas (*query tool*) dando click en el siguiente botón: ![](query_tool.png) 

Ahora bien, una base de datos tiene justamente eso: datos. Crea entonces una tabla con los siguientes criterios:

* **fac_visitasweb** con las siguientes columnas:
    * id_visitas de tipo entero y que sea la clave primaria.
    * url de tipo texto.
    * hora de tipo texto restringido a 5 caracteres.
    * dia de tipo entero.
    * direccion_ip de tipo texto.
    * duracion_seg de tipo real (o flotante).

Crea 3 tablas adicionales que cumplan los criterios descritos a continuación:

* **cat_ip** con las siguientes columnas:
    * ip de tipo texto y que sea la clave primaria.
    * pais de tipo texto.

* **cat_url** con las siguientes columnas:
    * url de tipo texto y que sea la clave primaria.
    * categoria de tipo texto.
    * categoria_blog de tipo texto.

* **cat_empleados** con las siguientes columnas:
    * id_empleado de tipo entero y que sea la clave primaria.
    * nombre de tipo texto restringido a 255 caracteres.
    * apellido de tipo texto restringido a 255 caracteres.
    * pais de tipo texto restringido a 255 caracteres.
    * email de tipo texto restringido a 255 caracteres.
    * salario de tipo entero.
    * incremento de tipo real (o flotante).
    * antiguedad de tipo fecha.
    * departamento de tipo texto restringido a 255 caracteres.
    * contrato_permanente de tipo buleano.
    * ultimo_ingreso de tipo fecha - hora (timestamp). 

< Aquí tu respuesta >

**NOTA:** Si deseas eliminar alguna de estas tablas (porque escribiste mal algo o no funcionan) puedes hacerlo con el comando siguiente:

 ```sql
 DROP TABLE --nombre_tabla--
 ```

Por ahora hemos creado tablas pero no contienen información. Ejecuta el comando a continuación para verificar esto:

```sql
SELECT * FROM fac_visitasweb
```

Descarga por tanto la información que contendrán estas tablas desde el link

https://github.com/jsaraujott/da_webinars/raw/refs/heads/main/S03_Bases_Datos_SQL/datasdets/Datasets_SQL.zip

Extrae los archivos de la carpeta comprimida y guárdalos en algun directorio PÚBLICO de tu computadora.

Llena las tablas **fac_visitasweb**, **cat_ip** y **cat_url** con los archivos *csv* descargados. 

< Aquí tu respuesta >

Verifica que las tablas ya contengan datos.

< Aquí tu respuesta >

Las tablas que creaste, y llenaste de datos desde fuentes externas, contienen información asociada a la navegación en el dominio web https://www.mashpilodge.com. Mashpi es un hotel ubicado en medio de una reserva natural en Ecuador y famoso a nivel mundial no solamente por el servicio hotelero que ofrece, sino por el enfoque en la conservación e investigación biológica y botánica a lo que se suscribe. 

* La tabla **fac_visitasweb** concretamente detalla todos los puntos de navegación en dicho dominio durante un mes en específico, mostrando la ip (una suerte de identificación de usuario), el día y hora, la duración y la url específica que fue visitada.
* La tabla **cat_ip** es un diccionario que asocia a cada ip un país, y por tanto permite la geolocalización de usuarios del dominio web en cuestión.
* La tabla **cat_url** es un diccionario que asocia a cada url una categoría específica, permitiendo así agrupar diferentes tipologías de navegación. 

Visto esto, altera las tablas creadas de forma que en la base de datos todas ellas se asocien a través de sus columnas clave.

< Aquí tu respuesta >

Si hiciste todo bien, ya has creado una base de datos que no solamente contiene tablas, sino también un modelo de datos coherente con el contexto de la información. Así es como se ve el modelo mencionado de forma visual:

![](modelo_datos.png)

Llena ahora de forma manual la tabla **cat_empleados**, la cual debe contener un registro de algunos colaboradores que trabajan a nivel mundial en Mashpi Lodge.

< Aquí tu respuesta >

## Consultas mediante SQL

Vamos a explorar estas tablas haciendo algunas consultas específicas para luego concluir la sección creando otros elementos en nuestra base de datos, las vistas.

### Filtros

Muestra toda la información de la categoría Blogs en **cat_url**.

< Aquí tu respuesta >

Muestra todas las visitas web realizadas el día 10 y que tuvieron una duración de 20 segundos o menos.

< Aquí tu respuesta >

Muestra los nombres y apellidos de los empleados que pertenecen al área Comercial o de Finanzas.

< Aquí tu respuesta >

Muestra los nombres y apellidos de los empleados cuyo apellido termina en "ez".

< Aquí tu respuesta >

### Cálculos 

Has un resumen de la información de visitas web donde sea posible conocer:

* Cuántas visitas se hicieron.
* Cuántas urls se visitaron.
* Cuántos usuarios existieron (un usuario se puede interpretar como una ip única).
* Cuanto tiempo de navegación total se dio en minutos.
* Cuánto tiempo en promedio estuvo un usuario en el dominio (en minutos). 

< Aquí tu respuesta >

Muestra el nombre completo de los empleados que pertenecen al área Comercial o de Finanzas. Asegúrate que el nombre completo tenga el nombre y apellido unido. 

< Aquí tu respuesta >

Muestra el nombre completo, usuario de email y los años de antiguedad que tiene cada empleado.

< Aquí tu respuesta >

### Agrupaciones

Has un listado de los usuarios web indicando además las visitas que tuvo cada uno y su tiempo total de navegación en minutos.

< Aquí tu respuesta >

Modifica el código anterior para que solamente muestre aquellos usuarios que tuvieron más de 30 visitas pero menos de media hora de tiempo de navegacion.

< Aquí tu respuesta >

Cuenta cuántas urls hay por cada categoría y categoría de blog, y ordena el resultado de mayor a menor.

< Aquí tu respuesta >

Muestra un top 5 de las urls más visitadas.

< Aquí tu respuesta >

Calcula el salario promedio por pais de residencia de los empleados y muestra aquellos casos con un promedio mayor o igual a 10,000 USD.

< Aquí tu respuesta >

### Unión de tablas

Has un listado del top 10 de países que más visitas web han mantenido.

< Aquí tu respuesta >

De los dos países de mayor cantidad de visitas encontrados en el ejercicio anterior, muestra el orden descendente de preferencia las categorías de urls.

< Aquí tu respuesta >

Muestra una tabla que consolide la información de las tablas **fac_visitasweb**, **cat_ip** y **cat_url**.

< Aquí tu respuesta >

### Creación de vistas

Una vista se puede entender como un esquema tabular de los datos provenientes de tablas en una base de datos, los cuales han sido trabajados previamente mediante consultas específicas, y que se guardan como parte de la misma base de datos. Por lo general, estas vistas suelen ser aquellas consultadas por los usuarios de la base de datos como son los analistas o científicos de datos, garantizando así la fidelidad y calidad de las fuentes originales (tablas).

Crea entonces vistas para todas las consultas hechas en la sección anterior.

< Aquí tu respuesta >

Crea finalmente una vista con la información procesada que consideres relevante de **cat_empleados**. Utiliza funciones que hemos practicado en este documento.

< Aquí tu respuesta >

Las vistas, al igual que las tablas, pueden consultarse mediante lenguaje **SQL**. Pruébalo mostrando las primeras 5 filas de tu vista consolidada.

< Aquí tu respuesta >

Ahora bien, el mantener vistas como estas nos facilita la generación de consultas más complejas puesto que no necesitamos depender de uniones entre tablas. Por ejemplo, utilizando la vista consolidada contrasta las preferencias de categorias para Estados Unidos, Ecuador y Reino Unido. Para esto muestra la cantidad de visitas por categoria de tal forma que dicha cantidad aparezca en columnas distintas para cada uno de los países solicitados.

< Aquí tu respuesta >

Muestra ahora a modo de resumen la evolución durante la primera quincena de los usuarios que visitaron categorías de Blog y Home.

< Aquí tu respuesta >

Consulta finalmente en la vista que corresponda, el salario promedio de los empleados diferenciando por departamento (filas) y tiempo en la empresa. Para el tiempo en la empresa considera a los trabajadores con más de 5 años como antiguos, y a los nuevos como el resto. 

< Aquí tu respuesta >

## Integración con Google Sheets

Una forma sencilla de integrar los resultados de las consultas en tu base de datos con Google Sheets es mediante una copia de los mismos. Repite entonces las últimas 3 consultas realizadas y cópialas en un nuevo archivo de Google Sheets (en hojas distintas).

En la hoja que contiene la tabla con información sobre las preferencias de categorias por país, realiza todos los pasos necesarios a fin de obtener el siguiente gráfico:

![](chart_1.png)

En la hoja que contiene la evolución de visitas por categoria, realiza todos los pasos necesarios para incorporar el siguiente gráfico:

![](chart_2.png)

Ahora, en la hoja con los salarios por departamento genera la siguiente visualización:

![](chart_3.png)

Para concluir, traslada todos los gráficos desarrollados a una hoja nueva llamada reporte en la cual se presenten los resultados alcanzados. Recuerda incluir todos los formatos que hagan presentable a la misma.

¡Listo! Ya puedes analizar datos extrayendo información desde su fuente (Bases de Datos) y realizar las visualizaciones que requieras en Google Sheets. 