# Proyecto 2
---
#### Ingeniería de Datos con Python  
Universidad Galileo  
Instituto de Investigación de Operaciones  
Master en Data Science

*Integrantes del grupo*  
**Peña Maltez, Andres Alberto - carnet 23004061**  
**Castillo Custodio, Sergio Josué - carnet 23000331**

### **Introducción**
La ingeniería de datos es un campo dentro de la ingeniería de software dedicada a la construcción de sistemas que permiten la colección y uso de datos, que generalmente serán utilizados en tareas de análisis y ciencia de datos. Hacer que los datos sean utilizables para estas tareas generalmente ímplican tareas de procesamiento y limpieza de datos que consumen recursos considerables de cómputo y almacenamiento.

Una de las tareas más importantes de la ingeniería de datos es la creación de *pipelines* ETL para cantidades másivas de datos (*big data*), con los cuales se gestiona el flujo de datos a lo largo de la organización, posibilitando así tomar cantidades inmensas de datos y convertirlos en conocimiento. Estos gestión debe tomar en consideración que los datos deben estar disponibles con rápidez, conservando su integridad y facilitando resiliencia, escalabilidad y seguridad.

El presente proyecto consiste en el desarrollo de un pipeline de ingeniería de datos utilizando Python, SQL y los servicios de RDS y S3 de AWS para los datos de los servicios prestados por una agencia de viajes.

### **Scope**
El objetivo del proyecto es desarrollar un pipeline ETL utilizando Python, SQL y los servicios RDS y S3 de AWS que tome los datos de una base de datos de una agencia de viajes, los extraíga, prepare e inserte los datos en un Data Warehouse para su posterior análisis.

La agencia de viajes a analizar opera en Brasil y se consideran los servicios prestados un grupo seleccionado de empresas a las cuales se les venden servicios de vuelos y estadías de hotel para el periodo comprendido entre el 26 de septiembre de 2019 y el 24 de julio de 2023. Todos los datos a analizar (dataset) son suministrados a través de tres archivos CSV:
- Uno con datos de usuarios (viajeros)
- Uno con datos de estadias de hotel
- Uno con datos de vuelos

Puede descargar el dataset haciendo [click aquí](https://www.kaggle.com/datasets/leomauro/argodatathon2019?select=flights.csv
"Travel Dataset").

Los recursos disponibles para el proyecto son:
- *Python*
- *SQL*, utilizando como gestor *MySQL*
- Servicios *RDS* y *S3* de *AWS*
- *Tableau Desktop*
- Repositorio en *GitHub* con los archivos del proyecto ([click aquí](https://github.com/sergiocds/cdpython_proyecto2
"GitHub Repo")).

Los entregables son:
- Reporte del proyecto (presente documento)
- Base de datos relacional alojada en *AWS RDS*
- Base de datos dimensional alojada en *AWS RDS*
- Scripts de Python con procedimientos ETL.
- Dashboard para análisis de datos elaborado con *Tableau Desktop*

Queda fuera del alcance del proyecto:
- Implementar el data warehouse en el servicio *Redshift* de AWS.

### **Objetivos**
**Objetivo Principal**  
Desarrollar un pipeline ETL utilizando Python, SQL y los servicios RDS y S3 de AWS que tome los datos de una base de datos de una agencia de viajes, los extraíga, prepare e inserte los datos en un Data Warehouse para su posterior análisis.
  
**Objetivos Secundarios**  
1. A partir del dataset de la agencia de viajes, construir un modelo relacional para una base de datos normalizada en *MySQL* de los datos originales provistos.
2. Con la base de datos construida para la agencia de viajes, construir un modelo dimensional para un *Data Warehouse* en *MySQL*, que permita tareas de análisis y elaboración de reportes.
3. Almacenar la base de datos y el *data warehouse* para los datos de la agencia de viajes en *RDS* de *AWS*.
4. Desarrollar con *Python* los scripts que contengan los procedimientos para la extración, preparación y carga de datos, tanto en la base de datos como en el *data warehouse*.
5. Análizar los datos para responder a las siguientes preguntas sobre la operación de la agencia de viajes:
    - ¿Cuál es el principal cliente de la agencia de viajes?
    - ¿Cuál es la ciudad más visitada por los clientes de la agencia de viajes?
    - ¿Cuál es el trimestre del año con más viajes agendados en la agencia de viajes?
    - ¿Cuál es el hotel por ciudad más utilizado?
    - ¿Cuales son los 10 viajeros más frecuentes de la agencia de viajes?

### **Exploración**
El dataset, conformado por los tres archivos CSV contiene datos no normalizados de los servicios prestados por la agencia de viajes.

*Users*  
Contiene datos para 1 340 usuarios de la agencia de viajes (viajeros). Los datos almacenados son:
- Code: código de usuario
- Company: compañía para la que labora el usuario
- Name: nombre del usuario
- Gender: sexo del usuario
- Age: edad del usuario

*Hotels*  
Contiene datos de 40 552 estadías de hotel para los usuarios de la agencia de viaje. Estas estadías son en 9 hoteles distintos ubicados en ciudades diferentes de Brasil. Los datos almacenados son:
- travelCode: código identificador del viaje al que está asociada la estadía en el hotel
- userCode: código identificador del usuario que realiza el viaje/estadía de hotel
- name: nombre del hotel
- place: ciudad donde está ubicado el hotel
- days: número de días de la estadía en el hotel
- price: precio por noche de estadía en el hotel
- total: precio total de la estadía en el hotel
- date: fecha del chequeo (check-in) en el hotel

*Flights*  
Contiene datos de 271,888 pasajes de vuelo para los usuarios de la agencia de viaje, entre distintas ciudades de Brasil. Los datos almacenados son:
- travelCode: código identificador del viaje al que está asociada la estadía en el hotel
- userCode: código identificador del usuario que realiza el viaje/estadía de hotel
- from: aeropuerto de origen del vuelo
- to: aeropuerto de destino del vuelo
- flightType: tipo de vuelo
- price: precio del vuelo
- time: duración en horas del vuelo
- distance: distancia del recorrido del vuelo
- agency: aerolínea del vuelo
- date: fecha de salida del vuelo

### Modelo de Datos
El dataset provisto no se encuentra normalizado. Los datos están dividos en tres archivos CSV distintos, los cuales ya se describieron anteriormente. Teniendo en mente que la finalidad del proyecto es la construcción de un *data warehouse*, el primer paso es trasladar el dataset a una base de datos relacional.

Una vez los datos han sido cargados en esta base de datos, estos se cargan en el *data warehouse*.

Como gestor, tanto para la base de datos como para el *data warehouse*, se utiliza *MySQL*.

Ambas bases de datos se almacenaron en instancias separadas de *RDS* de *AWS*, las cuales se crearon desde Python utilizando la librería boto3.

#### Modelo Relacional
El modelo relacional se muestra en la siguiente figura. El código DDL de MySQL se encuentra en el archivo *create_travels_DB.py* del repositorio de [GitHub](https://github.com/sergiocds/cdpython_proyecto2
"GitHub Repo").

*Figura 1: Modelo relacional*
![Modelo Relacional](https://github.com/sergiocds/cdpython_proyecto2/blob/main/modelo_relacional.png?raw=true)  
*Fuente: elaboración propia.*

#### Modelo Dimensional
El modelo dimensional se muestra en la siguiente figura. El código DDL de MySQL se encuentra en el archivo *create_travels_DW.py* del repositorio de [GitHub](https://github.com/sergiocds/cdpython_proyecto2
"GitHub Repo").

El modelo dimensional utilizó dos tablas de hechos, una para vuelos y otra para estadías de hotel, en las que la granularidad es a nivel de cada vuelo individual y de cada estadía de hotel individual, respectivamente. Adicionalmente, se creo una tabla de hechos de snapshot, con granularidad a nivel de cada viaje individual en la que se sumarizan las estadías de hotel y vuelos asociadas a un viaje determinado. Se tomo la decisión de crear múltiples tablas de hechos pues había incompatibilidad de granularidad entre vuelos, estadías de hotel y viajes. Y para no simplificar excesivamente el análisis, se optó por el modelo presentado.

*Figura 2: Modelo dimensional*
![Modelo Relacional](https://github.com/sergiocds/cdpython_proyecto2/blob/main/modelo_dimensional.png?raw=true)  
*Fuente: elaboración propia.*

### Procesamiento
Se crearon dos scripts de Python, almacenados en el repositorio de [GitHub](https://github.com/sergiocds/cdpython_proyecto2
"GitHub Repo") del proyecto.

El primero de ellos, DBtravel.py, contiene todo el código necesario para extraer los datos de los archivos CSV y modificarlos de modo que puedan ser insertados en la base de datos correspondiente.

El segundo de ellos, DWtravel.py, contiene el código requerido para leer los datos de la base de datos relacional y cargarla en DataFrames de pandas. Una vez cargados los DataFrames, se hacen las modificaciones necesarias de modo que se puedan crear las tablas de dimensiones y hechos y por último puedan ser cargadas en el *data warehouse*.

### Analítica
Para la parte de analítica, los lineamientos del proyecto no establecieron cual debía ser el procedimiento a seguir o cual debía ser la herramienta a utilizar. Por lo que con el *data warehouse* creado, se cargo a un *workbook* de *Tableau Desktop*. Dentro de este se replicó el modelo dimensional, estableciendo las relaciones correspondientes. Seguidamente se crearon las vistas y el dashboard necesarios para analizar los datos y responder a las preguntas planteadas como parte de los objetivos:

- ¿Cuál es el principal cliente de la agencia de viajes?  
    **Respuesta:**  
    Tanto en términos de vuelos como de estadías de hotel, el principal cliente de la agencia de viajes es la compañía 4You, con un gasto en vuelos de 86,243,818.00 y en estadías de hotel de 7,486,217.00 para el periodo comprendido entre el 26/septiembre/2019 y el 24/julio/2023.

- ¿Cuál es la ciudad más visitada por los clientes de la agencia de viajes?  
    **Respuesta:**  
    La ciudad más visitada por los clientes de la agencia de viajes es Florianopolis(SC), con un total de vuelos hacia esta ciudad de 57,317.

- ¿Cuál es el trimestre del año con más viajes agendados en la agencia de viajes?  
    **Respuesta:**  
    El volumen de viajes es practicamente constante a lo largo de todo el año con cerca de 40,000 viajes por trimestre a lo largo de todo el periodo de tiempo analizado. Cabe resaltar que para el año 2019 no se cuentan con datos practicamente de los primeros 3 trimestres.

    Analizando por separado cada año, se observá que el primer trimestre de cada uno de ellos es en el que se realiza el mayor número de viajes. Como observacion adicional, se puede notar que año con año, la tendencia en el número de viajes ha sido decreciente. El efecto de las restricciones de viajes por la pandemia por COVID-19 podría explicar esta disminución.

- ¿Cuál es el hotel por ciudad más utilizado?  
    **Respuesta:**  
    El hotel más utilizado para el periodo de tiempo analizado es el hotel K, en la ciudad de Salvador(BH) con un total de 5,094 estadías.

- ¿Cuales son los 10 viajeros más frecuentes de la agencia de viajes?  
    **Respuesta:**  
    Los diez usuarios o viajeros más frecuentes de la agencia de viajes para el periodo de tiempo analizado son:

    |Company |Name|Number of travels|
    |:-----|:----:|----:|
    |4You |Mark Eisentrout |200 |
    |4You |Mary Ewers |200 |
    |4You |Sonia Malaspina |200 |
    |4You |Wallace Gallardo |200 |
    |Acme Factory |Forrest Kaufman |200 |
    |Acme Factory |Jessie Armstrong |200 |
    |Acme Factory |Ted Bonneau |200 |
    |Monsters CYA |Nathan Ponder |200 |
    |Umbrella LTDA |Helen Warner |199 |
    |Wonka Company |Anthony Young |200 |

### Conclusiones

1. La integración de *Python*, *SQL* y *AWS* representan una herramienta poderosa y altamente automatizable para la creación y gestión de pipelines ETL, permitiendo el almacenamiento cloud de todos los datos.
2. El uso de *Python* para la gestión de datos, especialmente a través de la librería *pandas* permite la manipulación de grandes cantidades de datos de forma muy eficiente y rápida, gracias a los algoritmos específicamente diseñados para este propósito y a la amplía variedad de métodos y funciones con los que cuenta la libería.
3. A través de librerías como *boto3*, es posible integrar *Python* y *AWS* de forma muy sencilla, simplificando la creación de instancias directamente a través de código.