## Trabajo Final - Data Engineering Icaro

En la presente notebook se desarrolla el trabajo final del curso Data Engineering brindado por la fundacion Icaro.
Primero se importan todas la librerías necesarias para el desarrollo del práctico.

In [1]:
import pandas as pd
import requests
from sqlalchemy import create_engine
import psycopg2

Comentamos los paquetes instalados porque son requeridos por una única vez.

In [2]:
#!pip install SQLAlchemy

In [3]:
#!pip install psycopg2

### 1. Parte 1

#### Conexion con la base de datos

Generamos la conexión con la base de datos bajo los siguientes datos:

*host: db-test.cq4syw9xqygb.us-east-1.rds.amazonaws.com*
*Port: 5432 Database: postgres User: postgres Password: postgres*

In [6]:
def getPostgreConnector(stringConnection= 'postgresql+psycopg2://postgres:postgres@db-test.cq4syw9xqygb.us-east-1.rds.amazonaws.com:5432/postgres'):
  engine = create_engine(stringConnection)
  return engine

Una vez creada la conexión, verificamos que funcione y este estable. Para eso, ejecutamos la conexión y consultamos la versión de PostgreSQL con la que vamos a trabajar.

In [7]:
# Chequeamos que la conexion funcione

engine = getPostgreConnector()
with engine.connect() as connection:
    result = connection.execute('Select version()')
    print(result.fetchone())

('PostgreSQL 12.5 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-11), 64-bit',)


#### Lectura de la base de datos

La lectura de las tablas de consulta se realizara por separado. 
* Primero se creearan variables de conexión a una única tabla DER. 
* En segundo lugar, se crean Pandas Dataframe para continuar los cálculos con la libreria Pandas.
* Por último, se realizarán Joins entre las tablas a medida que las consultas las vayan requiriendo. 


In [9]:
# DataFrame para la tabla Clientes

df_c = pd.read_sql('SELECT * FROM Clientes', engine)
clientes = pd.DataFrame(df_c)

In [29]:
# DataFrame para la tabla Ventas

df_v = pd.read_sql('SELECT * FROM Ventas', engine)
ventas = pd.DataFrame(df_v)
ventas

Unnamed: 0,id_venta,id_cliente,fecha_de_venta
0,1,1,2020-10-11
1,2,1,2020-10-11
2,3,2,2020-10-13
3,4,2,2020-10-13
4,5,3,2020-10-13
...,...,...,...
95,96,1,2020-11-28
96,97,1,2020-11-28
97,98,5,2020-11-28
98,99,5,2020-11-29


In [11]:
# DataFrame para la tabla Regiones

df_r = pd.read_sql('SELECT * FROM Regiones', engine)
regiones = pd.DataFrame(df_r)

In [12]:
# DataFrame para la tabla Ventas_Productos

df_vp = pd.read_sql('SELECT * FROM Ventas_Productos', engine)
ventas_prod = pd.DataFrame(df_vp)

In [13]:
# DataFrame para la tabla Categoria Productos

df_cp = pd.read_sql('SELECT * FROM Categoria_Producto', engine)
cat_prod = pd.DataFrame(df_cp)

In [14]:
# DataFrame para la tabla Productos

df_p = pd.read_sql('SELECT * FROM Productos', engine)
prod = pd.DataFrame(df_p)

#### Consultas a la base de datos

En esta sección se realizan consultas a las tablas sobre la información que contiene cada una de ellas y sobre información que vincula a 2 o mas tablas.

En primer lugar se realizan consultas anexas para aportar mas información a las consultas. 

* Rango de Fechas

In [43]:
# Rango de Fechas

ventas['fecha_de_venta'] = pd.to_datetime(ventas['fecha_de_venta'])

ventas.describe(datetime_is_numeric=True)

Unnamed: 0,id_venta,id_cliente,fecha_de_venta
count,100.0,100.0,100
mean,50.5,3.25,2020-11-09 23:45:36
min,1.0,1.0,2020-10-11 00:00:00
25%,25.75,3.0,2020-11-02 00:00:00
50%,50.5,3.0,2020-11-07 12:00:00
75%,75.25,4.0,2020-11-24 00:00:00
max,100.0,5.0,2020-11-29 00:00:00
std,29.011492,1.200799,


##### 1.1 Cantidad de ventas totales

Se calculan la cantidad de ventas realizadas. Se van a utilizar las funciones unique() que solo rescata la clave unica de cada id y la funcion len() que da el tamano del array. La función unique() resulta importante utilizarla por si llegan a convivir 2 claves iguales dentro de la misma tabla. 

Se trabaja con la columna *'id_venta'* unicamente.

In [44]:
q_ventas = ventas['id_venta'].unique()

print('Se registraron', len(q_ventas), 'ventas desde el', ventas['fecha_de_venta'].min(), 'hasta el', ventas['fecha_de_venta'].max())

Se registraron 100 ventas desde el 2020-10-11 00:00:00 hasta el 2020-11-29 00:00:00


##### 1.2 Cantidad de Clientes Totales

Para obtener la cantidad de clientes totales, se aplica el mismo criterio anterior pero se trabaja sobre la tabla *Clientes*

In [47]:
q_clientes = clientes['id_cliente'].unique()

print('Desde el', ventas['fecha_de_venta'].min(), 'hasta el', ventas['fecha_de_venta'].max(), 'se registró un total de', len(q_clientes), 'clientes.')

Desde el 2020-10-11 00:00:00 hasta el 2020-11-29 00:00:00 se registró un total de 5 clientes.


##### 1.3 Cantidad de Clientes por Región

A continuación, se desea conocer la cantidad de clientes por región. Para tal fin, se anexan las tablas *Region* y *Clientes* por medio de la Primary Key **id_region**.

Luego, se realiza un groupby sobre el nuevo dataframe sobre la columna *region* y se agrupan por medio de la función Count que contabiliza las claves únicas.

Al final, solo se considera la columna de interés: **id_cliente** y se ordenan los datos en orden descendente.

In [48]:
q_cliente_region = clientes.set_index('id_region').join(regiones.set_index('id_region'))


q_cliente_region_1 = q_cliente_region.groupby('region', axis=0).count()
q_cliente_region_1 = pd.DataFrame(q_cliente_region_1['id_cliente']).reset_index()
q_cliente_region_1.sort_values(by=['id_cliente'], axis=0, ascending=False)

Unnamed: 0,region,id_cliente
1,Sur,3
0,Norte,2


##### 1.4 Cantidad de Productos por Categoria

Para conocer la cantidad de productos por categoría, se agrupan las tablas *Categoria_Productos* y *Productos* por medio de la clave única **id_categoria_producto**.

Luego, se considera la misma lógica aplicada anteriormente y la columna por la cual se agrupan los datos pasa a ser **nombre_categoria**.

In [51]:
q_productos_categoria = prod.join(cat_prod.set_index('id_categoria_producto'), on='id_categoria_producto')

q_productos_categoria_1 = q_productos_categoria.groupby('nombre_categoria', axis=0).count()
q_productos_categoria_1 = pd.DataFrame(q_productos_categoria_1['id_producto']).reset_index()
q_productos_categoria_1.sort_values(by=['id_producto'], axis=0, ascending=False)

Unnamed: 0,nombre_categoria,id_producto
2,Smartphone,5
0,Computacion,2
1,Hogar,2


##### 1.5 Cantidad de Ventas por Region

Para saber la cantidad de ventas por region, precisamos de la union entre la tabla *q_cliente_region*, creada anteriormente (que contiene informacion sobre los clientes y las regiones donde habitan los mismos), y la tabla *ventas* por medio de la PK **id_cliente**.

Una vez creada la tabla, se realiza un groupby agregando sobre la dimensión **region** y agrupando a través de la función Count que rescata las claves únicas de ventas (**id_venta**).

Luego, se eliminan las columnas que no son de interés y se ordena la tabla de forma descendente.

In [53]:
q_ventas_region = q_cliente_region.set_index('id_cliente').join(ventas.set_index('id_cliente'))

q_ventas_region_1 = q_ventas_region.groupby('region', axis=0).count()
q_ventas_region_1 = pd.DataFrame(q_ventas_region_1['id_venta']).reset_index()
q_ventas_region_1.sort_values(by=['id_venta'], axis=0, ascending=False)

Unnamed: 0,region,id_venta
1,Sur,83
0,Norte,17


##### 1.6 Producto más vendido en cada región

En la siguiente linea de codigo, se consulta cual fue el producto mas vendido por region. Para ello, precisamos la unión de 5 tablas: *Region*, *Clientes*, *Ventas*, *Ventas_Productos*, *Productos*.

En las consultas posteriores, ya se crearon varias de dichas uniones, por lo tanto solo resta unificar esas tablas creada en una única tabla por medio de las PK pertinentes. 

Primero, se une la tabla *q_ventas_region* (que contiene informacion sobre la region, los clientes y las ventas) con la tabla *Ventas_Productos* a través de la PK **id_venta**. Esta tabla pasa a llamarse *p_ventas_region*.

Esta última tabla se une a la tabla *Productos* por medio de la Primary Key **id_producto**, y pasa a llamarse *p_ventas_region_1* .

Una vez que tenemos la tabla con toda la información necesaria para la consulta, se utiliza la función groupby para agrupar la tabla por medio de las columnas **region** y **id_producto**. Se aplica la función Count para determinar la cantidad de unidades vendidas de cada producto, en cada región.

Por último, se ordenan los valores obtenidos de todos los productos vendidos en cada región en forma descendiente y se eliminan los duplicados de **region** para solo conservar el producto mas vendido en cada region.



In [57]:
p_ventas_region = q_ventas_region.set_index('id_venta').join(ventas_prod.set_index('id_venta'))

p_ventas_region_1 = p_ventas_region.join(prod.set_index('id_producto'), on='id_producto')
                                 
p_ventas_region_2 = p_ventas_region_1.groupby(['region','nombre_producto'], axis=0).count()

p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre_producto,id_producto
9,Sur,Iphone X,15
1,Norte,Iphone 7,4


##### 1.7 Cliente con más Productos Comprados por Región

A continuación, se consulta cual fue el cliente que más compras registró por región. Se necesita de la misma tabla creada anteriormente *p_ventas_region_1*.

Se crea una nueva columna que agrupa nombre y apellido de los clientes con la siguiente lógica: *apellido*, *nombre*

Luego, agrupamos la tabla con las dimensiones **region** y **nombre y apellido**. Utilizamos la función Count sobre la columna **id_prducto** para distinguir la cantidad de productos que compro cada cliente.

Eliminamos las columnas que no son de interés y ordenamos la tabla en orden descendente para conservar en primer lugar los clientes con mas productos comprados por region. Eliminamos los duplicados por región, y mantenemos unicamente los clientes que mas compras realizaron por region.

In [66]:
p_ventas_region_1['nombre y apellido'] = p_ventas_region_1['apellido'] + ', ' + p_ventas_region_1['nombre']

p_ventas_region_2 = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).count()
p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'nombre y apellido', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre y apellido,id_producto
4,Sur,"Simpson, Homero",53
1,Norte,"Perez, Juan",11


##### 1.8 Cliente que mas gasta por Región

Para conocer quien es el cliente que mas gasta por region, se utiliza la tabla ya creada y se agrupa considerando la función Sum. Dado que se registra una única linea por cada producto adquirido por cada cliente, se puede sumar directamente el precio del producto para obtener el monto gastado por cliente. Por lo tanto, al sumar el precio de cada producto que adquirio cada cliente, se obtiene el monto total gastado por cliente. 

Se realiza el mismo procedimiento, se eliminan los duplicado por region para conservar el cliente que mas gasto por region. 

In [67]:
p_clientes_region = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).sum()
p_clientes_region_1 = pd.DataFrame(p_clientes_region['precio']).reset_index()
p_clientes_region_1.sort_values(by=['region', 'nombre y apellido', 'precio'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre y apellido,precio
4,Sur,"Simpson, Homero",24470
1,Norte,"Perez, Juan",2490


##### 1.9 Monto Total de Ventas por Categoría de Productos

Para conocer el monto total de ventas por categoría de productos, es necesario unificar todas las tablas. Se toma la tabla *p_ventas_region_1* y se le agrega la tabla *Categoria_Producto* por medio de la PK **id_categoria_producto**.

Luego, se utiliza el mismo criterio. Dado que cada registro corresponde a la compra de una unidad de producto, sumando el precio de venta se obtiene el monto total gastado.


In [73]:
vtas_prod = p_ventas_region_1.join(cat_prod.set_index('id_categoria_producto'), on='id_categoria_producto').reset_index()

ventas_cat_1 = vtas_prod.groupby(['nombre_categoria'], axis=0).sum()
ventas_cat_1 = pd.DataFrame(ventas_cat_1['precio']).reset_index()
ventas_cat_1.sort_values(by=['precio'], axis=0, ascending=False).rename(columns={'precio':'Monto Ventas'})


Unnamed: 0,nombre_categoria,Monto Ventas
2,Smartphone,35100
1,Hogar,2910
0,Computacion,2720
