## Trabajo Final - Data Engineering Icaro

**Valentin Nicolás Mongi**

En la presente notebook se desarrolla el trabajo final del curso Data Engineering brindado por la fundacion Icaro.
Primero se importan todas la librerías necesarias para el desarrollo del práctico.

In [74]:
import pandas as pd
import requests
import numpy as np
from sqlalchemy import create_engine
import psycopg2

### 1. Parte 1

#### Conexion con la base de datos

Generamos la conexión con la base de datos bajo los siguientes datos:

*host: db-test.cq4syw9xqygb.us-east-1.rds.amazonaws.com*
*Port: 5432 Database: postgres User: postgres Password: postgres*

In [2]:
def getPostgreConnector(stringConnection= 'postgresql+psycopg2://postgres:postgres@db-test.cq4syw9xqygb.us-east-1.rds.amazonaws.com:5432/postgres'):
  engine = create_engine(stringConnection)
  return engine

Una vez creada la conexión, verificamos que funcione y este estable. Para eso, ejecutamos la conexión y consultamos la versión de PostgreSQL con la que vamos a trabajar.

In [3]:
# Chequeamos que la conexion funcione

engine = getPostgreConnector()
with engine.connect() as connection:
    result = connection.execute('Select version()')
    print(result.fetchone())

('PostgreSQL 12.5 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-11), 64-bit',)


#### Lectura de la base de datos

La lectura de las tablas de consulta se realizara por separado. 
* Primero se creearan variables de conexión a una única tabla DER. 
* En segundo lugar, se crean Pandas Dataframe para continuar los cálculos con la libreria Pandas.
* Por último, se realizarán Joins entre las tablas a medida que las consultas las vayan requiriendo. 


In [4]:
# DataFrame para la tabla Clientes

df_c = pd.read_sql('SELECT * FROM Clientes', engine)
clientes = pd.DataFrame(df_c)

In [5]:
# DataFrame para la tabla Ventas

df_v = pd.read_sql('SELECT * FROM Ventas', engine)
ventas = pd.DataFrame(df_v)

In [6]:
# DataFrame para la tabla Regiones

df_r = pd.read_sql('SELECT * FROM Regiones', engine)
regiones = pd.DataFrame(df_r)

In [7]:
# DataFrame para la tabla Ventas_Productos

df_vp = pd.read_sql('SELECT * FROM Ventas_Productos', engine)
ventas_prod = pd.DataFrame(df_vp)

In [8]:
# DataFrame para la tabla Categoria Productos

df_cp = pd.read_sql('SELECT * FROM Categoria_Producto', engine)
cat_prod = pd.DataFrame(df_cp)

In [9]:
# DataFrame para la tabla Productos

df_p = pd.read_sql('SELECT * FROM Productos', engine)
prod = pd.DataFrame(df_p)

#### 1.1 Consultas a la base de datos

En esta sección se realizan consultas a las tablas sobre la información que contiene cada una de ellas y sobre información que vincula a 2 o mas tablas.

En primer lugar se realizan consultas anexas para aportar mas información a las consultas. 

* Rango de Fechas

In [10]:
# Rango de Fechas

ventas['fecha_de_venta'] = pd.to_datetime(ventas['fecha_de_venta'])

ventas.describe(datetime_is_numeric=True)

Unnamed: 0,id_venta,id_cliente,fecha_de_venta
count,100.0,100.0,100
mean,50.5,3.25,2020-11-09 23:45:36
min,1.0,1.0,2020-10-11 00:00:00
25%,25.75,3.0,2020-11-02 00:00:00
50%,50.5,3.0,2020-11-07 12:00:00
75%,75.25,4.0,2020-11-24 00:00:00
max,100.0,5.0,2020-11-29 00:00:00
std,29.011492,1.200799,


##### 1.1.1 Cantidad de ventas totales

Se calculan la cantidad de ventas realizadas. Se van a utilizar las funciones unique() que solo rescata la clave unica de cada id y la funcion len() que da el tamano del array. La función unique() resulta importante utilizarla por si llegan a convivir 2 claves iguales dentro de la misma tabla. 

Se trabaja con la columna *'id_venta'* unicamente.

In [11]:
q_ventas = ventas['id_venta'].unique()

print('Se registraron', len(q_ventas), 'ventas desde el', ventas['fecha_de_venta'].min(), 'hasta el', ventas['fecha_de_venta'].max())

Se registraron 100 ventas desde el 2020-10-11 00:00:00 hasta el 2020-11-29 00:00:00


##### 1.1.2 Cantidad de Clientes Totales

Para obtener la cantidad de clientes totales, se aplica el mismo criterio anterior pero se trabaja sobre la tabla *Clientes*

In [12]:
q_clientes = clientes['id_cliente'].unique()

print('Desde el', ventas['fecha_de_venta'].min(), 'hasta el', ventas['fecha_de_venta'].max(), 'se registró un total de', len(q_clientes), 'clientes.')

Desde el 2020-10-11 00:00:00 hasta el 2020-11-29 00:00:00 se registró un total de 5 clientes.


##### 1.1.3 Cantidad de Clientes por Región

A continuación, se desea conocer la cantidad de clientes por región. Para tal fin, se anexan las tablas *Region* y *Clientes* por medio de la Primary Key **id_region**.

Luego, se realiza un groupby sobre el nuevo dataframe sobre la columna *region* y se agrupan por medio de la función Count que contabiliza las claves únicas.

Al final, solo se considera la columna de interés: **id_cliente** y se ordenan los datos en orden descendente.

In [13]:
q_cliente_region = clientes.set_index('id_region').join(regiones.set_index('id_region'))


q_cliente_region_1 = q_cliente_region.groupby('region', axis=0).count()
q_cliente_region_1 = pd.DataFrame(q_cliente_region_1['id_cliente']).reset_index()
q_cliente_region_1.sort_values(by=['id_cliente'], axis=0, ascending=False)

Unnamed: 0,region,id_cliente
1,Sur,3
0,Norte,2


##### 1.1.4 Cantidad de Productos por Categoria

Para conocer la cantidad de productos por categoría, se agrupan las tablas *Categoria_Productos* y *Productos* por medio de la clave única **id_categoria_producto**.

Luego, se considera la misma lógica aplicada anteriormente y la columna por la cual se agrupan los datos pasa a ser **nombre_categoria**.

In [14]:
q_productos_categoria = prod.join(cat_prod.set_index('id_categoria_producto'), on='id_categoria_producto')

q_productos_categoria_1 = q_productos_categoria.groupby('nombre_categoria', axis=0).count()
q_productos_categoria_1 = pd.DataFrame(q_productos_categoria_1['id_producto']).reset_index()
q_productos_categoria_1.sort_values(by=['id_producto'], axis=0, ascending=False)

Unnamed: 0,nombre_categoria,id_producto
2,Smartphone,5
0,Computacion,2
1,Hogar,2


##### 1.1.5 Cantidad de Ventas por Region

Para saber la cantidad de ventas por region, precisamos de la union entre la tabla *q_cliente_region*, creada anteriormente (que contiene informacion sobre los clientes y las regiones donde habitan los mismos), y la tabla *ventas* por medio de la PK **id_cliente**.

Una vez creada la tabla, se realiza un groupby agregando sobre la dimensión **region** y agrupando a través de la función Count que rescata las claves únicas de ventas (**id_venta**).

Luego, se eliminan las columnas que no son de interés y se ordena la tabla de forma descendente.

In [15]:
q_ventas_region = q_cliente_region.set_index('id_cliente').join(ventas.set_index('id_cliente'))

q_ventas_region_1 = q_ventas_region.groupby('region', axis=0).count()
q_ventas_region_1 = pd.DataFrame(q_ventas_region_1['id_venta']).reset_index()
q_ventas_region_1.sort_values(by=['id_venta'], axis=0, ascending=False)

Unnamed: 0,region,id_venta
1,Sur,83
0,Norte,17


##### 1.1.6 Producto más vendido en cada región

En la siguiente linea de codigo, se consulta cual fue el producto mas vendido por region. Para ello, precisamos la unión de 5 tablas: *Region*, *Clientes*, *Ventas*, *Ventas_Productos*, *Productos*.

En las consultas posteriores, ya se crearon varias de dichas uniones, por lo tanto solo resta unificar esas tablas creada en una única tabla por medio de las PK pertinentes. 

Primero, se une la tabla *q_ventas_region* (que contiene informacion sobre la region, los clientes y las ventas) con la tabla *Ventas_Productos* a través de la PK **id_venta**. Esta tabla pasa a llamarse *p_ventas_region*.

Esta última tabla se une a la tabla *Productos* por medio de la Primary Key **id_producto**, y pasa a llamarse *p_ventas_region_1* .

Una vez que tenemos la tabla con toda la información necesaria para la consulta, se utiliza la función groupby para agrupar la tabla por medio de las columnas **region** y **id_producto**. Se aplica la función Count para determinar la cantidad de unidades vendidas de cada producto, en cada región.

Por último, se ordenan los valores obtenidos de todos los productos vendidos en cada región en forma descendiente y se eliminan los duplicados de **region** para solo conservar el producto mas vendido en cada region.



In [16]:
p_ventas_region = q_ventas_region.set_index('id_venta').join(ventas_prod.set_index('id_venta'))

p_ventas_region_1 = p_ventas_region.join(prod.set_index('id_producto'), on='id_producto')
                                 
p_ventas_region_2 = p_ventas_region_1.groupby(['region','nombre_producto'], axis=0).count()

p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre_producto,id_producto
9,Sur,Iphone X,15
1,Norte,Iphone 7,4


##### 1.1.7 Cliente con más Productos Comprados por Región

A continuación, se consulta cual fue el cliente que más compras registró por región. Se necesita de la misma tabla creada anteriormente *p_ventas_region_1*.

Se crea una nueva columna que agrupa nombre y apellido de los clientes con la siguiente lógica: *apellido*, *nombre*

Luego, agrupamos la tabla con las dimensiones **region** y **nombre y apellido**. Utilizamos la función Count sobre la columna **id_prducto** para distinguir la cantidad de productos que compro cada cliente.

Eliminamos las columnas que no son de interés y ordenamos la tabla en orden descendente para conservar en primer lugar los clientes con mas productos comprados por region. Eliminamos los duplicados por región, y mantenemos unicamente los clientes que mas compras realizaron por region.

In [17]:
p_ventas_region_1['nombre y apellido'] = p_ventas_region_1['apellido'] + ', ' + p_ventas_region_1['nombre']

p_ventas_region_2 = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).count()
p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'nombre y apellido', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre y apellido,id_producto
4,Sur,"Simpson, Homero",53
1,Norte,"Perez, Juan",11


##### 1.1.8 Cliente que mas gasta por Región

Para conocer quien es el cliente que mas gasta por region, se utiliza la tabla ya creada y se agrupa considerando la función Sum. Dado que se registra una única linea por cada producto adquirido por cada cliente, se puede sumar directamente el precio del producto para obtener el monto gastado por cliente. Por lo tanto, al sumar el precio de cada producto que adquirio cada cliente, se obtiene el monto total gastado por cliente. 

Se realiza el mismo procedimiento, se eliminan los duplicado por region para conservar el cliente que mas gasto por region. 

In [18]:
p_clientes_region = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).sum()
p_clientes_region_1 = pd.DataFrame(p_clientes_region['precio']).reset_index()
p_clientes_region_1.sort_values(by=['region', 'nombre y apellido', 'precio'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre y apellido,precio
4,Sur,"Simpson, Homero",24470
1,Norte,"Perez, Juan",2490


##### 1.1.9 Monto Total de Ventas por Categoría de Productos

Para conocer el monto total de ventas por categoría de productos, es necesario unificar todas las tablas. Se toma la tabla *p_ventas_region_1* y se le agrega la tabla *Categoria_Producto* por medio de la PK **id_categoria_producto**.

Luego, se utiliza el mismo criterio. Dado que cada registro corresponde a la compra de una unidad de producto, sumando el precio de venta se obtiene el monto total gastado.


In [19]:
vtas_prod = p_ventas_region_1.join(cat_prod.set_index('id_categoria_producto'), on='id_categoria_producto').reset_index()

ventas_cat_1 = vtas_prod.groupby(['nombre_categoria'], axis=0).sum()
ventas_cat_1 = pd.DataFrame(ventas_cat_1['precio']).reset_index()
ventas_cat_1.sort_values(by=['precio'], axis=0, ascending=False).rename(columns={'precio':'Monto Ventas'})


Unnamed: 0,nombre_categoria,Monto Ventas
2,Smartphone,35100
1,Hogar,2910
0,Computacion,2720


##### Confeccionamos la última tabla de datos unificada

Realizamos una copia del último DataFrame unificanado todas las tablas DER y la nombramos: *df_final*

In [210]:
df_final = vtas_prod.copy()

#### 1.2 Construcción y consulta sobre informe analítico

En la siguiente sección se presenta el codigo para crear tablas temporales en PostreSQL que contengan información de interés.

##### 1.2.1 Armado de la tabla temporal

In [152]:
# Creamos las columnas para los Años y Meses de ventas

df_final['Año'] = pd.DatetimeIndex(df_final['fecha_de_venta']).year
df_final['Mes'] = pd.DatetimeIndex(df_final['fecha_de_venta']).month

Se crea una nueva tabla con la información necesaria sobre: *año de la venta, mes de la venta, Region, Categoria de Producto, Producto, Ventas Acumuladas en ese mes para esa categoría y para ese producto*.

In [153]:
df_vf = pd.DataFrame(df_final, columns=['region','Año','Mes', 'nombre_categoria', 'nombre_producto', 'precio', 'id_venta'])

Para obtener las *Ventas Acumuladas por mes*, distinguiendo entre Categoría y Productos, creamos dos tablas utilizando groupby que nos indique las ventas acumuladas por mes para categoria de productos y otra para nombre de producto.

In [162]:
cat_acum = df_vf.groupby(['Mes', 'nombre_categoria']).count().rename(columns={'id_venta':'Ventas Acum. Cat'}).reset_index()
cat_acum = cat_acum.drop(['nombre_producto', 'precio','region','Año'], axis=1)
cat_acum

Unnamed: 0,Mes,nombre_categoria,Ventas Acum. Cat
0,10,Computacion,3
1,10,Hogar,3
2,10,Smartphone,14
3,11,Computacion,14
4,11,Hogar,15
5,11,Smartphone,51


In [163]:
prod_acum = df_vf.groupby(['Mes', 'nombre_producto']).count().rename(columns={'id_venta':'Ventas Acum. Prod'}).reset_index()
prod_acum = prod_acum.drop(['nombre_categoria', 'precio','region','Año'], axis=1)
prod_acum#

Unnamed: 0,Mes,nombre_producto,Ventas Acum. Prod
0,10,Cocina Electrolux,1
1,10,Iphone 7,3
2,10,Iphone X,2
3,10,Lavarropas Drean Next Eco,2
4,10,"Monito 27""",3
5,10,Moto E9,6
6,10,Moto G9,2
7,10,Samsung S20,1
8,11,Cocina Electrolux,10
9,11,Iphone 7,9


Una vez creadas las tablas con las ventas acumuladas por mes para cada categoria y para cada producto, se realiza un merge sobre las columnas **Mes**, **Categoria** y **Productos** para unificar todo en el dataframe creado que servira como base para la tabla temporal.

In [164]:
df_vf = df_vf.merge(cat_acum,how='outer', left_on=['Mes', 'nombre_categoria'], right_on=['Mes', 'nombre_categoria'])

In [165]:
df_vf = df_vf.merge(prod_acum,how='outer', left_on=['Mes', 'nombre_producto'], right_on=['Mes', 'nombre_producto'])

In [171]:
df_vf_1 = df_vf.drop(['id_venta'], axis=1)
df_vf_1.head()

Unnamed: 0,region,Año,Mes,nombre_categoria,nombre_producto,precio,Ventas Acum. Cat,Ventas Acum. Prod
0,Norte,2020,10,Computacion,"Monito 27""",200,3,3
1,Sur,2020,10,Computacion,"Monito 27""",200,3,3
2,Sur,2020,10,Computacion,"Monito 27""",200,3,3
3,Norte,2020,10,Smartphone,Iphone 7,500,14,3
4,Norte,2020,10,Smartphone,Iphone 7,500,14,3


##### 1.2.2 Cargamos la tabla temporal en PostgreSQL

Se utiliza el motor de PostgreSQL ya creada para cargar la base de datos al servidor remoto. Luego, se utiliza un codigo que verifica la existencia de todas las tablas creadas disponibles en el servidor para ser consultadas.

In [174]:
engine = getPostgreConnector()
df_vf_1.set_index('Mes').to_sql(name= 'valentin_mongi_ventas_acum', con=engine, if_exists='replace', index_label=None)

In [213]:
engine = getPostgreConnector()
df_vf_1.set_index('Mes').to_sql(name= 'valentin_mongi_ventas_acum', con=engine, if_exists='replace', index_label=None)

In [214]:
engine = getPostgreConnector()
with engine.connect() as connection:
  result = connection.execute("""SELECT table_name FROM information_schema.tables
        WHERE table_schema = 'public'""")
  for table in result.fetchall():
      print(table)

('clientes',)
('productos',)
('fernando_chavez_ventas_acumuladas',)
('vt_region_agrupada',)
('vt_fer_chavez_region_agrupada',)
('vt_fer_chavez_agrupados_dma',)
('vt_fer_chavez_categoria_agrupada',)
('vt_fer_chavez_agrupados_dma_cate',)
('vt_fer_chavez_prod_mas_vendido',)
('vt_fer_chavez_agrupados_mes_canti',)
('constanza_sonzini_ventas_acum',)
('valentin_mongi_ventas_acum',)
('ventas_productos',)
('prod_x_region',)
('prod_x_cli',)
('ventas',)
('gasto_cliente_x_region',)
('regiones',)
('categoria_producto',)
('ventas_acumuladas_view',)
('product_groups',)
('products',)
('cmd_exec',)


##### 1.2.3 Consultamos la base temporal subida a PostgreSQL

Confeccionamos una nueva conexion a PostgreSQL para la lectura de la tabla temporal con la que trabajamos a continuacion. 

In [215]:
data = pd.read_sql('SELECT * FROM valentin_mongi_ventas_acum', engine)
data = pd.DataFrame(data)

In [216]:
data.head()

Unnamed: 0,Mes,region,Año,nombre_categoria,nombre_producto,precio,Ventas Acum. Cat,Ventas Acum. Prod
0,10,Norte,2020,Computacion,"Monito 27""",200,3,3
1,10,Sur,2020,Computacion,"Monito 27""",200,3,3
2,10,Sur,2020,Computacion,"Monito 27""",200,3,3
3,10,Norte,2020,Smartphone,Iphone 7,500,14,3
4,10,Norte,2020,Smartphone,Iphone 7,500,14,3


In [217]:
data.describe()

Unnamed: 0,Mes,Año,precio,Ventas Acum. Cat,Ventas Acum. Prod
count,100.0,100.0,100.0,100.0,100.0
mean,10.8,2020.0,407.3,32.36,8.64
std,0.402015,0.0,348.714392,19.293334,3.705088
min,10.0,2020.0,30.0,3.0,1.0
25%,11.0,2020.0,150.0,14.0,6.0
50%,11.0,2020.0,200.0,51.0,10.0
75%,11.0,2020.0,900.0,51.0,13.0
max,11.0,2020.0,1000.0,51.0,13.0


In [None]:
data

##### 1.2.3.1 Región con más ventas por cada año y mes

Para conocer cual fue la region que mas ventas registro durante el año 2020 y los meses en cuestion, levantamos la tabla temporal **valentin_mongi_ventas_acum** y realizamos un GroupBy sobre las columnas *region, año y mes* agregando a través de la función Count.

In [201]:
region_ventas = data.groupby(['region','Año', 'Mes'], axis=0).count()
region_ventas_1 = pd.DataFrame(region_ventas, columns=['Ventas Acum. Prod']).reset_index()
region_ventas_1.sort_values(by=['region','Ventas Acum. Prod'], axis=0, ascending=False).rename(columns={'Ventas Acum. Prod':'Ventas Acum.'})

Unnamed: 0,region,Año,Mes,Ventas Acum.
3,Sur,2020,11,73
2,Sur,2020,10,10
0,Norte,2020,10,10
1,Norte,2020,11,7


##### 1.2.3.2 Categoría de producto con más ventas por cada año y mes

En el caso que se quiera desagregar por categoria de producto, al código anterior se le agrega la dimensión *nombre_categoria* sobre el GroupBy.

In [202]:
cat_ventas = data.groupby(['region','Año', 'Mes', 'nombre_categoria'], axis=0).count()
cat_ventas_1 = pd.DataFrame(cat_ventas, columns=['Ventas Acum. Prod']).reset_index()
cat_ventas_1.sort_values(by=['region','Ventas Acum. Prod'], axis=0, ascending=False).rename(columns={'Ventas Acum. Prod':'Ventas Acum.'})

Unnamed: 0,region,Año,Mes,nombre_categoria,Ventas Acum.
11,Sur,2020,11,Smartphone,48
10,Sur,2020,11,Hogar,13
9,Sur,2020,11,Computacion,12
8,Sur,2020,10,Smartphone,7
6,Sur,2020,10,Computacion,2
7,Sur,2020,10,Hogar,1
2,Norte,2020,10,Smartphone,7
5,Norte,2020,11,Smartphone,3
1,Norte,2020,10,Hogar,2
3,Norte,2020,11,Computacion,2


##### 1.2.3.3 Producto más vendido en cada mes, por cada región y categoría de producto existente.

En este caso, se procede con la misma lógica y a la función GroupBy se le agrega la dimensión *nombre_categoria*

In [203]:
prod_ventas = data.groupby(['region','Año', 'Mes', 'nombre_categoria', 'nombre_producto'], axis=0).count()
prod_ventas_1 = pd.DataFrame(prod_ventas, columns=['Ventas Acum. Prod']).reset_index()
prod_ventas_1.sort_values(by=['region','Ventas Acum. Prod'], axis=0, ascending=False).rename(columns={'Ventas Acum. Prod':'Ventas Acum.'})

Unnamed: 0,region,Año,Mes,nombre_categoria,nombre_producto,Ventas Acum.
23,Sur,2020,11,Smartphone,Iphone X,13
25,Sur,2020,11,Smartphone,Moto G9,12
18,Sur,2020,11,Computacion,"Monito 27""",10
26,Sur,2020,11,Smartphone,Samsung S20,10
20,Sur,2020,11,Hogar,Cocina Electrolux,9
22,Sur,2020,11,Smartphone,Iphone 7,7
24,Sur,2020,11,Smartphone,Moto E9,6
21,Sur,2020,11,Hogar,Lavarropas Drean Next Eco,4
11,Sur,2020,10,Computacion,"Monito 27""",2
14,Sur,2020,10,Smartphone,Iphone X,2


#### 1.2.4 Guardado de tabla en .csv

Por último, obtenemos el numero de ventas acumuladas por año y por mes y escribimos la tabla en un archivo *.csv*

In [205]:
mes_ventas = data.groupby(['Año', 'Mes'], axis=0).count()
mes_ventas_1 = pd.DataFrame(mes_ventas, columns=['Ventas Acum. Prod']).reset_index()
mes_ventas_1.sort_values(by=['Ventas Acum. Prod'], axis=0, ascending=False).rename(columns={'Ventas Acum. Prod':'Ventas Acum.'})

Unnamed: 0,Año,Mes,Ventas Acum.
1,2020,11,80
0,2020,10,20


##### 1.2.4.1 DataFrame to .csv

Una vez creada la tabla con pandas, se escribe el DataFrame en un archivo .csv que se guarda localmente.

In [207]:
mes_ventas_1.to_csv('ventas_acumuladas.csv')