## Trabajo Final - Data Engineering Icaro

En la presente notebook se desarrolla el trabajo final del curso Data Engineering brindado por la fundacion Icaro.
Primero se importan todas la librerías necesarias para el desarrollo del práctico.

In [10]:
import pandas as pd
import requests
from sqlalchemy import create_engine
import psycopg2

Comentamos los paquetes instalados porque son requeridos por una única vez.

In [11]:
#!pip install SQLAlchemy

In [12]:
#!pip install psycopg2

### 1. Parte 1

#### Conexion con la base de datos

In [13]:
def getPostgreConnector(stringConnection= 'postgresql+psycopg2://postgres:postgres@db-test.cq4syw9xqygb.us-east-1.rds.amazonaws.com:5432/postgres'):
  engine = create_engine(stringConnection)
  return engine

In [14]:
# Chequeamos que la conexion funcione

engine = getPostgreConnector()
with engine.connect() as connection:
    result = connection.execute('Select version()')
    print(result.fetchone())

('PostgreSQL 12.5 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-11), 64-bit',)


#### Lectura de la base de datos

Primero seleccionamos todas las bases disponibles en la DataBase original y analizamos algunas medidas de tamano de la base.

In [15]:
#df = pd.read_sql('SELECT * FROM Clientes, Ventas, Regiones, Ventas_Productos, Categoria_Producto, Productos', engine)

In [18]:
# DataFrame para la tabla Clientes

df_c = pd.read_sql('SELECT * FROM Clientes', engine)
clientes = pd.DataFrame(df_c)

In [19]:
# DataFrame para la tabla Ventas

df_v = pd.read_sql('SELECT * FROM Ventas', engine)
ventas = pd.DataFrame(df_v)

In [20]:
# DataFrame para la tabla Regiones

df_r = pd.read_sql('SELECT * FROM Regiones', engine)
regiones = pd.DataFrame(df_r)

In [21]:
# DataFrame para la tabla Ventas_Productos

df_vp = pd.read_sql('SELECT * FROM Ventas_Productos', engine)
ventas_prod = pd.DataFrame(df_vp)

In [22]:
# DataFrame para la tabla Categoria Productos

df_cp = pd.read_sql('SELECT * FROM Categoria_Producto', engine)
cat_prod = pd.DataFrame(df_cp)

In [25]:
# DataFrame para la tabla Productos

df_p = pd.read_sql('SELECT * FROM Productos', engine)
prod = pd.DataFrame(df_p)

In [66]:
#len(df_r)*len(df_cp)*len(df_p)*len(df_vp)*len(df_v)*len(df_c)

2700000

#### Consultas a la base de datos

Primero se eliminan las columnas id que se repiten, sirvieron de conexion en las tablas y no es necesario contar con duplicados para el análisis posterior.

*'id_cliente', 'id_venta', 'id_producto', 'id_categoria_producto', 'id_region'* son las claves que estan duplicadas y que actuaron como indices para relacionar las bases.

In [27]:
#df = df.loc[:,~df.columns.duplicated()]
#df.shape

##### 1.1 Cantidad de ventas totales

Se calculan la cantidad de ventas realizadas. Se van a utilizar las funciones unique() que solo rescata la clave unica de cada id y la funcion len() que da el tamano del array.
Se trabaja con la columna *'id_venta'* unicamente.

In [38]:
q_ventas = ventas['id_venta'].unique()
len(q_ventas)

100

##### 1.2 Cantidad de Clientes Totales

In [40]:
q_clientes = clientes['id_cliente'].unique()
len(q_clientes)

5

##### 1.3 Cantidad de Clientes por Región

In [78]:
q_cliente_region = clientes.set_index('id_region').join(regiones.set_index('id_region'))


q_cliente_region_1 = q_cliente_region.groupby('region', axis=0).count()
q_cliente_region_1 = pd.DataFrame(q_cliente_region_1['id_cliente']).reset_index()
q_cliente_region_1.sort_values(by=['id_cliente'], axis=0, ascending=False)

Unnamed: 0,region,id_cliente
1,Sur,3
0,Norte,2


##### 1.4 Cantidad de Productos por Categoria

In [70]:
q_productos_categoria = prod.set_index('id_categoria_producto').join(cat_prod.set_index('id_categoria_producto'))

q_productos_categoria

q_productos_categoria_1 = q_productos_categoria.groupby('nombre_categoria', axis=0).count()
q_productos_categoria_1 = pd.DataFrame(q_productos_categoria_1['id_producto']).reset_index()
q_productos_categoria_1.sort_values(by=['id_producto'], axis=0, ascending=False)

Unnamed: 0,nombre_categoria,id_producto
2,Smartphone,5
0,Computacion,2
1,Hogar,2


##### 1.5 Cantidad de Ventas por Region

In [72]:
q_ventas_region = q_cliente_region.set_index('id_cliente').join(ventas.set_index('id_cliente'))

q_ventas_region_1 = q_ventas_region.groupby('region', axis=0).count()
q_ventas_region_1 = pd.DataFrame(q_ventas_region_1['id_venta']).reset_index()
q_ventas_region_1.sort_values(by=['id_venta'], axis=0, ascending=False)

Unnamed: 0,region,id_venta
1,Sur,83
0,Norte,17


##### 1.6 Producto más vendido en cada región

In [102]:
p_ventas_region = q_ventas_region.set_index('id_venta').join(ventas_prod.set_index('id_venta'))

p_ventas_region_1 = p_ventas_region.join(prod.set_index('id_producto'), on='id_producto')
                                 
p_ventas_region_2 = p_ventas_region_1.groupby(['region','nombre_producto'], axis=0).count()#.reset_index()

p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre_producto,id_producto
9,Sur,Iphone X,15
1,Norte,Iphone 7,4


##### 1.7 Cliente con más Productos Comprados por Región

In [113]:
p_ventas_region = q_ventas_region.set_index('id_venta').join(ventas_prod.set_index('id_venta'))

p_ventas_region_1 = p_ventas_region.join(prod.set_index('id_producto'), on='id_producto')

p_ventas_region_1['nombre y apellido'] = p_ventas_region_1['apellido'] + ', ' + p_ventas_region_1['nombre']

p_ventas_region_2 = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).count()
p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['id_producto']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'nombre y apellido', 'id_producto'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')

Unnamed: 0,region,nombre y apellido,id_producto
4,Sur,"Simpson, Homero",53
1,Norte,"Perez, Juan",11


##### 1.8 Cliente que mas gasta por Región

In [117]:
#p_ventas_region = q_ventas_region.set_index('id_venta').join(ventas_prod.set_index('id_venta'))

#p_ventas_region_1 = p_ventas_region.join(prod.set_index('id_producto'), on='id_producto')

#p_ventas_region_1['nombre y apellido'] = p_ventas_region_1['apellido'] + ', ' + p_ventas_region_1['nombre']

p_ventas_region_2 = p_ventas_region_1.groupby(['region', 'nombre y apellido'], axis=0).sum()
p_ventas_region_2 = pd.DataFrame(p_ventas_region_2['precio']).reset_index()
p_ventas_region_2.sort_values(by=['region', 'nombre y apellido', 'precio'], axis=0, ascending=False).drop_duplicates(['region'],keep='first')


Unnamed: 0,region,nombre y apellido,precio
4,Sur,"Simpson, Homero",24470
1,Norte,"Perez, Juan",2490


##### 1.9 Cliente que mas gasta por Región