## Importando Librerías

In [3]:
import sqlalchemy as db
from sqlalchemy import text
import pandas as pd

## Conexión a Base de Datos retail_db

Inicializar la conexión pasando a engine la dirección de la base de datos retail_db.

Cabe mencionar que la sintaxis para un engine es: 

engine = db.create_engine('mysql://user:password@ip:port/database').

In [4]:
engine = db.create_engine('mysql://root:root@172.16.5.4:3310/retail_db')

Procedemos a crear una conexión a la base de datos retail_db con el método ".conect()".

In [5]:
conn = engine.connect()

## Lectura de las Tablas de retail_db

A continuación leemos tablas de la base de datos retail_db.

In [6]:
customers_df = pd.read_sql('SELECT * FROM customers', con=conn)
customers_df.head()

Unnamed: 0,customer_id,customer_fname,customer_lname,customer_email,customer_password,customer_street,customer_city,customer_state,customer_zipcode
0,1,Richard,Hernandez,XXXXXXXXX,XXXXXXXXX,6303 Heather Plaza,Brownsville,TX,78521
1,2,Mary,Barrett,XXXXXXXXX,XXXXXXXXX,9526 Noble Embers Ridge,Littleton,CO,80126
2,3,Ann,Smith,XXXXXXXXX,XXXXXXXXX,3422 Blue Pioneer Bend,Caguas,PR,725
3,4,Mary,Jones,XXXXXXXXX,XXXXXXXXX,8324 Little Common,San Marcos,CA,92069
4,5,Robert,Hudson,XXXXXXXXX,XXXXXXXXX,10 Crystal River Mall,Caguas,PR,725


In [7]:
orders_df = pd.read_sql('SELECT * FROM orders', con=conn)
orders_df.head()

Unnamed: 0,order_id,order_date,order_customer_id,order_status
0,1,2013-07-25,11599,CLOSED
1,2,2013-07-25,256,PENDING_PAYMENT
2,3,2013-07-25,12111,COMPLETE
3,4,2013-07-25,8827,CLOSED
4,5,2013-07-25,11318,COMPLETE


In [8]:
order_items_df = pd.read_sql('SELECT * FROM order_items', con=conn)
order_items_df.head()

Unnamed: 0,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price
0,1,1,957,1,299.98,299.98
1,2,2,1073,1,199.99,199.99
2,3,2,502,5,250.0,50.0
3,4,2,403,1,129.99,129.99
4,5,4,897,2,49.98,24.99


In [9]:
products_df = pd.read_sql('SELECT * FROM products', con=conn)
products_df.head()

Unnamed: 0,product_id,product_category_id,product_name,product_description,product_price,product_image
0,1,2,Quest Q64 10 FT. x 10 FT. Slant Leg Instant U,,59.98,http://images.acmesports.sports/Quest+Q64+10+F...
1,2,2,Under Armour Men's Highlight MC Football Clea,,129.99,http://images.acmesports.sports/Under+Armour+M...
2,3,2,Under Armour Men's Renegade D Mid Football Cl,,89.99,http://images.acmesports.sports/Under+Armour+M...
3,4,2,Under Armour Men's Renegade D Mid Football Cl,,89.99,http://images.acmesports.sports/Under+Armour+M...
4,5,2,Riddell Youth Revolution Speed Custom Footbal,,199.99,http://images.acmesports.sports/Riddell+Youth+...


In [10]:
categories_df = pd.read_sql('SELECT * FROM categories', con=conn)
categories_df.head()

Unnamed: 0,category_id,category_department_id,category_name
0,1,2,Football
1,2,2,Soccer
2,3,2,Baseball & Softball
3,4,2,Basketball
4,5,2,Lacrosse


In [11]:
departments_df = pd.read_sql('SELECT * FROM departments', con=conn)
departments_df.head()

Unnamed: 0,department_id,department_name
0,2,Fitness
1,3,Footwear
2,4,Apparel
3,5,Golf
4,6,Outdoors


## Operaciones de Query con retail_db

Ahora se hará uso de algunas de las funciones utilizadas en MySQL.

Iniciamos con un ejemplo en el cual queremos obtener un data frame de los ingresos por día.

Para ello, hacemos un merge entre los data frames orders_df y order_items_df, para crear un dataframe que contenga order_date y order_item_subtotal, el cual llamaremos df_promedio.

Cabe mencionar que para realizar el merge utilizamos las claves order_id y order_item_order_id.

In [12]:
df_promedio = orders_df.merge(order_items_df, left_on = 'order_id', right_on = 'order_item_order_id', how='left')
df_promedio.head()

Unnamed: 0,order_id,order_date,order_customer_id,order_status,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price
0,1,2013-07-25,11599,CLOSED,1.0,1.0,957.0,1.0,299.98,299.98
1,2,2013-07-25,256,PENDING_PAYMENT,2.0,2.0,1073.0,1.0,199.99,199.99
2,2,2013-07-25,256,PENDING_PAYMENT,3.0,2.0,502.0,5.0,250.0,50.0
3,2,2013-07-25,256,PENDING_PAYMENT,4.0,2.0,403.0,1.0,129.99,129.99
4,3,2013-07-25,12111,COMPLETE,,,,,,


A continuación vemos 2 formas distintas de crear un data frame con la sumatoria de los subtotales por dia.

In [59]:
# Forma Escalar (Serie)
series_total_dia = df_promedio[['order_date', 'order_item_subtotal']].groupby('order_date').sum()['order_item_subtotal']
series_total_dia.head()

order_date
2013-07-25     68153.83
2013-07-26    136520.17
2013-07-27    101074.34
2013-07-28     87123.08
2013-07-29    137287.09
Name: order_item_subtotal, dtype: float64

En la forma anterior "series_total_dia" obtenemos un resultado escalar, es decir, una serie.

In [60]:
# Forma Vectorial (Data Frame)
df_total_dia = df_promedio[['order_date', 'order_item_subtotal']].groupby('order_date').sum().head()
df_total_dia.head()

Unnamed: 0_level_0,order_item_subtotal
order_date,Unnamed: 1_level_1
2013-07-25,68153.83
2013-07-26,136520.17
2013-07-27,101074.34
2013-07-28,87123.08
2013-07-29,137287.09


Mientras que en la forma anterior, "df_total_dia", conseguimos un data frame.

Utilizando el método .info() podemos notar la diferencia entre la forma escalar y vectorial, para trabajar con dicho data frame.

In [63]:
series_total_dia.info()

<class 'pandas.core.series.Series'>
DatetimeIndex: 364 entries, 2013-07-25 to 2014-07-24
Series name: order_item_subtotal
Non-Null Count  Dtype  
--------------  -----  
364 non-null    float64
dtypes: float64(1)
memory usage: 5.7 KB


In [62]:
df_total_dia.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 5 entries, 2013-07-25 to 2013-07-29
Data columns (total 1 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   order_item_subtotal  5 non-null      float64
dtypes: float64(1)
memory usage: 80.0 bytes


Finalmente, haciendo uso de los métodos ".sum()", ".drop_duplicates()" y ".count()", creamos el data frame con el promedio de ingresos por día, llamado df_promedio_final.

In [17]:
df_promedio_dia = df_promedio[['order_date', 'order_item_subtotal']].groupby('order_date').sum()['order_item_subtotal']/df_promedio[['order_date', 'order_item_order_id']]\
                    .drop_duplicates().groupby('order_date').count()['order_item_order_id']
df_promedio_dia.head()

order_date
2013-07-25    587.533017
2013-07-26    585.923476
2013-07-27    577.567657
2013-07-28    551.411899
2013-07-29    635.588380
dtype: float64

A continuación veremos otro ejemplo, realizando data frame del promedio por mes.

Para empezar creamos una columna para el mes dentro del data frame df_promedio.

In [18]:
df_promedio['month'] = df_promedio['order_date'].astype(str).str[5:7]
df_promedio['month'] = df_promedio['month'].astype('int32')
df_promedio.head()

Unnamed: 0,order_id,order_date,order_customer_id,order_status,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price,month
0,1,2013-07-25,11599,CLOSED,1.0,1.0,957.0,1.0,299.98,299.98,7
1,2,2013-07-25,256,PENDING_PAYMENT,2.0,2.0,1073.0,1.0,199.99,199.99,7
2,2,2013-07-25,256,PENDING_PAYMENT,3.0,2.0,502.0,5.0,250.0,50.0,7
3,2,2013-07-25,256,PENDING_PAYMENT,4.0,2.0,403.0,1.0,129.99,129.99,7
4,3,2013-07-25,12111,COMPLETE,,,,,,,7


Creamos el data frame para el promedio de ingresos por mes de la misma forma que con el de ingresos por día, cambiando tan solo la clave date por la columna month que creamos previamente.

In [19]:
df_promedio_mes = df_promedio[['month', 'order_item_subtotal']].groupby('month').sum()['order_item_subtotal']/df_promedio[['month', 'order_item_order_id']]\
                    .drop_duplicates().groupby('month').count()['order_item_order_id']
df_promedio_mes.head()

month
1    593.916939
2    594.366558
3    598.221987
4    592.235773
5    605.072136
dtype: float64

Finalmente, realizamos el mismo procedimiento pero en este caso para obtener un df del promedio de ingresos por año.

In [20]:
df_promedio['year'] = df_promedio['order_date'].astype(str).str[0:4].astype('int32')
df_promedio.head()

Unnamed: 0,order_id,order_date,order_customer_id,order_status,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price,month,year
0,1,2013-07-25,11599,CLOSED,1.0,1.0,957.0,1.0,299.98,299.98,7,2013
1,2,2013-07-25,256,PENDING_PAYMENT,2.0,2.0,1073.0,1.0,199.99,199.99,7,2013
2,2,2013-07-25,256,PENDING_PAYMENT,3.0,2.0,502.0,5.0,250.0,50.0,7,2013
3,2,2013-07-25,256,PENDING_PAYMENT,4.0,2.0,403.0,1.0,129.99,129.99,7,2013
4,3,2013-07-25,12111,COMPLETE,,,,,,,7,2013


In [21]:
df_promedio_year = df_promedio[['year', 'order_item_subtotal']].groupby('year').sum()['order_item_subtotal']/df_promedio[['year', 'order_item_order_id']]\
                    .drop_duplicates().groupby('year').count()['order_item_order_id']
df_promedio_year.head()

year
2013    596.589193
2014    598.469364
dtype: float64

A continuación haremos un ejercicio en el cual se buscará obtener un data frame de los departamentos con el promedio de mayores ventas.

Para realizar un merge de las tablas desde "orders_df" hasta "departments_df", es necesario revisar el diagrama ER de la base de datos "retail_db" (cuyo path es: "/main/Sesion3/mysql/cloudera-retail-db.png").

Para ello, tomamos las llaves en común entre las tablas. Iniciando desde el data frame "orders_df" con "order_items_df", luego con "products_df", pasando por "categories_df", hasta finalmente llegar al data frame "departments_df".

In [41]:
df_order_to_department_join = orders_df.merge(order_items_df, left_on='order_id', right_on='order_item_order_id')\
                                .merge(products_df, left_on='order_item_product_id', right_on='product_id')\
                                .merge(categories_df, left_on='product_category_id', right_on='category_id')\
                                .merge(departments_df, left_on='category_department_id', right_on='department_id')



df_order_to_department_join.head()

Unnamed: 0,order_id,order_date,order_customer_id,order_status,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price,...,product_category_id,product_name,product_description,product_price,product_image,category_id,category_department_id,category_name,department_id,department_name
0,1,2013-07-25,11599,CLOSED,1,1,957,1,299.98,299.98,...,43,Diamondback Women's Serene Classic Comfort Bi,,299.98,http://images.acmesports.sports/Diamondback+Wo...,43,7,Camping & Hiking,7,Fan Shop
1,2,2013-07-25,256,PENDING_PAYMENT,2,2,1073,1,199.99,199.99,...,48,Pelican Sunstream 100 Kayak,,199.99,http://images.acmesports.sports/Pelican+Sunstr...,48,7,Water Sports,7,Fan Shop
2,2,2013-07-25,256,PENDING_PAYMENT,3,2,502,5,250.0,50.0,...,24,Nike Men's Dri-FIT Victory Golf Polo,,50.0,http://images.acmesports.sports/Nike+Men%27s+D...,24,5,Women's Apparel,5,Golf
3,2,2013-07-25,256,PENDING_PAYMENT,4,2,403,1,129.99,129.99,...,18,Nike Men's CJ Elite 2 TD Football Cleat,,129.99,http://images.acmesports.sports/Nike+Men%27s+C...,18,4,Men's Footwear,4,Apparel
4,4,2013-07-25,8827,CLOSED,5,4,897,2,49.98,24.99,...,40,Team Golf New England Patriots Putter Grip,,24.99,http://images.acmesports.sports/Team+Golf+New+...,40,6,Accessories,6,Outdoors


Para corroborar que haya sido exitoso el merge, hacemos una suma de subtotales por departamento.

In [57]:
df_department_sum = df_order_to_department_join[['department_name', 'order_item_subtotal']].groupby('department_name').sum()['order_item_subtotal']
df_department_sum.head()

department_name
Apparel      7323700.20
Fan Shop    17107765.88
Fitness       280044.14
Footwear     4006498.77
Golf         4609028.22
Name: order_item_subtotal, dtype: float64

Finalizamos, procediendo con el mismo algoritmo que hemos hecho anteriormente para conseguir data frames de promedios de acuerdo con las necesidades requeridas.

In [58]:
df_department_promedio = df_order_to_department_join[['department_name', 'order_item_subtotal']].groupby('department_name')\
                            .sum()['order_item_subtotal']/df_order_to_department_join[['department_name', 'order_item_order_id']]\
                            .drop_duplicates().groupby('department_name').count()['order_item_order_id']
df_department_promedio.head()

department_name
Apparel     222.004311
Fan Shop    419.575364
Fitness     134.636606
Footwear    307.978997
Golf        178.030369
dtype: float64

Cabe mencionar que al manipular un data frame con el objetivo de realizar cálculos, éste se convierte en una serie.

In [64]:
df_department_promedio.info()

<class 'pandas.core.series.Series'>
Index: 6 entries, Apparel to Outdoors
Series name: None
Non-Null Count  Dtype  
--------------  -----  
6 non-null      float64
dtypes: float64(1)
memory usage: 96.0+ bytes
