In [1]:
# Análisis de datos
import pandas as pd
from sqlalchemy import create_engine

In [2]:
# Creamos el buscador con conexión a nuestra BD
engine = create_engine('mysql://root:root@127.0.0.1:3310/retail_db')

In [6]:
# Leemos la tabla clientes, ...
customers = pd.read_sql_table('customers',engine)
orders = pd.read_sql_table('orders',engine)
order_items = pd.read_sql_table('order_items',engine)
products = pd.read_sql_table('products',engine)
categories = pd.read_sql_table('categories',engine)
departments = pd.read_sql_table('departments',engine)

In [7]:
# Columnas de clientes
customers.columns

Index(['customer_id', 'customer_fname', 'customer_lname', 'customer_email',
       'customer_password', 'customer_street', 'customer_city',
       'customer_state', 'customer_zipcode'],
      dtype='object')

In [10]:
#Contamos la columna id
customers['customer_id'].count()

np.int64(12435)

In [13]:
#Contamos la cantidad de clientes únicos
print('Cantidad de clientes únicos:',customers['customer_id'].nunique())

Cantidad de clientes únicos: 12435


In [16]:
#Contamos la cantidad de category_deparment_id con value_counts
categories['category_department_id'].value_counts()

category_department_id
6    12
8    10
2     8
3     8
5     7
7     7
4     6
Name: count, dtype: int64

In [20]:
#La distribución de categorías por nombre de departamento
#Hacemos merge de las tablas para obtener la cantidad por departamento
#En este caso el merge es por default inner, y es lo que queremos para que no nos cuente los nulos. Se emplea el left_on y right_on porque los nombres del campo por el cual se unen los df es diferentes en ambos df.
categoria_distribucion = categories.merge(departments,left_on='category_department_id',right_on='department_id')
#Empleamos la función value_counts para contar las categoria de productos por departamento
categoria_distribucion = categoria_distribucion['department_name'].value_counts()
categoria_distribucion

department_name
Outdoors    12
Fitness      8
Footwear     8
Golf         7
Fan Shop     7
Apparel      6
Name: count, dtype: int64

In [24]:
#¿Cuáles con los productos más caros y más baratos? > Mostrar el precio de los productos en orden descente por nombre de producto.
precio_productos = pd.read_sql_query('select product_name as producto, product_price as precio from products order by precio desc',engine)
precio_productos.head(1)

Unnamed: 0,producto,precio
0,SOLE E35 Elliptical,1999.99


In [26]:
precio_productos.tail(1)

Unnamed: 0,producto,precio
1344,Nike Men's Hypervenom Phantom Premium FG Socc,0.0


In [30]:
#¿Cuál es el valor total de las ordenes por estado? > Mostrar las ventas en orden descente por estado por nombre de estado.
#Hacemos un merge de las tablas order_items y order en el campo order_id
orden_por_estado = orders.merge(order_items,left_on='order_id',right_on='order_item_order_id')
#Hacemos una consultar groupby donde se muestre los campos order_status y order_item_subtotal
orden_por_estado = orden_por_estado.groupby('order_status')['order_item_subtotal'].sum()
orden_por_estado

order_status
CANCELED             696030.99
CLOSED              3736048.79
COMPLETE           11276933.69
ON_HOLD             1864731.24
PAYMENT_REVIEW       357841.45
PENDING             3851881.28
PENDING_PAYMENT     7581671.05
PROCESSING          4190636.76
SUSPECTED_FRAUD      766844.68
Name: order_item_subtotal, dtype: float64

In [31]:
#¿Cuál es el producto más vendido? > Mostrar las ventas en orden descendente por nombre de producto.
#Hacemos un merge de las tablas order_items y products en el campo product_id
orden_por_producto = products.merge(order_items,left_on='product_id',right_on='order_item_product_id')
#Hacemos una consultar groupby donde se muestre los campos order_status y order_item_subtotal
orden_por_producto = orden_por_producto.groupby('product_name')['order_item_subtotal'].sum()
orden_por_producto

product_name
Bag Boy Beverage Holder                          21116.55
Bag Boy M330 Push Cart                           16637.92
Bowflex SelectTech 1090 Dumbbells                 5999.90
Bridgestone e6 Straight Distance NFL Carolina    29686.72
Bridgestone e6 Straight Distance NFL San Dieg    28982.94
                                                   ...   
adidas Kids' F5 Messi FG Soccer Cleat            27327.19
adidas Men's F10 Messi TRX FG Soccer Cleat       56330.61
adidas Men's Germany Black Crest Away Tee        21475.00
adidas Youth Germany Black/Red Away Match Soc    67830.00
insta-bed Neverflat Air Mattress                  8999.40
Name: order_item_subtotal, Length: 100, dtype: float64

In [39]:
#¿Cuáles son los porductos más comprados por cada cliente?
order_items

Unnamed: 0,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price
0,1,1,957,1,299.98,299.98
1,2,2,1073,1,199.99,199.99
2,3,2,502,5,250.00,50.00
3,4,2,403,1,129.99,129.99
4,5,4,897,2,49.98,24.99
...,...,...,...,...,...,...
172193,172194,68881,403,1,129.99,129.99
172194,172195,68882,365,1,59.99,59.99
172195,172196,68882,502,1,50.00,50.00
172196,172197,68883,208,1,1999.99,1999.99
