In [1]:
import pandas as pd
from sqlalchemy import create_engine
import sqlalchemy as db

In [2]:
# Conexion a database
engine = db.create_engine("mysql://root:root@172.16.5.4:3310/retail_db") 

In [3]:
# Leer directamente las tablas sin usar read_sql_query, esta es una forma mas eficiente
# Como las tablas ya existen en el database es posible leerlas y asignarlas a un dataframe
customers_df = pd.read_sql_table("customers",engine)
orders_df = pd.read_sql_table("orders",engine)
order_items_df = pd.read_sql_table("order_items",engine)
products_df = pd.read_sql_table("products",engine)
categories_df = pd.read_sql_table("categories",engine)
departments_df = pd.read_sql_table("departments",engine)

Conocer nuestros datos: 

In [4]:
# Total registros es un dataframe   
customers_df.count()

customer_id          12435
customer_fname       12435
customer_lname       12435
customer_email       12435
customer_password    12435
customer_street      12435
customer_city        12435
customer_state       12435
customer_zipcode     12435
dtype: int64

In [5]:
total_clientes = customers_df['customer_id'].nunique()
print(f' El total de clientes es {total_clientes}')


 El total de clientes es 12435


In [6]:
# Conocer distribucion según una variable
clientes_por_estado = customers_df['customer_city'].value_counts()
clientes_por_estado

customer_city
Caguas           4584
Chicago           274
Brooklyn          225
Los Angeles       224
New York          120
                 ... 
Allentown           3
National City       2
Ponce               2
Freehold            2
Gwynn Oak           2
Name: count, Length: 562, dtype: int64

In [7]:
# Categorias por departamento
# ['category_id'] es para seleccionar que solo nos muestre esa columna
categories_por_departamento = categories_df.groupby('category_department_id')['category_id'].count()
print(f'Categorias por departamentos \n {categories_por_departamento}')

Categorias por departamentos 
 category_department_id
2     8
3     8
4     6
5     7
6    12
7     7
8    10
Name: category_id, dtype: int64


In [8]:
# Conocer nombre de los departamentos
distribucion_categorias_por_departamento = categories_df.merge(departments_df,left_on='category_department_id',right_on='department_id')

# Se sobre escribe la variable con el resumen del conteo de valores por departamento
distribucion_categorias_por_departamento = distribucion_categorias_por_departamento['department_name'].value_counts()
distribucion_categorias_por_departamento

department_name
Outdoors    12
Fitness      8
Footwear     8
Golf         7
Fan Shop     7
Apparel      6
Name: count, dtype: int64

In [9]:
precio_producto = products_df['product_price'].mean()
print(f'El precio promedio es {precio_producto:.2f}') # :.2f para redondear a dos decimales

El precio promedio es 125.00


In [10]:
products_df['product_price'].describe()['mean']

124.99633457249071

In [11]:
# Nulos
products_df['product_image'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 1345 entries, 0 to 1344
Series name: product_image
Non-Null Count  Dtype 
--------------  ----- 
1345 non-null   object
dtypes: object(1)
memory usage: 10.6+ KB


In [12]:
# Calcula cantidad de nulos
null_imagenes = products_df['product_image'].isnull().sum() 
not_null_imagenes = products_df['product_image'].notnull().sum() 

print(f'En el DataFrame')

En el DataFrame


In [13]:
# Ordenes por estado
order_customer = orders_df.merge(customers_df,left_on='order_customer_id',right_on='customer_id')
total_ordenes_por_estado = order_customer.groupby('customer_city')['order_id'].count()
total_ordenes_por_estado

customer_city
Aguadilla       25
Alameda         48
Albany          38
Albuquerque    219
Algonquin       47
              ... 
Yonkers         46
York            90
Ypsilanti       57
Yuma            37
Zanesville      41
Name: order_id, Length: 562, dtype: int64

Cuando se realiza una agrupación en pandas utilizando el método `groupby()`, la elección entre `.value_counts()` y `.count()` depende del tipo de resultado que necesitas obtener. Vamos a desglosar cuándo usar cada uno y cómo se comportan en el contexto de una agrupación.

### `.count()` en el contexto de `groupby()`

El método `.count()` se utiliza comúnmente después de `groupby()` para contar el número de ocurrencias no nulas en cada grupo para cada columna. Esto es útil cuando quieres saber cuántas filas existen en cada grupo.

#### Ejemplo:
```python
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'grupo': ['A', 'A', 'B', 'B', 'B', 'C', 'C', None],
    'valor': [1, 2, 3, 4, 5, 6, None, 7]
}
df = pd.DataFrame(data)

# Agrupar por la columna 'grupo' y contar las ocurrencias
grouped_count = df.groupby('grupo').count()
print(grouped_count)
```

**Output**:
```
       valor
grupo       
A          2
B          3
C          1
```

En este caso, `.count()` cuenta el número de valores no nulos en la columna `valor` para cada grupo.

### `.value_counts()` en el contexto de `groupby()`

El método `.value_counts()` no se utiliza directamente después de `groupby()`. En cambio, se aplica a una Serie para contar las frecuencias de los valores únicos. Sin embargo, puedes combinar `groupby()` y `.value_counts()` para obtener la frecuencia de valores únicos dentro de cada grupo.

#### Ejemplo:
```python
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'grupo': ['A', 'A', 'B', 'B', 'B', 'C', 'C', None],
    'valor': [1, 2, 3, 3, 5, 6, 6, 7]
}
df = pd.DataFrame(data)

# Agrupar por la columna 'grupo' y contar los valores únicos en la columna 'valor'
grouped_value_counts = df.groupby('grupo')['valor'].value_counts()
print(grouped_value_counts)
```

**Output**:
```
grupo  valor
A      1        1
       2        1
B      3        2
       5        1
C      6        2
Name: valor, dtype: int64
```

En este caso, `.value_counts()` cuenta las frecuencias de cada valor en la columna `valor` dentro de cada grupo definido por la columna `grupo`.

### Resumen

- **`.count()`**:
  - Uso: Se utiliza para contar el número de valores no nulos en cada grupo.
  - Resultado: Devuelve el conteo de valores no nulos para cada columna en cada grupo.
  - Ejemplo de uso: `df.groupby('columna').count()`

- **`.value_counts()`**:
  - Uso: Se utiliza para contar las frecuencias de valores únicos en una Serie.
  - Resultado: Devuelve una Serie con las frecuencias de cada valor único dentro de cada grupo.
  - Ejemplo de uso: `df.groupby('columna')['otra_columna'].value_counts()`

### Ejemplo Comparativo

```python
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'grupo': ['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'],
    'valor': [1, 2, 2, 3, 3, 6, 6, 6, 7]
}
df = pd.DataFrame(data)

# Usar count() después de groupby()
grouped_count = df.groupby('grupo').count()
print("Usando count():")
print(grouped_count)

# Usar value_counts() en el contexto de groupby()
grouped_value_counts = df.groupby('grupo')['valor'].value_counts()
print("\nUsando value_counts():")
print(grouped_value_counts)
```

**Output**:
```
Usando count():
       valor
grupo       
A          2
B          3
C          4

Usando value_counts():
grupo  valor
A      1        1
       2        1
B      3        2
       2        1
C      6        3
       7        1
Name: valor, dtype: int64
```

En resumen, la elección entre `.count()` y `.value_counts()` depende de la información que necesitas extraer de tu agrupación. Usa `.count()` para un conteo general de filas no nulas en cada grupo y `.value_counts()` para obtener la frecuencia de valores únicos dentro de los grupos.

In [14]:
products_df.head()

Unnamed: 0,product_id,product_category_id,product_name,product_description,product_price,product_image
0,1,2,Quest Q64 10 FT. x 10 FT. Slant Leg Instant U,,59.98,http://images.acmesports.sports/Quest+Q64+10+F...
1,2,2,Under Armour Men's Highlight MC Football Clea,,129.99,http://images.acmesports.sports/Under+Armour+M...
2,3,2,Under Armour Men's Renegade D Mid Football Cl,,89.99,http://images.acmesports.sports/Under+Armour+M...
3,4,2,Under Armour Men's Renegade D Mid Football Cl,,89.99,http://images.acmesports.sports/Under+Armour+M...
4,5,2,Riddell Youth Revolution Speed Custom Footbal,,199.99,http://images.acmesports.sports/Riddell+Youth+...


In [15]:
order_items_df.head()

Unnamed: 0,order_item_id,order_item_order_id,order_item_product_id,order_item_quantity,order_item_subtotal,order_item_product_price
0,1,1,957,1,299.98,299.98
1,2,2,1073,1,199.99,199.99
2,3,2,502,5,250.0,50.0
3,4,2,403,1,129.99,129.99
4,5,4,897,2,49.98,24.99


In [16]:
# Producto mas vendido
'''
Esto es similar a 
SELECT
    order_item_product_id
    ,SUM(orden_item_quantity)
FROM order_item ID
FROM order_item ID
ORDER BY 2 DESC
LIMIT 1


idxmax() = encontrar el indice del valor máximo (en ese caso la suma)
    '''

producto_mas_vendido = order_items_df.groupby('order_item_product_id')['order_item_quantity'].sum().idxmax()
producto_mas_vendido = products_df.query(f'product_id == {producto_mas_vendido}')['product_name'].values[0]
producto_mas_vendido

'Perfect Fitness Perfect Rip Deck'

In [17]:
# Producto menos vendido
'''
Esto es similar a 
SELECT
    order_item_product_id
    ,SUM(orden_item_quantity)
FROM order_item ID
ORDER BY 2 ASC
LIMIT 1



idxmin() = encontrar el indice del valor máximo (en ese caso la suma)
    '''

producto_menos_vendido = order_items_df.groupby('order_item_product_id')['order_item_quantity'].sum().idxmin()
producto_menos_vendido = products_df.query(f'product_id == {producto_menos_vendido}')['product_name'].values[0]
producto_menos_vendido

'SOLE E25 Elliptical'

In [18]:
# Productos mas costoso y baratos
'''
Con loc se elecciona el indice que cumpla la condición de ser el minimo (idxmin) o maximo (idxmax) 
'''

producto_caro = products_df.loc[products_df['product_price'].idxmax()]
producto_barato = products_df.loc[products_df['product_price'].idxmin()]

print(f'Producto mas caro {producto_caro}\n')
print(f'Producto mas barato {producto_barato}')



Producto mas caro product_id                                                           208
product_category_id                                                   10
product_name                                         SOLE E35 Elliptical
product_description                                                     
product_price                                                    1999.99
product_image          http://images.acmesports.sports/SOLE+E35+Ellip...
Name: 207, dtype: object

Producto mas barato product_id                                                            38
product_category_id                                                    3
product_name               Nike Men's Hypervenom Phantom Premium FG Socc
product_description                                                     
product_price                                                        0.0
product_image          http://images.acmesports.sports/Nike+Men%27s+H...
Name: 37, dtype: object


In [19]:
# Productos mas comprados por cada cliente

'''
Similar a:
# 1
SELECT
    *
FROM order_items_df
INNER JOIN orders_df
    ON order_items_df.order_item_order_id = orders_df.order_id

# 2
SELECT
    order_customer_id
    , order_item_product_id
    , SUM(order_item_quantity)
FROM order_items_df
INNER JOIN orders_df
    ON order_items_df.order_item_order_id = orders_df.order_id
GROUP BY order_customer_id
    , order_item_product_id


.reset_index() para resetear el indice que el la serie se transforme en un data frame

'''
productos_x_cliente = order_items_df.merge(orders_df,left_on='order_item_order_id',right_on='order_id') # 1
productos_x_cliente = productos_x_cliente.groupby(['order_customer_id','order_item_product_id'])['order_item_quantity'].sum().reset_index() # 2
productos_x_cliente = productos_x_cliente.merge(customers_df,left_on='order_customer_id',right_on='customer_id')\
                        .merge(products_df,left_on='order_item_product_id',right_on='product_id')

print(type(productos_x_cliente))

# Se obtiene un DataFrame con los datos de todas las tablas unidas


productos_mas_comprado_x_cliente = productos_x_cliente.loc[productos_x_cliente.groupby('order_customer_id')['order_item_quantity'].idxmax()]
productos_mas_comprado_x_cliente.head()



<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,order_customer_id,order_item_product_id,order_item_quantity,customer_id,customer_fname,customer_lname,customer_email,customer_password,customer_street,customer_city,customer_state,customer_zipcode,product_id,product_category_id,product_name,product_description,product_price,product_image
0,1,191,5,1,Richard,Hernandez,XXXXXXXXX,XXXXXXXXX,6303 Heather Plaza,Brownsville,TX,78521,191,9,Nike Men's Free 5.0+ Running Shoe,,99.99,http://images.acmesports.sports/Nike+Men%27s+F...
6,2,1014,7,2,Mary,Barrett,XXXXXXXXX,XXXXXXXXX,9526 Noble Embers Ridge,Littleton,CO,80126,1014,46,O'Brien Men's Neoprene Life Vest,,49.98,http://images.acmesports.sports/O%27Brien+Men%...
10,3,365,13,3,Ann,Smith,XXXXXXXXX,XXXXXXXXX,3422 Blue Pioneer Bend,Caguas,PR,725,365,17,Perfect Fitness Perfect Rip Deck,,59.99,http://images.acmesports.sports/Perfect+Fitnes...
17,4,365,19,4,Mary,Jones,XXXXXXXXX,XXXXXXXXX,8324 Little Common,San Marcos,CA,92069,365,17,Perfect Fitness Perfect Rip Deck,,59.99,http://images.acmesports.sports/Perfect+Fitnes...
27,5,1014,6,5,Robert,Hudson,XXXXXXXXX,XXXXXXXXX,10 Crystal River Mall,Caguas,PR,725,1014,46,O'Brien Men's Neoprene Life Vest,,49.98,http://images.acmesports.sports/O%27Brien+Men%...


In [20]:
# Entrega el order_customer_id con las cantidades de maximo que se ha vendido
productos_x_cliente.groupby('order_customer_id')['order_item_quantity'].idxmax()

order_customer_id
1            0
2            6
3           10
4           17
5           27
         ...  
12431    92839
12432    92855
12433    92859
12434    92866
12435    92870
Name: order_item_quantity, Length: 12331, dtype: int64

Otra forma de solucionar problemas de este tipo es hacer merge con todas las tablas para hacer uno a uno. El principal problema de este planteamiento es que se ocupa la memoria debido a que en cada group by que se realice se consultan todos los datos

In [21]:
customers_df.head()

Unnamed: 0,customer_id,customer_fname,customer_lname,customer_email,customer_password,customer_street,customer_city,customer_state,customer_zipcode
0,1,Richard,Hernandez,XXXXXXXXX,XXXXXXXXX,6303 Heather Plaza,Brownsville,TX,78521
1,2,Mary,Barrett,XXXXXXXXX,XXXXXXXXX,9526 Noble Embers Ridge,Littleton,CO,80126
2,3,Ann,Smith,XXXXXXXXX,XXXXXXXXX,3422 Blue Pioneer Bend,Caguas,PR,725
3,4,Mary,Jones,XXXXXXXXX,XXXXXXXXX,8324 Little Common,San Marcos,CA,92069
4,5,Robert,Hudson,XXXXXXXXX,XXXXXXXXX,10 Crystal River Mall,Caguas,PR,725


In [22]:
# Ingresos promedio por dia
merge_df = orders_df.merge(order_items_df,left_on='order_id',right_on='order_item_order_id',how='left')

# Calculo suma ingresos por dia
# en caso de que hay duplicados .drop_duplicates()
'''
Se elimina nuevamente duplicados porque como se tienen varios items dentro de la orden cuando se hace el merge,si tengo en una orden 10 items me va a salir el mismo order date 10 veces con el mismo order_id
'''
promedio_df = merge_df[['order_id','order_date','order_item_subtotal']].drop_duplicates()\
    .groupby('order_date').sum()['order_item_subtotal']/\
    merge_df[['order_date','order_item_order_id']].drop_duplicates()\
    .groupby('order_date').count()['order_item_order_id']
promedio_df

order_date
2013-07-25    548.313017
2013-07-26    547.643219
2013-07-27    531.000286
2013-07-28    519.895443
2013-07-29    590.545833
                 ...    
2014-07-20    539.775950
2014-07-21    554.769455
2014-07-22    572.947692
2014-07-23    601.890145
2014-07-24    550.647152
Length: 364, dtype: float64

In [23]:
# Total gastado por cada cliente - el cliente que mas ha gastado # merge order_items, orders y customer y agrupar por order customer_id
# Departamentos con mejores rendimientos 
# Ingresos promedio por mes - hint: crear una nueva columna que traiga el mes el resto es similar a ingreso promedio por dia
# Cual es la categoria mas popular en terminos de venta (la que tenga mas ingresos)