# Análisis y Predicción de Ventas en una Tienda de Retail (Core)
## Parte III: Transformación y Análisis Avanzado de Datos con Pandas

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

## Instrucciones

### Transformación de Datos
* Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
* Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).
### Agrupación y Agregación
* Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
* Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.
### Análisis Personalizado con apply
* Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
* Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.
### Documentación
* Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Código legible: Asegúrate de que el código sea legible y esté bien comentado.

### Primeros pasos

Importamos las librerias necesarias y el dataset

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("../data/retail_sales_dataset.csv")

Conociendo a nuestro dataset

In [3]:
print(df.shape)
print('---------------------------')
print(df.describe())
print('---------------------------')
df.head()


(1000, 9)
---------------------------
       Transaction ID         Age     Quantity  Price per Unit  Total Amount
count     1000.000000  1000.00000  1000.000000     1000.000000   1000.000000
mean       500.500000    41.39200     2.514000      179.890000    456.000000
std        288.819436    13.68143     1.132734      189.681356    559.997632
min          1.000000    18.00000     1.000000       25.000000     25.000000
25%        250.750000    29.00000     1.000000       30.000000     60.000000
50%        500.500000    42.00000     3.000000       50.000000    135.000000
75%        750.250000    53.00000     4.000000      300.000000    900.000000
max       1000.000000    64.00000     4.000000      500.000000   2000.000000
---------------------------


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


### Transformacion de datos

Creamos una columna nueva para la normalizacion

Obs. El ingreso total ya esta hecho, es la columna Total Amount

In [4]:
# Calcula el ingreso total por venta y normaliza las ventas.

max_value = df['Total Amount'].max()
min_value = df['Total Amount'].min()
df['Ventas_normalizado'] = df['Total Amount'].apply(lambda x: (x - min_value) / (max_value - min_value))
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Ventas_normalizado
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975


Clasificamos las ventas en grupos

In [5]:
# Crear una función para clasificar las ventas en categorias

def clasificar_ventas(ventas):
    if ventas < 30:
        return 'Bajo'
    elif ventas > 50:
        return 'Alto'
    else:
        return 'Medio'

In [6]:
# nueva columna que calcula el ingreso total por venta y normaliza las ventas.
df['Categoria'] = df['Total Amount'].apply(clasificar_ventas)	
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Ventas_normalizado,Categoria
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,Alto
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,Alto
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,Medio
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,Alto
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,Alto
...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,0.012658,Medio
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,0.032911,Alto
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,0.037975,Alto
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,0.063291,Alto


### Agrupacion y Agregacion

In [7]:
# Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
grouped_product = df.groupby('Product Category')['Total Amount'].sum()
print(grouped_product)
print('------------------')

# Obs. Como no hay columna tienda o una parecida, decidimos usar la columna Gender.
grouped_gender = df.groupby('Gender')['Total Amount'].sum()
print(grouped_gender)
print('------------------')

# Agrupacion de ventas por meses

#Primero convertimos la columna a un datetipe para manejar mejor
df['Date'] = pd.to_datetime(df['Date'])
grouped_mes = df.groupby(df['Date'].dt.to_period('M'))['Total Amount'].sum()
print(grouped_mes)

Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64
------------------
Gender
Female    232840
Male      223160
Name: Total Amount, dtype: int64
------------------
Date
2023-01    35450
2023-02    44060
2023-03    28990
2023-04    33870
2023-05    53150
2023-06    36715
2023-07    35465
2023-08    36960
2023-09    23620
2023-10    46580
2023-11    34920
2023-12    44690
2024-01     1530
Freq: M, Name: Total Amount, dtype: int64


In [8]:
# Agruparemos por gender porque no tenemos columna tienda
grouped_gender = df.groupby('Gender')

stats1 = grouped_gender['Total Amount'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print(stats1)

           sum        mean  count  min   max         std            var
Gender                                                                 
Female  232840  456.549020    510   25  2000  554.299371  307247.792288
Male    223160  455.428571    490   25  2000  566.433809  320847.259714


In [9]:
# Agrupamos por Product Category
grouped_product = df.groupby('Product Category')

stats2 = grouped_product['Total Amount'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var'])
print(stats2)

                     sum        mean  count  min   max         std  \
Product Category                                                     
Beauty            143515  467.475570    307   25  2000  563.612788   
Clothing          155580  443.247863    351   25  2000  550.695917   
Electronics       156905  458.786550    342   25  2000  567.540150   

                            var  
Product Category                 
Beauty            317659.374401  
Clothing          303265.992674  
Electronics       322101.822341  


### Analisis personalizado con apply

In [10]:
# Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.

std_total = df['Total Amount'].std()

# Aplicar la desviación estándar a cada fila (o cualquier otra operación que desees)
df['AgregacionStd'] = df['Total Amount'].apply(lambda x: (x - df['Total Amount'].mean()) / std_total)

print(df.shape)
df.head()

(1000, 12)


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Ventas_normalizado,Categoria,AgregacionStd
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,0.063291,Alto,-0.546431
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,0.493671,Alto,0.971433
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,0.002532,Medio,-0.760718
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,0.240506,Alto,0.078572
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,0.037975,Alto,-0.635717


In [11]:
# Calcula la desviación de cada venta respecto a la media de su grupo.

# Creamos una funcion que calcule la desviación respecto a la media del grupo
def desviacion_respecto_media(grupo):
    media = grupo['Total Amount'].mean()  # Calcular la media del grupo
    grupo['DesviacionRespectoMedia'] = grupo['Total Amount'] - media  # Calcular la desviación
    return grupo


In [12]:
# Agrupar por 'Product Category' y aplicar la función personalizada


df = df.groupby('Product Category').apply(desviacion_respecto_media)

print(df[['Product Category', 'Total Amount', 'DesviacionRespectoMedia']].head())

                    Product Category  Total Amount  DesviacionRespectoMedia
Product Category                                                           
Beauty           0            Beauty           150               -317.47557
                 4            Beauty           100               -367.47557
                 5            Beauty            30               -437.47557
                 11           Beauty            75               -392.47557
                 20           Beauty           500                 32.52443


  df = df.groupby('Product Category').apply(desviacion_respecto_media)


In [16]:
print(df.head)

<bound method NDFrame.head of                       Transaction ID       Date Customer ID  Gender  Age  \
Product Category                                                           
Beauty           0                 1 2023-11-24     CUST001    Male   34   
                 4                 5 2023-05-06     CUST005    Male   30   
                 5                 6 2023-04-25     CUST006  Female   45   
                 11               12 2023-10-30     CUST012    Male   35   
                 20               21 2023-01-14     CUST021  Female   50   
...                              ...        ...         ...     ...  ...   
Electronics      988             989 2023-12-28     CUST989  Female   44   
                 991             992 2023-08-21     CUST992  Female   57   
                 992             993 2023-02-06     CUST993  Female   48   
                 998             999 2023-12-05     CUST999  Female   36   
                 999            1000 2023-04-12    CUST100