#Conectar a Drive y leer documento

In [63]:
# Conectar Colab con drive.
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [64]:
# Importa libreria.
import pandas as pd

In [65]:
# Establecer conexion al documento
path = "/content/drive/MyDrive/Colab Notebooks/DB/retail_sales_dataset.csv"
df = pd.read_csv(path)

#Primera vista a los datos

In [66]:
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


* Transformación de Datos

Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.

In [67]:
# Crea columna Total Venta para verificar el Total amount
df["Total Venta"] = df["Quantity"] * df["Price per Unit"]

In [68]:
# Verifica columna creada
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Total Venta
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100


Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

In [69]:
# Funcion para clasifivar venta segun Total Venta.
def venta_tipo(total):
  if total <= 200:
    return 'Baja'
  elif total <= 300:
    return 'Media'
  else:
    return 'Alta'

In [70]:
# Mediante apply se verifica la clasificacion de la venta.
df["Clasificacion"] = df["Total Venta"].apply(venta_tipo)

In [71]:
# Verifica la columna creada.
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Total Venta,Clasificacion
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500,Alta
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja


* Agrupación y Agregación

Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

In [72]:
# Muestra cuantas transcacciones se hicieron, agrupando por fecha, categoria de producto y clasificacion.
df.groupby(["Date","Product Category","Clasificacion"])["Transaction ID"].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Transaction ID
Date,Product Category,Clasificacion,Unnamed: 3_level_1
2023-01-01,Beauty,Alta,1
2023-01-01,Clothing,Alta,2
2023-01-02,Beauty,Baja,1
2023-01-02,Clothing,Alta,1
2023-01-02,Clothing,Baja,1
...,...,...,...
2023-12-29,Beauty,Alta,3
2023-12-29,Electronics,Baja,1
2023-12-31,Electronics,Baja,1
2024-01-01,Beauty,Alta,1


Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

In [73]:
# Se obtienen datos estadisticos por fecha.
df.groupby(["Date", "Product Category", "Clasificacion"]).agg({
    'Total Venta': ['sum', 'mean', 'count', 'min', 'max', 'std', 'var'],
    'Quantity': ['sum', 'mean'],
    'Price per Unit': ['mean', 'min', 'max']})


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Total Venta,Total Venta,Total Venta,Total Venta,Total Venta,Total Venta,Total Venta,Quantity,Quantity,Price per Unit,Price per Unit,Price per Unit
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,sum,mean,count,min,max,std,var,sum,mean,mean,min,max
Date,Product Category,Clasificacion,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
2023-01-01,Beauty,Alta,1500,1500.0,1,1500,1500,,,3,3.0,500.000000,500,500
2023-01-01,Clothing,Alta,2100,1050.0,2,900,1200,212.132034,45000.0,7,3.5,300.000000,300,300
2023-01-02,Beauty,Baja,25,25.0,1,25,25,,,1,1.0,25.000000,25,25
2023-01-02,Clothing,Alta,1500,1500.0,1,1500,1500,,,3,3.0,500.000000,500,500
2023-01-02,Clothing,Baja,150,150.0,1,150,150,,,3,3.0,50.000000,50,50
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2023-12-29,Beauty,Alta,3300,1100.0,3,600,1500,458.257569,210000.0,9,3.0,366.666667,300,500
2023-12-29,Electronics,Baja,100,100.0,1,100,100,,,4,4.0,25.000000,25,25
2023-12-31,Electronics,Baja,50,50.0,1,50,50,,,2,2.0,25.000000,25,25
2024-01-01,Beauty,Alta,1500,1500.0,1,1500,1500,,,3,3.0,500.000000,500,500


* Análisis Personalizado con apply

Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.

In [74]:
# Ventas donde la cantidad de productos comprados fueron mayor a 3 agrupado por cliente y mostrando solo la fecha unica.
df[df['Quantity'] > 3].groupby('Customer ID').apply(lambda grupo: grupo["Date"].unique())


  df[df['Quantity'] > 3].groupby('Customer ID').apply(lambda grupo: grupo["Date"].unique())


Unnamed: 0_level_0,0
Customer ID,Unnamed: 1_level_1
CUST008,[2023-02-22]
CUST010,[2023-10-07]
CUST014,[2023-01-17]
CUST015,[2023-01-16]
CUST017,[2023-04-22]
...,...
CUST970,[2023-05-16]
CUST971,[2023-12-05]
CUST972,[2023-02-11]
CUST975,[2023-03-30]


Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

In [75]:
# Funcion para calcular la desviacion.
def calcular_std(grupo):
    # Obtiene el promedio del total de ventas
    prom = grupo['Total Venta'].mean().round(2)
    # Crea columna donde el valor sea el total de venta menos el promedio para mostrar cuanto se desvia cada venta el promedio.
    grupo['Desviacion_por_Total'] = grupo['Total Venta'] - prom
    return grupo

# Agrupa por categoria de productos y aplicar el calculo.
df = df.groupby('Product Category').apply(calcular_std)


  df = df.groupby('Product Category').apply(calcular_std)


In [77]:
# Verifica la nueva columna
df.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Total Venta,Clasificacion,Desviacion_por_Total
Product Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Beauty,0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150,Baja,-317.48
Beauty,4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100,Baja,-367.48
Beauty,5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,30,Baja,-437.48
Beauty,11,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75,75,Baja,-392.48
Beauty,20,21,2023-01-14,CUST021,Female,50,Beauty,1,500,500,500,Alta,32.52
Beauty,24,25,2023-12-26,CUST025,Female,64,Beauty,1,50,50,50,Baja,-417.48
Beauty,26,27,2023-08-03,CUST027,Female,38,Beauty,2,25,50,50,Baja,-417.48
Beauty,27,28,2023-04-23,CUST028,Female,43,Beauty,1,500,500,500,Alta,32.52
Beauty,29,30,2023-10-29,CUST030,Female,39,Beauty,3,300,900,900,Alta,432.52
Beauty,31,32,2023-01-04,CUST032,Male,30,Beauty,3,30,90,90,Baja,-377.48
