In [3]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import pandas as pd

In [5]:
# Importamos una bbdd en formato csv y lo guardamos en una variable.
path = "/content/drive/MyDrive/Skillnest/CORE/retail_sales_dataset.csv"
df = pd.read_csv(path)

In [6]:
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


**1. Transformación de Datos**

Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas. (NO NORMALIZAR)

Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

In [7]:
# Recalcular ingreso total por venta
df["Ingreso Total Calculado"] = df["Quantity"] * df["Price per Unit"]

In [8]:
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Ingreso Total Calculado
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,100


In [10]:
# Clasificar las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

# Para elegir los rangos de clasificación de alta, media y baja; veremos la estadísticas básicas

print("Resumen estadístico de Total Amount:")
df["Total Amount"].describe().round(2)

Resumen estadístico de Total Amount:


Unnamed: 0,Total Amount
count,1000.0
mean,456.0
std,560.0
min,25.0
25%,60.0
50%,135.0
75%,900.0
max,2000.0


In [11]:
# Usando los percentiles como una guía, a continuación se dan los rangos:

def clasificar_venta(monto):
    if monto >= 900:
        return "Alta"
    elif monto >= 135:
        return "Media"
    else:
        return "Baja"

df["Categoria Venta"] = df["Total Amount"].apply(clasificar_venta)

In [13]:
# Ver cuantas ventas hay por categoría
df["Categoria Venta"].value_counts()

Unnamed: 0_level_0,count
Categoria Venta,Unnamed: 1_level_1
Baja,500
Alta,264
Media,236


**2. Agrupación y Agregación**

Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

In [14]:
# Total de ventas por categoría de producto y género

ventas_categoria_genero = df.groupby(["Product Category", "Gender"])["Total Amount"].sum()

print("Total de ventas por categoría de producto y género:")
ventas_categoria_genero

Total de ventas por categoría de producto y género:


Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Product Category,Gender,Unnamed: 2_level_1
Beauty,Female,74830
Beauty,Male,68685
Clothing,Female,81275
Clothing,Male,74305
Electronics,Female,76735
Electronics,Male,80170


In [22]:
# Estadísticas básicas para lo anterior:

estadisticas_grupo_1 = df.groupby(["Product Category", "Gender"])["Total Amount"].describe().round(2)
estadisticas_grupo_1

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Product Category,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Beauty,Female,166.0,450.78,538.74,25.0,75.0,150.0,900.0,2000.0
Beauty,Male,141.0,487.13,592.9,25.0,75.0,120.0,900.0,2000.0
Clothing,Female,174.0,467.1,577.02,25.0,63.75,120.0,900.0,2000.0
Clothing,Male,177.0,419.8,524.12,25.0,60.0,150.0,600.0,2000.0
Electronics,Female,170.0,451.38,548.64,25.0,60.0,150.0,900.0,2000.0
Electronics,Male,172.0,466.1,587.13,25.0,50.0,120.0,900.0,2000.0


In [15]:
# Precio promedio por unidad según categoría de producto y género

precio_promedio_categoria_genero = df.groupby(["Product Category", "Gender"])["Price per Unit"].mean()

print("Precio promedio por unidad por categoría de producto y género:")
precio_promedio_categoria_genero

Precio promedio por unidad por categoría de producto y género:


Unnamed: 0_level_0,Unnamed: 1_level_0,Price per Unit
Product Category,Gender,Unnamed: 2_level_1
Beauty,Female,182.349398
Beauty,Male,186.06383
Clothing,Female,179.224138
Clothing,Male,169.435028
Electronics,Female,178.705882
Electronics,Male,185.05814


In [26]:
# Estadísticas básicas para lo anterior:

estadisticas_grupo_2 = df.groupby(["Product Category", "Gender"])["Price per Unit"].describe().round(2)
estadisticas_grupo_2

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Product Category,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Beauty,Female,166.0,182.35,194.3,25.0,30.0,50.0,300.0,500.0
Beauty,Male,141.0,186.06,196.34,25.0,30.0,50.0,300.0,500.0
Clothing,Female,174.0,179.22,187.0,25.0,30.0,50.0,300.0,500.0
Clothing,Male,177.0,169.44,185.44,25.0,30.0,50.0,300.0,500.0
Electronics,Female,170.0,178.71,186.41,25.0,30.0,50.0,300.0,500.0
Electronics,Male,172.0,185.06,192.11,25.0,30.0,50.0,300.0,500.0


In [16]:
# Número de transacciones por categoría de producto y género

transacciones_categoria_genero = df.groupby(["Product Category", "Gender"])["Transaction ID"].count()

print("Número de transacciones por categoría de producto y género:")
transacciones_categoria_genero

Número de transacciones por categoría de producto y género:


Unnamed: 0_level_0,Unnamed: 1_level_0,Transaction ID
Product Category,Gender,Unnamed: 2_level_1
Beauty,Female,166
Beauty,Male,141
Clothing,Female,174
Clothing,Male,177
Electronics,Female,170
Electronics,Male,172


In [24]:
# Estadísticas básicas para lo anterior:

estadisticas_grupo_3 = df.groupby(["Product Category", "Gender"])["Transaction ID"].describe().round(2)
estadisticas_grupo_3

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Product Category,Gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Beauty,Female,166.0,471.21,283.38,6.0,242.75,455.5,706.25,998.0
Beauty,Male,141.0,515.2,300.49,1.0,220.0,516.0,796.0,997.0
Clothing,Female,174.0,504.91,286.29,2.0,254.25,517.5,733.0,995.0
Clothing,Male,177.0,485.15,288.52,4.0,245.0,483.0,738.0,996.0
Electronics,Female,170.0,515.77,292.77,15.0,282.25,519.5,760.75,999.0
Electronics,Male,172.0,512.97,284.51,3.0,288.25,495.0,777.75,1000.0


In [27]:
# Desviación estándar del monto total por categoría de producto

desviacion_categoria = df.groupby("Product Category")["Total Amount"].std().round(2)

print("Desviación estándar del monto total por categoría de producto:")
desviacion_categoria

Desviación estándar del monto total por categoría de producto:


Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,563.61
Clothing,550.7
Electronics,567.54


In [28]:
# Varianza del monto Total por categoría de producto

varianza_categoria = df.groupby("Product Category")["Total Amount"].var().round(2)

print("Varianza del monto total por categoría de producto:")
varianza_categoria

Varianza del monto total por categoría de producto:


Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,317659.37
Clothing,303265.99
Electronics,322101.82


**3. Análisis Personalizado con apply**

Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.

Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

In [None]:
# Cantidad de ventas mayores a 300 por categoría de producto

ventas_altas_categoria = df.groupby("Product Category")["Total Amount"].apply(lambda x: (x > 300).sum())

print("Cantidad de ventas mayores a 300 por categoría de producto:")
print(ventas_altas_categoria)

Cantidad de ventas mayores a 300 por categoría de producto:
Product Category
Beauty         111
Clothing       122
Electronics    117
Name: Total Amount, dtype: int64


In [37]:
# Desviación de cada venta respecto a la media de su grupo.

# El grupo elegido sera beauty y filtrare por el género femenino

# Calcular la media del Total Amount por categoría de producto y género, y agregar como columna
df["media_por_categoria_genero"] = df.groupby(["Product Category", "Gender"])["Total Amount"].transform("mean")

# Calcular la desviación de cada venta respecto a la media de su grupo
df["desviacion_vs_Media"] = (df["Total Amount"] - df["media_por_categoria_genero"]).round(2)

In [38]:
# Mostrar el resultado
df[["Product Category", "Gender", "Total Amount", "media_por_categoria_genero", "desviacion_vs_Media"]].head(10)

Unnamed: 0,Product Category,Gender,Total Amount,media_por_categoria_genero,desviacion_vs_Media
0,Beauty,Male,150,487.12766,-337.13
1,Clothing,Female,1000,467.097701,532.9
2,Electronics,Male,30,466.104651,-436.1
3,Clothing,Male,500,419.80226,80.2
4,Beauty,Male,100,487.12766,-387.13
5,Beauty,Female,30,450.783133,-420.78
6,Clothing,Male,50,419.80226,-369.8
7,Electronics,Male,100,466.104651,-366.1
8,Electronics,Male,600,466.104651,133.9
9,Clothing,Female,200,467.097701,-267.1
