In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('/content/retail_sales_dataset.csv')

print("✓ Archivo vgsales.csv cargado exitosamente")
print(f"✓ DataFrame creado con {len(df)} filas y {len(df.columns)} columnas")

# Mostrar las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente
print("\nPrimeras 10 filas del DataFrame:")
df.head(10)

✓ Archivo vgsales.csv cargado exitosamente
✓ DataFrame creado con 1000 filas y 9 columnas

Primeras 10 filas del DataFrame:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


Clasificacion

In [3]:
#clasificador de ventas
def clasificador_ventas(amount):
        if amount >= 1000:
            return 'Alta'
        elif amount >= 300:
            return 'Media'
        else:
            return 'Baja'

df['ventas_clasificadas'] = df['Total Amount'].apply(clasificador_ventas)

df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,ventas_clasificadas
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Media
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Baja
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,Baja
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,Baja
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,Baja
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,Media
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,Baja


In [4]:
#Edad_clientes
def clasificador_edad(age):
        if age >= 50:
            return 'Adulto Mayor'
        elif age >= 30 and age < 50:
            return 'Adulto'
        else:
            return 'Joven'

df['Edad_clientes'] = df['Age'].apply(clasificador_edad)

df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,ventas_clasificadas,Edad_clientes
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Baja,Adulto
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Alta,Joven
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Baja,Adulto Mayor
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Media,Adulto
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Baja,Adulto
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,Baja,Adulto
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,Baja,Adulto
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,Baja,Adulto
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,Media,Adulto Mayor
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,Baja,Adulto Mayor


# Normalizamos las ventas utilizando metodo de minimos y maximos
## Esto lo realizamos para que los valores esten en la misma escala, mejora la lectura de estos en un futuro algoritmo.

In [5]:
min_sales = df['Total Amount'].min()
max_sales = df['Total Amount'].max()

# Aplicar normalización Min-Max
df['ventas_normalizadas'] = (df['Total Amount'] - min_sales) / (max_sales - min_sales)

print("✅ Normalización Min-Max aplicada")
print(f"   • Rango original: ${min_sales:,.2f} - ${max_sales:,.2f}")
print(f"   • Rango normalizado: {df['ventas_normalizadas'].min():.4f} - {df['ventas_normalizadas'].max():.4f}")


✅ Normalización Min-Max aplicada
   • Rango original: $25.00 - $2,000.00
   • Rango normalizado: 0.0000 - 1.0000


# Agrupacion y agregacion:
## Primeramente agruparemos por categoria

In [6]:
agrupacion_categoria = df.groupby('Product Category').agg({
    'Total Amount': ['count', 'sum', 'mean', 'min', 'max'],
    'Quantity': ['sum', 'mean'],
    'Price per Unit': ['mean', 'min', 'max']
}).round(2)

print("Estadísticas por categoría de producto:")
print(agrupacion_categoria)


df['Date'] = pd.to_datetime(df['Date'])
df['Month'] = df['Date'].dt.month
df['Month_Name'] = df['Date'].dt.strftime('%B')

agrupacion_categoria_mes = df.groupby(['Product Category', 'Month_Name']).agg({
    'Total Amount': ['count', 'sum', 'mean'],
    'Quantity': 'sum',
    'Customer ID': 'nunique'
}).round(2)
print("Estadísticas por categoría y mes:")
print(agrupacion_categoria_mes)

agrupacion_edad = df.groupby('Edad_clientes').agg({
    'Total Amount': ['count', 'sum', 'mean', 'min', 'max'],
    'Quantity': ['sum', 'mean'],
    'Price per Unit': ['mean', 'min', 'max']
}).round(2)

print("Estadísticas por categoría de producto:")
print(agrupacion_edad)



Estadísticas por categoría de producto:
                 Total Amount                           Quantity        \
                        count     sum    mean min   max      sum  mean   
Product Category                                                         
Beauty                    307  143515  467.48  25  2000      771  2.51   
Clothing                  351  155580  443.25  25  2000      894  2.55   
Electronics               342  156905  458.79  25  2000      849  2.48   

                 Price per Unit           
                           mean min  max  
Product Category                          
Beauty                   184.06  25  500  
Clothing                 174.29  25  500  
Electronics              181.90  25  500  
Estadísticas por categoría y mes:
                            Total Amount                Quantity Customer ID
                                   count    sum    mean      sum     nunique
Product Category Month_Name                                          

# Analisis usando Apply

Calcularemos: La desviación de cada venta respecto a la media de su

1.  La desviación de cada venta respecto a la media de su grupo.
2.  El coeficiente de variación por categoría.
3.  Detecta outliers por categoría.
4.  La diferencia de la media de cada grupo respecto al promedio general.
5.  Estadísticas compuestas avanzadas por grupo.





In [8]:
# 1. Desviación respecto a la media del grupo
def desviacion_media_grupo(x):
    return x - x.mean()

df['Desviacion_Categoria'] = df.groupby('Product Category')['Total Amount'].transform(desviacion_media_grupo)

# 2. Coeficiente de variación
def cv_grupo(x):
    return x.std() / x.mean() if x.mean() != 0 else 0

cv_por_categoria = df.groupby('Product Category')['Total Amount'].apply(cv_grupo)

# 3. Análisis de outliers
def outliers_grupo(x):
    Q1, Q3 = x.quantile([0.25, 0.75])
    IQR = Q3 - Q1
    return len(x[(x < Q1 - 1.5*IQR) | (x > Q3 + 1.5*IQR)])

outliers_por_categoria = df.groupby('Product Category')['Total Amount'].apply(outliers_grupo)



In [9]:
# 4. Diferencia respecto al promedio general
def diferencia_promedio_general(x):
    media_general = df['Total Amount'].mean()
    return x.mean() - media_general

diferencia_promedio = df.groupby('Product Category')['Total Amount'].apply(diferencia_promedio_general)

# 5. Estadísticas compuestas
def estadisticas_compuestas(x):
    return pd.Series({
        'Media': x.mean(),
        'Mediana': x.median(),
        'Desv_Estandar': x.std(),
        'CV': x.std() / x.mean() if x.mean() != 0 else 0,
        'Ventas_Altas_%': (x > x.mean()).sum() / len(x) * 100,
        'Asimetria': x.skew(),
        'Curtosis': x.kurtosis()
    })

estadisticas_por_categoria = df.groupby('Product Category')['Total Amount'].apply(estadisticas_compuestas)

# Mostrar resultados
print("Desviación promedio:", df['Desviacion_Categoria'].mean())
print("\nCoeficiente de variación por categoría:")
print(cv_por_categoria)
print("\nOutliers por categoría:")
print(outliers_por_categoria)
print("\nDiferencia respecto al promedio general:")
print(diferencia_promedio)
print("\nEstadísticas compuestas:")
print(estadisticas_por_categoria)

Desviación promedio: 3.637978807091713e-14

Coeficiente de variación por categoría:
Product Category
Beauty         1.205652
Clothing       1.242411
Electronics    1.237046
Name: Total Amount, dtype: float64

Outliers por categoría:
Product Category
Beauty          0
Clothing       32
Electronics     0
Name: Total Amount, dtype: int64

Diferencia respecto al promedio general:
Product Category
Beauty         11.475570
Clothing      -12.752137
Electronics     2.786550
Name: Total Amount, dtype: float64

Estadísticas compuestas:
Product Category                
Beauty            Media             467.475570
                  Mediana           120.000000
                  Desv_Estandar     563.612788
                  CV                  1.205652
                  Ventas_Altas_%     36.156352
                  Asimetria           1.271071
                  Curtosis            0.474587
Clothing          Media             443.247863
                  Mediana           120.000000
            