# Análisis y Predicción de Ventas en una Tienda de Retail

In [1]:
import numpy as np
import pandas as pd


df = pd.read_csv("C:/Users/sebac/OneDrive/Documentos/Cursos/0-DATASETS/retail_sales_dataset.csv")
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


## Transformación de Datos

### Crear nuevas columnas

In [9]:
# Se crea la columna de rango de edad
df['Rango_de_edad'] = df['Age'].transform(lambda x: 'Menor o igual a 30 años' if x >= 20 and x <= 30 else 'Mayor a 30 años')
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años
...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Mayor a 30 años
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Mayor a 30 años
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Menor o igual a 30 años
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Mayor a 30 años


In [12]:
# Se crea una columna de venta normalizada
max_venta = df['Total Amount'].max()
min_venta = df['Total Amount'].min()
df['Venta_normalizada'] = df['Total Amount'].transform(lambda x: (x - min_venta) / (max_venta - min_venta))
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad,Venta_normalizada
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años,0.063291
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años,0.493671
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años,0.002532
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años,0.240506
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años,0.037975
...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Mayor a 30 años,0.012658
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Mayor a 30 años,0.032911
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Menor o igual a 30 años,0.037975
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Mayor a 30 años,0.063291


In [15]:
# Se tiene los datos estadisticos de la columna Total Amount
df['Total Amount'].describe()

count    1000.000000
mean      456.000000
std       559.997632
min        25.000000
25%        60.000000
50%       135.000000
75%       900.000000
max      2000.000000
Name: Total Amount, dtype: float64

### Clasifica los datos

In [31]:
# Se agrega una clasificacion por tipo de venta segun su importe
ventas = df['Total Amount']

def clasificar(ventas):
    clasificacion = []
    for venta in ventas:
        if venta <= 60:
            clasificacion.append('Bajo')
        elif venta > 60 and venta < 900:
            clasificacion.append('Medio')
        else:
            clasificacion.append('Alto')
    return clasificacion

df['Clasificacion'] = clasificar(ventas)
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad,Venta_normalizada,Clasificacion
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años,0.063291,Medio
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años,0.493671,Alto
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años,0.002532,Bajo
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años,0.240506,Medio
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años,0.037975,Medio


In [32]:
# Se cuenta la cantidad de registros para cada clasificicacion
df['Clasificacion'].value_counts()

Clasificacion
Medio    474
Alto     264
Bajo     262
Name: count, dtype: int64

## Agrupación y Agregación

### Agrupación por múltiples columnas

In [55]:
# Se agrupa el importe total vendido por genero y tipo de producto
suma_por_gender_y_producto = df.groupby(['Gender','Product Category'])['Total Amount'].sum()
suma_por_gender_y_producto

Gender  Product Category
Female  Beauty              74830
        Clothing            81275
        Electronics         76735
Male    Beauty              68685
        Clothing            74305
        Electronics         80170
Name: Total Amount, dtype: int64

Las mujeres compran mas ropa y los hombres articulos electronicos

In [40]:
# Se agrupa el importe medio por rango edad y clasificacion de importe vendido
df.groupby(['Rango_de_edad','Clasificacion'])['Total Amount'].mean()

Rango_de_edad            Clasificacion
Mayor a 30 años          Alto             1302.487562
                         Bajo               42.954545
                         Medio             213.067568
Menor o igual a 30 años  Alto             1282.539683
                         Bajo               42.968750
                         Medio             224.134615
Name: Total Amount, dtype: float64

En promedio los mayores a 30 años gastan más que los menores a 30 años

### Aplicar funciones de agregación

In [43]:
# Se ven los datos estadisticos con las funciones de agregación
df['Total Amount'].agg(['mean','sum','count','var','std'])

mean        456.000000
sum      456000.000000
count      1000.000000
var      313597.347347
std         559.997632
Name: Total Amount, dtype: float64

In [50]:
# Se ven los datos estadisticos por tipo de clasificacion ALTO
clasificacion_alto = df.loc[df['Clasificacion'] == 'Alto']
clasificacion_alto['Total Amount'].describe()

count     264.000000
mean     1297.727273
std       394.248751
min       900.000000
25%      1000.000000
50%      1200.000000
75%      1500.000000
max      2000.000000
Name: Total Amount, dtype: float64

In [51]:
# Se ven los datos estadisticos por tipo de clasificacion MEDIO
clasificacion_medio = df.loc[df['Clasificacion'] == 'Medio']
clasificacion_medio['Total Amount'].describe()

count    474.000000
mean     215.495781
std      167.057981
min       75.000000
25%      100.000000
50%      120.000000
75%      300.000000
max      600.000000
Name: Total Amount, dtype: float64

In [54]:
# Se ven los datos estadisticos por tipo de clasificacion BAJO
clasificacion_bajo = df.loc[df['Clasificacion'] == 'Bajo']
clasificacion_bajo['Total Amount'].describe()

count    262.000000
mean      42.958015
std       12.951803
min       25.000000
25%       30.000000
50%       50.000000
75%       50.000000
max       60.000000
Name: Total Amount, dtype: float64

## Análisis Personalizado con apply

### Función personalizada

In [65]:
# Convertir la Serie en un DataFrame (la serie es mi resultado de agrupacion con groupby)
# Se agrega una columna de % del total de cada agrupacion
df_suma = suma_por_gender_y_producto.reset_index()

df_suma['Porcentaje'] = df_suma['Total Amount'].transform(lambda x: x / (x.sum()) * 100 )
df_suma = df_suma.sort_values(by='Porcentaje', ascending=False)
df_suma

Unnamed: 0,Gender,Product Category,Total Amount,Porcentaje
1,Female,Clothing,81275,17.823465
5,Male,Electronics,80170,17.58114
2,Female,Electronics,76735,16.827851
0,Female,Beauty,74830,16.410088
4,Male,Clothing,74305,16.294956
3,Male,Beauty,68685,15.0625


In [71]:
# Se ve la media por cada grupo
mean_per_group = df.groupby('Clasificacion')['Total Amount'].mean()
mean_per_group

Clasificacion
Alto     1297.727273
Bajo       42.958015
Medio     215.495781
Name: Total Amount, dtype: float64

In [72]:
# Se agrega una columna de media segun el grupo al que le corresponde cada fila
df['Media por Grupo'] = df['Clasificacion'].map(mean_per_group)
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad,Venta_normalizada,Clasificacion,Media por Grupo
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años,0.493671,Alto,1297.727273
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años,0.002532,Bajo,42.958015
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años,0.240506,Medio,215.495781
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años,0.037975,Medio,215.495781
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Mayor a 30 años,0.012658,Bajo,42.958015
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Mayor a 30 años,0.032911,Medio,215.495781
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Menor o igual a 30 años,0.037975,Medio,215.495781
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781


In [73]:
# Se agrega una columna de desviacion, restando el importe total por la media
df['Desviacion'] = df['Total Amount'] - df['Media por Grupo']
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad,Venta_normalizada,Clasificacion,Media por Grupo,Desviacion
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781,-65.495781
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años,0.493671,Alto,1297.727273,-297.727273
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años,0.002532,Bajo,42.958015,-12.958015
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años,0.240506,Medio,215.495781,284.504219
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años,0.037975,Medio,215.495781,-115.495781
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Mayor a 30 años,0.012658,Bajo,42.958015,7.041985
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Mayor a 30 años,0.032911,Medio,215.495781,-125.495781
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Menor o igual a 30 años,0.037975,Medio,215.495781,-115.495781
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781,-65.495781


In [75]:
# 2da manera de calcular la desviacion sobre la media de cada grupo
# Se crea una funcion que realice el calculo y luego se agrega la columna
def calculo_desviacion(row):
    mean_value = mean_per_group[row['Clasificacion']]
    return row['Total Amount'] - mean_value

df['Desviacion2'] = df.apply(calculo_desviacion, axis=1)
df


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Rango_de_edad,Venta_normalizada,Clasificacion,Media por Grupo,Desviacion,Desviacion2
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781,-65.495781,-65.495781
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Menor o igual a 30 años,0.493671,Alto,1297.727273,-297.727273,-297.727273
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Mayor a 30 años,0.002532,Bajo,42.958015,-12.958015,-12.958015
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Mayor a 30 años,0.240506,Medio,215.495781,284.504219,284.504219
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Menor o igual a 30 años,0.037975,Medio,215.495781,-115.495781,-115.495781
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Mayor a 30 años,0.012658,Bajo,42.958015,7.041985,7.041985
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Mayor a 30 años,0.032911,Medio,215.495781,-125.495781,-125.495781
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Menor o igual a 30 años,0.037975,Medio,215.495781,-115.495781,-115.495781
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Mayor a 30 años,0.063291,Medio,215.495781,-65.495781,-65.495781
