### Análisis y Predicción de Ventas en una Tienda de Retail (Core)


Parte III: Transformación y Análisis Avanzado de Datos con Pandas++

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

**Transformación de Datos**


**Crea nuevas columnas:** Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.

**Clasifica los datos:** Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).


In [1]:
import pandas as pd
import numpy as np
import time

path = '../data/Sales_Transaction_v_4a.csv'
df = pd.read_csv(filepath_or_buffer=path, sep= ',', header=0)
df.head(10)

Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country
0,581482,12/9/2019,22485,Set Of 2 Wooden Market Crates,21.47,12,17490.0,United Kingdom
1,581475,12/9/2019,22596,Christmas Star Wish List Chalkboard,10.65,36,13069.0,United Kingdom
2,581475,12/9/2019,23235,Storage Tin Vintage Leaf,11.53,12,13069.0,United Kingdom
3,581475,12/9/2019,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069.0,United Kingdom
4,581475,12/9/2019,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069.0,United Kingdom
5,581475,12/9/2019,21705,Bag 500g Swirly Marbles,10.65,24,13069.0,United Kingdom
6,581475,12/9/2019,22118,Joy Wooden Block Letters,11.53,18,13069.0,United Kingdom
7,581475,12/9/2019,22119,Peace Wooden Block Letters,12.25,12,13069.0,United Kingdom
8,581475,12/9/2019,22217,T-Light Holder Hanging Lace,10.65,12,13069.0,United Kingdom
9,581475,12/9/2019,22216,T-Light Holder White Lace,10.55,24,13069.0,United Kingdom


**Agrupación y Agregación**

Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

In [2]:
# Crear una nueva columna "Total Ve"
df['Ventas'] = df['Quantity'] * df['Price']

# Normalización Min-Max
df['Ventas_MinMax'] = (df['Ventas'] - df['Ventas'].min()) / (df['Ventas'].max() - df['Ventas'].min())

# Estandarización Z-score
df['Ventas_Z'] = (df['Ventas'] - df['Ventas'].mean()) / df['Ventas'].std()

# Definir una función para clasificar las ventas
def clasificar_ventas(venta):
    if venta >= 150:
        return 'Alta'
    elif 100 <= venta < 150:
        return 'Media'
    else:
        return 'Baja'

# Aplicar la función para crear una nueva columna
df['clasificacion'] = df['Ventas'].apply(clasificar_ventas)

print(df.head())


  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country  Ventas  Ventas_MinMax  \
0  21.47        12     17490.0  United Kingdom  257.64       0.456022   
1  10.65        36     13069.0  United Kingdom  383.40       0.456090   
2  11.53        12     13069.0  United Kingdom  138.36       0.455957   
3  10.65        12     13069.0  United Kingdom  127.80       0.455951   
4  11.94         6     13069.0  United Kingdom   71.64       0.455921   

   Ventas_Z clasificacion  
0  0.063780          Alta  
1  0.119001          Alta  
2  0.011404   

In [9]:
# Identificar duplicados
duplicados = df.duplicated()
# Contar el número de duplicados
num_duplicados = duplicados.sum()
print(f"Número de registros duplicados: {num_duplicados}")
df.head()

Número de registros duplicados: 5200


Unnamed: 0,TransactionNo,Date,ProductNo,ProductName,Price,Quantity,CustomerNo,Country,Ventas,Ventas_MinMax,Ventas_Z,clasificacion,PrecioConDescuento,Clasificacion,Desviacion
0,581482,12/9/2019,22485,Set Of 2 Wooden Market Crates,21.47,12,17490.0,United Kingdom,257.64,0.456022,0.06378,Alta,20.3965,Caro,200.776274
1,581475,12/9/2019,22596,Christmas Star Wish List Chalkboard,10.65,36,13069.0,United Kingdom,383.4,0.45609,0.119001,Alta,9.585,Moderado,254.176825
2,581475,12/9/2019,23235,Storage Tin Vintage Leaf,11.53,12,13069.0,United Kingdom,138.36,0.455957,0.011404,Media,10.9535,Moderado,60.126348
3,581475,12/9/2019,23272,Tree T-Light Holder Willie Winkie,10.65,12,13069.0,United Kingdom,127.8,0.455951,0.006767,Media,10.1175,Moderado,39.001136
4,581475,12/9/2019,23239,Set Of 4 Knick Knack Tins Poppies,11.94,6,13069.0,United Kingdom,71.64,0.455921,-0.017893,Baja,11.343,Moderado,15.198564


In [11]:
# Eliminar duplicados en el mismo DataFrame
df.drop_duplicates(inplace=True)

In [16]:
# Identificar duplicados
duplicados = df.duplicated()
# Contar el núero de duplicados
num_duplicados =duplicados.sum()
print(f"Número de registros duplicados: {num_duplicados}")

Número de registros duplicados: 0


In [17]:

print(df.isnull().sum())  # Cuenta cuántos valores nulos hay por columna
# Eliminar las filas que tengan un valor nulo en una columna específica
df.dropna(subset=['CustomerNo'], inplace=True)
# Agrupar por 'ProductName' y 'Country', seleccionando la columna 'Ventas'

grouped = df.groupby(['ProductName', 'Country'])['Ventas']


TransactionNo         0
Date                  0
ProductNo             0
ProductName           0
Price                 0
Quantity              0
CustomerNo            0
Country               0
Ventas                0
Ventas_MinMax         0
Ventas_Z              0
clasificacion         0
PrecioConDescuento    0
Clasificacion         0
Desviacion            0
dtype: int64


## **Aplicar funciones de agregación:**

Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

In [4]:
# Aplicar múltiples funciones de agregación
estadisticas = grouped.agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var']).reset_index()

# Mostrar las estadísticas descriptivas
print(estadisticas)

                            ProductName          Country     sum        mean  \
0                10 Colour Spaceboy Pen        Australia  533.76  533.760000   
1                10 Colour Spaceboy Pen          Austria   35.76   35.760000   
2                10 Colour Spaceboy Pen          Belgium   11.95   11.950000   
3                10 Colour Spaceboy Pen           Canada  266.88  266.880000   
4                10 Colour Spaceboy Pen  Channel Islands  166.80  166.800000   
...                                 ...              ...     ...         ...   
22338       Zinc Wire Kitchen Organiser             EIRE   41.82   41.820000   
22339       Zinc Wire Kitchen Organiser         Portugal    6.19    6.190000   
22340       Zinc Wire Kitchen Organiser   United Kingdom  334.63   25.740769   
22341  Zinc Wire Sweetheart Letter Tray             EIRE   49.52   49.520000   
22342  Zinc Wire Sweetheart Letter Tray   United Kingdom  989.86   44.993636   

       count     min     max        std

In [5]:
def aplicar_descuento(row):
    if row['Quantity'] > 20:
        return row['Price'] * 0.9  # Descuento del 10%
    else:
        return row['Price'] * 0.95  # Descuento del 5%
      
      
df['PrecioConDescuento'] = df.apply(aplicar_descuento, axis=1)

print(df.head())


  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country  Ventas  Ventas_MinMax  \
0  21.47        12     17490.0  United Kingdom  257.64       0.456022   
1  10.65        36     13069.0  United Kingdom  383.40       0.456090   
2  11.53        12     13069.0  United Kingdom  138.36       0.455957   
3  10.65        12     13069.0  United Kingdom  127.80       0.455951   
4  11.94         6     13069.0  United Kingdom   71.64       0.455921   

   Ventas_Z clasificacion  PrecioConDescuento  
0  0.063780          Alta             20.3965  
1 

In [6]:
def clasificar_producto(row):
    if row['Price'] < 10:
        return 'Barato'
    elif 10 <= row['Price'] <= 20:
        return 'Moderado'
    else:
        return 'Caro'
      
df['Clasificacion'] = df.apply(clasificar_producto, axis=1)

print(df.head())     

  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country  Ventas  Ventas_MinMax  \
0  21.47        12     17490.0  United Kingdom  257.64       0.456022   
1  10.65        36     13069.0  United Kingdom  383.40       0.456090   
2  11.53        12     13069.0  United Kingdom  138.36       0.455957   
3  10.65        12     13069.0  United Kingdom  127.80       0.455951   
4  11.94         6     13069.0  United Kingdom   71.64       0.455921   

   Ventas_Z clasificacion  PrecioConDescuento Clasificacion  
0  0.063780          Alta           

**Ejemplo de uso avanzado:**

Calcula la desviación de cada venta respecto a la media de su grupo.

In [7]:
# Calcular ventas por transacción (Precio * Cantidad)
df['Ventas'] = df['Price'] * df['Quantity']

# Calcular la media de ventas por 'ProductName' (nombre del producto)
media_ventas_por_producto = df.groupby('ProductName')['Ventas'].transform('mean')

# Calcular la desviación de cada venta respecto a la media de su grupo
df['Desviacion'] = df['Ventas'] - media_ventas_por_producto


In [8]:
print(df.head())

  TransactionNo       Date ProductNo                          ProductName  \
0        581482  12/9/2019     22485        Set Of 2 Wooden Market Crates   
1        581475  12/9/2019     22596  Christmas Star Wish List Chalkboard   
2        581475  12/9/2019     23235             Storage Tin Vintage Leaf   
3        581475  12/9/2019     23272    Tree T-Light Holder Willie Winkie   
4        581475  12/9/2019     23239    Set Of 4 Knick Knack Tins Poppies   

   Price  Quantity  CustomerNo         Country  Ventas  Ventas_MinMax  \
0  21.47        12     17490.0  United Kingdom  257.64       0.456022   
1  10.65        36     13069.0  United Kingdom  383.40       0.456090   
2  11.53        12     13069.0  United Kingdom  138.36       0.455957   
3  10.65        12     13069.0  United Kingdom  127.80       0.455951   
4  11.94         6     13069.0  United Kingdom   71.64       0.455921   

   Ventas_Z clasificacion  PrecioConDescuento Clasificacion  Desviacion  
0  0.063780          Alt