# Análisis y Predicción de Ventas en una Tienda de Retail

Parte I: Análisis Básico con NumPy

In [2]:
import numpy as np

In [21]:
import numpy as np

def cargar_datos(ruta_archivo, dtype):
    try:
        datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1, dtype=dtype)
        return datos
    except FileNotFoundError:
        print(f"Error: El archivo {ruta_archivo} no se encuentra.")
        return None

# Ruta del archivo CSV que contiene los datos a ser analizados
ruta_archivo = '../data/retail_sales_dataset.csv'

# Crear un dtype personalizado para almacenar los datos
transaction_dtype = np.dtype([
    ('transaction_id', 'i4'),
    ('date', 'U10'),
    ('customer_id', 'U10'),
    ('gender', 'U6'),
    ('age', 'i4'),
    ('product_category', 'U15'),
    ('quantity', 'i4'),
    ('price_per_unit', 'f4'),
    ('total_amount', 'f4')
])

datos = cargar_datos(ruta_archivo, transaction_dtype)

if datos is not None:
    categorias_unicas = np.unique(datos['product_category'])
    print(categorias_unicas)

['Beauty' 'Clothing' 'Electronics']


In [25]:
# Obtener las categorías de productos y los montos
productos = datos['product_category']
montos = datos['total_amount']

# Obtener productos únicos y sus índices
productos_unicos, indices = np.unique(productos, return_inverse=True)

# Sumar las ventas por producto
ventas_totales = np.zeros(len(productos_unicos))
np.add.at(ventas_totales, indices, montos)

print('TOTAL DE VENTAS POR PRODUCTO')
# Imprimir los resultados
for producto, total in zip(productos_unicos, ventas_totales):
    print(f'{producto.title()}: {total:,.2f}')

TOTAL DE VENTAS POR PRODUCTO
Beauty: 143,515.00
Clothing: 155,580.00
Electronics: 156,905.00


In [26]:
# Obtener las categorías de productos, montos y fechas
productos = datos['product_category']
montos = datos['total_amount']
fechas = datos['date']

# Obtener productos únicos y sus índices
productos_unicos, indices = np.unique(productos, return_inverse=True)

# Sumar las ventas por producto
ventas_totales = np.zeros(len(productos_unicos))
np.add.at(ventas_totales, indices, montos)

# Calcular el número de días únicos
dias_unicos = np.unique(fechas)
numero_dias = len(dias_unicos)

# Calcular el promedio de ventas diarias por categoría
promedio_ventas_diarias = ventas_totales / numero_dias

print('PROMEDIO DE VENTAS DIARIAS POR CATEGORÍA DE PRODUCTO')
# Imprimir los resultados
for producto, promedio in zip(productos_unicos, promedio_ventas_diarias):
    print(f'{producto.title()}: {promedio:,.2f}')

PROMEDIO DE VENTAS DIARIAS POR CATEGORÍA DE PRODUCTO
Beauty: 415.99
Clothing: 450.96
Electronics: 454.80


In [27]:
# Obtener las categorías de productos y los montos
productos = datos['product_category']
montos = datos['total_amount']

# Obtener productos únicos y sus índices
productos_unicos, indices = np.unique(productos, return_inverse=True)

# Sumar las ventas por producto
ventas_totales = np.zeros(len(productos_unicos))
np.add.at(ventas_totales, indices, montos)

# Identificar las categorías con mayores y menores ventas
mayor_venta_index = np.argmax(ventas_totales)
menor_venta_index = np.argmin(ventas_totales)

print('CATEGORÍA CON MAYORES VENTAS:')
print(f'{productos_unicos[mayor_venta_index].title()}: {ventas_totales[mayor_venta_index]:,.2f}')

print('CATEGORÍA CON MENORES VENTAS:')
print(f'{productos_unicos[menor_venta_index].title()}: {ventas_totales[menor_venta_index]:,.2f}')

CATEGORÍA CON MAYORES VENTAS:
Electronics: 156,905.00
CATEGORÍA CON MENORES VENTAS:
Beauty: 143,515.00


In [29]:
# Filtrar las ventas para la categoría "Beauty"
condicion = datos['product_category'] == 'Beauty'

# Mostrar solo las ventas de la categoría "Beauty"
ventas_beauty = datos[condicion]

print('VENTAS PARA LA CATEGORÍA: Beauty')
print(ventas_beauty)

VENTAS PARA LA CATEGORÍA: Beauty
[(  1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50.,  150.)
 (  5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50.,  100.)
 (  6, '2023-04-25', 'CUST006', 'Female', 45, 'Beauty', 1,  30.,   30.)
 ( 12, '2023-10-30', 'CUST012', 'Male', 35, 'Beauty', 3,  25.,   75.)
 ( 21, '2023-01-14', 'CUST021', 'Female', 50, 'Beauty', 1, 500.,  500.)
 ( 25, '2023-12-26', 'CUST025', 'Female', 64, 'Beauty', 1,  50.,   50.)
 ( 27, '2023-08-03', 'CUST027', 'Female', 38, 'Beauty', 2,  25.,   50.)
 ( 28, '2023-04-23', 'CUST028', 'Female', 43, 'Beauty', 1, 500.,  500.)
 ( 30, '2023-10-29', 'CUST030', 'Female', 39, 'Beauty', 3, 300.,  900.)
 ( 32, '2023-01-04', 'CUST032', 'Male', 30, 'Beauty', 3,  30.,   90.)
 ( 35, '2023-08-05', 'CUST035', 'Female', 58, 'Beauty', 3, 300.,  900.)
 ( 36, '2023-06-24', 'CUST036', 'Male', 52, 'Beauty', 3, 300.,  900.)
 ( 37, '2023-05-23', 'CUST037', 'Female', 18, 'Beauty', 3,  25.,   75.)
 ( 38, '2023-03-21', 'CUST038', 'Male', 3

In [30]:
# Supongamos que tienes los datos necesarios
montos = datos['total_amount']

# Suma total de ventas
total_ventas = np.sum(montos)

# Promedio de ventas
promedio_ventas = np.mean(montos)

# Aumento del 10% en las ventas (multiplicación)
ventas_aumentadas = montos * 1.10

# Disminución del 5% en las ventas (resta)
ventas_disminuidas = montos - (montos * 0.05)

# Total de ventas ajustadas (suponiendo un divisor, como 2)
total_ventas_ajustadas = total_ventas / 2

# Mostrar los resultados
print(f'Total de Ventas: {total_ventas:,.2f}')
print(f'Promedio de Ventas: {promedio_ventas:,.2f}')
print('Ventas Aumentadas (10%):')
print(ventas_aumentadas)
print('Ventas Disminuidas (5%):')
print(ventas_disminuidas)
print(f'Total de Ventas Ajustadas (dividido por 2): {total_ventas_ajustadas:,.2f}')

Total de Ventas: 456,000.00
Promedio de Ventas: 456.00
Ventas Aumentadas (10%):
[ 165.  1100.    33.   550.   110.    33.    55.   110.   660.   220.
  110.    82.5 1650.   132.  2200.  1650.   110.    55.    55.   990.
  550.   110.   132.   330.    55.  1100.    55.   550.    33.   990.
 1320.    99.   110.   165.   990.   990.    82.5  220.   132.    55.
   55.   990.   330.    27.5   33.  1320.  1650.   990.  1100.    82.5
   82.5  330.   110.  1650.   132.   990.    33.  1320.    55.   165.
  220.   110.    55.   110.  2200.    33.  1320.   330.    82.5  330.
  110.  2200.    99.  2200.   220.   110.   110.  1650.   330.    66.
   55.   220.   110.    99.   165.    99.   110.   550.  2200.    33.
  550.   132.  2200.  1100.    66.   660.  1100.   110.  1320.    33.
  660.    55.    27.5 1100.   550.    55.  1320.    82.5 2200.   990.
 1650.  1650.    55.   110.  1650.    33.  1100.  2200.   165.    55.
  220.   132.    66.  2200.   110.    99.    55.   550.   660.   550.
  660.   