In [7]:
import numpy as np
from datetime import datetime

def cargar_datos(ruta_archivo):
    ''' 
    Se realiza carga de datos y formateo para mejorar el manejo de datos
    '''
    dtype = [
        ('Transaction_ID', 'i4'),
        ('Date', 'S10'),          
        ('Customer_ID', 'S10'),   
        ('Gender', 'S10'),        
        ('Age', 'i4'),
        ('Product_Category', 'S20'), 
        ('Quantity', 'i4'),
        ('Price_per_Unit', 'f8'),
        ('Total_Amount', 'f8')
    ]
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1, dtype=dtype, converters={1: lambda x: x.strip()})
    return datos


def ventas_por_categoria(datos):
    # Obtener categorías únicas y decodificarlas
    categorias_unicas = np.unique(datos['Product_Category'])
    resultados = {}
    
    for categoria in categorias_unicas:
        categoria_str = categoria.decode('utf-8')
        mask = datos['Product_Category'] == categoria
        total_ventas = np.sum(datos['Total_Amount'][mask])
        resultados[categoria_str] = total_ventas
    
    return resultados

def promedio_ventas_diarias(datos):
    categorias_unicas = np.unique(datos['Product_Category'])
    resultados = {}
    
    for categoria in categorias_unicas:
        categoria_str = categoria.decode('utf-8')
        mask = datos['Product_Category'] == categoria
        ventas_categoria = datos['Total_Amount'][mask]
        fechas_unicas = len(np.unique(datos['Date'][mask]))
        promedio = np.mean(ventas_categoria) if fechas_unicas > 0 else 0
        resultados[categoria_str] = promedio
    
    return resultados

def categorias_extremos(datos):
    ventas = ventas_por_categoria(datos)
    mayor_venta = max(ventas.items(), key=lambda x: x[1])
    menor_venta = min(ventas.items(), key=lambda x: x[1])
    return {
        'mayor': mayor_venta,
        'menor': menor_venta
    }

def filtrar_por_categoria(datos, categoria):
    categoria_bytes = categoria.encode('utf-8')
    mask = datos['Product_Category'] == categoria_bytes
    return datos[mask]

def calcular_estadisticas(datos):
    # Convertir géneros a strings para comparación
    masculino = datos['Gender'] == b'Male'
    femenino  = datos['Gender'] == b'Female'
    
    return {
        'total_ventas': np.sum(datos['Total_Amount']),
        'promedio_precio': np.mean(datos['Price_per_Unit']),
        'total_productos': np.sum(datos['Quantity']),
        'promedio_edad': np.mean(datos['Age']),
        'valor_promedio_transaccion': np.mean(datos['Total_Amount']),
        'precio_maximo': np.max(datos['Price_per_Unit']),
        'precio_minimo': np.min(datos['Price_per_Unit']),
        'ventas_por_genero': {
            'masculino': np.sum(datos['Total_Amount'][masculino]),
            'femenino': np.sum(datos['Total_Amount'][femenino])
        }
    }
def main():

    ruta_archivo = "../data/retail_sales_dataset.csv"  
    datos = cargar_datos(ruta_archivo)


    print("\n=== Análisis de Ventas ===")
    
    print("\n1. Ventas por categoría:")
    print(ventas_por_categoria(datos))
    
    print("\n2. Promedio de ventas diarias por categoría:")
    print(promedio_ventas_diarias(datos))
    
    print("\n3. Categorías con mayores y menores ventas:")
    print(categorias_extremos(datos))
    
    print("\n4. Ejemplo de filtrado (Beauty):")
    datos_filtrados = filtrar_por_categoria(datos, 'Beauty')
    print(datos_filtrados)
    
    print("\n5. Estadísticas generales:")
    print(calcular_estadisticas(datos))

if __name__ == "__main__":
    main()


=== Análisis de Ventas ===

1. Ventas por categoría:
{'Beauty': 143515.0, 'Clothing': 155580.0, 'Electronics': 156905.0}

2. Promedio de ventas diarias por categoría:
{'Beauty': 467.4755700325733, 'Clothing': 443.2478632478632, 'Electronics': 458.7865497076023}

3. Categorías con mayores y menores ventas:
{'mayor': ('Electronics', 156905.0), 'menor': ('Beauty', 143515.0)}

4. Ejemplo de filtrado (Beauty):
[(  1, b'2023-11-24', b'CUST001', b'Male', 34, b'Beauty', 3,  50.,  150.)
 (  5, b'2023-05-06', b'CUST005', b'Male', 30, b'Beauty', 2,  50.,  100.)
 (  6, b'2023-04-25', b'CUST006', b'Female', 45, b'Beauty', 1,  30.,   30.)
 ( 12, b'2023-10-30', b'CUST012', b'Male', 35, b'Beauty', 3,  25.,   75.)
 ( 21, b'2023-01-14', b'CUST021', b'Female', 50, b'Beauty', 1, 500.,  500.)
 ( 25, b'2023-12-26', b'CUST025', b'Female', 64, b'Beauty', 1,  50.,   50.)
 ( 27, b'2023-08-03', b'CUST027', b'Female', 38, b'Beauty', 2,  25.,   50.)
 ( 28, b'2023-04-23', b'CUST028', b'Female', 43, b'Beauty', 1, 5