In [69]:
import numpy as np

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=0, dtype=None, encoding=None)
    return datos

if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales_dataset.csv'
    datos = cargar_datos(ruta_archivo)
    print(datos)

[['Transaction ID' 'Date' 'Customer ID' ... 'Quantity' 'Price per Unit'
  'Total Amount']
 ['1' '2023-11-24' 'CUST001' ... '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' ... '2' '500' '1000']
 ...
 ['998' '2023-10-29' 'CUST998' ... '4' '25' '100']
 ['999' '2023-12-05' 'CUST999' ... '3' '50' '150']
 ['1000' '2023-04-12' 'CUST1000' ... '4' '30' '120']]


In [70]:
print(datos[0:5])

[['Transaction ID' 'Date' 'Customer ID' 'Gender' 'Age' 'Product Category'
  'Quantity' 'Price per Unit' 'Total Amount']
 ['1' '2023-11-24' 'CUST001' 'Male' '34' 'Beauty' '3' '50' '150']
 ['2' '2023-02-27' 'CUST002' 'Female' '26' 'Clothing' '2' '500' '1000']
 ['3' '2023-01-13' 'CUST003' 'Male' '50' 'Electronics' '1' '30' '30']
 ['4' '2023-05-21' 'CUST004' 'Male' '37' 'Clothing' '1' '500' '500']]


Exploración de Datos

In [77]:
ventas_por_categoria = {}
dias_por_categoria = {}
promedio_ventas_diarias_por_categoria = {}
# recorremos los datos sin cabecera
for row in datos[1:]:
    # guardamos los nombres
    categoria = row[5]
    # guardamos las fecha
    fecha = row[1]
    # sumamos las cantidades
    total_amount = int(row[6])
    # si es la misma categoria le sumo, si no empiezo
    if categoria in ventas_por_categoria:
        ventas_por_categoria[categoria] += total_amount
    else:
        ventas_por_categoria[categoria] = total_amount
    # si no existe la categoria le agregamos
    if categoria not in dias_por_categoria:
        dias_por_categoria[categoria] = set()
    # guardamos las fechas por categoria
    dias_por_categoria[categoria].add(fecha)
    
# Identificar la categoría con mayores ventas
categoria_mas_ventas = max(ventas_por_categoria, key=ventas_por_categoria.get)
mayor_venta = ventas_por_categoria[categoria_mas_ventas]

# Identificar la categoría con menores ventas
categoria_menos_ventas = min(ventas_por_categoria, key=ventas_por_categoria.get)
menor_venta = ventas_por_categoria[categoria_menos_ventas]

# Mostrar los totales por categoría
print("Calcula el total de ventas por categoría de producto:")
for categoria, total in ventas_por_categoria.items():
    print(f"{categoria}: {total}")
    dias_unicos = len(dias_por_categoria[categoria])
    promedio_ventas_diarias_por_categoria[categoria] = total / dias_unicos

# Mostrar los promedios por categoría
print("\nPromedio de ventas diarias por categoría de producto:")
for categoria, promedio in promedio_ventas_diarias_por_categoria.items():
    print(f"{categoria}: {promedio:.2f}")
    
# Mostrar la categoría con mayores y menores ventas
print(f"\nCategoría con mayores ventas")
print(f"{categoria_mas_ventas}: {mayor_venta}")
print(f"Categoría con menores ventas")
print(f"{categoria_menos_ventas}: {menor_venta}")

Calcula el total de ventas por categoría de producto:
Beauty: 771
Clothing: 894
Electronics: 849

Promedio de ventas diarias por categoría de producto:
Beauty: 3.78
Clothing: 3.85
Electronics: 3.88

Categoría con mayores ventas
Clothing: 894
Categoría con menores ventas
Beauty: 771


Manipulación de Datos

In [80]:
def filtrar_por_categoria(datos, icategoria):
    ventas_filtradas = []
    # Recorrer los datos sin la cabecera
    for row in datos[1:]:
        # guardamos los nombres
        categoria = row[5]
        # traemos la categoria ingresada
        if categoria == icategoria:
            ventas_filtradas.append(row)
    
    return ventas_filtradas

# ingreso de categoria a filtrar
icategoria = input("Ingrese la categoría de producto que desea filtrar: ")
# funcion de filtro
ventas_filtradas = filtrar_por_categoria(datos, icategoria)

print(f"Algunas estadisticas de la categoría '{icategoria}':")
print(f"Total de ventas: {len(ventas_filtradas)}")
print(f"Promedio de ventas: {sum(int(row[6]) for row in ventas_filtradas) / len(ventas_filtradas)}")

print(f"\nVentas de la categoría '{icategoria}':")
for venta in ventas_filtradas:
    print(venta)

Algunas estadisticas de la categoría 'Clothing':
Total de ventas: 351
Promedio de ventas: 2.547008547008547

Ventas de la categoría 'Clothing':
['2' '2023-02-27' 'CUST002' 'Female' '26' 'Clothing' '2' '500' '1000']
['4' '2023-05-21' 'CUST004' 'Male' '37' 'Clothing' '1' '500' '500']
['7' '2023-03-13' 'CUST007' 'Male' '46' 'Clothing' '2' '25' '50']
['10' '2023-10-07' 'CUST010' 'Female' '52' 'Clothing' '4' '50' '200']
['11' '2023-02-14' 'CUST011' 'Male' '23' 'Clothing' '2' '50' '100']
['14' '2023-01-17' 'CUST014' 'Male' '64' 'Clothing' '4' '30' '120']
['16' '2023-02-17' 'CUST016' 'Male' '19' 'Clothing' '3' '500' '1500']
['17' '2023-04-22' 'CUST017' 'Female' '27' 'Clothing' '4' '25' '100']
['19' '2023-09-16' 'CUST019' 'Female' '62' 'Clothing' '2' '25' '50']
['20' '2023-11-05' 'CUST020' 'Male' '22' 'Clothing' '3' '300' '900']
['22' '2023-10-15' 'CUST022' 'Male' '18' 'Clothing' '2' '50' '100']
['23' '2023-04-12' 'CUST023' 'Female' '35' 'Clothing' '4' '30' '120']
['24' '2023-11-29' 'CUST024' 