In [None]:
# Paso 1: Carga de librerías necesarias
import numpy as np
import pandas as pd

# Paso 2: Cargar los datos desde un archivo CSV
datos = np.genfromtxt('data/retail_sales_analysis.csv', delimiter=',', dtype=str, skip_header=1)

# Paso 3: Preprocesamiento básico
# Definir los encabezados manualmente (ajusta según tu archivo)
headers = ['fecha', 'categoria', 'ventas']
datos = np.array(datos)
df = pd.DataFrame(datos, columns=headers)

# Convertimos columnas numéricas a tipo adecuado
df['ventas'] = pd.to_numeric(df['ventas'], errors='coerce')
df['fecha'] = pd.to_datetime(df['fecha'], errors='coerce')

# Eliminamos filas con datos faltantes
df = df.dropna()

# Paso 4: Exploración de datos
# Total de ventas por categoría
total_por_categoria = df.groupby('categoria')['ventas'].sum()

# Promedio de ventas diarias por categoría
promedio_diario = df.groupby(['fecha', 'categoria'])['ventas'].sum().groupby('categoria').mean()

# Categorías con mayores y menores ventas
categoria_mayor_venta = total_por_categoria.idxmax()
categoria_menor_venta = total_por_categoria.idxmin()

# Paso 5: Manipulación de Datos
# Filtrar ventas de una categoría específica (por ejemplo "Electrónica")
ventas_electronica = df[df['categoria'] == 'Electrónica']

# Estadísticas adicionales usando operaciones matemáticas
suma_total = df['ventas'].sum()
resta_media = df['ventas'] - df['ventas'].mean()
multiplicacion_doble = df['ventas'] * 2
division_por_media = df['ventas'] / df['ventas'].mean()

# Mostrar resultados
print("Total por categoría:\n", total_por_categoria)
print("\nPromedio diario por categoría:\n", promedio_diario)
print(f"\nCategoría con mayor venta: {categoria_mayor_venta}")
print(f"Categoría con menor venta: {categoria_menor_venta}")
