In [11]:
import numpy as np

# Función para cargar los datos del archivo CSV
def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1, dtype=None, encoding='utf-8')
    return datos

# Función de preprocesamiento (limpieza básica)
def preprocesar_datos(datos):
    # Elimina filas que tengan valores faltantes
    datos_limpios = datos[~np.isnan(datos['f8'])]  # Suponemos que el Total Amount no debería tener NaN
    return datos_limpios

# Exploración de datos: Total de ventas por categoría de producto
def total_ventas_por_categoria(datos):
    categorias = np.unique(datos['f5'])
    ventas_por_categoria = {cat: np.sum(datos[datos['f5'] == cat]['f8']) for cat in categorias}
    return ventas_por_categoria

# Exploración de datos: Promedio de ventas diarias por categoría de producto
def promedio_ventas_diarias(datos):
    categorias = np.unique(datos['f5'])
    ventas_promedio_diario = {cat: np.mean(datos[datos['f5'] == cat]['f8']) for cat in categorias}
    return ventas_promedio_diario

# Exploración de datos: Categorías con mayores y menores ventas
def categorias_mayores_menores_ventas(datos):
    ventas_por_categoria = total_ventas_por_categoria(datos)
    max_categoria = max(ventas_por_categoria, key=ventas_por_categoria.get)
    min_categoria = min(ventas_por_categoria, key=ventas_por_categoria.get)
    return max_categoria, min_categoria

# Manipulación de datos: Filtrar ventas por categoría de producto específica
def filtrar_por_categoria(datos, categoria):
    return datos[datos['f5'] == categoria]

# Funciones para operaciones básicas
def sumar_columnas(datos, col1, col2):
    return datos[col1] + datos[col2]

def restar_columnas(datos, col1, col2):
    return datos[col1] - datos[col2]

def multiplicar_columnas(datos, col1, col2):
    return datos[col1] * datos[col2]

def dividir_columnas(datos, col1, col2):
    return datos[col1] / datos[col2]

if __name__ == "__main__":
    # Ruta del archivo
    ruta_archivo = 'retail_sales_dataset.csv'

    # Carga los datos
    datos = cargar_datos(ruta_archivo)

    # Preprocesamiento
    datos_limpios = preprocesar_datos(datos)

    # Exploración de datos
    total_ventas = total_ventas_por_categoria(datos_limpios)
    print("Total de ventas por categoría:", total_ventas)

    promedio_ventas = promedio_ventas_diarias(datos_limpios)
    print("Promedio de ventas diarias por categoría:", promedio_ventas)

    max_cat, min_cat = categorias_mayores_menores_ventas(datos_limpios)
    print(f"Categoría con mayores ventas: {max_cat}")
    print(f"Categoría con menores ventas: {min_cat}")

    # Manipulación de datos
    categoria_especifica = 'Clothing'
    ventas_categoria = filtrar_por_categoria(datos_limpios, categoria_especifica)
    print(f"Ventas de la categoría {categoria_especifica}:", ventas_categoria)

    # Operaciones básicas de suma, resta, multiplicación y división
    suma = sumar_columnas(datos_limpios, 'f7', 'f8')
    print("Suma de columnas (Quantity + Total Amount):", suma)


Total de ventas por categoría: {np.str_('Beauty'): np.int64(143515), np.str_('Clothing'): np.int64(155580), np.str_('Electronics'): np.int64(156905)}
Promedio de ventas diarias por categoría: {np.str_('Beauty'): np.float64(467.4755700325733), np.str_('Clothing'): np.float64(443.2478632478632), np.str_('Electronics'): np.float64(458.7865497076023)}
Categoría con mayores ventas: Electronics
Categoría con menores ventas: Beauty
Ventas de la categoría Clothing: [(  2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (  4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (  7, '2023-03-13', 'CUST007', 'Male', 46, 'Clothing', 2,  25,   50)
 ( 10, '2023-10-07', 'CUST010', 'Female', 52, 'Clothing', 4,  50,  200)
 ( 11, '2023-02-14', 'CUST011', 'Male', 23, 'Clothing', 2,  50,  100)
 ( 14, '2023-01-17', 'CUST014', 'Male', 64, 'Clothing', 4,  30,  120)
 ( 16, '2023-02-17', 'CUST016', 'Male', 19, 'Clothing', 3, 500, 1500)
 ( 17, '2023-04-22', 'CUST017', 'Female', 27