Importar librerias

In [15]:
import numpy as np
from datetime import datetime


Cargar archivo

In [16]:
def cargar_datos_numpy(ruta_archivo):
    """
    Carga los datos del archivo CSV
    """
    try:
        # Cargar datos numéricos con NumPy
        datos_numericos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1,
                                       usecols=(0, 4, 6, 7, 8), dtype=float)

        # Cargar datos de texto como strings
        datos_texto = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1,
                                   usecols=(2, 5, 3), dtype=str)

        # Separar las columnas de texto
        fechas = datos_texto[:, 0]
        categorias = datos_texto[:, 1]
        generos = datos_texto[:, 2]

        return datos_numericos, categorias, fechas, generos
    except Exception as e:
        print(f"Error al cargar los datos: {e}")
        return None, None, None, None

def exploracion_datos_numpy(datos_numericos, categorias, fechas, generos):
    """
    Realiza la exploración de datos
    """
    print("=" * 60)
    print("EXPLORACIÓN DE DATOS")
    print("=" * 60)

    # 1. Total de ventas por categoría de producto
    print("\n1. TOTAL DE VENTAS POR CATEGORÍA DE PRODUCTO:")
    print("-" * 50)

    categorias_unicas = np.unique(categorias)
    total_ventas_por_categoria = {}

    for categoria in categorias_unicas:
        # Encontrar índices donde la categoría coincide
        indices = np.where(categorias == categoria)[0]
        # Sumar el total de ventas para esa categoría (columna 4)
        total_ventas = np.sum(datos_numericos[indices, 4])
        total_ventas_por_categoria[categoria] = total_ventas
        print(f"{categoria}: ${total_ventas:,.2f}")

    # 2. Promedio de ventas por categoría
    print("\n2. PROMEDIO DE VENTAS POR CATEGORÍA:")
    print("-" * 50)

    for categoria in categorias_unicas:
        indices_categoria = np.where(categorias == categoria)[0]
        ventas_categoria = datos_numericos[indices_categoria, 4]
        promedio = np.mean(ventas_categoria)
        print(f"{categoria}: ${promedio:.2f} por transacción")

    # 3. Categorías con mayores y menores ventas
    print("\n3. CATEGORÍAS CON MAYORES Y MENORES VENTAS:")
    print("-" * 50)

    # Ordenar categorías por total de ventas
    categorias_ordenadas = sorted(total_ventas_por_categoria.items(),
                                key=lambda x: x[1], reverse=True)

    print("Categorías con MAYORES ventas:")
    for i, (categoria, total) in enumerate(categorias_ordenadas[:3], 1):
        print(f"{i}. {categoria}: ${total:,.2f}")

    print("\nCategorías con MENORES ventas:")
    for i, (categoria, total) in enumerate(categorias_ordenadas[-3:], 1):
        print(f"{i}. {categoria}: ${total:,.2f}")

    return total_ventas_por_categoria

def manipulacion_datos_numpy(datos_numericos, categorias, fechas, generos):
    """
    Realiza la manipulación de datos
    """
    print("\n" + "=" * 60)
    print("MANIPULACIÓN DE DATOS ")
    print("=" * 60)

    # 1. Filtrar datos para una categoría específica
    print("\n1. FILTRADO DE DATOS POR CATEGORÍA:")
    print("-" * 50)

    categoria_filtro = "Clothing"  # Cambiar esta categoría según necesites
    indices_clothing = np.where(categorias == categoria_filtro)[0]
    datos_clothing = datos_numericos[indices_clothing]

    print(f"Ventas de {categoria_filtro}:")
    print(f"- Número de transacciones: {len(datos_clothing)}")
    print(f"- Total de ventas: ${np.sum(datos_clothing[:, 4]):,.2f}")
    print(f"- Promedio por transacción: ${np.mean(datos_clothing[:, 4]):,.2f}")
    print(f"- Cantidad total vendida: {np.sum(datos_clothing[:, 2])}")

    # 2. Operaciones matemáticas básicas
    print("\n2. OPERACIONES MATEMÁTICAS:")
    print("-" * 50)

    # Suma: Total de todas las ventas
    total_ventas = np.sum(datos_numericos[:, 4])
    print(f"Total de ventas (suma): ${total_ventas:,.2f}")

    # Resta: Diferencia entre precio unitario y precio promedio
    precio_promedio = np.mean(datos_numericos[:, 3])
    diferencia_precios = datos_numericos[:, 3] - precio_promedio
    print(f"Precio promedio unitario: ${precio_promedio:.2f}")
    print(f"Diferencia máxima del precio promedio: ${np.max(np.abs(diferencia_precios)):.2f}")

    # Multiplicación: Calcular margen de ganancia (asumiendo 25% de margen)
    margen_ganancia = datos_numericos[:, 4] * 0.25
    print(f"Margen de ganancia total (25%): ${np.sum(margen_ganancia):,.2f}")

    # División: Calcular precio promedio por unidad vendida
    precio_por_unidad = datos_numericos[:, 4] / datos_numericos[:, 2]
    print(f"Precio promedio por unidad vendida: ${np.mean(precio_por_unidad):.2f}")

    # 3. Estadísticas por género
    print("\n3. ESTADÍSTICAS POR GÉNERO:")
    print("-" * 50)

    generos_unicos = np.unique(generos)
    for genero in generos_unicos:
        indices_genero = np.where(generos == genero)[0]
        ventas_genero = datos_numericos[indices_genero, 4]
        print(f"{genero}:")
        print(f"  - Total de ventas: ${np.sum(ventas_genero):,.2f}")
        print(f"  - Promedio por transacción: ${np.mean(ventas_genero):,.2f}")
        print(f"  - Número de transacciones: {len(ventas_genero)}")

# Función principal para Colab
def ejecutar_analisis():
    """
    Función principal para ejecutar en Colab
    """
    # Ruta del archivo
    ruta_archivo = "/content/retail_sales_dataset.csv"

    print("ANÁLISIS DE DATOS DE VENTAS CON NUMPY ")
    print("=" * 60)

    # Cargar datos
    datos_numericos, categorias, fechas, generos = cargar_datos_numpy(ruta_archivo)

    if datos_numericos is None:
        print("No se pudieron cargar los datos. Verifica la ruta del archivo.")
        return

    print(f"Datos cargados exitosamente:")
    print(f"- Número de transacciones: {len(datos_numericos)}")
    print(f"- Número de columnas numéricas: {datos_numericos.shape[1]}")

    # Realizar análisis
    total_ventas_por_categoria = exploracion_datos_numpy(datos_numericos, categorias, fechas, generos)
    manipulacion_datos_numpy(datos_numericos, categorias, fechas, generos)
    estadisticas_avanzadas_numpy(datos_numericos, categorias, fechas, generos)

    print("\n" + "=" * 60)
    print("ANÁLISIS COMPLETADO")
    print("=" * 60)

# Ejecutar el análisis
ejecutar_analisis()

ANÁLISIS DE DATOS DE VENTAS CON NUMPY 
Datos cargados exitosamente:
- Número de transacciones: 1000
- Número de columnas numéricas: 5
EXPLORACIÓN DE DATOS

1. TOTAL DE VENTAS POR CATEGORÍA DE PRODUCTO:
--------------------------------------------------
Beauty: $143,515.00
Clothing: $155,580.00
Electronics: $156,905.00

2. PROMEDIO DE VENTAS POR CATEGORÍA:
--------------------------------------------------
Beauty: $467.48 por transacción
Clothing: $443.25 por transacción
Electronics: $458.79 por transacción

3. CATEGORÍAS CON MAYORES Y MENORES VENTAS:
--------------------------------------------------
Categorías con MAYORES ventas:
1. Electronics: $156,905.00
2. Clothing: $155,580.00
3. Beauty: $143,515.00

Categorías con MENORES ventas:
1. Electronics: $156,905.00
2. Clothing: $155,580.00
3. Beauty: $143,515.00

MANIPULACIÓN DE DATOS 

1. FILTRADO DE DATOS POR CATEGORÍA:
--------------------------------------------------
Ventas de Clothing:
- Número de transacciones: 351
- Total de ven