In [10]:
import numpy as np
import kagglehub


# Descargar la última versión del dataset
path = kagglehub.dataset_download("mohammadtalib786/retail-sales-dataset")

print("Path to dataset files:", path)

def cargar_datos(path):
    # Definir los tipos de datos para cada columna
    dtypes = [
        ('Transaction_ID', 'U10'),       # Columna 1: ID transacción (cadena)
        ('Date', 'U10'),                 # Columna 2: Fecha (cadena)
        ('Customer_ID', 'U10'),          # Columna 3: ID cliente (cadena)
        ('Gender', 'U10'),               # Columna 4: Género (cadena)
        ('Age', int),                    # Columna 5: Edad (entero)
        ('Product_Category', 'U20'),     # Columna 6: Categoría de producto (cadena)
        ('Quantity', int),               # Columna 7: Cantidad (entero)
        ('Price_per_Unit', float),       # Columna 8: Precio por unidad (decimal)
        ('Total_Amount', float)          # Columna 9: Monto total (decimal)
    ]

    # Cargar el archivo CSV utilizando np.genfromtxt con los tipos de datos especificados
    retail = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=dtypes, encoding='utf-8')
    return retail

if __name__ == "__main__":
    ruta_archivo = path + "/retail_sales_dataset.csv"
    retail = cargar_datos(ruta_archivo)

    # Imprimir las primeras filas para verificar la carga
    print(retail[:5])

    # Ejemplos de cómo acceder y trabajar con columnas específicas
    print("Transaction IDs:", retail['Transaction_ID'])  # Columna de IDs de transacciones
    print("Ages:", retail['Age'])                        # Columna de edades
    print("Total Amount Mean:", np.mean(retail['Total_Amount']))  # Calcular la media del Monto total

Path to dataset files: /root/.cache/kagglehub/datasets/mohammadtalib786/retail-sales-dataset/versions/1
[('1', '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50.,  150.)
 ('2', '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500., 1000.)
 ('3', '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30.,   30.)
 ('4', '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500.,  500.)
 ('5', '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50.,  100.)]
Transaction IDs: ['1' '2' '3' '4' '5' '6' '7' '8' '9' '10' '11' '12' '13' '14' '15' '16'
 '17' '18' '19' '20' '21' '22' '23' '24' '25' '26' '27' '28' '29' '30'
 '31' '32' '33' '34' '35' '36' '37' '38' '39' '40' '41' '42' '43' '44'
 '45' '46' '47' '48' '49' '50' '51' '52' '53' '54' '55' '56' '57' '58'
 '59' '60' '61' '62' '63' '64' '65' '66' '67' '68' '69' '70' '71' '72'
 '73' '74' '75' '76' '77' '78' '79' '80' '81' '82' '83' '84' '85' '86'
 '87' '88' '89' '90' '91' '92' '93' '94' '95' '96' '97' '98' '99' '100'
 '101' '102' '103'

### Advertencia  

Aunque podemos modificar la base de datos con numpy para que este soporte variables categoricas, existen multiples limitaciones si queremos trabajar con este tipo de variables sin utilizar la biblioteca pandas, ya que numpy esta orientado principalmente para tratar con valores númericos.

In [12]:
# Importaremos la biblioteca pandas
import pandas as pd
retail_df = pd.DataFrame(retail)
retail_df.head()


Unnamed: 0,Transaction_ID,Date,Customer_ID,Gender,Age,Product_Category,Quantity,Price_per_Unit,Total_Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50.0,150.0
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500.0,1000.0
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30.0,30.0
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500.0,500.0
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50.0,100.0


In [14]:
# Total de ventas por categoría de producto
total_ventas_por_categoria = retail_df.groupby('Product_Category')['Total_Amount'].sum()
print("Total de ventas por categoría de producto:\n", total_ventas_por_categoria)



Total de ventas por categoría de producto:
 Product_Category
Beauty         143515.0
Clothing       155580.0
Electronics    156905.0
Name: Total_Amount, dtype: float64


In [15]:
# Promedio de ventas diarias por categoría de producto
retail_df['Date'] = pd.to_datetime(retail_df['Date'])  # Convertir a tipo datetime
promedio_ventas_diarias = retail_df.groupby('Product_Category').resample('D', on='Date')['Total_Amount'].mean()
print("Promedio de ventas diarias por categoría de producto:\n", promedio_ventas_diarias)


Promedio de ventas diarias por categoría de producto:
 Product_Category  Date      
Beauty            2023-01-01    1500.0
                  2023-01-02      25.0
                  2023-01-03     600.0
                  2023-01-04     545.0
                  2023-01-05      50.0
                                 ...  
Electronics       2023-12-28      37.5
                  2023-12-29     100.0
                  2023-12-30       NaN
                  2023-12-31      50.0
                  2024-01-01      30.0
Name: Total_Amount, Length: 1093, dtype: float64


In [16]:
# Identificar categorías de productos con mayores y menores ventas
total_cantidad_por_categoria = retail_df.groupby('Product_Category')['Quantity'].sum()
mayores_ventas = total_cantidad_por_categoria.idxmax()
menores_ventas = total_cantidad_por_categoria.idxmin()
print("Categoría con mayores ventas:", mayores_ventas)
print("Categoría con menores ventas:", menores_ventas)



Categoría con mayores ventas: Clothing
Categoría con menores ventas: Beauty


In [20]:
# Filtrar datos para mostrar solo ventas de una categoría específica
ventas_beauty = retail_df[retail_df['Product_Category'] == 'Beauty']['Total_Amount']
ventas_beauty



Unnamed: 0,Total_Amount
0,150.0
4,100.0
5,30.0
11,75.0
20,500.0
...,...
981,90.0
989,1000.0
993,1000.0
996,90.0


### Operaciones adicionales

In [18]:
# Suma total de ventas y promedio de precio por unidad
suma_total = retail_df['Total_Amount'].sum()
promedio_precio = retail_df['Price_per_Unit'].mean()
print("Suma total de ventas:", suma_total)
print("Promedio de precio por unidad:", promedio_precio)

Suma total de ventas: 456000.0
Promedio de precio por unidad: 179.89
