In [2]:
import numpy as np 
import pandas as pd

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV
    datos = pd.read_csv(ruta_archivo, delimiter=',')
    return datos
##Se realiza la carga con Pandas ya que numpy no muestra los valores categoricos
if __name__ == "__main__":
    ruta_archivo = '../trabajos_core/data/retail_sales_dataset.csv'
    #C:\Users\ENRIF\Desktop\Curso Coding Dojo\practicas_coding_dojo\bootcampo_coding_dojo_EF\trabajos_core\data\retail_sales_dataset.csv
    df = cargar_datos(ruta_archivo)  
    
    print(df.head())

   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  


In [3]:
###Preprocesamiento del dato

##Consulta si hay valores nulos
nulos_por_columna = df.isnull().sum()
print("Numero de elementos nulos por columna")
print(nulos_por_columna)

# Eliminar filas con valores nulos
df = df.dropna()

##Revisar el formato del dataset
print("nTipos de datos de las columnas:")
print(df.dtypes)


Numero de elementos nulos por columna
Transaction ID      0
Date                0
Customer ID         0
Gender              0
Age                 0
Product Category    0
Quantity            0
Price per Unit      0
Total Amount        0
dtype: int64
nTipos de datos de las columnas:
Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object


In [4]:
def total_ventas_categ(product_category,total_amount):
    #Encontrar categorias unicas
    categorias_unicas = np.unique(product_category)
    
    #Inicializar diccionario para almacenar ventas por categorias
    total_ventas = {}

    # Calcular el total de ventas por categoría
    for categoria in categorias_unicas:
        venta_categorias = total_amount[product_category == categoria]## Selecciona el total basado en el resultado de la consulta de categoria
        total_ventas[categoria] = np.sum(venta_categorias)
    ##Imprimir el promedio
    for categoria, ventas in total_ventas.items():
        print(f"El total de ventas de la categoria {categoria}, es de: {ventas} ")
    
    return total_ventas

In [5]:

def total_promedio_ventas_diarias(fechas,product_category,total_amount):
    #Modificar date de object a datetime64 para facilitar la comparacion
    fechas = np.array([np.datetime64(fecha) for fecha in fechas])
    
    #Encontrar categorias unicas
    categorias_unicas = np.unique(product_category)
    
    # Diccionario para guardar promedios por categoría
    promedios_por_categoria = {}


    ##Calcular promedio ventas por dia
    for categoria in categorias_unicas:
        # Máscara para filtrar ventas de la categoría actual
        mask_productos = product_category == categoria #mascara para busqueda de categorias 
        ventas_categoria = total_amount[mask_productos]##filtra ventas de esta categoria
        fechas_categoria = fechas[mask_productos]##filtra fechas de esta categoria
        
        # Encontrar fechas únicas dentro de esta categoría
        fechas_unicas = np.unique(fechas_categoria)

        #Incializar una lista para guardar ventas diarias
        sum_ventas_diarias = []

        ##Iterar por fecha unica
        for fecha in fechas_unicas:
            ##Filtrar ventas correspondientes a esta fecha
            venta_del_dia = ventas_categoria[fechas_categoria == fecha ]

            ##Suma las ventas diarias y agrega a la lista
            sum_ventas_diarias.append(np.sum(venta_del_dia))
            
            #Calcular el promedio para esta categoria
            promedio_venta_dia = np.mean(sum_ventas_diarias)
            promedios_por_categoria[categoria] = promedio_venta_dia
    
    ##Imprimir el promedio
    for categoria, promedio in promedios_por_categoria.items():
        print(f"El promedio de ventas por dia de la categoria {categoria} es de: {promedio} ")

In [6]:
def calcular_categorias_mayor_menor_venta(total_ventas_categ):

    # Encuentra la categoría con mayores ventas
    categoria_mayor_venta = max(total_ventas_categ, key=total_ventas_categ.get)

    # Encuentra la categoría con menores ventas
    categoria_menor_venta = min(total_ventas_categ, key=total_ventas_categ.get)

    print(f"La categoría con mayores ventas es: {categoria_mayor_venta} con un total de {total_ventas_categ[categoria_mayor_venta]}")
    print(f"La categoría con menores ventas es: {categoria_menor_venta} con un total de {total_ventas_categ[categoria_menor_venta]}")

In [7]:
def filtro_venta_categorias(categoria,product_category,total_amount):
    ##Definir categoria a filtrar
    categ_a_filtrar = categoria

    # Crear una máscara booleana para filtrar las ventas de la categoría especificada
    mascara = product_category == categ_a_filtrar

    ##Total ventas
    ventas_filtradas = total_amount[mascara]
    # Verificar si se han encontrado ventas para la categoría
    if len(ventas_filtradas) == 0:
        print(f"No se encontraron ventas para la categoría {categoria}.")
    else:
        print(f"Array de ventas filtradas para la categoría {categoria}: {ventas_filtradas}")
    
    return ventas_filtradas


In [8]:
product_category = df['Product Category'].values #Columna de categorias
total_amount = df['Total Amount'].values #Columna de ventas totales
fechas = df['Date']#Columna de fechas, para este caso no es necesario value

print("Total de ventas por categoria")
venta_categoria_resultado = total_ventas_categ(product_category,total_amount)    


print("Promedio de ventas diarias por categoria")  
promedio_venta_diaria = total_promedio_ventas_diarias(fechas,product_category,total_amount)

print("Categorias con mayor y menor ventas")
calcular_categorias_mayor_menor_venta(venta_categoria_resultado)

Total de ventas por categoria
El total de ventas de la categoria Beauty, es de: 143515 
El total de ventas de la categoria Clothing, es de: 155580 
El total de ventas de la categoria Electronics, es de: 156905 
Promedio de ventas diarias por categoria
El promedio de ventas por dia de la categoria Beauty es de: 703.5049019607843 
El promedio de ventas por dia de la categoria Clothing es de: 670.6034482758621 
El promedio de ventas por dia de la categoria Electronics es de: 716.4611872146119 
Categorias con mayor y menor ventas
La categoría con mayores ventas es: Electronics con un total de 156905
La categoría con menores ventas es: Beauty con un total de 143515


In [9]:
print("Filtro de array ventas por categoria")
categoria_filtrada=filtro_venta_categorias('Electronics',product_category,total_amount)

##Operaciones matematicas con array filtrado
suma_total = np.sum(categoria_filtrada)  # Suma de todos los elementos
resta_total = np.subtract(categoria_filtrada, 50)      # Resta de un valor arbitrario (50) a cada venta
multiplicacion_total = np.multiply(categoria_filtrada, 1.1)  # Multiplicar por 1.1 para simular aumento del 10%
division_total = np.divide(categoria_filtrada, 2)      # División de cada venta entre 2 

##Estadistica basica con array filtrado
promedio = np.mean(categoria_filtrada)
minimo = np.min(categoria_filtrada)
maximo = np.max(categoria_filtrada)

#Imprimir resultados
print("Operaciones matematicas basicas")
print(f"Suma total de ventas: {suma_total}")
print(f"Ventas después de restar 50: {resta_total}")
print(f"Ventas multiplicadas por 1.1 (10% más): {multiplicacion_total}")
print(f"Ventas divididas por 2: {division_total}")
print("Operaciones estadisticas adicionales")
print(f"Promedio de ventas: {promedio}")
print(f"Venta mínima: {minimo}")
print(f"Venta máxima: {maximo}")

Filtro de array ventas por categoria
Array de ventas filtradas para la categoría Electronics: [  30  100  600 1500 2000   50 1000   30 1200  100   30 1200  900 1000
  100 1500   50 2000   30  300 2000   90  100   50  100   90 2000   30
  500  120 1200   30  500 2000 1500   50 1000 2000  200  120   60  200
  900   50  600   30   50 1200  300  120 2000 1000  900 2000 2000  600
  120  100  300 1200  200   25  200  200  200  100  200   90  100   60
   50 1000 1500   75  900   50   60   50  300  500   60   30  300  100
  200  500   25   50   60   90 1000 1000  200   90   60   50   50   90
 1200   50  500  150   50  150  100   90 1200 1200  900   50   50   30
   25  600 1000  500  500 1500   75 1200   50 1500   60  600 1500  600
   25  100 1000 1000  900  900  200 2000 2000  900 1000  120  150   25
  200   50  900 1200 1000   50 1200  300   50  200   30  100   60  100
 1200  600  150  100  150   25 1200 1200   30   25  900   30  900   60
  150 1500  900  100  300  120  100  300  120  500 150