# **Análisis y Predicción de Ventas en una Tienda de Retail (Core)**

Parte 1: Análisis Básico con NumPy

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

# **Alumno:** Cristian Lugo

In [None]:
# Importar las bibliotecas necesarias

import numpy as np      # Importamos la librería numpy
from datetime import datetime  # Importamos el objeto datetime del módulo datetime

#El dataset ha sido descargado desde la Página de kaggle. Puedes encontrar el dataset en el siguiente link: https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset/data
# EL archivo ha sido descargado con el nombre: retail_sales_dataset.csv

#Carga los datos del archivo CSV utilizando NumPy.
# Paso 1: Cargar el dataset desde un archivo local
# En este paso, cargamos el archivo CSV desde la carpeta donde se encuentra el dataset.

from google.colab import files
# Esto abrirá una ventana para que selecciones el archivo en tu computadora
uploaded = files.upload()   # Habilita la opción para seleccionar el archivo a ser cargado

file_name = next(iter(uploaded))  # Obtiene el nombre del primer archivo subido
data = np.genfromtxt(file_name, delimiter=',', dtype=None, names=True, encoding='utf-8') #Guarda los datos del archivo cargado en la variable datos
print(data) #Imprime los datos de la variable datos

#Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

# Paso 2: Extracción de columnas necesarias
# Extraemos todas las columnas disponibles para trabajar con ellas directamente
transaction_ids = data['Transaction_ID']  # Columna de ID de transacción (entero)
dates = data['Date']                      # Columna de fechas (cadena de texto inicialmente)
customer_ids = data['Customer_ID']        # Columna de ID de cliente (cadena de texto)
genders = data['Gender']                  # Columna de género del cliente (cadena de texto)
ages = data['Age']                        # Columna de edad del cliente (entero)
categories = data['Product_Category']     # Columna de categoría de producto (cadena de texto)
quantities = data['Quantity']             # Columna de cantidad de productos comprados (entero)
prices_per_unit = data['Price_per_Unit']  # Columna de precio por unidad (flotante)
amounts = data['Total_Amount']            # Columna de montos totales (flotante)

# Paso 3: Identificar categorías únicas
# np.unique devuelve un arreglo con las categorías únicas presentes en la columna
unique_categories = np.unique(categories)

# Paso 4: Calcular el total de ventas por categoría
# Creamos un diccionario donde la clave es la categoría y el valor es la suma de los montos para esa categoría
sales_by_category = {
    category: np.sum(amounts[categories == category]) for category in unique_categories
}

# Paso 5: Calcular el promedio de ventas diarias por categoría
# Convertimos las fechas del archivo a objetos datetime para facilitar su manipulación
dates_converted = np.array([datetime.strptime(d, '%Y-%m-%d') for d in dates])

# Inicializamos un diccionario para almacenar el promedio de ventas diarias por categoría
average_sales_by_category = {}
for category in unique_categories:
    # Creamos una máscara booleana para filtrar datos de la categoría actual
    mask = categories == category
    filtered_dates = dates_converted[mask]  # Filtrar fechas por categoría
    filtered_amounts = amounts[mask]  # Filtrar montos por categoría

    # Encontrar las ventas totales por día
    # Usamos np.unique para identificar fechas únicas y calcular las ventas diarias
    unique_days = np.unique(filtered_dates)
    daily_totals = [
        np.sum(filtered_amounts[filtered_dates == day]) for day in unique_days
    ]

    # Calculamos el promedio de las ventas diarias para esta categoría
    average_sales_by_category[category] = np.mean(daily_totals)

# Paso 6: Identificar categorías con mayores y menores ventas
# Convertimos las ventas totales en un arreglo para usar funciones de NumPy
total_sales_array = np.array(list(sales_by_category.values()))
max_category = unique_categories[np.argmax(total_sales_array)]  # Categoría con mayores ventas
min_category = unique_categories[np.argmin(total_sales_array)]  # Categoría con menores ventas

# Resultados
# Imprimimos los resultados de los análisis realizados
print("Total de ventas por categoría:", sales_by_category)
print("Promedio de ventas diarias por categoría:", average_sales_by_category)
print("Categoría con mayores ventas:", max_category)
print("Categoría con menores ventas:", min_category)
