## **Análisis y Predicción de Ventas en una Tienda de Retail** (Core)

### **Introducción al Proyecto**

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

### **Dataset**

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado «Retail Sales Dataset» (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en una tienda. Puedes descargar el dataset desde Kaggle.

### **Parte 1:** Análisis Básico con NumPy

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

### **Instrucciones:**

1. **Configuración Inicial del Proyecto:**
    - Crea un repositorio en GitHub para tu proyecto.
    - Configura dos ramas en tu repositorio: main y development.
    - Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.
    
2. **Carga y Preprocesamiento de Datos:**
    - Carga los datos del archivo CSV utilizando NumPy.
    - Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

3. **Exploración de Datos:**
    - Calcula el total de ventas por categoría de producto.
    - Calcula el promedio de ventas diarias por categoría de producto.
    - Identifica las categorías de productos con mayores y menores ventas.

4. **Manipulación de Datos:**
    - Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
    - Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.


In [1]:
# CARGAR DATOS

import numpy as np

def cargar_datos(ruta_archivo):
    # Cargar los datos del archivo CSV con NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=0, dtype=None, encoding=None, names=True)
    return datos

def obtener_nombres_columnas_y_tipos(datos):
    # Extraer nombres de columnas y tipos de datos
    columnas_con_tipos = [(nombre, datos.dtype[nombre]) for nombre in datos.dtype.names]
    return columnas_con_tipos

def mostrar_informacion(datos, columnas_con_tipos):
    # Obtener el número de filas y columnas
    num_filas = datos.shape[0]
    num_columnas = len(columnas_con_tipos)
    
    # Mostrar el número de filas y columnas
    print(f"Número de filas: {num_filas}")
    print(f"Número de columnas: {num_columnas}")
    
    # Mostrar los nombres de las columnas y sus tipos
    print("\nNombres de las columnas y tipos de datos:")
    for nombre_columna, tipo_dato in columnas_con_tipos:
        print(f"{nombre_columna}: {tipo_dato}")
    
    # Mostrar las primeras 10 filas del dataset con los nombres de las columnas
    print("\nPrimeras 10 filas del dataset:")
    nombres_columnas = ', '.join(datos.dtype.names)
    print(nombres_columnas)
    for fila in datos[:10]:
        print(fila)

# Punto de entrada principal
if __name__ == "__main__":
    # Ruta del archivo CSV
    ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'
    
    # Cargar los datos del archivo
    datos = cargar_datos(ruta_archivo)
    
    # Obtener los nombres de las columnas y sus tipos
    columnas_con_tipos = obtener_nombres_columnas_y_tipos(datos)
    
    # Mostrar la información general del dataset
    mostrar_informacion(datos, columnas_con_tipos)


Número de filas: 1000
Número de columnas: 9

Nombres de las columnas y tipos de datos:
Transaction_ID: int64
Date: <U10
Customer_ID: <U8
Gender: <U6
Age: int64
Product_Category: <U11
Quantity: int64
Price_per_Unit: int64
Total_Amount: int64

Primeras 10 filas del dataset:
Transaction_ID, Date, Customer_ID, Gender, Age, Product_Category, Quantity, Price_per_Unit, Total_Amount
(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3, 50, 150)
(2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
(3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1, 30, 30)
(4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500, 500)
(5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2, 50, 100)
(6, '2023-04-25', 'CUST006', 'Female', 45, 'Beauty', 1, 30, 30)
(7, '2023-03-13', 'CUST007', 'Male', 46, 'Clothing', 2, 25, 50)
(8, '2023-02-22', 'CUST008', 'Male', 30, 'Electronics', 4, 25, 100)
(9, '2023-12-13', 'CUST009', 'Male', 63, 'Electronics', 2, 300, 600)
(10, '2023-10-07', 'CUST010',

In [2]:
# PREPROCESAMIENTO DE DATOS

def cargar_datos(ruta_archivo):
    # Cargar los datos del archivo CSV con NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=0, dtype=None, encoding=None, names=True)
    return datos

def identificar_duplicados_y_nulos(datos):
    # Identificar el número de filas duplicadas
    datos_sin_duplicados = np.unique(datos, axis=0)
    num_duplicados = datos.shape[0] - datos_sin_duplicados.shape[0]
    print(f"Número de filas duplicadas: {num_duplicados}")

    # Identificar el número de filas con valores nulos
    valores_nulos = np.sum(np.array([any(col == '' or col == 'nan' for col in fila) for fila in datos]))
    print(f"Número de filas con valores nulos: {valores_nulos}")

# Ruta del archivo CSV
ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'

# Cargar los datos con NumPy
datos = cargar_datos(ruta_archivo)

# Identificar duplicados y nulos
identificar_duplicados_y_nulos(datos)

# Mostrar las primeras filas del dataset
print("\nPrimeras 5 filas del dataset:")
print(datos[:5])

Número de filas duplicadas: 0
Número de filas con valores nulos: 0

Primeras 5 filas del dataset:
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


In [8]:
# EXPLORACIÓN DE DATOS

# Función para analizar las ventas por categoría
def analizar_ventas_por_categoria(datos):
    # Crear un diccionario para almacenar el total de ventas por categoría
    total_ventas_por_categoria = {}
    # Crear un diccionario para contar el número de días por categoría
    conteo_dias_por_categoria = {}
    
    for fila in datos:
        # Extraer la categoría y calcular las ventas
        categoria = fila['Product_Category']
        total_ventas = fila['Quantity'] * fila['Price_per_Unit']
        
        # Sumar al total por categoría
        if categoria in total_ventas_por_categoria:
            total_ventas_por_categoria[categoria] += total_ventas
            conteo_dias_por_categoria[categoria] += 1  # Contar ventas por día
        else:
            total_ventas_por_categoria[categoria] = total_ventas
            conteo_dias_por_categoria[categoria] = 1  # Inicializar el contador
    
    # Calcular el promedio de ventas diarias por categoría
    promedio_ventas_por_categoria = {
        categoria: total_ventas / conteo_dias_por_categoria[categoria]
        for categoria, total_ventas in total_ventas_por_categoria.items()
    }
    
    # Identificar las categorías con mayores y menores ventas
    categoria_mayor_venta = max(total_ventas_por_categoria, key=total_ventas_por_categoria.get)
    categoria_menor_venta = min(total_ventas_por_categoria, key=total_ventas_por_categoria.get)

    # Mostrar resultados
    print("Total de ventas por categoría:")
    for categoria, total in total_ventas_por_categoria.items():
        print(f"{categoria}: ${total:.2f}")

    print("\nPromedio de ventas diarias por categoría:")
    for categoria, promedio in promedio_ventas_por_categoria.items():
        print(f"{categoria}: ${promedio:.2f}")
    
    print(f"\nCategoría con mayores ventas: {categoria_mayor_venta} (${total_ventas_por_categoria[categoria_mayor_venta]:.2f})")
    print(f"Categoría con menores ventas: {categoria_menor_venta} (${total_ventas_por_categoria[categoria_menor_venta]:.2f})")

# Cargar los datos con NumPy
ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'
datos = cargar_datos(ruta_archivo)

# Llamar a la función para analizar las ventas por categoría
analizar_ventas_por_categoria(datos)


Total de ventas por categoría:
Beauty: $143515.00
Clothing: $155580.00
Electronics: $156905.00

Promedio de ventas diarias por categoría:
Beauty: $467.48
Clothing: $443.25
Electronics: $458.79

Categoría con mayores ventas: Electronics ($156905.00)
Categoría con menores ventas: Beauty ($143515.00)


In [9]:
# MANIPULACIÓN DE DATOS

# Función para filtrar datos por categoría de producto
def filtrar_ventas_por_categoria(datos, categoria_especifica):
    # Filtrar las filas que coinciden con la categoría específica
    ventas_filtradas = datos[datos['Product_Category'] == categoria_especifica]
    
    return ventas_filtradas

# Función para realizar operaciones en las ventas filtradas
def operaciones_estadisticas(ventas_filtradas):
    # Calcular total de ventas
    total_ventas = np.sum(ventas_filtradas['Quantity'] * ventas_filtradas['Price_per_Unit'])
    
    # Calcular promedio de precio por unidad
    promedio_precio = np.mean(ventas_filtradas['Price_per_Unit'])
    
    # Calcular la cantidad total vendida
    total_cantidad = np.sum(ventas_filtradas['Quantity'])
    
    # Calcular precio máximo y mínimo
    precio_maximo = np.max(ventas_filtradas['Price_per_Unit'])
    precio_minimo = np.min(ventas_filtradas['Price_per_Unit'])
    
    # Imprimir resultados
    print(f"\nEstadísticas para la categoría: {ventas_filtradas['Product_Category'][0]}")
    print(f"Total de Ventas: ${total_ventas:.2f}")
    print(f"Promedio de Precio por Unidad: ${promedio_precio:.2f}")
    print(f"Cantidad Total Vendida: {total_cantidad}")
    print(f"Precio Máximo: ${precio_maximo:.2f}")
    print(f"Precio Mínimo: ${precio_minimo:.2f}")

# Cargar los datos con NumPy
ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'
datos = cargar_datos(ruta_archivo)

# Especificar la categoría que se quiere filtrar
categoria_especifica = 'Electronics'

# Filtrar los datos para la categoría específica
ventas_filtradas = filtrar_ventas_por_categoria(datos, categoria_especifica)

# Comprobar si hay datos filtrados antes de realizar operaciones
if ventas_filtradas.size > 0:
    # Realizar operaciones estadísticas sobre las ventas filtradas
    operaciones_estadisticas(ventas_filtradas)
else:
    print(f"No se encontraron ventas para la categoría: {categoria_especifica}")



Estadísticas para la categoría: Electronics
Total de Ventas: $156905.00
Promedio de Precio por Unidad: $181.90
Cantidad Total Vendida: 849
Precio Máximo: $500.00
Precio Mínimo: $25.00
