# Análisis y Predicción de Ventas en una Tienda de Retail (Core)

# PARTE 1

## Instrucciones

### Introducción al Proyecto.

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

### Dataset

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado «Retail Sales Dataset» (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en una tienda. Puedes descargar el dataset desde Kaggle.

### Parte 1: Análisis Básico con NumPy

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

### Instrucciones:

1. Configuración Inicial del Proyecto:
   * Crea un repositorio en GitHub para tu proyecto.
   * Configura dos ramas en tu repositorio: main y development.
   * Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.
2. Carga y Preprocesamiento de Datos:
   * Carga los datos del archivo CSV utilizando NumPy.
   * Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.
3. Exploración de Datos:
   * Calcula el total de ventas por categoría de producto.
   * Calcula el promedio de ventas diarias por categoría de producto.
   * Identifica las categorías de productos con mayores y menores ventas.
4. Manipulación de Datos:
   * Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
   * Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

## Sobre los campos del dataset

About this file

1. **Transaction ID:** A unique identifier for each transaction, allowing tracking and reference.
2. **Date:** The date when the transaction occurred, providing insights into sales trends over time.
3. **Customer ID:** A unique identifier for each customer, enabling customer-centric analysis.
4. **Gender:** The gender of the customer (Male/Female), offering insights into gender-based purchasing patterns.
5. **Age:** The age of the customer, facilitating segmentation and exploration of age-related influences.
6. **Product Category:** The category of the purchased product (e.g., Electronics, Clothing, Beauty), helping understand product preferences.
7. **Quantity:** The number of units of the product purchased, contributing to insights on purchase volumes.
8. **Price per Unit:** The price of one unit of the product, aiding in calculations related to total spending.
9. **Total Amount:** The total monetary value of the transaction, showcasing the financial impact of each purchase.


*Traducción de los campos del dataset*
1. **Transaction ID:** Un identificador único para cada transacción, que permite su seguimiento y referencia.
2. **Date:** La fecha en que se produjo la transacción, lo que permite conocer las tendencias de las ventas a lo largo del tiempo.
3. **Customer ID:** Un identificador único para cada cliente, que permite un análisis centrado en el cliente.
4. **Gender:** El sexo del cliente (hombre/mujer), que ofrece información sobre las pautas de compra en función del sexo 
5. **Age:** La edad del cliente, que facilita la segmentación y la exploración de las influencias relacionadas con la edad.
6. **Product Category:** La categoría del producto comprado (por ejemplo, electrónica, ropa, belleza), que ayuda a comprender las preferencias de producto.
7. **Quantity:** El número de unidades del producto comprado, lo que contribuye a comprender los volúmenes de compra.
8. **Price per Unit:** El precio de una unidad del producto, lo que ayuda a realizar cálculos relacionados con el gasto total.
9. **Total Amount:** El valor monetario total de la transacción, que muestra el impacto financiero de cada compra.

Cada columna de este conjunto de datos desempeña un papel fundamental a la hora de desentrañar la dinámica de las operaciones minoristas y el comportamiento de los clientes. Al explorar y analizar estos atributos, descubrirá tendencias, patrones y correlaciones que arrojan luz sobre la compleja interacción entre clientes y productos en un entorno minorista.

1. ID de transacción: 
2. Fecha:
3. ID de cliente: 
4. Sexo: 
5. Edad: 
6. Categoría del producto: 
7. Cantidad:
8. Precio por Unidad: 
9. Importe total: 


## Desarrollo

### 1. Configuración Inicial del Proyecto:
   * Crea un repositorio en GitHub para tu proyecto.
   * Configura dos ramas en tu repositorio: main y development.
   * Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.

Retail Sales Analysis

Este proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.

Estructura del Proyecto

- `data/`: Contiene los archivos de datos.
- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.
- `src/`: Contiene el código fuente del proyecto.
- `README.md`: Este archivo.

Instrucciones de Instalación

1. Clona el repositorio: `git clone https://github.com/tu_usuario/retail-sales-analysis.git`
2. Instala las dependencias: `pip install -r requirements.txt`

 Uso

Ejecuta los notebooks de Jupyter en la carpeta `notebooks` para realizar el análisis de los datos.


### 2. Carga y Preprocesamiento de Datos:
   * Carga los datos del archivo CSV utilizando NumPy.
   * Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

#### **Carga los datos del archivo CSV utilizando NumPy.***

In [145]:
import numpy as np

In [146]:
def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy, incluyendo los nombres de las columnas
    datos = np.genfromtxt(ruta_archivo, delimiter=',', names=True, dtype=None, encoding='utf-8')
    return datos

if __name__ == "__main__":
    ruta_archivo = r'C:\Users\GIGABYTE\Documents\tareas_bootcamp_coding_dojo\mod_1_data_fundamentals\2_proyecto_retail_sales_analysis\data\retail_sales.csv'
    datos = cargar_datos(ruta_archivo)
    
    # Imprimir los nombres de las columnas
    print("Columnas del dataset:", datos.dtype.names)
    
    # Imprimir los primeros registros para verificar
    print(datos[:5])

Columnas del dataset: ('Transaction_ID', 'Date', 'Customer_ID', 'Gender', 'Age', 'Product_Category', 'Quantity', 'Price_per_Unit', 'Total_Amount')
[(1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)]


In [147]:
# Datos del dataset sin las columnas
print(datos)

[(   1, '2023-11-24', 'CUST001', 'Male', 34, 'Beauty', 3,  50,  150)
 (   2, '2023-02-27', 'CUST002', 'Female', 26, 'Clothing', 2, 500, 1000)
 (   3, '2023-01-13', 'CUST003', 'Male', 50, 'Electronics', 1,  30,   30)
 (   4, '2023-05-21', 'CUST004', 'Male', 37, 'Clothing', 1, 500,  500)
 (   5, '2023-05-06', 'CUST005', 'Male', 30, 'Beauty', 2,  50,  100)
 (   6, '2023-04-25', 'CUST006', 'Female', 45, 'Beauty', 1,  30,   30)
 (   7, '2023-03-13', 'CUST007', 'Male', 46, 'Clothing', 2,  25,   50)
 (   8, '2023-02-22', 'CUST008', 'Male', 30, 'Electronics', 4,  25,  100)
 (   9, '2023-12-13', 'CUST009', 'Male', 63, 'Electronics', 2, 300,  600)
 (  10, '2023-10-07', 'CUST010', 'Female', 52, 'Clothing', 4,  50,  200)
 (  11, '2023-02-14', 'CUST011', 'Male', 23, 'Clothing', 2,  50,  100)
 (  12, '2023-10-30', 'CUST012', 'Male', 35, 'Beauty', 3,  25,   75)
 (  13, '2023-08-05', 'CUST013', 'Male', 22, 'Electronics', 3, 500, 1500)
 (  14, '2023-01-17', 'CUST014', 'Male', 64, 'Clothing', 4,  30,  1

#### **Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.**

In [148]:
# Mostrar los nombres de las columnas y sus tipos de datos
for nombre_columna in datos.dtype.names:
    tipo_actual = datos[nombre_columna].dtype
    print(f"{nombre_columna}: {tipo_actual}")


Transaction_ID: int64
Date: <U10
Customer_ID: <U8
Gender: <U6
Age: int64
Product_Category: <U11
Quantity: int64
Price_per_Unit: int64
Total_Amount: int64


In [149]:
# Limpieza básica: convertir cadenas a minúsculas
for campo in ['Date','Customer_ID', 'Gender', 'Product_Category']:
    if campo in datos.dtype.names:
        # Convertir cada cadena en la columna a minúsculas
        datos[campo] = np.char.lower(datos[campo])

# Mostrar el estado final del dataset
print(datos)

[(   1, '2023-11-24', 'cust001', 'male', 34, 'beauty', 3,  50,  150)
 (   2, '2023-02-27', 'cust002', 'female', 26, 'clothing', 2, 500, 1000)
 (   3, '2023-01-13', 'cust003', 'male', 50, 'electronics', 1,  30,   30)
 (   4, '2023-05-21', 'cust004', 'male', 37, 'clothing', 1, 500,  500)
 (   5, '2023-05-06', 'cust005', 'male', 30, 'beauty', 2,  50,  100)
 (   6, '2023-04-25', 'cust006', 'female', 45, 'beauty', 1,  30,   30)
 (   7, '2023-03-13', 'cust007', 'male', 46, 'clothing', 2,  25,   50)
 (   8, '2023-02-22', 'cust008', 'male', 30, 'electronics', 4,  25,  100)
 (   9, '2023-12-13', 'cust009', 'male', 63, 'electronics', 2, 300,  600)
 (  10, '2023-10-07', 'cust010', 'female', 52, 'clothing', 4,  50,  200)
 (  11, '2023-02-14', 'cust011', 'male', 23, 'clothing', 2,  50,  100)
 (  12, '2023-10-30', 'cust012', 'male', 35, 'beauty', 3,  25,   75)
 (  13, '2023-08-05', 'cust013', 'male', 22, 'electronics', 3, 500, 1500)
 (  14, '2023-01-17', 'cust014', 'male', 64, 'clothing', 4,  30,  1

In [150]:
# Lista de columnas numéricas que se deben validar de tipo entero
col_num_a_validar = ['Transaction_ID', 'Age', 'Quantity', 'Price_per_Unit', 'Total_Amount']

# Verificación de valores nulos en columnas numéricas específicas
for campo in col_num_a_validar:
    if campo in datos.dtype.names:  # Verifica que la columna exista en el dataset
        # Verificamos si el tipo de dato es numérico (entero)
        if np.issubdtype(datos[campo].dtype, np.integer):  # Verifica si es de tipo entero
            # Dado que no podemos tener np.nan en enteros, podemos verificar un valor específico que represente "nulo" 
            cantidad_nulos = np.sum(datos[campo] < 0)
            if cantidad_nulos > 0:
                print(f"Hay {cantidad_nulos} valores nulos en la columna {campo}.")
            else:
                print(f"No hay valores nulos en la columna {campo}.")
    else:
        print(f"La columna {campo} no existe en el dataset.")


No hay valores nulos en la columna Transaction_ID.
No hay valores nulos en la columna Age.
No hay valores nulos en la columna Quantity.
No hay valores nulos en la columna Price_per_Unit.
No hay valores nulos en la columna Total_Amount.


In [151]:

# Lista de columnas que se deben validar de tipo cade
columnas_a_validar = ['Date', 'Customer_ID', 'Gender', 'Product_Category']

# Verificación de valores nulos en columnas específicas de tipo cadena
for campo in columnas_a_validar:
    if campo in datos.dtype.names:  # Verifica que la columna exista en el dataset
        # Verificamos si el tipo de dato es de cadena
        if datos[campo].dtype.kind == 'U':  # 'U' significa tipo de cadena en NumPy
            # Verificamos si hay valores nulos (en este caso, verificamos cadenas vacías)
            valores_nulos = np.any(datos[campo] == '')  # Comprueba si hay cadenas vacías
            if valores_nulos:
                print(f"Hay valores nulos en la columna {campo}.")
            else:
                print(f"No hay valores nulos en la columna {campo}.")
    else:
        print(f"La columna {campo} no existe en el dataset.")


No hay valores nulos en la columna Date.
No hay valores nulos en la columna Customer_ID.
No hay valores nulos en la columna Gender.
No hay valores nulos en la columna Product_Category.


### 3. Exploración de Datos:
   * Calcula el total de ventas por categoría de producto.
   * Calcula el promedio de ventas diarias por categoría de producto.
   * Identifica las categorías de productos con mayores y menores ventas.


#### **Calcular el total de ventas por categoría de producto**

In [152]:
categorias_unicas = np.unique(datos['Product_Category'])
total_ventas_por_categoria = {}

for categoria in categorias_unicas:
    total_ventas = np.sum(datos[datos['Product_Category'] == categoria]['Total_Amount'])
    total_ventas_por_categoria[categoria] = total_ventas

print("Total de Ventas por Categoría de Producto:")
for categoria, total in total_ventas_por_categoria.items():
    print(f"{categoria}: {total}")

Total de Ventas por Categoría de Producto:
beauty: 143515
clothing: 155580
electronics: 156905


#### **Calcular el promedio de ventas diarias por categoría de producto**

In [153]:
# Convertir las fechas a un formato numérico para el cálculo
fechas_unicas = np.unique(datos['Date'])
ventas_diarias_por_categoria = {}

for categoria in categorias_unicas:
    ventas_por_fecha = {}
    for fecha in fechas_unicas:
        total_ventas_dia = np.sum(datos[(datos['Product_Category'] == categoria) & (datos['Date'] == fecha)]['Total_Amount'])
        ventas_por_fecha[fecha] = total_ventas_dia

    promedio_ventas_diarias = np.mean(list(ventas_por_fecha.values()))
    ventas_diarias_por_categoria[categoria] = promedio_ventas_diarias

print("\nPromedio de Ventas Diarias por Categoría de Producto:")
for categoria, promedio in ventas_diarias_por_categoria.items():
    print(f"{categoria}: {promedio}")



Promedio de Ventas Diarias por Categoría de Producto:
beauty: 415.9855072463768
clothing: 450.95652173913044
electronics: 454.7971014492754


#### **Identificar las categorías de productos con mayores y menores ventas**

In [154]:
categoria_mayor_venta = max(total_ventas_por_categoria, key=total_ventas_por_categoria.get)
categoria_menor_venta = min(total_ventas_por_categoria, key=total_ventas_por_categoria.get)

print(f"\nCategoría con mayores ventas: {categoria_mayor_venta} - Total: {total_ventas_por_categoria[categoria_mayor_venta]}")
print(f"Categoría con menores ventas: {categoria_menor_venta} - Total: {total_ventas_por_categoria[categoria_menor_venta]}")


Categoría con mayores ventas: electronics - Total: 156905
Categoría con menores ventas: beauty - Total: 143515


### 4. Manipulación de Datos:
   * Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
   * Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

#### **Filtrar los datos para mostrar solo las ventas de una categoría de producto específica**

In [155]:
categoria_especifica = 'Electronics'  
ventas_categoria_especifica = datos[datos['Product_Category'] == categoria_especifica]

print(f"Ventas para la categoría '{categoria_especifica}':")
print(ventas_categoria_especifica)


Ventas para la categoría 'Electronics':
[]


#### **Realizar operaciones de suma, resta, multiplicación y división en los datos**

In [156]:
# Suma total de ventas
ventas_totales = np.sum(datos['Total_Amount'])
print(f"Total de ventas: {ventas_totales}")

Total de ventas: 456000


In [157]:
# Obtener las categorías únicas de productos
categorias_unicas = np.unique(datos['Product_Category'])

# Calcular las ventas totales por cada categoría
ventas_por_categoria = {categoria: np.sum(datos[datos['Product_Category'] == categoria]['Total_Amount']) for categoria in categorias_unicas}

# Mostrar resultados
for categoria, total_ventas in ventas_por_categoria.items():
    print(f"Ventas totales para la categoría '{categoria}': {total_ventas}")

Ventas totales para la categoría 'beauty': 143515
Ventas totales para la categoría 'clothing': 155580
Ventas totales para la categoría 'electronics': 156905


In [158]:
# Extraemos el mes y el año de las fechas
# Primero, convertimos las fechas en un tipo de dato que permita operaciones de fecha
fechas = np.array([np.datetime64(fecha) for fecha in datos['Date']])

# Extraemos el año y el mes como una tupla (año, mes)
meses_años = np.array([(fecha.astype('datetime64[M]').astype('datetime64[Y]').astype(int) + 1970, fecha.astype('datetime64[M]').astype(int) % 12 + 1) for fecha in fechas])

# Creamos una columna de mes-año 
mes_año_str = np.array([f"{year}-{month:02d}" for year, month in meses_años])

# Ahora obtenemos los meses únicos
meses_unicos = np.unique(mes_año_str)

# Calculamos las ventas totales por mes
ventas_por_mes = {mes: np.sum(datos[mes_año_str == mes]['Total_Amount']) for mes in meses_unicos}

# Comparación de ventas mes a mes
for i in range(1, len(meses_unicos)):
    cambio = ventas_por_mes[meses_unicos[i]] - ventas_por_mes[meses_unicos[i - 1]]
    print(f"Cambio en ventas de {meses_unicos[i - 1]} a {meses_unicos[i]}: {cambio}")

Cambio en ventas de 2023-01 a 2023-02: 8610
Cambio en ventas de 2023-02 a 2023-03: -15070
Cambio en ventas de 2023-03 a 2023-04: 4880
Cambio en ventas de 2023-04 a 2023-05: 19280
Cambio en ventas de 2023-05 a 2023-06: -16435
Cambio en ventas de 2023-06 a 2023-07: -1250
Cambio en ventas de 2023-07 a 2023-08: 1495
Cambio en ventas de 2023-08 a 2023-09: -13340
Cambio en ventas de 2023-09 a 2023-10: 22960
Cambio en ventas de 2023-10 a 2023-11: -11660
Cambio en ventas de 2023-11 a 2023-12: 9770
Cambio en ventas de 2023-12 a 2024-01: -43160


In [159]:
# Definir el porcentaje de crecimiento esperado (por ejemplo, un 10% de crecimiento)
crecimiento_esperado = 0.10  # 10%

# Calcular la proyección de ventas futuras
proyeccion_ventas_futuras = ventas_totales * (1 + crecimiento_esperado)

# Mostrar resultados
print(f"Ventas totales actuales: {ventas_totales}")
print(f"Proyección de ventas futuras (10% de crecimiento): {proyeccion_ventas_futuras}")

Ventas totales actuales: 456000
Proyección de ventas futuras (10% de crecimiento): 501600.00000000006


In [160]:
# Obtener categorías únicas
categorias = np.unique(datos['Product_Category'])

# Crear un diccionario para almacenar los resultados
resultados = {}
for categoria in categorias:
    # Filtrar datos por categoría
    datos_categoria = datos[datos['Product_Category'] == categoria]

    # Calcular precios promedio por unidad
    precio_promedio_categoria = np.mean(datos_categoria['Price_per_Unit'])
    
    # Calcular ratio de ventas respecto al precio promedio
    if precio_promedio_categoria > 0:
        ratio_ventas_precio = np.sum(datos_categoria['Total_Amount']) / precio_promedio_categoria
    else:
        ratio_ventas_precio = 0

    print(f"Categoría: {categoria}")
    print(f"  Ratio Ventas/Precio Promedio: {ratio_ventas_precio:.2f}")


Categoría: beauty
  Ratio Ventas/Precio Promedio: 779.74
Categoría: clothing
  Ratio Ventas/Precio Promedio: 892.66
Categoría: electronics
  Ratio Ventas/Precio Promedio: 862.59
