# Analisis y Prediccion de ventas en una tienda de Retail (CORE)

**Introduccion al Proyecto**

En este proyecto de curso, desarrollaremos un analisis integral de un conjunto de datos de ventas en una tienda de retail. El objetivo es que los estudiantes apliquen todo lo aprendido en las diferentes secciones del curso, desde la manipulacion basica de datos con NumPy, pasando por el analisis y visualizacion de datos con Pandas, hasta el uso de tecnicas de machine learning para realizar predicciones. Este proyecto sera una excelente adicion al portafolio de los estudiantes y les permitira demostrar su competencia en varias areas claves de la ciencia de datos.

**Dataset**

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado <<Retail Sales Dataset>> (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en una tienda. Puedes descargar este dataset desde https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset

**Parte 1: Análisis Básico con NumPy**

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

**Instrucciones:**

1. **Configuración Inicial del Proytecto:**
- Crea un repositorio en GitHub para tu proyecto.
- Configura dos ramas en tu repositorio: main y development.
- Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.

2. **Carga y Preprocesamiento de Datos:**
- Carga los datos del archivo CSV utilizando NumPy.
- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

3. **Exploración de Datos:**
- Calcula el total de ventas por categoría de producto.
- Calcula el promedio de ventas diarias por categoría de producto.
- Identifica las categorías de productos con mayores y menores ventas.

4. **Manipulación de Datos:**
- Filtra los datos para mostrar solo las ventas de una categoría de prodcuto específica.
- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [5]:
import numpy as np
import pandas as pd

def cargar_datos(path):
    # Carga los datos del archivo CSV utilizando NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1)
    return datos

ruta_archivo = "C:/Users/emanu/OneDrive/Escritorio/data science/CodingDojo/BDTML/Proyecto_Retail-Sales-Analysis/retail_sales_dataset.csv"

datos = cargar_datos(ruta_archivo)

print(datos)

[[   1.   nan   nan ...    3.   50.  150.]
 [   2.   nan   nan ...    2.  500. 1000.]
 [   3.   nan   nan ...    1.   30.   30.]
 ...
 [ 998.   nan   nan ...    4.   25.  100.]
 [ 999.   nan   nan ...    3.   50.  150.]
 [1000.   nan   nan ...    4.   30.  120.]]


## **Preprocesamiento de Datos**

- Preprocesamiento básico para asegurarme de que los registros estén limpios.

In [6]:
# Primero procederé a verificar el contenido del dataset imprimiendo algunas filas
print(datos[:5])

[[   1.   nan   nan   nan   34.   nan    3.   50.  150.]
 [   2.   nan   nan   nan   26.   nan    2.  500. 1000.]
 [   3.   nan   nan   nan   50.   nan    1.   30.   30.]
 [   4.   nan   nan   nan   37.   nan    1.  500.  500.]
 [   5.   nan   nan   nan   30.   nan    2.   50.  100.]]


El primer problema que se observa es que existen varios registros con valores faltantes `nan`, por lo que lo primero que pienso hacer es saber de la magnitud de datos faltantes.

In [7]:
faltantes = np.isnan(datos).sum(axis=0)
print(f"Valores faltantes por columna: {faltantes}")

Valores faltantes por columna: [   0 1000 1000 1000    0 1000    0    0    0]


Aquí se puede ver que se reportan la cantidad valores nulos pero esto puede tener otra vía de explicación. Es decir, podría darse el caso en que NumPy está tratando de tratarlos como números. Para sacarme las dudas lo convertiré al tipo str y usarlo con Pandas.

In [8]:
import pandas as pd

datos = pd.read_csv("C:/Users/emanu/OneDrive/Escritorio/data science/CodingDojo/BDTML/Proyecto_Retail-Sales-Analysis/retail_sales_dataset.csv")
print(datos)
x

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
1                 2  2023-02-27     CUST002  Female   26         Clothing   
2                 3  2023-01-13     CUST003    Male   50      Electronics   
3                 4  2023-05-21     CUST004    Male   37         Clothing   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
..              ...         ...         ...     ...  ...              ...   
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
0           3              50

Con esto se puede ver que funciona al manejarlo con pandas.

Ya se puede seguir con los siguientes pasos de tratamiento.

Filtro el total de ventas para la categoria `"Product Category"`

In [9]:
electronic_sales = datos[datos['Product Category'] == 'Electronics']
print(electronic_sales)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
2                 3  2023-01-13     CUST003    Male   50      Electronics   
7                 8  2023-02-22     CUST008    Male   30      Electronics   
8                 9  2023-12-13     CUST009    Male   63      Electronics   
12               13  2023-08-05     CUST013    Male   22      Electronics   
14               15  2023-01-16     CUST015  Female   42      Electronics   
..              ...         ...         ...     ...  ...              ...   
988             989  2023-12-28     CUST989  Female   44      Electronics   
991             992  2023-08-21     CUST992  Female   57      Electronics   
992             993  2023-02-06     CUST993  Female   48      Electronics   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
2           1              30

#### Ahora continuando con lo que vendría a ser la exploración de datos, empezaré con asegurarme de que los datos estes categorizados correctamente antes de proceder a realizar otros cálculos. Se puede ver que se tiene 342 filas de datos.

In [10]:
electronic_sales = datos[datos["Product Category"] == "Electronics"]
print(electronic_sales)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
2                 3  2023-01-13     CUST003    Male   50      Electronics   
7                 8  2023-02-22     CUST008    Male   30      Electronics   
8                 9  2023-12-13     CUST009    Male   63      Electronics   
12               13  2023-08-05     CUST013    Male   22      Electronics   
14               15  2023-01-16     CUST015  Female   42      Electronics   
..              ...         ...         ...     ...  ...              ...   
988             989  2023-12-28     CUST989  Female   44      Electronics   
991             992  2023-08-21     CUST992  Female   57      Electronics   
992             993  2023-02-06     CUST993  Female   48      Electronics   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
2           1              30

## Siguiendo el punto `3.`

3. **Exploración de Datos:**
- Calcula el total de ventas por categoría de producto.
- Calcula el promedio de ventas diarias por categoría de producto.
- Identifica las categorías de productos con mayores y menores ventas.

Voy a trabajar con la primera categoria de productos que sera `Electronics`

In [11]:
# Voy a calcular el total de ventas de `Electronics`
print(electronic_sales[["Product Category", "Quantity"]])   # Con este comando se puede visualizar solamente las columnas "Categoria de Producto" y "Cantidad"

# Ahora que filtramos es más sencillo calcular la cantidad de ventas de esta categoría
ventas_tot_electronics = electronic_sales["Quantity"].sum()
print(f"\n*******************************\nSe vendieron {ventas_tot_electronics}")

    Product Category  Quantity
2        Electronics         1
7        Electronics         4
8        Electronics         2
12       Electronics         3
14       Electronics         4
..               ...       ...
988      Electronics         1
991      Electronics         2
992      Electronics         3
998      Electronics         3
999      Electronics         4

[342 rows x 2 columns]

*******************************
Se vendieron 849


#### Continuando con el análisis de `electronic_sales`, ahora calcularé el promedio de ventas diarias.

Para realizar el cálculo de ventas por día, hay que entender que tenemos una columna que especifica la fecha de la transacción. Dicho esto, propondré filtrar por grupos de fechas, así saber de cuantos días de ventas estamos hablando.

In [12]:
'''# Primero haré un filtro de la categoría nuevamente.
electronic_sales = datos[datos["Product Category"] == "Electronics"]

# Para evitar problemas con el tipo de dato con el que cuento en la columna "Date", cambiaré primeramente su formato.
electronic_sales['Date'] = pd.to_datetime(electronic_sales['Date'])     # OJO: el comando pd.to_datetime convierte los datos a un formato de fecha y hora (datetime).

# Ahora ya estamos listos para obtener las fechas únicas en la categoría "Electronics"
fechas_unicas_electronics = electronic_sales['Date'].unique()   # Con el comando .unique() estoy seleccionando datos de fechas únicas.
cant_fechas_unicas_electronics = len(fechas_unicas_electronics)

print(f"\nCantidad de días de ventas de electronics: {cant_fechas_unicas_electronics}")
'''

# Aquí ya puedo agrupar fecha y monto vendido por día
ventas_por_dia_electronics = electronic_sales.groupby('Date')['Total Amount'].sum()
promedio_diario = ventas_por_dia_electronics.mean()
print(f"\nEl promedio de ingresos diarios para la categoria 'Electronics' es: {promedio_diario:.2f}")

# Y aquí haré un promedio de cantidad de ventas, no incluyendo a lo que refiere en ingresos (una copia del código de arriba)
cant_ventas_por_dia_electronics = electronic_sales.groupby('Date')['Quantity'].sum()
promedio_diario = cant_ventas_por_dia_electronics.mean()
print(f"\nEl promedio de cantidad de ventas diarias para la categoria 'Electronics' es: {promedio_diario:.2f}")


El promedio de ingresos diarios para la categoria 'Electronics' es: 716.46

El promedio de cantidad de ventas diarias para la categoria 'Electronics' es: 3.88


#### Continuando con las instrucciones, ahora procedería a identificar los productos más vendidos y los menos vendidos pero esto no es posible porque no existe una categoría de productos propiamente, si podría evaluar el precio por unidad más elevado y el más bajo (que es lo que haré).

Para el primer caso me centraré en la misma categoría `electronics`

In [13]:
# Primero lo primero, voy a identicar los precio por unidad mas altos y bajos.
precio_max_electronics = electronic_sales['Price per Unit'].max()
precio_min_electronics = electronic_sales['Price per Unit'].min()

print(f"Precio por unidad más alto en 'Electronics': {precio_max_electronics}")
print(f"Precio por unidad más bajo en 'Electronics': {precio_min_electronics}")

Precio por unidad más alto en 'Electronics': 500
Precio por unidad más bajo en 'Electronics': 25


#### Para culminar con estadísticas adicionales procederé a presentar algunos análisis que creí conveniente.
- Diferencia entre el precio más alto y más bajo en `Electronics`
- Monto total de ingresos en  `Electronics`

In [18]:
# Voy a calcular la diferencia ya que tengo filtrado el precio por unidad más alto y más bajo
diferencia_precios_electronics = precio_max_electronics - precio_min_electronics
print(f'\nLa diferencia entre el precio max y min en Electronics es de: {diferencia_precios_electronics:.2f}')

# Ahora para saber el ingreso total generado en Electronics
ingreso_total = electronic_sales['Total Amount'].sum()
print(f"El monto del ingreso generado en Electronics es de : {ingreso_total:.2f}")


La diferencia entre el precio max y min en Electronics es de: 475.00
El monto del ingreso generado en Electronics es de : 156905.00


### Hecho esto, toca replicar en las siguientes categorias para analizarlas por igual y asi notar las diferencias.

In [20]:
# Primeramente voy a filtrar por la categoría "Beauty"
beauty_sales = datos[datos['Product Category'] == 'Beauty']
print(beauty_sales)

     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
4                 5  2023-05-06     CUST005    Male   30           Beauty   
5                 6  2023-04-25     CUST006  Female   45           Beauty   
11               12  2023-10-30     CUST012    Male   35           Beauty   
20               21  2023-01-14     CUST021  Female   50           Beauty   
..              ...         ...         ...     ...  ...              ...   
981             982  2023-12-19     CUST982  Female   46           Beauty   
989             990  2023-05-25     CUST990  Female   58           Beauty   
993             994  2023-12-18     CUST994  Female   51           Beauty   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   

     Quantity  Price per Unit  Total Amount  
0           3              50

## Siguiendo el punto `3.`

3. **Exploración de Datos:**
- Calcula el total de ventas por categoría de producto.
- Calcula el promedio de ventas diarias por categoría de producto.
- Identifica las categorías de productos con mayores y menores ventas.

Voy a trabajar con la primera categoria de productos que sera `Beauty`

In [29]:
# Ahora voy a calcular el total de ventas de `Beauty`, tanto en el ingreso como en la cantidad de ventas.
cant_ventas_beauty = beauty_sales["Quantity"].sum()
print(f"\nLa cantidad total de ventas de 'Beauty' es de: {cant_ventas_beauty}")
ingresos_total_beauty = beauty_sales["Total Amount"].sum()
print(f"El ingreso totale en 'Beauty' es de: {ingresos_total_beauty:.2f}")

# Ahora el promedio de ventas diarias por categoria (Beauty en este caso)
ventas_diarias_beauty = beauty_sales.groupby('Date')['Total Amount'].sum()
promedio_diario_beauty = ventas_diarias_beauty.mean()
print(f"El promedio de ventas diarias de 'Beauty' es de : {promedio_diario_beauty:.2f}")

# Ahora identificare los precios unitarios mas altos y mas bajos dentro de esta categoria.
precio_max_beauty = beauty_sales['Price per Unit'].max()
print(f"\nEl precio unitario mas alto en 'Beauty' es: {precio_max_beauty}")
precio_min_beauty = beauty_sales['Price per Unit'].min()
print(f"El precio mas bajo en 'Beauty' es de: {precio_min_beauty}")


La cantidad total de ventas de 'Beauty' es de: 771
El ingreso totale en 'Beauty' es de: 143515.00
El promedio de ventas diarias de 'Beauty' es de : 703.50

El precio unitario mas alto en 'Beauty' es: 500
El precio mas bajo en 'Beauty' es de: 25


**Como se puede observar, es mucho mas sencillo una vez desarrollado el primer analisis y replicarlo en las siguientes categorias.**