# Análisis y Predicción de Ventas en una Tienda de Retail (Core)

## Introducción al Proyecto

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

## Dataset

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado “Retail Sales Dataset” (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en una tienda. Puedes descargar el dataset desde Kaggle.

## Parte 1: Análisis Básico con NumPy

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

## Instrucciones

### Configuración Inicial del Proyecto:
- Crea un repositorio en GitHub para tu proyecto.
- Configura dos ramas en tu repositorio: main y development.
- Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.
### Carga y Preprocesamiento de Datos:
- Carga los datos del archivo CSV utilizando NumPy.
- Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.
### Exploración de Datos:
- Calcula el total de ventas por categoría de producto.
- Calcula el promedio de ventas diarias por categoría de producto.
- Identifica las categorías de productos con mayores y menores ventas.
### Manipulación de Datos:
- Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
- Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [63]:
%pip install pandas





[notice] A new release of pip available: 22.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import pandas as pd

# 2. Carga y Preprocesamiento de Datos

In [58]:
#carga de datos
df = pd.read_csv('../data/retail_sales_dataset.csv')

In [None]:
#EDA
#1. Damos un vistazo general usando .info() y .describe().
#2. Nos aseguramos de no tener datos duplicados.
#3. Revisamos y limpiamos los tipos de datos.
#4. Revisamos y limpiamos los datos de las columnas o filas que lo necesiten.
#5. Manejamos los datos nulos.

#1 conocer la data
df.info() #no se observa que falten datos ya que todas las columnas tiene 1000 filas
df.describe().round().T
df.shape #ver filas y columnas

#se ve que lacolumna date es de tipo oject, si queremos utilizarla para hacer calculos, sera necesario cambiar su tipo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   transaction_id    1000 non-null   int64 
 1   date              1000 non-null   object
 2   customer_id       1000 non-null   object
 3   gender            1000 non-null   object
 4   age               1000 non-null   int64 
 5   product_category  1000 non-null   object
 6   quantity          1000 non-null   int64 
 7   price_per_unit    1000 non-null   int64 
 8   total_amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


(1000, 9)

In [68]:
df.head() 

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


In [60]:
#2. Revisar si hay datosduplicados
df.duplicated()
df.duplicated().sum() #no se observan datos duplicados

np.int64(0)

In [61]:
#3. limpiar tipos de datos
 
df.columns
#cambiar todo a minuscula y los espacios reemplazarlos por _
df.columns = df.columns.str.lower().str.replace(" ", "_")
df.columns

Index(['transaction_id', 'date', 'customer_id', 'gender', 'age',
       'product_category', 'quantity', 'price_per_unit', 'total_amount'],
      dtype='object')

In [98]:
#cambiar el tipo de dato de la columna date a datetime
df["date"] = pd.to_datetime(df["date"])
#comprobar el cambio
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   transaction_id    1000 non-null   int64         
 1   date              1000 non-null   datetime64[ns]
 2   customer_id       1000 non-null   object        
 3   gender            1000 non-null   object        
 4   age               1000 non-null   int64         
 5   product_category  1000 non-null   object        
 6   quantity          1000 non-null   int64         
 7   price_per_unit    1000 non-null   int64         
 8   total_amount      1000 non-null   int64         
dtypes: datetime64[ns](1), int64(5), object(3)
memory usage: 70.4+ KB


In [65]:
#reviso columna por columna
df["gender"].value_counts()
df["product_category"].value_counts()
df["date"].value_counts()


date
2023-05-16    11
2023-07-14    10
2023-05-23     9
2023-02-05     8
2023-08-05     8
              ..
2023-03-02     1
2023-08-02     1
2023-04-17     1
2023-03-30     1
2023-05-28     1
Name: count, Length: 345, dtype: int64

# 3.Exploración de Datos

### Calcula el total de ventas por categoría de producto.

In [74]:
df.groupby("product_category")["total_amount"].sum()

product_category
Beauty         143515
Clothing       155580
Electronics    156905
Name: total_amount, dtype: int64

### Calcula el promedio de ventas diarias por categoría de producto.


In [69]:
df.groupby("product_category")["total_amount"].mean().round(2)

product_category
Beauty         467.48
Clothing       443.25
Electronics    458.79
Name: total_amount, dtype: float64

### Identifica las categorías de productos con mayores y menores ventas.

In [None]:
#categoria con mayor venta: Electronics
df.groupby("product_category")["total_amount"].sum().sort_values(ascending=False).head(1)
#categoria con menor venta: Beauty
df.groupby("product_category")["total_amount"].sum().sort_values(ascending=False).tail(1)

product_category
Beauty    143515
Name: total_amount, dtype: int64

## 4. Manipulación de Datos:
### Filtra los datos para mostrar solo las ventas de una categoría de producto específica.

In [90]:
df[df["product_category"]=="Beauty"]

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
11,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75
20,21,2023-01-14,CUST021,Female,50,Beauty,1,500,500
...,...,...,...,...,...,...,...,...,...
981,982,2023-12-19,CUST982,Female,46,Beauty,3,30,90
989,990,2023-05-25,CUST990,Female,58,Beauty,2,500,1000
993,994,2023-12-18,CUST994,Female,51,Beauty,2,500,1000
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90


### Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [None]:
#Total de ventas por categoria y genero
df.groupby(["product_category","gender"])["total_amount"].sum().round(2).unstack()

gender,Female,Male
product_category,Unnamed: 1_level_1,Unnamed: 2_level_1
Beauty,74830,68685
Clothing,81275,74305
Electronics,76735,80170


In [None]:
#ventas por mes


df.groupby(df["date"].dt.to_period("M"))["total_amount"].sum().round(2) 

date
2023-01    35450
2023-02    44060
2023-03    28990
2023-04    33870
2023-05    53150
2023-06    36715
2023-07    35465
2023-08    36960
2023-09    23620
2023-10    46580
2023-11    34920
2023-12    44690
2024-01     1530
Freq: M, Name: total_amount, dtype: int64

In [102]:
#promedio de edad por categoria
df.groupby("product_category")["age"].mean().round()

product_category
Beauty         40.0
Clothing       42.0
Electronics    42.0
Name: age, dtype: float64