<a href="https://colab.research.google.com/github/hectorpilo/retail-sales-analysis/blob/development/Core_Analisis_Ventas_Retail.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Core Análisis y Predicción de Ventas en una Tienda de Retail**

**1) Configuración Inicial del Proyecto:**

1. Crea un repositorio en GitHub para tu proyecto.   ✔
https://github.com/hectorpilo/retail-sales-analysis
2. Configura dos ramas en tu repositorio: main y development. ✔
https://github.com/hectorpilo/retail-sales-analysis/tree/development
3. Agrega un archivo README.md con una descripción del proyecto, instrucciones  de instalación y uso.  ✔
https://github.com/hectorpilo/retail-sales-analysis/blob/main/README.md

**2) Carga y pre-procesamiento de los datos**

In [1]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')
# Importamos pandas con el nombre "pd" por buena practica.
import pandas as pd
# Importamos una bbdd en formato excel y lo guardamos en una variable.
path = "/content/drive/MyDrive/BBDD/retail_sales_dataset.csv"
df_1 = pd.read_csv(path)

Mounted at /content/drive


**3) Exploración de Datos:**
1. Calcula el total de ventas por categoría de producto.
2. Calcula el promedio de ventas diarias por categoría de producto.
3. Identifica las categorías de productos con mayores y menores ventas.


In [6]:
#Calculo de ventas por categoria de producto.
df_1.groupby(['Product Category'])['Total Amount'].sum()

Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


In [7]:
#Calcula el promedio de ventas diarias por categoria de producto.
df_1.groupby(['Product Category', 'Date'])['Total Amount'].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Product Category,Date,Unnamed: 2_level_1
Beauty,2023-01-01,1500.0
Beauty,2023-01-02,25.0
Beauty,2023-01-03,600.0
Beauty,2023-01-04,545.0
Beauty,2023-01-05,50.0
...,...,...
Electronics,2023-12-27,600.0
Electronics,2023-12-28,37.5
Electronics,2023-12-29,100.0
Electronics,2023-12-31,50.0


In [8]:
#Identifica las categorias de productos con mayores y menores ventas.
df_1.groupby(['Product Category'])['Total Amount'].max()
df_1.groupby(['Product Category'])['Total Amount'].min()

Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,25
Clothing,25
Electronics,25


In [3]:
#Revisando el nombre de las columnas para llamarlas a analizar.
df_1.columns

Index(['Transaction ID', 'Date', 'Customer ID', 'Gender', 'Age',
       'Product Category', 'Quantity', 'Price per Unit', 'Total Amount'],
      dtype='object')

In [4]:
df_grouped = df_1.groupby('Product Category')['Total Amount'].sum()
df_grouped

Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


In [5]:
ventas_diarias = df_1.groupby(['Date', 'Product Category'])['Total Amount'].mean()
ventas_diarias

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Date,Product Category,Unnamed: 2_level_1
2023-01-01,Beauty,1500.0
2023-01-01,Clothing,1050.0
2023-01-02,Beauty,25.0
2023-01-02,Clothing,825.0
2023-01-02,Electronics,90.0
...,...,...
2023-12-29,Beauty,1100.0
2023-12-29,Electronics,100.0
2023-12-31,Electronics,50.0
2024-01-01,Beauty,1500.0


**4) Manipulación de Datos:**
1. Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
2. Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [11]:
#para ver una sola categoria, debo usar el siguiente codigo.
df_clothing = df_1[df_1['Product Category'] == 'Clothing']
df_clothing

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200
10,11,2023-02-14,CUST011,Male,23,Clothing,2,50,100
...,...,...,...,...,...,...,...,...,...
986,987,2023-04-29,CUST987,Female,30,Clothing,3,300,900
987,988,2023-05-28,CUST988,Female,63,Clothing,3,25,75
990,991,2023-12-26,CUST991,Female,34,Clothing,2,50,100
994,995,2023-04-30,CUST995,Female,41,Clothing,1,30,30


In [None]:
#en caso que quiera probar con cualquier otra categoria, se puede utilizar lo siguiente.
categoria = input("¿Qué categoría quieres analizar?: ")
df_filtrado = df_1[df_1['Product Category'] == categoria] #aqui se puede utilizar el valor que yo desee analizar.
df_filtrado.head()