<a href="https://colab.research.google.com/github/Javorai/Coding-Dojo-Core/blob/main/Python_para_Ciencia_de_Datos_Proyecto_I_An%C3%A1lisis_y_predicci%C3%B3n_de_ventas_Part_1_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análisis y Predicción de Ventas en una Tienda de Retail (Core)**

**Introducción al Proyecto**

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

**Dataset**

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado «Retail Sales Dataset» (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en una tienda. Puedes descargar el dataset desde [Kaggle](https://www.kaggle.com/datasets/mohammadtalib786/retail-sales-dataset).

**Parte 1: Análisis Básico con NumPy**
En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

**Instrucciones:**

1.   **Configuración Inicial del Proyecto:**

*   Crea un repositorio en GitHub para tu proyecto.
*   Configura dos ramas en tu repositorio: main y development.
*   Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.

2.   **Carga y Preprocesamiento de Datos:**

*   Carga los datos del archivo CSV utilizando NumPy.
*   Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

3.   **Exploración de Datos:**

*   Calcula el total de ventas por categoría de producto.
*   Calcula el promedio de ventas diarias por categoría de producto.
*   Identifica las categorías de productos con mayores y menores ventas.

4.   **Manipulación de Datos:**

*   Filtra los datos para mostrar solo las ventas de una categoría de producto específica.
*   Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.







In [2]:
#Importación de datos y librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "/content/drive/MyDrive/Bootcamp Coding Dojo/DataScience/Tareas Core/Archivos CSV-Tareas/retail_sales_dataset.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [3]:
# Converción de la tabla a interactiva.
from google.colab import data_table
data_table.DataTable(df, include_index=False, num_rows_per_page=10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [4]:
# Identificación de duplicados
duplicados = df.duplicated().sum()
print(f"Número de duplicados: {duplicados}") #Teniendo en cuenta que cada usuario tiene un ID unico es complicado que existan duplicados.

Número de duplicados: 0


In [5]:
# Eliminación de duplicados
df = df.drop_duplicates()

In [6]:
# Verificación de tipos de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [28]:
# Filtramos las categorías específicas
ventas_beauty = df[df['Product Category'] == 'Beauty']['Total Amount']
ventas_clothing = df[df['Product Category'] == 'Clothing']['Total Amount']
ventas_electronics = df[df['Product Category'] == 'Electronics']['Total Amount']

# Calculamos el promedio de ventas diarias por categoría de producto
promedio_beauty = ventas_beauty.mean()
promedio_clothing = ventas_clothing.mean()
promedio_electronics = ventas_electronics.mean()

# Calculamos el total de ventas por categoría de producto
total_beauty = ventas_beauty.sum()
total_clothing = ventas_clothing.sum()
total_electronics = ventas_electronics.sum()

# Identificamos las categorías con mayor y menor venta
ventas_por_categoria = df.groupby('Product Category')['Total Amount'].sum()
categoria_mayor_ventas = ventas_por_categoria.idxmax()
categoria_menor_ventas = ventas_por_categoria.idxmin()

print(f"Total ventas de Categoría Beauty: {total_beauty}")
print(f"Total ventas de Categoría Clothing: {total_clothing}")
print(f"Total ventas de Categoría Electronics: {total_electronics}")
print(f"Promedio de ventas diarias Categoría Beauty: {promedio_beauty:.2f}")
print(f"Promedio de ventas diarias Categoría Clothing: {promedio_clothing:.2f}")
print(f"Promedio de ventas diarias Categoría Electronics: {promedio_electronics:.2f}")
print(f"Categoría con mayor venta: {categoria_mayor_ventas}")
print(f"Categoría con menor venta: {categoria_menor_ventas}")



Total ventas de Categoría Beauty: 143515
Total ventas de Categoría Clothing: 155580
Total ventas de Categoría Electronics: 156905
Promedio de ventas diarias Categoría Beauty: 467.48
Promedio de ventas diarias Categoría Clothing: 443.25
Promedio de ventas diarias Categoría Electronics: 458.79
Categoría con mayor venta: Electronics
Categoría con menor venta: Beauty


**DATOS ADICIONALES**

In [29]:
# Compras totales por Genero
compras_totales_genero = df.groupby('Gender')['Total Amount'].sum()
compras_totales_genero

Unnamed: 0_level_0,Total Amount
Gender,Unnamed: 1_level_1
Female,232840
Male,223160


In [27]:
# Compras totales por Categoria (Cantidad)
ventas_por_categoria_cantidad = df.groupby('Product Category')['Quantity'].sum()
ventas_por_categoria_cantidad

Unnamed: 0_level_0,Quantity
Product Category,Unnamed: 1_level_1
Beauty,771
Clothing,894
Electronics,849


In [30]:
#Ventas totales por día
ventas_por_dia = df.groupby('Date')['Total Amount'].sum()
ventas_por_dia

Unnamed: 0_level_0,Total Amount
Date,Unnamed: 1_level_1
2023-01-01,3600
2023-01-02,1765
2023-01-03,600
2023-01-04,1240
2023-01-05,1100
...,...
2023-12-27,700
2023-12-28,2075
2023-12-29,3400
2023-12-31,50


https://github.com/Javorai/Coding-Dojo-Core.git