### Análisis y Predicción de Ventas en una Tienda de Retail (Core)


Introducción al Proyecto

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

In [2]:
import numpy as np
import pandas as pd
import sys
import os
sys.path.append(os.path.abspath('../src'))
import utils


Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

In [9]:
df = pd.read_csv(filepath_or_buffer=ruta_archivo, sep=',', header=0)
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


In [16]:
# 1. Verificar valores faltantes
valores_nulos = df.isnull().sum()
valores_na = df.isna().sum()
# 2. Verificar datos duplicados
duplicados = df.duplicated().sum()

# 3. Verificar los tipos de datos
data_types = df.dtypes

# 4. Revisar si hay valores no lógicos (por ejemplo, edades negativas)
edades_invalidas = df[df['Age'] < 0]

valores_nulos, valores_na, duplicados, data_types, edades_invalidas

(Transaction ID      0
 Date                0
 Customer ID         0
 Gender              0
 Age                 0
 Product Category    0
 Quantity            0
 Price per Unit      0
 Total Amount        0
 dtype: int64,
 Transaction ID      0
 Date                0
 Customer ID         0
 Gender              0
 Age                 0
 Product Category    0
 Quantity            0
 Price per Unit      0
 Total Amount        0
 dtype: int64,
 0,
 Transaction ID       int64
 Date                object
 Customer ID         object
 Gender              object
 Age                  int64
 Product Category    object
 Quantity             int64
 Price per Unit       int64
 Total Amount         int64
 dtype: object,
 Empty DataFrame
 Columns: [Transaction ID, Date, Customer ID, Gender, Age, Product Category, Quantity, Price per Unit, Total Amount]
 Index: [])

No hay valores nulos. No hay duplicados. Los tipos de datos son correctos. Tampoco hay edades invalidas

Ejecutar análsis

In [15]:
# Revisar categorias
categorias_unicas = np.unique(df['Product Category'])
categorias_unicas


array(['Beauty', 'Clothing', 'Electronics'], dtype=object)

In [12]:
# Calcular el total de ventas por categoría de producto

ventas_totales = np.array([df[df['Product Category'] == categoria]['Total Amount'].sum() for categoria in categorias_unicas])

# 2. Calcular el promedio de ventas por categoría de producto
promedio_ventas = np.array([df[df['Product Category'] == categoria]['Total Amount'].mean() for categoria in categorias_unicas])

# 3. Identificar la categoría con mayores y menores ventas
categoria_mayor_ventas = categorias_unicas[ventas_totales.argmax()]
categoria_menor_ventas = categorias_unicas[ventas_totales.argmin()]

# Mostrar los resultados
# Generar un reporte en formato de string con los resultados

reporte = f"""
Reporte de Ventas por Categoría de Producto

---------------------------------------------
1. Total de Ventas por Categoría de Producto:
- Belleza: {ventas_totales[0]}
- Ropa: {ventas_totales[1]}
- Electrónica: {ventas_totales[2]}

---------------------------------------------
2. Promedio de Ventas Diarias por Categoría de Producto:
- Belleza: {promedio_ventas[0]:.2f}
- Ropa: {promedio_ventas[1]:.2f}
- Electrónica: {promedio_ventas[2]:.2f}

---------------------------------------------
3. Categoría con Mayores Ventas:
- {categoria_mayor_ventas}

4. Categoría con Menores Ventas:
- {categoria_menor_ventas}
"""

# Mostrar el reporte en la consola
print(reporte)




Reporte de Ventas por Categoría de Producto

---------------------------------------------
1. Total de Ventas por Categoría de Producto:
- Belleza: 143515
- Ropa: 155580
- Electrónica: 156905

---------------------------------------------
2. Promedio de Ventas Diarias por Categoría de Producto:
- Belleza: 467.48
- Ropa: 443.25
- Electrónica: 458.79

---------------------------------------------
3. Categoría con Mayores Ventas:
- Electronics

4. Categoría con Menores Ventas:
- Beauty



Manipulación de Datos:
Filtra los datos para mostrar solo las ventas de una categoría de producto específica.

In [13]:
# Filtrar las ventas de la categoría 'Electronics'
ventas_electronica = df[df['Product Category'] == 'Electronics']
print(ventas_electronica.head())

    Transaction ID        Date Customer ID  Gender  Age Product Category  \
2                3  2023-01-13     CUST003    Male   50      Electronics   
7                8  2023-02-22     CUST008    Male   30      Electronics   
8                9  2023-12-13     CUST009    Male   63      Electronics   
12              13  2023-08-05     CUST013    Male   22      Electronics   
14              15  2023-01-16     CUST015  Female   42      Electronics   

    Quantity  Price per Unit  Total Amount  
2          1              30            30  
7          4              25           100  
8          2             300           600  
12         3             500          1500  
14         4             500          2000  


Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [14]:
# 1. Suma: Total de ventas de productos de Electrónica
total_ventas_electronica = ventas_electronica['Total Amount'].sum()

# 2. Resta: Restar un valor de cada monto de venta
resta_ventas_electronica = ventas_electronica['Total Amount'] - 10

# 3. Multiplicación: Multiplicar la cantidad de productos vendidos por el precio por unidad
multiplicacion_ventas_electronica = ventas_electronica['Quantity'] * ventas_electronica['Price per Unit']

# 4. División: Dividir el monto total entre la cantidad vendida para obtener el precio promedio por producto
division_ventas_electronica = ventas_electronica['Total Amount'] / ventas_electronica['Quantity']

# Mostrar resultados de las operaciones
print(f"Total de ventas de Electrónica: {total_ventas_electronica}")
print(f"Ventas de Electrónica menos 10: \n{resta_ventas_electronica.head()}")
print(f"Multiplicación (Cantidad * Precio por Unidad): \n{multiplicacion_ventas_electronica.head()}")
print(f"División (Total / Cantidad para obtener el precio promedio): \n{division_ventas_electronica.head()}")


Total de ventas de Electrónica: 156905
Ventas de Electrónica menos 10: 
2       20
7       90
8      590
12    1490
14    1990
Name: Total Amount, dtype: int64
Multiplicación (Cantidad * Precio por Unidad): 
2       30
7      100
8      600
12    1500
14    2000
dtype: int64
División (Total / Cantidad para obtener el precio promedio): 
2      30.0
7      25.0
8     300.0
12    500.0
14    500.0
dtype: float64
