Introducción al Proyecto

En este proyecto de curso, desarrollaremos un análisis integral de un conjunto de datos de ventas de una tienda de retail. El objetivo es que los estudiantes apliquen lo aprendido en las diferentes secciones del curso, desde la manipulación básica de datos con NumPy, pasando por el análisis y visualización de datos con Pandas, hasta el uso de técnicas de machine learning para realizar predicciones. Este proyecto será una excelente adición al portafolio de los estudiantes y les permitirá demostrar su competencia en varias áreas clave de la ciencia de datos.

Dataset

Para este proyecto, utilizaremos un dataset reciente de Kaggle titulado «Retail Sales Dataset» (2023-2024). Este dataset contiene información detallada sobre las ventas diarias de diferentes productos en varias tiendas. Puedes descargar el dataset desde Kaggle.

Parte 1: Análisis Básico con NumPy

En esta primera parte del proyecto, los estudiantes realizarán un análisis preliminar del dataset utilizando NumPy. El objetivo es familiarizarse con los datos y realizar operaciones básicas de manipulación y análisis.

Instrucciones:

Configuración Inicial del Proyecto:
Crea un repositorio en GitHub para tu proyecto.
Configura dos ramas en tu repositorio: main y development.
Agrega un archivo README.md con una descripción del proyecto, instrucciones de instalación y uso.
Carga y Preprocesamiento de Datos:
Carga los datos del archivo CSV utilizando NumPy.
Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.
Exploración de Datos:
Calcula el total de ventas por producto y por tienda.
Calcula el promedio de ventas diarias por producto y por tienda.
Identifica los productos y tiendas con mayores y menores ventas.
Manipulación de Datos:
Filtra los datos para mostrar solo las ventas de un producto específico.
Filtra los datos para mostrar solo las ventas de una tienda específica.
Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.
Guía Paso a Paso:

Configuración Inicial del Proyecto en GitHub
Crear un Repositorio en GitHub:
Ve a GitHub y crea un nuevo repositorio.
Nombra el repositorio, por ejemplo, retail-sales-analysis.
Clonar el Repositorio a tu Máquina Local:
Abre tu terminal y clona el repositorio:
git clone https://github.com/tu_usuario/retail-sales-analysis.git
cd retail-sales-analysis
Crear Ramas main y development:
Asegúrate de estar en la rama main:
git checkout main
Crea y cambia a la rama development:
git checkout -b development
Agregar un Archivo README.md:
Crea un archivo README.md con la siguiente estructura:
# Retail Sales Analysis

Este proyecto analiza y predice las ventas de una tienda de retail utilizando técnicas de ciencia de datos.

## Estructura del Proyecto

- `data/`: Contiene los archivos de datos.
- `notebooks/`: Contiene los notebooks de Jupyter para el análisis.
- `src/`: Contiene el código fuente del proyecto.
- `README.md`: Este archivo.

## Instrucciones de Instalación

1. Clona el repositorio: `git clone https://github.com/tu_usuario/retail-sales-analysis.git`
2. Instala las dependencias: `pip install -r requirements.txt`

## Uso

Ejecuta los notebooks de Jupyter en la carpeta `notebooks` para realizar el análisis de los datos.

Hacer un Commit y Push de los Cambios:
Agrega y comitea los cambios:

git add README.md
git commit -m "Add README.md"
HINT. Carga de datos con Numpy
import numpy as np

def cargar_datos(ruta_archivo):

    # Carga los datos del archivo CSV utilizando NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1)
    return datos

if __name__ == "__main__":

    ruta_archivo = '../data/retail_sales.csv'
    datos = cargar_datos(ruta_archivo)
    print(datos)



In [None]:
import numpy as np

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV utilizando NumPy
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1)
    return datos

if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales.csv'
    datos = cargar_datos(ruta_archivo)
    print(datos)

Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

Carga y Preprocesamiento de Datos:

Carga los datos del archivo CSV utilizando NumPy.

Realiza un preprocesamiento básico para asegurarte de que los datos estén limpios y listos para su análisis.

In [None]:
import numpy as np

def cargar_datos(ruta_archivo):
    """
    Carga los datos del archivo CSV utilizando NumPy.
    """
    # Cargamos el archivo CSV, reemplazando los valores faltantes con NaN
    datos = np.genfromtxt(ruta_archivo, delimiter=',', skip_header=1, filling_values=np.nan)
    return datos

def preprocesar_datos(datos):
    """
    Realiza un preprocesamiento básico de los datos.
    - Elimina filas que contienen NaN.
    - Reemplaza posibles valores negativos (si aplicable) por cero.
    """
    # Eliminar filas con valores NaN
    datos_limpios = datos[~np.isnan(datos).any(axis=1)]
    
    # Reemplazar valores negativos con 0, si es necesario
    datos_limpios = np.where(datos_limpios < 0, 0, datos_limpios)
    
    return datos_limpios

if __name__ == "__main__":
    # Ruta del archivo CSV
    ruta_archivo = '../data/retail_sales.csv'
    
    # Cargar los datos desde el archivo CSV
    datos = cargar_datos(ruta_archivo)
    
    # Preprocesar los datos para limpiarlos
    datos_limpios = preprocesar_datos(datos)
    
    # Imprimir los datos procesados
    print("Datos limpios y preprocesados:")
    print(datos_limpios)

Todos

In [7]:
import pandas as pd

# Función para cargar datos desde un archivo CSV
def cargar_datos(ruta_archivo):
    # Carga los datos desde el archivo CSV utilizando pandas
    df = pd.read_csv(ruta_archivo)
    return df

if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales.csv'
    
    # Cargar los datos desde el archivo CSV
    df = cargar_datos(ruta_archivo)
    
    # Conversión de fechas
    df['Date'] = pd.to_datetime(df['Date'])
    
    # 1. Total de ventas por producto
    ventas_por_producto = df.groupby('Product Category')['Total Amount'].sum()
    print("Total de ventas por producto:\n", ventas_por_producto)
    
    # 2. Promedio de ventas diarias por producto
    promedio_ventas_diarias = df.groupby('Product Category')['Total Amount'].mean()
    print("\nPromedio de ventas diarias por producto:\n", promedio_ventas_diarias)
    
    # 3. Producto con mayores y menores ventas
    producto_max_ventas = ventas_por_producto.idxmax()
    producto_min_ventas = ventas_por_producto.idxmin()

    print(f"\nProducto con mayores ventas: {producto_max_ventas}")
    print(f"Producto con menores ventas: {producto_min_ventas}")
    
    # 4. Filtrar ventas de un producto específico (ejemplo: 'Clothing')
    producto_filtrado = df[df['Product Category'] == 'Clothing']
    print("\nVentas de 'Clothing':\n", producto_filtrado)
    
    # 5. Filtrar ventas de una tienda específica (en este caso usamos el Product Category como proxy de tienda)
    tienda_filtrada = df[df['Product Category'] == 'Electronics']
    print("\nVentas de 'Electronics':\n", tienda_filtrada)
    
    # 6. Operaciones de suma, resta, multiplicación y división
    # Ejemplo: Calcular el doble de las ventas totales
    df['Doble de Ventas'] = df['Total Amount'] * 2
    print("\nDoble de las ventas:\n", df[['Product Category', 'Total Amount', 'Doble de Ventas']])
    
    # Ejemplo: Restar un descuento del 10% en todas las ventas
    df['Ventas con Descuento'] = df['Total Amount'] * 0.9
    print("\nVentas con 10% de descuento:\n", df[['Product Category', 'Total Amount', 'Ventas con Descuento']])


Total de ventas por producto:
 Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64

Promedio de ventas diarias por producto:
 Product Category
Beauty         467.475570
Clothing       443.247863
Electronics    458.786550
Name: Total Amount, dtype: float64

Producto con mayores ventas: Electronics
Producto con menores ventas: Beauty

Ventas de 'Clothing':
      Transaction ID       Date Customer ID  Gender  Age Product Category  \
1                 2 2023-02-27     CUST002  Female   26         Clothing   
3                 4 2023-05-21     CUST004    Male   37         Clothing   
6                 7 2023-03-13     CUST007    Male   46         Clothing   
9                10 2023-10-07     CUST010  Female   52         Clothing   
10               11 2023-02-14     CUST011    Male   23         Clothing   
..              ...        ...         ...     ...  ...              ...   
986             987 2023-04-29     CUST987  Fe

Exploración de Datos:

Calcula el total de ventas por producto y por tienda.

Calcula el promedio de ventas diarias por producto y por tienda.

Identifica los productos y tiendas con mayores y menores ventas.

In [8]:
import pandas as pd

# Función para cargar los datos desde un archivo CSV
def cargar_datos(ruta_archivo):
    df = pd.read_csv(ruta_archivo)
    df['Date'] = pd.to_datetime(df['Date'])  # Convertimos la columna de fechas
    return df

if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales.csv'
    
    # Cargar los datos
    df = cargar_datos(ruta_archivo)
    
    # 1. Total de ventas por producto
    total_ventas_producto = df.groupby('Product Category')['Total Amount'].sum()
    print("Total de ventas por producto:\n", total_ventas_producto)
    
    # 2. Promedio de ventas diarias por producto
    promedio_ventas_producto = df.groupby('Product Category')['Total Amount'].mean()
    print("\nPromedio de ventas diarias por producto:\n", promedio_ventas_producto)
    
    # 3. Producto con mayores y menores ventas
    producto_max_ventas = total_ventas_producto.idxmax()
    producto_min_ventas = total_ventas_producto.idxmin()
    print(f"\nProducto con mayores ventas: {producto_max_ventas}")
    print(f"Producto con menores ventas: {producto_min_ventas}")

    # 4. Total de ventas por tienda (en este caso no hay columna "Tienda", pero suponiendo que cada "Product Category" representa una tienda)
    total_ventas_tienda = df.groupby('Product Category')['Total Amount'].sum()
    print("\nTotal de ventas por tienda:\n", total_ventas_tienda)
    
    # 5. Promedio de ventas diarias por tienda
    promedio_ventas_tienda = df.groupby('Product Category')['Total Amount'].mean()
    print("\nPromedio de ventas diarias por tienda:\n", promedio_ventas_tienda)
    
    # 6. Tienda con mayores y menores ventas (asumiendo que las categorías de productos son tiendas)
    tienda_max_ventas = total_ventas_tienda.idxmax()
    tienda_min_ventas = total_ventas_tienda.idxmin()
    print(f"\nTienda con mayores ventas: {tienda_max_ventas}")
    print(f"Tienda con menores ventas: {tienda_min_ventas}")


Total de ventas por producto:
 Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64

Promedio de ventas diarias por producto:
 Product Category
Beauty         467.475570
Clothing       443.247863
Electronics    458.786550
Name: Total Amount, dtype: float64

Producto con mayores ventas: Electronics
Producto con menores ventas: Beauty

Total de ventas por tienda:
 Product Category
Beauty         143515
Clothing       155580
Electronics    156905
Name: Total Amount, dtype: int64

Promedio de ventas diarias por tienda:
 Product Category
Beauty         467.475570
Clothing       443.247863
Electronics    458.786550
Name: Total Amount, dtype: float64

Tienda con mayores ventas: Electronics
Tienda con menores ventas: Beauty


Manipulación de Datos:

Filtra los datos para mostrar solo las ventas de un producto específico.

Filtra los datos para mostrar solo las ventas de una tienda específica.

Realiza operaciones de suma, resta, multiplicación y división en los datos para obtener estadísticas adicionales.

In [9]:
import pandas as pd

# Función para cargar los datos desde un archivo CSV
def cargar_datos(ruta_archivo):
    df = pd.read_csv(ruta_archivo)
    df['Date'] = pd.to_datetime(df['Date'])  # Convertimos la columna de fechas
    return df

if __name__ == "__main__":
    ruta_archivo = '../data/retail_sales.csv'
    
    # Cargar los datos
    df = cargar_datos(ruta_archivo)
    
    # 1. Filtrar los datos para mostrar solo las ventas de un producto específico (ejemplo: 'Clothing')
    producto_especifico = 'Clothing'
    ventas_producto = df[df['Product Category'] == producto_especifico]
    print(f"Ventas de {producto_especifico}:\n", ventas_producto)

    # 2. Filtrar los datos para mostrar solo las ventas de una tienda específica (asumiendo que las categorías son tiendas)
    tienda_especifica = 'Electronics'  # Supongamos que 'Electronics' es una tienda
    ventas_tienda = df[df['Product Category'] == tienda_especifica]
    print(f"\nVentas en la tienda {tienda_especifica}:\n", ventas_tienda)

    # 3. Realizar operaciones de suma, resta, multiplicación y división
    # Suma: Total de ventas por cada transacción
    df['Total Suma'] = df['Quantity'] * df['Price per Unit']
    print("\nVentas totales calculadas por transacción (operación de multiplicación):\n", df[['Transaction ID', 'Total Suma']])

    # Resta: Ejemplo de restar un valor de descuento al total
    df['Descuento'] = df['Total Suma'] - 10  # Restamos un descuento de 10
    print("\nTotal de ventas después de aplicar un descuento de 10:\n", df[['Transaction ID', 'Descuento']])

    # Multiplicación: Ejemplo de aplicar un aumento del 10% en el precio por unidad
    df['Aumento Precio'] = df['Price per Unit'] * 1.10
    print("\nPrecios por unidad después de un aumento del 10%:\n", df[['Transaction ID', 'Aumento Precio']])

    # División: Ejemplo de dividir la cantidad total entre el número de productos vendidos
    df['Precio Promedio'] = df['Total Suma'] / df['Quantity']
    print("\nPrecio promedio por unidad en cada transacción:\n", df[['Transaction ID', 'Precio Promedio']])


Ventas de Clothing:
      Transaction ID       Date Customer ID  Gender  Age Product Category  \
1                 2 2023-02-27     CUST002  Female   26         Clothing   
3                 4 2023-05-21     CUST004    Male   37         Clothing   
6                 7 2023-03-13     CUST007    Male   46         Clothing   
9                10 2023-10-07     CUST010  Female   52         Clothing   
10               11 2023-02-14     CUST011    Male   23         Clothing   
..              ...        ...         ...     ...  ...              ...   
986             987 2023-04-29     CUST987  Female   30         Clothing   
987             988 2023-05-28     CUST988  Female   63         Clothing   
990             991 2023-12-26     CUST991  Female   34         Clothing   
994             995 2023-04-30     CUST995  Female   41         Clothing   
995             996 2023-05-16     CUST996    Male   62         Clothing   

     Quantity  Price per Unit  Total Amount  
1           2       