# Caso práctico -  Análisis de las transacciones de un negocio ecommerce
### 📈 <b>Contexto del negocio y la situación:</b>

Imagina que eres un analista de datos trabjando para una empresa ecommerce minorista que vende una variedad de productos online, que van desde equipos electrónicos y ropa hasta artículos para el hogar y accesorios. Tu tarea es analizar las transacciones de los clientes desde 2023 para identificar tendencias, comprender el comportamiento del cliente y optimizar la gestión de inventario.

### 📍 <b>Objetivos:</b>

- Comprender el comportamiento del cliente: Analizar la frecuencia de las compras, el valor promedio de las compras y los productos más populares.
- Optimizar el inventario: Identificar productos con altas tasas de devolución para ajustar los niveles de inventario.
- Mejorar las ventas y el marketing: Identificar segmentos de clientes que puedan ser objetivos de campañas de marketing para aumentar las ventas.
- Opcional: utilizar algún modelo de ML para hacer segmentación de clientes, predicción de ventas, de Customer Churn u otras propuestas.

### 💾 Descripción de los datos
- TransactionID: Identificador único para cada transacción.
- CustomerID: Identificador único para cada cliente.
- TransactionDate: Fecha y hora de la transacción.
- ProductID: Identificador único para cada producto.
- ProductCategory: Categoría del producto (por ejemplo, Electrónica, Ropa, Artículos para el hogar).
- Quantity: Número de unidades compradas.
- Price: Precio por unidad del producto.
- PaymentMethod: Método de pago (por ejemplo, Tarjeta de crédito, PayPal, Transferencia bancaria).
- ReturnStatus: Indica si el artículo fue devuelto (Sí o No).
- CustomerFeedback: Rating del 1 al 10 que representa la valoración del cliente.
- DiscountApplied: Porcentaje de descuento que se ha aplicado sobre el producto.
- ShippingCost: Coste del envío en euros.

Esta plantilla te guiará a través del proceso de análisis inicial y pre-procesado de los datos, pero es solo una guía! Puedes añadir o quitar lo que creas conveniente o analizar otros aspectos que te parezcan interesantes. Recuerda que hay muchas formas de llegar al mismo resultado, y lo que más se valora es la proactividad! 😃

In [1]:
# Importar las librerías necesarias
import ...

In [None]:
# Cargar los datos (ecommerce_data.csv)
df = 

***

# 1. Exploración Inicial
El primer paso de cualquier análisis es realizar una exploración inicial de los datos. Entender qué tipo de información lleva cada columna, las unidades, los tipos de variables y tener una idea general de errores a gestionar en los siguientes pasos.

In [None]:
# Utiliza los métodos que conozcas para explorar el dataset
# ¿Cuántas filas y columnas tiene?

In [None]:
# Realiza un análisis de las variables numéricas por un lado y las categóricas por otro, obteniendo métricas como
# count de filas, media, min y max, valores diferentes, etc

💡 Los tipos de variables más comunes que nos podemos encontrar:
- int64: valores enteros
- float64: valores decimales
- object: tipo de datos flexible que representa strings o tipos de datos mixtos (ej. alfanumérico)
- datetime64[ns]: fechas y horas
- bool: datos binarios (True/False)

¿Qué conclusiones sacas después de este análisis inicial?



***

## 2. Transformaciones y ajustes de variables
### 2.1 Gestión de nulos y campos vacíos
Lo primero a gestionar son los nulos, ya que tenerlos en nuestros datos nos impedirá hacer otras transformaciones.

In [2]:
# ¿Cuántos nulls hay por cada columna? ¿qué porcentaje del total representan?


In [None]:
# ¿Qué estrategias se pueden seguir para gestionar los nulls?
# Implementa la que consideres apropiada para cada variable con nulls

## 2.2 Ajuste de los tipos de variables
Para poder trabajar correctamente con los datos, hace falta transformar las variables al tipo de datos correcto. 

In [None]:
# ¿Qué variables no tienen el tipo de dato correcto?
# Implementa aquí el código para hacer el ajuste

## 2.3 Gestión de outliers
Los outliers pueden afectar en gran medida a nuestros análisis, es por eso por lo que es muy importante detectarlos y gestionarlos.

In [None]:
# Analiza las variables numéricas para detectar outliers. 
# ¿Cómo? A través de inspección visual, utilizando métodos estadísticos como el Z Score o el IQR, etc


In [None]:
# Gestiona estos outliers


En variables categóricas, así como la variable del tiempo, quizá no podemos hablar de outliers propiamente pero vamos a anlizarlas a ver si hay algún caso raro que debamos gestionar.

In [None]:
# Analiza los valores únicos de las variables categóricas y gestiona los casos raros

In [None]:
# Analiza el rango de fechas del dataset y, si es necesario, gestiona los casos raros

## 2.4 Gestión de duplicados

In [None]:
# Analiza si hay duplicados en el dataset, en general o por un subset de las columnas

***

## 3. Feature Engineering: creación de nuevas variables
En algunos casos, podemos crear nuevas variables a partir de las que ya tenemos, que puedan enriquecer el análisis.

In [None]:
# ¿Qué variables podría ser interesante crear?
# Algunas ideas con pistas, enfocadas en el análisis que queremos hacer:
# - Nos piden hacer un análisis de la facturación total por meses
# - Nos piden segmentar los productos y categorías de productos por el feedback recibido, para saber los que peor valoración tienen

***

## 4. Combinación con otros datasets
Además del dataset de transacciones, contamos con un dataset sobre los clientes, que podremos utilizar para hacer análisis más completos.

In [None]:
# Carga el dataset
df_customers = 

In [None]:
# Haz un análisis general del dataset para entender qué columnas tiene

In [None]:
# ¿Hace falta gestionar algún null, tipo de variable, outlier o duplicado como hemos hecho previamente?


Una vez hemos entendido y limpiado (en caso de ser necesario) el dataset sobre clientes, nos proponemos contestar las siguientes preguntas: <n>

¿Dónde vendemos más productos? ¿Y qué categoría de productos? ¿Quiénes son nuestros clientes?

In [None]:
# Guía para hacer joins en pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-join

# ¿Qué tipo de join es más apropiado en este caso? 

***

## 5. Análisis de negocio
Una vez hemos limpiado y preparado nuestros datasets, podemos hacer un análisis más enfocado a negocio. ¿Qué ocurrirá? Que a medida que vayamos planteando preguntas, tendremos que hacer ajustes similares a los que ya hemos hecho, generando nuevas variables y ajustando los datos al objetivo concreto.