# Caso pr√°ctico -  An√°lisis de las transacciones de un negocio ecommerce
### üìà <b>Contexto del negocio y la situaci√≥n:</b>

Imagina que eres un analista de datos trabjando para una empresa ecommerce minorista que vende una variedad de productos online, que van desde equipos electr√≥nicos y ropa hasta art√≠culos para el hogar y accesorios. Tu tarea es analizar las transacciones de los clientes desde 2023 para identificar tendencias, comprender el comportamiento del cliente y optimizar la gesti√≥n de inventario.

### üìç <b>Objetivos:</b>

- Comprender el comportamiento del cliente: Analizar la frecuencia de las compras, el valor promedio de las compras y los productos m√°s populares.
- Optimizar el inventario: Identificar productos con altas tasas de devoluci√≥n para ajustar los niveles de inventario.
- Mejorar las ventas y el marketing: Identificar segmentos de clientes que puedan ser objetivos de campa√±as de marketing para aumentar las ventas.
- Opcional: utilizar alg√∫n modelo de ML para hacer segmentaci√≥n de clientes, predicci√≥n de ventas, de Customer Churn u otras propuestas.

### üíæ Descripci√≥n de los datos
- TransactionID: Identificador √∫nico para cada transacci√≥n.
- CustomerID: Identificador √∫nico para cada cliente.
- TransactionDate: Fecha y hora de la transacci√≥n.
- ProductID: Identificador √∫nico para cada producto.
- ProductCategory: Categor√≠a del producto (por ejemplo, Electr√≥nica, Ropa, Art√≠culos para el hogar).
- Quantity: N√∫mero de unidades compradas.
- Price: Precio por unidad del producto.
- PaymentMethod: M√©todo de pago (por ejemplo, Tarjeta de cr√©dito, PayPal, Transferencia bancaria).
- ReturnStatus: Indica si el art√≠culo fue devuelto (S√≠ o No).
- CustomerFeedback: Rating del 1 al 10 que representa la valoraci√≥n del cliente.
- DiscountApplied: Porcentaje de descuento que se ha aplicado sobre el producto.
- ShippingCost: Coste del env√≠o en euros.

Esta plantilla te guiar√° a trav√©s del proceso de an√°lisis inicial y pre-procesado de los datos, pero es solo una gu√≠a! Puedes a√±adir o quitar lo que creas conveniente o analizar otros aspectos que te parezcan interesantes. Recuerda que hay muchas formas de llegar al mismo resultado, y lo que m√°s se valora es la proactividad! üòÉ

In [2]:
# Importar las librer√≠as necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt

In [18]:
from ipywidgets import FileUpload

uploader = FileUpload()
uploader


FileUpload(value=(), description='Upload')

In [19]:
from ipywidgets import FileUpload

uploader = FileUpload()
uploader


FileUpload(value=(), description='Upload')

In [20]:
# Cargar los datos (ecommerce_data.csv)
import pandas as pd
df = pd.read_csv("ecommerce_data.csv")
df_customers = pd.read_csv("ecommerce_customers.csv")


FileNotFoundError: [Errno 2] No such file or directory: 'ecommerce_data.csv'

***

# 1. Exploraci√≥n Inicial
El primer paso de cualquier an√°lisis es realizar una exploraci√≥n inicial de los datos. Entender qu√© tipo de informaci√≥n lleva cada columna, las unidades, los tipos de variables y tener una idea general de errores a gestionar en los siguientes pasos.

In [None]:
# Utiliza los m√©todos que conozcas para explorar el dataset
# ¬øCu√°ntas filas y columnas tiene?

In [None]:
# Realiza un an√°lisis de las variables num√©ricas por un lado y las categ√≥ricas por otro, obteniendo m√©tricas como
# count de filas, media, min y max, valores diferentes, etc

üí° Los tipos de variables m√°s comunes que nos podemos encontrar:
- int64: valores enteros
- float64: valores decimales
- object: tipo de datos flexible que representa strings o tipos de datos mixtos (ej. alfanum√©rico)
- datetime64[ns]: fechas y horas
- bool: datos binarios (True/False)

¬øQu√© conclusiones sacas despu√©s de este an√°lisis inicial?



***

## 2. Transformaciones y ajustes de variables
### 2.1 Gesti√≥n de nulos y campos vac√≠os
Lo primero a gestionar son los nulos, ya que tenerlos en nuestros datos nos impedir√° hacer otras transformaciones.

In [2]:
# ¬øCu√°ntos nulls hay por cada columna? ¬øqu√© porcentaje del total representan?


In [None]:
# ¬øQu√© estrategias se pueden seguir para gestionar los nulls?
# Implementa la que consideres apropiada para cada variable con nulls

## 2.2 Ajuste de los tipos de variables
Para poder trabajar correctamente con los datos, hace falta transformar las variables al tipo de datos correcto. 

In [None]:
# ¬øQu√© variables no tienen el tipo de dato correcto?
# Implementa aqu√≠ el c√≥digo para hacer el ajuste

## 2.3 Gesti√≥n de outliers
Los outliers pueden afectar en gran medida a nuestros an√°lisis, es por eso por lo que es muy importante detectarlos y gestionarlos.

In [None]:
# Analiza las variables num√©ricas para detectar outliers. 
# ¬øC√≥mo? A trav√©s de inspecci√≥n visual, utilizando m√©todos estad√≠sticos como el Z Score o el IQR, etc


In [None]:
# Gestiona estos outliers


En variables categ√≥ricas, as√≠ como la variable del tiempo, quiz√° no podemos hablar de outliers propiamente pero vamos a anlizarlas a ver si hay alg√∫n caso raro que debamos gestionar.

In [None]:
# Analiza los valores √∫nicos de las variables categ√≥ricas y gestiona los casos raros

In [None]:
# Analiza el rango de fechas del dataset y, si es necesario, gestiona los casos raros

## 2.4 Gesti√≥n de duplicados

In [None]:
# Analiza si hay duplicados en el dataset, en general o por un subset de las columnas

***

## 3. Feature Engineering: creaci√≥n de nuevas variables
En algunos casos, podemos crear nuevas variables a partir de las que ya tenemos, que puedan enriquecer el an√°lisis.

In [None]:
# ¬øQu√© variables podr√≠a ser interesante crear?
# Algunas ideas con pistas, enfocadas en el an√°lisis que queremos hacer:
# - Nos piden hacer un an√°lisis de la facturaci√≥n total por meses
# - Nos piden segmentar los productos y categor√≠as de productos por el feedback recibido, para saber los que peor valoraci√≥n tienen

***

## 4. Combinaci√≥n con otros datasets
Adem√°s del dataset de transacciones, contamos con un dataset sobre los clientes, que podremos utilizar para hacer an√°lisis m√°s completos.

In [None]:
# Carga el dataset
df_customers = 

In [None]:
# Haz un an√°lisis general del dataset para entender qu√© columnas tiene

In [None]:
# ¬øHace falta gestionar alg√∫n null, tipo de variable, outlier o duplicado como hemos hecho previamente?


Una vez hemos entendido y limpiado (en caso de ser necesario) el dataset sobre clientes, nos proponemos contestar las siguientes preguntas: <n>

¬øD√≥nde vendemos m√°s productos? ¬øY qu√© categor√≠a de productos? ¬øQui√©nes son nuestros clientes?

In [None]:
# Gu√≠a para hacer joins en pandas: https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-join

# ¬øQu√© tipo de join es m√°s apropiado en este caso? 

***

## 5. An√°lisis de negocio
Una vez hemos limpiado y preparado nuestros datasets, podemos hacer un an√°lisis m√°s enfocado a negocio. ¬øQu√© ocurrir√°? Que a medida que vayamos planteando preguntas, tendremos que hacer ajustes similares a los que ya hemos hecho, generando nuevas variables y ajustando los datos al objetivo concreto.