# Análisis Exploratorio de Datos (EDA) - Online Retail

En este cuaderno, realizaremos un **análisis paso a paso** de un dataset de facturación que contiene columnas como:
 - **InvoiceNo**: Número de factura
 - **StockCode**: Código del producto
 - **Description**: Descripción del producto
 - **Quantity**: Cantidad vendida (puede ser negativa en devoluciones)
 - **InvoiceDate**: Fecha de la factura
 - **UnitPrice**: Precio unitario de cada artículo
 - **CustomerID**: ID del cliente (puede haber nulos si no se registró)
 - **Country**: País donde se realizó la compra

El objetivo es **entender** el comportamiento de las ventas, los países más relevantes, los productos más comprados, y otras métricas de interés.

In [1]:
!wget https://github.com/javierherrera1996/lecture_analytics/raw/main/datasets/ecomerce_customers_segmentation.zip
!unzip ecomerce_customers_segmentation.zip

--2025-03-12 02:26:07--  https://github.com/javierherrera1996/lecture_analytics/raw/main/datasets/ecomerce_customers_segmentation.zip
Resolving github.com (github.com)... 140.82.112.4
Connecting to github.com (github.com)|140.82.112.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/datasets/ecomerce_customers_segmentation.zip [following]
--2025-03-12 02:26:07--  https://raw.githubusercontent.com/javierherrera1996/lecture_analytics/main/datasets/ecomerce_customers_segmentation.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7548686 (7.2M) [application/zip]
Saving to: ‘ecomerce_customers_segmentation.zip’


2025-03-12 02:26:08 (63.1 MB/s) - ‘ecomerce_c

## 1. Importar librerías y cargar datos
Asegúrate de tener el archivo CSV en la misma carpeta, o ajusta la ruta de `pd.read_csv` según tu necesidad.

In [2]:
import pandas as pd
import numpy as np

# Carga del dataset (ajusta el nombre a tu archivo)
df = pd.read_csv('data.csv', encoding='latin1')  # Puedes necesitar encoding='latin1' si hay caracteres especiales

# Mostramos las primeras filas para inspección
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


## 2. Información general del dataset
Aquí veremos:
- Dimensiones del DataFrame
- Tipos de datos
- Presencia de valores nulos
- Estadísticos descriptivos de las columnas numéricas

In [3]:
df.shape # Dimensiones (filas, columnas)


(541909, 8)

In [19]:
df.info ()


<class 'pandas.core.frame.DataFrame'>
Index: 539392 entries, 0 to 541908
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    539392 non-null  object 
 1   StockCode    539392 non-null  object 
 2   Description  539392 non-null  object 
 3   Quantity     539392 non-null  int64  
 4   InvoiceDate  539392 non-null  object 
 5   UnitPrice    539392 non-null  float64
 6   CustomerID   406789 non-null  float64
 7   Country      539392 non-null  object 
 8   TotalPrice   539392 non-null  float64
dtypes: float64(3), int64(1), object(5)
memory usage: 41.2+ MB


In [22]:
df.describe ()


Unnamed: 0,Quantity,UnitPrice,CustomerID,TotalPrice
count,539392.0,539392.0,406789.0,539392.0
mean,9.845904,4.673648,15287.79583,18.112749
std,215.412652,94.614722,1713.573064,379.091706
min,-80995.0,0.001,12346.0,-168469.6
25%,1.0,1.25,13954.0,3.75
50%,3.0,2.08,15152.0,9.84
75%,10.0,4.13,16791.0,17.4
max,80995.0,38970.0,18287.0,168469.6


**Observación**: Algunas facturas pueden ser devoluciones si `Quantity` es negativa. Además, puede haber filas sin `CustomerID`.

## 3. Limpieza básica y transformación
### 3.1. Revisar y eliminar posibles filas con datos problemáticos
 - Filas donde `Description` esté vacía
 - Filas con `Quantity == 0` (puede haber poco sentido en un registro así)
 - Filas con `UnitPrice <= 0` (podría ser error o promoción anómala)
 - Convertir la columna `InvoiceDate` a formato fecha, para luego analizar tiempos

In [6]:
# Eliminamos filas donde no haya descripción
df= df[df['Description']!=""]
df = df.dropna (subset=['Description'])

# Eliminamos filas donde Quantity sea 0
df= df[df['Quantity'] != 0]

# Eliminamos filas donde UnitPrice sea menor o igual a 0
df= df[df['UnitPrice'] > 0]

# Verificamos resultado
df.shape


(539392, 8)

## 4. Creación de columna "TotalPrice"
Para conocer el valor total de cada línea de venta, calculamos `Quantity * UnitPrice`.

In [7]:
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']
df.head ()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom,20.34


## 5. Análisis paso a paso
A continuación, veremos distintos análisis que **paso a paso** nos ayudarán a entender mejor el negocio.

### 5.1. ¿Cuántas transacciones totales hay y cuántos clientes diferentes?
Esto da un primer vistazo al tamaño del negocio en términos de facturas y base de clientes.

In [23]:
df.InvoiceNo.nunique () # Facturas totales

23796

In [9]:
df.CustomerID.nunique () # Clientes diferentes

4371

### 5.2. ¿Cuáles son los países más frecuentes en las ventas?
Podemos contar cuántas líneas de factura vienen de cada país. Esto ayuda a entender nuestro alcance geográfico.

In [24]:
df.value_counts ('Country').head (5)

Unnamed: 0_level_0,count
Country,Unnamed: 1_level_1
United Kingdom,492979
Germany,9493
France,8556
EIRE,8192
Spain,2532


> Tip: Si queremos ver el total en **monetario** por país, podemos agrupar por `Country` y sumar `TotalPrice`.

In [11]:
df.groupby ('Country')['TotalPrice'].sum ().sort_values (ascending=False)

Unnamed: 0_level_0,TotalPrice
Country,Unnamed: 1_level_1
United Kingdom,8209930.484
Netherlands,284661.54
EIRE,263276.82
Germany,221698.21
France,197403.9
Australia,137077.27
Switzerland,56385.35
Spain,54774.58
Belgium,40910.96
Sweden,36595.91


### 5.3. ¿Cuáles son los productos más vendidos?
Aquí vamos a usar `Description` para ver cuántas líneas se han vendido (o la suma total de `Quantity`).

In [12]:
# Top 10 productos por cantidad total vendida
df.groupby ('Description')['Quantity'].sum ().sort_values (ascending=False).head (10)


Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,53847
JUMBO BAG RED RETROSPOT,47359
ASSORTED COLOUR BIRD ORNAMENT,36381
POPCORN HOLDER,36334
PACK OF 72 RETROSPOT CAKE CASES,36039
WHITE HANGING HEART T-LIGHT HOLDER,35313
RABBIT NIGHT LIGHT,30680
MINI PAINT SET VINTAGE,26437
PACK OF 12 LONDON TISSUES,26111
PACK OF 60 PINK PAISLEY CAKE CASES,24753


### 5.4. ¿Cuál es el total de ingresos (revenue) y el ticket promedio?
 - El ingreso total es la suma de **TotalPrice**.
 - El ticket promedio podemos calcularlo como el promedio de **TotalPrice** dentro de cada factura (o línea).

Facturas totales

In [13]:
df.TotalPrice.sum ()

9769872.054000001

> Para un ticket promedio a nivel de **factura**, debemos agrupar por `InvoiceNo`, sumar `TotalPrice` y luego promediar.

Ticket promedio por factura

In [14]:
df.groupby ('InvoiceNo')['TotalPrice'].sum ().mean ()

410.5678287947553

### 5.6. ¿Tenemos devoluciones?
Como `Quantity` puede ser negativa, **representa** devoluciones. Veamos cuántas hay y el impacto en valor.

hay 9288 devoluciones  en la mayoria de las categorias, exepto en  CustomerID	que tiene 8905

In [25]:

df[df['Quantity'] < 0].count ()

Unnamed: 0,0
InvoiceNo,9288
StockCode,9288
Description,9288
Quantity,9288
InvoiceDate,9288
UnitPrice,9288
CustomerID,8905
Country,9288
TotalPrice,9288


### 5.7. ¿Cuántos clientes realizan compras repetidas?
Podemos ver cuántos clientes compran más de una vez.

In [16]:
# Agrupamos por CustomerID y contamos facturas únicas
df.groupby ('CustomerID')['InvoiceNo'].nunique ().value_counts () # Para sacar cuantos clientes realizan compras repetidas se debe sumar la categoria Count a partir de las personas que repitieron 2 facturas en adelante

Unnamed: 0_level_0,count
InvoiceNo,Unnamed: 1_level_1
1,1312
2,817
3,490
4,378
5,287
...,...
89,1
50,1
223,1
49,1


## 6. Posibles siguientes pasos
- **Crear segmentaciones** (p. ej. RFM: Recency, Frequency, Monetary) para clasificar clientes.
- **Analizar descuentos/promos** si tuvieras columnas extra.
- **Fusionar** con datos de marketing para calcular CAC (Customer Acquisition Cost) y LTV (Lifetime Value), etc.
- **Explorar** variables estacionales o días de la semana con mayor venta.

Con este **análisis paso a paso**, se obtiene un primer panorama de:
 - Cantidad de facturas y clientes.
 - Productos más vendidos.
 - Ingresos por país.
 - Montos totales y tickets promedio.
 - Distribución mensual de ventas.
 - Devoluciones y recurrencia de clientes.

¡A medida que se adquieran más habilidades en Python y análisis de datos, se pueden añadir gráficos, segmentaciones avanzadas y modelos predictivos!