# An√°lisis Exploratorio de E-Commerce con NumPy

**Objetivo:** En este notebook, realizaremos un an√°lisis exploratorio de datos de un e-commerce del Reino Unido. El objetivo es demostrar c√≥mo NumPy puede ser una herramienta poderosa para la **limpieza de datos**, **creaci√≥n de m√©tricas (feature engineering)** y **an√°lisis estad√≠stico segmentado**, todo ello con un rendimiento excepcional.

**Pasos:**
1.  **Carga y Preparaci√≥n:** Convertiremos los datos de un DataFrame de Pandas a arrays de NumPy para el an√°lisis num√©rico.
2.  **Limpieza de Datos:** Identificaremos y filtraremos registros problem√°ticos, como devoluciones o datos faltantes.
3.  **An√°lisis Descriptivo:** Calcularemos estad√≠sticas fundamentales para entender el negocio.
4.  **Ejercicio Guiado:** Profundizaremos en un segmento espec√≠fico de los datos.
5.  **Desaf√≠o para la Clase** ¬°Les toca a ustedes!

In [1]:
import numpy as np
import pandas as pd

# --- Carga de Datos ---
# Cargamos el dataset desde el archivo CSV.
# Es importante especificar el encoding por los caracteres especiales que puede contener.
df = pd.read_csv('../../../datasets/alumnos/somosiete/E-CommerceAnalysusUK.csv', encoding='ISO-8859-1')


# Rellenamos los CustomerID faltantes con un valor placeholder (0) para poder convertir a num√©rico.
df['CustomerID'] = df['CustomerID'].fillna(0)
df.dropna(subset=['Description'], inplace=True) # Eliminamos filas donde la descripci√≥n es nula

# --- Conversi√≥n a NumPy ---
# Seleccionamos las columnas clave y las convertimos a un array de NumPy para el an√°lisis.
# 1. Creamos una lista de tuplas a partir del DataFrame.
#    Ac√° definimos la "plantilla" de nuestro array.
#    Cada tupla representa una fila: (Quantity, UnitPrice, CustomerID)
registros = list(df[['Quantity', 'UnitPrice', 'CustomerID']].itertuples(index=False, name=None))

# 2. Definimos la estructura de nuestros datos (los "campos" o columnas)
#    'i4' es un entero de 4 bytes (int32), 'f8' es un float de 8 bytes (float64)
dtype_estructurado = [('Quantity', 'i4'), ('UnitPrice', 'f8'), ('CustomerID', 'i4')]

# 3. Creamos el array estructurado
datos_estructurados = np.array(registros, dtype=dtype_estructurado)

# Guardamos el pa√≠s en un array separado para el an√°lisis categ√≥rico.
paises = df['Country'].to_numpy(dtype=str)

print("Forma inicial del array de datos num√©ricos:", datos_estructurados.shape)
print("Forma inicial del array de pa√≠ses:", paises.shape)
print("\nPrimeras 5 filas de datos num√©ricos:\n", datos_estructurados[:5])

Forma inicial del array de datos num√©ricos: (540455,)
Forma inicial del array de pa√≠ses: (540455,)

Primeras 5 filas de datos num√©ricos:
 [(6, 2.55, 17850) (6, 3.39, 17850) (8, 2.75, 17850) (6, 3.39, 17850)
 (6, 3.39, 17850)]


### 2. Limpieza de Datos: La Base de un Buen An√°lisis

Los datos del mundo real rara vez son perfectos. Antes de cualquier an√°lisis, es crucial limpiarlos. En este dataset, observamos dos problemas comunes:
*   **Cantidades (`Quantity`) negativas:** Probablemente representan devoluciones de productos.
*   **Precios (`UnitPrice`) de cero:** Podr√≠an ser promociones, pero para un an√°lisis de ingresos, distorsionan los resultados.

Usaremos el poder de la **indexaci√≥n booleana** de NumPy para crear un "filtro" o "m√°scara" que seleccione √∫nicamente las filas que cumplen con nuestros criterios de validez (cantidad > 0 y precio > 0).

In [12]:
# --- Creaci√≥n de la M√°scara de Limpieza ---
# 1. Condici√≥n para Cantidad: Accedemos al campo por su nombre.
cantidad_valida = datos_estructurados['Quantity'] > 0

# 2. Condici√≥n para Precio: Accedemos al campo 'UnitPrice'.
precio_valido = datos_estructurados['UnitPrice'] > 0

# 3. La combinaci√≥n de m√°scaras funciona exactamente igual.
mascara_limpieza = cantidad_valida & precio_valido

# --- Aplicaci√≥n de la M√°scara ---
# Filtramos el array estructurado y el array de pa√≠ses.
datos_limpios = datos_estructurados[mascara_limpieza]
paises_limpios = paises[mascara_limpieza]

print(f"Filas antes de la limpieza: {datos_estructurados.shape[0]}")
print(f"Filas despu√©s de la limpieza: {datos_limpios.shape[0]}")
print(f"Se eliminaron {datos_estructurados.shape[0] - datos_limpios.shape[0]} filas.")

Filas antes de la limpieza: 540455
Filas despu√©s de la limpieza: 530104
Se eliminaron 10351 filas.


### 3. Feature Engineering: Creando la M√©trica `IngresoTotal`

Ahora que tenemos datos limpios, podemos crear nuevas variables que nos den m√°s informaci√≥n. La m√©trica m√°s importante en un e-commerce es el ingreso.

Calcularemos el ingreso total por cada l√≠nea de producto (`Quantity` * `UnitPrice`). Esta es una demostraci√≥n perfecta de la **vectorizaci√≥n** en NumPy: la operaci√≥n se aplica a todos los elementos de los arrays de forma simult√°nea y ultra-r√°pida, sin necesidad de bucles.

In [None]:
# --- C√°lculo Vectorizado del Ingreso ---
# Extraemos las columnas del array estructurado limpio. 
cantidad = datos_limpios['Quantity']
precio_unitario = datos_limpios['UnitPrice']

# Multiplicaci√≥n vectorizada de numpy
ingreso_por_linea = cantidad * precio_unitario


print("C√°lculo de ingresos completado.")
print(f"Se gener√≥ un nuevo array de ingresos con forma: {ingreso_por_linea.shape}")
print("\nEjemplo de los primeros 5 ingresos calculados:\n")
print(np.round(ingreso_por_linea[:5], 2))

C√°lculo de ingresos completado.
Se gener√≥ un nuevo array de ingresos con forma: (530104,)

Ejemplo de los primeros 5 ingresos calculados:

[15.3  20.34 22.   20.34 20.34]


### 4. An√°lisis Descriptivo: La Visi√≥n General del Negocio

Con nuestros datos limpios y enriquecidos, podemos calcular estad√≠sticas agregadas para obtener una visi√≥n "macro" del comportamiento de las ventas. Utilizaremos las funciones de agregaci√≥n optimizadas de NumPy.

In [16]:
# --- C√°lculo de Estad√≠sticas Agregadas ---
# Todas las funciones de agregaci√≥n se aplican directamente sobre nuestro nuevo array.
ingreso_total_global = np.sum(ingreso_por_linea)
ingreso_promedio_por_linea = np.mean(ingreso_por_linea)
mediana_ingreso = np.median(ingreso_por_linea)
desv_est_ingreso = np.std(ingreso_por_linea)
transaccion_mas_valiosa = np.max(ingreso_por_linea)

print("--- Estad√≠sticas Globales de Ingresos ---")
print(f"Ingreso Total Global: ¬£{ingreso_total_global:,.2f}")
print(f"Ingreso Promedio por L√≠nea de Producto: ¬£{ingreso_promedio_por_linea:.2f}")
print(f"Mediana del Ingreso por L√≠nea: ¬£{mediana_ingreso:.2f}")
print(f"Desviaci√≥n Est√°ndar de los Ingresos: ¬£{desv_est_ingreso:,.2f}")
print(f"L√≠nea de Producto m√°s Valiosa: ¬£{transaccion_mas_valiosa:,.2f}")

--- Estad√≠sticas Globales de Ingresos ---
Ingreso Total Global: ¬£10,666,684.54
Ingreso Promedio por L√≠nea de Producto: ¬£20.12
Mediana del Ingreso por L√≠nea: ¬£9.90
Desviaci√≥n Est√°ndar de los Ingresos: ¬£270.36
L√≠nea de Producto m√°s Valiosa: ¬£168,469.60


### 5. Ejercicio Guiado: An√°lisis de Ventas por Pa√≠s

Una de las preguntas m√°s comunes es comparar el rendimiento entre diferentes segmentos. Vamos a calcular el total de ingresos generados por un pa√≠s espec√≠fico, por ejemplo, **Alemania ('Germany')**, y ver qu√© porcentaje del total representa.

In [19]:
# 1. Crear la m√°scara para el pa√≠s 'Germany' (sin cambios aqu√≠).
mascara_alemania = (paises_limpios == 'Germany')

# 2. Aplicar la m√°scara directamente al array de ingresos.
ingresos_alemania = ingreso_por_linea[mascara_alemania]

# 3. El resto del c√°lculo es id√©ntico.
total_ingresos_alemania = np.sum(ingresos_alemania)
porcentaje_alemania = (total_ingresos_alemania / ingreso_total_global) * 100


print(f"Recordamos el ingreso Total Global: ¬£{ingreso_total_global:,.2f}")
print(f"Total de Ingresos de Alemania: ¬£{total_ingresos_alemania:,.2f}")
print(f"Alemania representa el {porcentaje_alemania:.2f}% del ingreso total.")

Recordamos el ingreso Total Global: ¬£10,666,684.54
Total de Ingresos de Alemania: ¬£228,867.14
Alemania representa el 2.15% del ingreso total.


### 6. üöÄ El Desaf√≠o: ¬°Ahora les toca a ustedes!

Usando las mismas herramientas que ya vimos (m√°scaras, filtros, sumas), les toca responder la siguiente pregunta:

**¬øCu√°les son los 5 pa√≠ses que m√°s ingresos han generado para la compa√±√≠a?**

**Pistas:**
1.  Consigan una lista de pa√≠ses √∫nicos usando `np.unique(paises_limpios)`.
2.  Creen un bucle que itere sobre cada pa√≠s.
3.  Dentro del bucle, creen una m√°scara booleana para el pa√≠s actual (ej. `paises_limpios == pais`).
4.  Usen esa m√°scara para filtrar el array `ingreso_por_linea` y luego sumen los resultados.
5.  Guarden cada par en una lista y, al final, ord√©nala para encontrar el top 5.

¬°Mucha suerte!