# Capítulo 18 — Handling Overlapping Points

Este notebook contiene una serie de ejercicios prácticos para ilustrar las técnicas del **Capítulo 18 (Handling Overlapping Points)** del libro *Fundamentals of Data Visualization*.

Cuando tenemos demasiados puntos en un gráfico de dispersión (*scatterplot*), se produce el problema de **overplotting**, que oculta patrones en los datos. En este notebook exploraremos diferentes formas de manejar este problema:
1. Scatterplot con overplotting
2. Jittering
3. Transparencia (*alpha blending*)
4. Contour plots (densidad)
5. 2D binning (hexbin)
6. Comparación de métodos


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración general
sns.set(style="whitegrid")
np.random.seed(42)

## Ejercicio 1 — Scatterplot con overplotting
Generamos un conjunto de puntos muy numerosos y los graficamos en un scatterplot simple.

In [None]:
# Datos sintéticos
n = 10000
x = np.random.normal(size=n)
y = x + np.random.normal(size=n)

plt.figure(figsize=(6,6))
plt.scatter(x, y, s=10, color="steelblue")
plt.title("Scatterplot con overplotting")
plt.show()

## Ejercicio 2 — Jittering
Agregamos un pequeño ruido aleatorio para separar puntos categóricos.

In [None]:
# Datos categóricos simulados
import pandas as pd

categories = np.random.choice(['A','B','C'], size=500)
values = np.random.randint(1,6, size=500)

# Sin jitter
plt.figure(figsize=(6,4))
plt.scatter(categories, values, alpha=0.6)
plt.title("Sin jitter")
plt.show()

# Con jitter (convertimos categorías a códigos numéricos)
cat_codes = pd.Categorical(categories).codes
jitter_x = cat_codes + np.random.uniform(-0.1, 0.1, size=500)
jitter_y = values + np.random.uniform(-0.1, 0.1, size=500)

plt.figure(figsize=(6,4))
plt.scatter(jitter_x, jitter_y, alpha=0.6)
plt.xticks(ticks=range(len(set(categories))), labels=np.unique(categories))
plt.title("Con jitter")
plt.show()

## Ejercicio 3 — Transparencia (*alpha blending*)
Reducimos la opacidad para que las áreas con mayor densidad se vean más oscuras.

In [None]:
plt.figure(figsize=(6,6))
plt.scatter(x, y, s=10, color="steelblue", alpha=0.2)
plt.title("Scatterplot con transparencia")
plt.show()

## Ejercicio 4 — Contour plots
Mostramos líneas de densidad sobre el scatterplot para visualizar la concentración de puntos.

In [None]:
plt.figure(figsize=(6,6))
sns.kdeplot(x=x, y=y, fill=False, levels=10, color="red")
plt.scatter(x, y, s=5, color="steelblue", alpha=0.1)
plt.title("Scatterplot con contornos de densidad")
plt.show()

## Ejercicio 5 — Hexbin plot
Usamos celdas hexagonales para reemplazar puntos por densidad.

In [None]:
plt.figure(figsize=(6,6))
plt.hexbin(x, y, gridsize=40, cmap="Blues")
plt.colorbar(label="count")
plt.title("Hexbin plot")
plt.show()

## Ejercicio 6 — Comparación de métodos
Mostramos lado a lado los diferentes enfoques para visualizar los mismos datos.

In [None]:
fig, axs = plt.subplots(1,3, figsize=(18,6))

# Scatter normal
axs[0].scatter(x, y, s=10, color="steelblue")
axs[0].set_title("Scatterplot simple")

# Scatter con transparencia
axs[1].scatter(x, y, s=10, color="steelblue", alpha=0.2)
axs[1].set_title("Con transparencia")

# Hexbin
hb = axs[2].hexbin(x, y, gridsize=40, cmap="Blues")
axs[2].set_title("Hexbin plot")
plt.colorbar(hb, ax=axs[2])

plt.show()