<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_2_2_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 2.2.5: Evitar gráficos engañosos (escalas, claridad, honestidad)

## 1. ¿Por qué los gráficos mienten?

Los gráficos son una herramienta poderosa: pueden **clarificar** o **confundir**, **informar** o **manipular**. A veces el engaño es intencional (para vender una narrativa), otras veces es por descuido o falta de criterio.

**La realidad:** Un gráfico mal diseñado puede llevar a decisiones equivocadas que cuestan millones. Un gráfico manipulado puede dañar tu credibilidad profesional para siempre.

> **Principio fundamental:** Como profesional de datos, tu trabajo no es "hacer que los datos se vean bien", sino **representar la verdad de forma clara**.

---

## 2. Las 5 trampas mortales en visualización

### 2.1. Eje Y truncado (el clásico)

**¿Qué es?**  
Cortar el eje vertical para exagerar diferencias pequeñas.

**Ejemplo real:**  
Una cadena de supermercados presenta sus ventas trimestrales:

| Trimestre | Ventas (M€) |
|-----------|-------------|
| Q1 2024 | 48.2 |
| Q2 2024 | 48.9 |
| Q3 2024 | 49.3 |
| Q4 2024 | 49.8 |

```python
# Datos reales
trimestres = ['Q1', 'Q2', 'Q3', 'Q4']
ventas = [48.2, 48.9, 49.3, 49.8]

# Gráfico engañoso: eje Y de 47 a 50 (parece crecimiento explosivo)
# Gráfico honesto: eje Y de 0 a 60 (se ve el crecimiento real del 3.3%)
```

**¿Cuándo está permitido truncar?**  
Cuando las diferencias pequeñas **son relevantes** (ej. temperatura corporal 36°C vs 39°C) y lo indicas claramente con una línea de ruptura (⚡) en el eje.

---

### 2.2. Proporciones distorsionadas

**¿Qué es?**  
Usar áreas o volúmenes cuando solo debería cambiar la altura.

**Ejemplo:**  
Comparar presupuestos de marketing con bolsas de dinero. Si el presupuesto se duplica, pero duplicas **ancho y alto**, el área se cuadruplica. Perceptualmente, parece 4x más grande.

**Caso real - Gráfico de torta 3D:**

| Empresa | Cuota mercado |
|---------|---------------|
| A | 45% |
| B | 30% |
| C | 15% |
| D | 10% |

En un pie chart 3D, la empresa A (45%) puede parecer tener el 60% por la perspectiva distorsionada.

**Regla de oro:**  
- Para cantidades: usa **barras** (solo altura varía).  
- Evita: círculos 3D, imágenes escaladas, gráficos de burbujas mal calibrados.

---

### 2.3. Cherry-picking temporal

**¿Qué es?**  
Seleccionar solo el rango de fechas que favorece tu narrativa.

**Ejemplo en startup tech:**  
- **Versión CEO:** "Nuestros usuarios activos crecieron 200% en 6 meses" (de enero a junio 2024).  
- **Realidad completa:** En julio 2023 tenían 10K usuarios, en diciembre 2023 cayeron a 3K, y en junio 2024 llegaron a 9K. El crecimiento real desde el pico es -10%.

**Solución:**  
Muestra el **contexto temporal completo** o al menos un año de datos para identificar estacionalidad y tendencias reales.

---

### 2.4. Visualización incorrecta para el dato

**¿Qué es?**  
Usar un gráfico que distorsiona la interpretación natural de los datos.

| Tipo de dato | Gráfico correcto | Gráfico engañoso |
|--------------|------------------|-------------------|
| Partes de un todo | Gráfico de sectores (pie) con ≤5 categorías | Pie chart con 15 categorías |
| Evolución temporal | Líneas o barras | Pie chart |
| Comparación de categorías | Barras horizontales ordenadas | Radar chart complejo |
| Distribución estadística | Histograma o boxplot | Barras simples |
| Correlación | Scatter plot | Barras agrupadas |

**Ejemplo:**  
Un pie chart con 15 categorías es ilegible. Usa barras horizontales ordenadas de mayor a menor.

---

### 2.5. Doble eje sin avisar

**¿Qué es?**  
Usar dos ejes Y con escalas diferentes para crear correlaciones falsas.

**Ejemplo viral (real):**  
Un gráfico mostraba "correlación perfecta" entre consumo de margarina y divorcios en Maine. Ambas líneas coincidían perfectamente... porque ajustaron las escalas de cada eje para que encajaran.

**¿Cuándo usarlo correctamente?**  
Cuando tienes dos métricas con **unidades diferentes** (ej. ventas en € y temperatura en °C) que necesitas comparar en el tiempo. PERO:
- Etiqueta claramente ambos ejes con colores.  
- Usa colores distintos para cada línea.  
- Advierte explícitamente que las escalas son independientes.  
- Asegúrate de que hay una razón real para compararlas.

---

## 3. Caso real: El desastre del Challenger

**Contexto (28 enero 1986):**  
Ingenieros de Morton Thiokol presentaron datos sobre fallos de juntas tóricas (O-rings) a bajas temperaturas antes del lanzamiento del transbordador Challenger.

**El error de visualización:**  
- Usaron 13 gráficos diferentes, confusos y desorganizados.  
- No mostraron la correlación temperatura-fallos de forma clara.  
- Los directivos de NASA no entendieron la magnitud del riesgo.

**Decisión:**  
Lanzaron con temperatura de -0.6°C (muy por debajo de cualquier lanzamiento previo).

**Consecuencia:**  
73 segundos después del despegue, el Challenger explotó. 7 astronautas murieron en directo por televisión.

**La lección de Edward Tufte:**  
El experto en visualización demostró que **un solo gráfico claro** habría salvado vidas: temperatura en el eje X vs número de incidentes de O-rings en el eje Y, con una línea de tendencia obvia mostrando que a menor temperatura, más fallos.

> **Clave:** La claridad en visualización no es solo estética, es ética. Puede salvar vidas, empresas o millones en inversión.

---

## 4. Elimina el "Chart Junk"

**Chart junk:** Elementos decorativos que no aportan información y distraen del mensaje.

**Qué evitar:**
- Fondos con texturas, gradientes o imágenes
- Efectos 3D innecesarios (sombras, profundidad)
- Gridlines excesivos o demasiado marcados
- Etiquetas redundantes
- Emojis y cliparts que no añaden valor
- Animaciones que marean

**Ejemplo mejorado:**
```python
# MAL:
# - Fondo con gradient azul-verde
# - Barras con sombras 3D
# - Gridlines cada 5 unidades
# - Fuente Comic Sans

# BIEN:
# - Fondo blanco o gris muy claro
# - Barras 2D con color sólido
# - Gridlines sutiles solo en valores clave
# - Fuente profesional (Arial, Helvetica)
```

**Regla de oro:** Si puedes eliminar un elemento sin perder información, elimínalo.

---

## 5. Checklist anti-engaño

Antes de publicar cualquier gráfico, verifica:

✅ **Escala:** ¿El eje Y empieza en 0? Si no, ¿hay una razón válida y está indicada?  
✅ **Proporción:** ¿Las áreas/volúmenes respetan las cantidades reales?  
✅ **Tiempo:** ¿Incluyo suficiente contexto temporal? ¿Evito cherry-picking?  
✅ **Tipo:** ¿Este es el mejor gráfico para estos datos?  
✅ **Orden:** ¿Las categorías están ordenadas lógicamente (por valor o cronología)?  
✅ **Claridad:** ¿Lo entiende alguien sin contexto en 5-10 segundos?  
✅ **Honestidad:** ¿Represento la realidad o mi narrativa deseada?  
✅ **Fuente:** ¿Cito de dónde vienen los datos y cuándo se recolectaron?  
✅ **Accesibilidad:** ¿Los colores funcionan para daltónicos?  
✅ **Junk:** ¿He eliminado todos los elementos decorativos innecesarios?

---

## 6. Ejemplo práctico: Rediseño paso a paso

**Situación:**  
El equipo de producto quiere mostrar que la nueva feature "duplicó el engagement".

**Datos reales:**

| Semana | Engagement |
|--------|------------|
| S1 (pre) | 46.2% |
| S2 (pre) | 46.5% |
| S3 (lanzamiento) | 47.1% |
| S4 (post) | 48.0% |

**Gráfico original (engañoso):**
- Eje Y: 45% a 49% (truncado)  
- Título: "¡Engagement SE DISPARA con nueva feature!"  
- Periodo: Solo 2 semanas post-lanzamiento
- Elementos: Flechas rojas, emojis 🚀, fondo con gradient

**Problemas identificados:**
1. Eje truncado exagera el cambio visual
2. Título sensacionalista
3. Contexto temporal insuficiente
4. Chart junk distrae del mensaje

**Gráfico rediseñado (honesto):**
- Eje Y: 0% a 100% (o 0% a 60% para dar contexto razonable)  
- Título: "Engagement aumenta de 46% a 48% post-lanzamiento (↑4.3%)"  
- Periodo: 8 semanas antes + 4 semanas después  
- Nota al pie: "Incremento estadísticamente significativo (p<0.05, n=50,000 usuarios)"
- Línea vertical marcando el lanzamiento
- Colores: Azul corporativo, sin efectos

**Impacto:**  
El equipo celebra el éxito real (+4.3% en engagement es excelente), pero sin crear expectativas irreales ante inversores. La credibilidad del equipo de datos aumenta.

---

## 7. Caso Fox News: El poder del ancho de barra

**Contexto:** Durante unas elecciones, Fox News publicó un gráfico comparando propuestas fiscales.

**El truco:**  
- Las barras tenían alturas proporcionales a los valores
- PERO también variaban el **ancho** de las barras
- La propuesta "alta" era 3x más ancha que la "baja"
- Perceptualmente, el área era 9x mayor cuando el valor solo era 3x

**Impacto:**  
Manipuló la percepción pública sobre política fiscal en momento clave electoral.

**Lección:**  
En gráficos de barras, SOLO la altura debe variar. El ancho debe ser constante.

---

## 8. Cuando el cliente pide "mejorar" el gráfico

**Situación común:**  
"¿Puedes hacer que este crecimiento se vea más impresionante para la presentación a inversores?"

**❌ Respuesta incorrecta:**  
Truncar el eje Y, cambiar colores a rojo dramático, añadir flechas y emojis.

**✅ Respuesta profesional:**  
"Entiendo la necesidad de impacto. En lugar de manipular la escala, podemos:

1. **Contexto histórico:** Comparar con el crecimiento del trimestre anterior o del año pasado
2. **Benchmark sectorial:** Mostrar que superamos la media del sector (+2.1%)
3. **Impacto en negocio:** Traducir el 4.3% a ingresos reales (€2.3M adicionales)
4. **Proyección:** Mostrar qué significa esto anualizado
5. **Anotaciones:** Explicar **por qué** es significativo con texto claro

De esta forma mantenemos la credibilidad ante due diligence de inversores, que detectarían inmediatamente una manipulación visual."

**Por qué importa:**  
Los inversores profesionales, auditores y competidores **detectan** gráficos manipulados. Perder credibilidad cuesta más que ganar un pitch.

---

## 9. Ejercicio práctico: Identifica los 7 errores

**Analiza este gráfico hipotético de una startup:**

**Título:** "🚀 CRECIMIENTO EXPLOSIVO en usuarios activos 🚀"  
**Descripción:** "Nuestra app revoluciona el mercado"  
**Datos mostrados:**  
- Eje Y: De 4,500 a 5,000 usuarios  
- Periodo: Última semana vs semana anterior  
- Elementos visuales: Fondo con gradient, barras 3D con sombras, flechas rojas gigantes  
- Sin fuente de datos ni fecha  

**¿Qué harías para mejorarlo?**

<details>
<summary>Ver solución</summary>

**7 errores identificados:**
1. **Eje Y truncado** (exagera crecimiento del 10% haciéndolo parecer 500%)
2. **Contexto temporal insuficiente** (solo 2 semanas, puede ser ruido)
3. **Título sensacionalista** con emojis innecesarios
4. **Chart junk** (gradient, 3D, flechas que distraen)
5. **Sin fuente de datos** ni metodología
6. **Sin contexto comparativo** (¿es bueno 5K usuarios?)
7. **Escala absoluta** sin mostrar porcentaje o tasa de crecimiento

**Gráfico mejorado:**
- Título: "Usuarios activos diarios: +10% semanal"
- Eje Y: 0 a 6,000 usuarios (da contexto)
- Periodo: Últimas 12 semanas (muestra tendencia real)
- Añadir: Promedio móvil de 4 semanas
- Nota: "Fuente: Analytics interno, datos al 10-oct-2025"
- Comparar con: Meta de 7,500 usuarios para Q4
</details>

---

## 10. Tabla comparativa: Gráfico engañoso vs honesto

| Aspecto | Gráfico engañoso | Gráfico honesto |
|---------|------------------|-----------------|
| **Objetivo** | Vender una narrativa | Comunicar la verdad |
| **Eje Y** | Truncado sin justificar | Desde 0 o con ruptura clara (⚡) |
| **Periodo** | Cherry-picking (selección conveniente) | Contexto temporal completo |
| **Tipo de gráfico** | El que exagera más | El más apropiado para el dato |
| **Colores** | Dramáticos, manipulativos | Neutrales, accesibles |
| **Título** | Sensacionalista | Descriptivo y preciso |
| **Fuente** | Oculta o vaga | Clara, verificable y fechada |
| **Decoración** | Excesiva (chart junk) | Mínima necesaria |
| **Complejidad** | Requiere explicación de 5 min | Se entiende en 10 segundos |
| **Test de auditoría** | No lo querrías defender | Lo defenderías con orgullo |

---

## 11. Principios de visualización ética

| Principio | Descripción | Ejemplo práctico |
|-----------|-------------|------------------|
| **Transparencia** | Muestra fuente, fecha, metodología y limitaciones | "Fuente: INE, enero 2025, n=5,000 hogares, margen error ±2%" |
| **Contexto** | Incluye información comparativa relevante | No digas "50% de incremento" sin mostrar si es sobre 10 o 10M unidades |
| **Simplicidad** | Un gráfico, un mensaje claro | Si necesitas un párrafo para explicarlo, rediseñalo |
| **Accesibilidad** | Usa colores distinguibles (colorblind-friendly) | Evita solo rojo-verde; añade patrones, texturas o etiquetas |
| **Integridad** | Representa datos sin distorsión | No "suavices" outliers inconvenientes ni ocultes datos negativos |
| **Proporcionalidad** | Las áreas visuales respetan los valores numéricos | Si un valor es 2x otro, el área debe ser 2x, no 4x |

---

## 12. Herramientas para validar tus gráficos

| Herramienta | Utilidad | URL |
|-------------|----------|-----|
| **Coblis** | Simula cómo ven tu gráfico personas con daltonismo | coblis.com |
| **ColorBrewer** | Paletas de colores accesibles y científicamente probadas | colorbrewer2.org |
| **5-second rule** | Muestra tu gráfico 5 segundos a alguien. ¿Lo entiende? | (método, no herramienta) |
| **Datawrapper** | Crea gráficos honestos con buenas prácticas por defecto | datawrapper.de |
| **FlowingData** | Galería de gráficos engañosos para aprender qué NO hacer | flowingdata.com |
| **Spurious Correlations** | Ejemplos divertidos de correlaciones falsas | tylervigen.com/spurious-correlations |

---

## 13. Resumen: Tu responsabilidad profesional

En el mundo de datos, **tu reputación lo es todo**. Un gráfico manipulado:
- Destruye la confianza de tu equipo, stakeholders e inversores.  
- Puede llevar a decisiones desastrosas (como el Challenger).  
- Te marca como profesional poco ético (seguirá tu carrera).  
- Es detectado fácilmente por profesionales experimentados.

**El estándar profesional:**
- Prioriza la **claridad** sobre la estética.  
- Representa la **verdad**, incluso cuando es incómoda.  
- Diseña para que **cualquiera** entienda sin explicaciones adicionales.  
- Documenta fuentes, limitaciones y metodología.

> **Mantra del profesional de datos:** "No publico un gráfico que no querría defender en una auditoría".

**Test final antes de publicar:**  
¿Mostrarías este gráfico con orgullo a Edward Tufte? Si dudas, mejóralo.

---

## 14. Referencias y recursos

### Vídeos (complementarios)
- [How to Lie with Statistics and Graphs](https://youtu.be/E91bGT9BjYk)
- [The Art of Data Visualization](https://youtu.be/AdSZJzb-aX8)
- [Misleading Graphs: Examples](https://youtu.be/E_6K5FAahzg)

### Lecturas esenciales
- **"How to Lie with Statistics"** – Darrell Huff (1954, vigente hoy)
- **"The Visual Display of Quantitative Information"** – Edward Tufte
- **"Storytelling with Data"** – Cole Nussbaumer Knaflic
- **Blog:** [FlowingData](https://flowingdata.com) – Análisis de visualizaciones

### Herramientas recomendadas
- **Paletas:** [ColorBrewer](https://colorbrewer2.org), [Coolors](https://coolors.co)  
- **Verificación:** [Coblis Colorblind Simulator](https://www.color-blindness.com/coblis-color-blindness-simulator/)  
- **Inspiración (de qué NO hacer):** [WTF Visualizations](https://viz.wtf)

### Casos reales para analizar
- El desastre del Challenger (NASA, 1986)
- Gráficos de Fox News en elecciones
- Visualizaciones de COVID-19 (2020-2021)
- [Spurious Correlations](https://www.tylervigen.com/spurious-correlations) – Para entender correlación ≠ causalidad