# **Lectura: Ciencia de Datos para gente Sociable**
### IRat: 20/8

---

## **Lectura: 1 ¿Qué es la Ciencia de Datos?**

La ciencia de datos trata de emplear técnicas de programación para analizar datos. Pero no es sólo esto, también requiere desarrollo de estas habilidades:

- **Programación:** Emplear pensamiento computacional para resolver problemas.
- **Estadística:** Comprender y aplicar conceptos estadísticos para analizar datos.
- **Comunicación:** Ser capaz de comunicar hallazgos de manera efectiva a diferentes audiencias.
- **Conocimiento del Dominio:** Entender el contexto y el área de aplicación de los datos analizados.

---

## **📊 Capítulo 4 — Visualización**

La **visualización de datos** es una de las técnicas más poderosas y accesibles para un analista. Permite **convertir listas áridas de números** en **gráficos que muestran patrones, contrastes y tendencias** de manera intuitiva.
Es fundamental tanto en la **exploración de datos** (cuando buscamos entender qué está pasando) como en la **comunicación** (cuando explicamos a otros nuestros hallazgos).

## 🔹 4.1 Scatterplot (Gráfico de dispersión)

* **Definición**: Cada punto representa una observación, con dos variables numéricas en los ejes X e Y.
* **Uso principal**: Mostrar **correlación** entre dos variables.
* **Ejemplo**: Relación entre la **población de una comuna** y la **cantidad de contactos al sistema de atención ciudadana**.

**Conceptos clave:**

* `ggplot()` funciona por **capas**.
* `geom_point(aes(x, y))`: agrega los puntos.
* `aes()` define las variables estéticas (posición, color, tamaño, forma).
* Variables **categóricas** → mejor representarlas con **color** o **etiquetas**.
* **Outliers (valores atípicos)**: por ejemplo, la **Comuna 1** que tiene muchos más trámites que las demás.

**Conclusión:** El scatterplot permite ver **tendencias** y detectar **casos fuera de lo común**.

## 🔹 4.2 Ajustando color, forma y tamaño

* Dentro de `aes()`: los atributos representan variables.
* Fuera de `aes()`: los atributos son **fijos** (ejemplo: todos los puntos en azul).
* R reconoce más de **600 colores** por nombre (ejemplo: `"darkolivegreen4"`).
* `size` = controla el tamaño de los puntos (valor en píxeles).
* `shape` = forma de los puntos (pero solo admite hasta 6 categorías → limitado).

**Conclusión:** Personalizar color, forma y tamaño ayuda a **destacar información** o hacer la visualización más clara.

## 🔹 4.3 Facetado

Cuando queremos mostrar **más de 2-3 variables**, usar solo atributos estéticos genera confusión.
La solución es el **facetado** → dividir el gráfico en **múltiples paneles**, uno por cada categoría.

* `facet_wrap(~VARIABLE)`: crea un gráfico por categoría.
* Ejemplo: analizar contactos por comuna **y** tipo de prestación (DENUNCIA, QUEJA, RECLAMO, SOLICITUD, TRÁMITE).
* Detectamos que el exceso en Comuna 1 se debe principalmente a **TRÁMITES**.

**Concepto clave: Conocimiento de dominio** → ningún análisis tiene sentido sin el contexto del área. En este caso, los trámites se cargaban históricamente en Comuna 1, sesgando los datos.

## 🔹 4.4 Gráficos de barras

* **Uso principal**: comparar categorías.
* `geom_bar(aes(x = categoría, weight = valor))`: altura de la barra depende de la suma de los valores.
* Problema común: nombres ilegibles en el eje X → solución: `coord_flip()` para girar los ejes.

**Tipos:**

* **Barras simples** → comparación directa (ej: cantidad de contactos por barrio).
* **Barras apiladas con fill** → muestran la composición (ej: tipos de trámites dentro de cada barrio).
* **Barras facetadas** → múltiples gráficos según otra variable.

**Conclusión:** Útiles para mostrar **comparaciones** y **composición interna** de categorías.

## 🔹 4.5 Histogramas

* **Definición**: muestran la **distribución** de una variable continua.
* `geom_histogram(aes(x = variable))` → divide en “bins” (intervalos) y cuenta cuántos datos caen en cada uno.
* Ejemplo: cantidad mensual de registros → se concentra en torno a 60.000.
* Con facetado, se pueden ver diferencias según tipo de contacto:

  * **Reclamos**: baja dispersión.
  * **Trámites**: gran variabilidad.
  * **Denuncias y quejas**: menos frecuentes.

**Conclusión:** Los histogramas permiten detectar si los datos siguen una **distribución normal**, son **bimodales** o tienen mucha **variabilidad**.

## 🔹 4.6 Preparar visualizaciones para comunicar

En el **análisis exploratorio** los gráficos son para nosotros → rapidez > estética.
En la **comunicación** (papers, informes, presentaciones) es crucial la **claridad**.

**Elementos mínimos en un gráfico para comunicar:**

1. **Título breve y descriptivo.**
2. **Etiquetas claras en los ejes.**
3. **Leyendas con nombres entendibles.**

Opcionales:

* **Subtítulo** → detalles extra.
* **Nota al pie / fuente** → contexto o advertencias.

En R, se usa `labs(title, subtitle, caption, x, y, fill)` para añadir todo esto.
Además, `theme_minimal()`, `theme_dark()`, etc., permiten cambiar la estética final.

## 🔹 4.7 Otras visualizaciones

Existen muchas más: **mapas, violin plots, tree maps, waffle charts**, etc.
Recurso recomendado: **from Data to Viz** → catálogo visual de métodos con código en R y guía para elegir la mejor visualización según el objetivo.


# ✅ Resumen de Conceptos Clave

* **Visualización = herramienta esencial** para explorar y comunicar datos.
* **Scatterplot** → correlación entre dos variables.
* **Color, tamaño, forma** → codificación visual (dentro de `aes()` = variable, fuera de `aes()` = fijo).
* **Facetado** → múltiples gráficos para comparar categorías.
* **Barras** → comparación de categorías y composición interna.
* **Histogramas** → distribución de variables continuas.
* **Conocimiento de dominio** → sin contexto, los hallazgos pueden ser engañosos.
* **Comunicación** → títulos, ejes claros, leyendas descriptivas.
* **ggplot + labs + themes** → control total de presentación.

---

# **Lectura: 2 "Buen análisis de datos"**

El **análisis de datos** es poderoso pero propenso a errores.
Un buen analista se distingue por ser **cuidadoso y metódico**, lo que genera **credibilidad** en sus conclusiones.
Este documento resume técnicas y mentalidades necesarias para trabajar con **grandes conjuntos de datos de alta dimensión**, como los que maneja Google.

## 🔹 1. Aspectos técnicos

### **Consultar distribuciones**

* No basta con **media, mediana o desviación estándar**.
* Hay que mirar **histogramas, CDF, Q-Q plots**, etc.
* Permiten detectar **multimodalidad** o **valores atípicos**.

### **Valores atípicos**

* Son señales de alerta, pueden indicar **errores en el proceso o fenómenos reales**.
* Pueden excluirse, pero siempre entendiendo su origen.
* Ejemplo: consultas con muy pocos clics pueden señalar problemas de registro.

### **Ruido**

* El **ruido aleatorio no desaparece** aunque haya muchos datos.
* Usar **intervalos de confianza, p-values** para medir la certeza.

### **Consultar ejemplos**

* Revisar **muestras individuales** para validar el análisis.
* Mirar casos **extremos** (5% más rápido/lento) y todas las clases.
* Garantiza que los resúmenes no oculten errores.

### **Dividir los datos (segmentación)**

* Separar por **navegador, dispositivo, región, dominio**, etc.
* Detecta incoherencias internas.
* Cuidado con el **cambio de mezcla** → riesgo de la **Paradoja de Simpson**.

### **Importancia práctica**

* Diferenciar entre **significancia estadística** y **relevancia real**.
* Preguntarse: ¿un cambio de 0.1% realmente importa?

### **Coherencia a lo largo del tiempo**

* Analizar datos por **unidades temporales** (día, mes).
* Detectar anomalías y verificar su causa antes de descartarlas.
* Sirve para validar variabilidad e importancia estadística.

### **Filtros y proporciones**

* Siempre declarar los **filtros aplicados** y contar cuántos datos se excluyen.
* Aclarar numerador y denominador en **proporciones**.

  * Ejemplo: “Búsquedas por usuario” puede tener distintas definiciones → hay que ser explícito.


## 🔹 2. Procesos

### **Tres etapas del análisis**

1. **Validación** → ¿los datos son correctos, coherentes y representan lo esperado?
2. **Descripción** → interpretación objetiva (qué muestran los datos).
3. **Evaluación** → juicio de valor (¿es bueno o malo para usuario, empresa, sociedad?).

Separar estas etapas evita **sesgos y malas interpretaciones**.

### **Confirmar configuración de experimentos**

* Revisar **cómo y cuándo** se recopilaron los datos.
* Detectar sesgos (ej: solo usuarios de Chrome, períodos festivos, etc.).

### **Métricas estándar vs. personalizadas**

* Siempre empezar con **métricas estándar** (clics, tiempo de carga, errores).
* Luego pasar a métricas nuevas → validarlas comparando con las estándar.

### **Medir varias veces**

* Capturar un mismo fenómeno de distintas formas.
* Usar fuentes de datos distintas para confirmar.

### **Reproducibilidad**

* Un hallazgo debe mantenerse en **diferentes poblaciones, tiempos y muestras aleatorias**.
* Si no, probablemente es un error.

### **Comparar con mediciones anteriores**

* Validar con resultados previos.
* Un número muy diferente debe ser tratado como **sospechoso** hasta validarlo.

### **Aplicar métricas nuevas en datos viejos**

* Antes de confiar en una métrica nueva, probarla en datos conocidos.
* Ejemplo: una métrica de satisfacción debería reflejar funciones que ya sabemos que son buenas.

### **Hipótesis y evidencia**

* No basta con generar teorías → hay que **buscar evidencia que las valide o refute**.
* Preguntarse: ¿qué experimento podría confirmar esto?
* Esto fomenta descubrimientos y métricas nuevas.

### **Iteración rápida en análisis exploratorio**

* Hacer ciclos completos rápido, no buscar perfección en el primer paso.
* Iterar permite descubrir problemas antes.

### **Cuidado con retroalimentación (feedback loops)**

* Si la métrica de éxito alimenta el sistema, no puede usarse luego como criterio de evaluación.
* Ejemplo: si mostramos más anuncios → más clics no implica automáticamente más satisfacción.


## 🔹 3. Mentalidad

### **Comenzar con preguntas, no con datos**

* El análisis siempre debe partir de **hipótesis o preguntas claras**.
* Evita caer en usar “tu técnica favorita” sin necesidad real.

### **Ser escéptico y defensor**

* Defender la calidad de los datos, pero también ser crítico con ellos.
* Preguntarse:

  * ¿Qué evidencia extra respalda este hallazgo?
  * ¿Qué podría invalidarlo?

### **Correlación ≠ causalidad**

* No confundir correlaciones con relaciones de causa.
* Buscar teorías causales plausibles y validarlas.
* Un indicador puede ser un **proxy** de otro, pero siempre hay que testearlo.

### **Compartir primero con pares**

* Revisiones entre colegas son clave para detectar errores y sesgos.
* Los pares tienen menos “agenda” que los consumidores finales.

### **Aceptar errores e ignorancia**

* Admitir límites y equivocaciones genera **credibilidad a largo plazo**.
* El respeto profesional se construye en base a la transparencia.


## ✅ Reflexiones finales

* El trabajo de un buen analista **no se ve a simple vista**: validar poblaciones, verificar filtros, asegurar coherencia.
* Por eso el análisis sólido lleva más tiempo de lo que piensan los demás.
* Parte del rol es **educar a los consumidores** sobre por qué estos pasos son necesarios.
* Elegir la **herramienta adecuada** también es parte de la habilidad: no se trata de aplicar siempre la misma, sino la que mejor garantice la **verdad estadística**.


# 📌 Conceptos clave para recordar

* **Distribuciones, outliers, ruido, segmentación, coherencia temporal.**
* **Validación → Descripción → Evaluación**.
* **Reproducibilidad, comparación con métricas previas, hipótesis + evidencia.**
* **Preguntas claras > técnica favorita.**
* **Correlación no implica causalidad.**
* **Credibilidad = cuidado, escepticismo, transparencia.**

---
