# Chapter 1: Exploratory Data Analysis

Este capítulo se centra en el primer paso de cualquier proyecto de ciencia de datos: explorar los datos.

## Introducción

La estadística clásica se enfocó casi exclusivamente en la inferencia, un conjunto a veces complejo de procedimientos para sacar conclusiones sobre grandes poblaciones basadas en muestras pequeñas. En 1962, John W. Tukey llamó a una reforma de la estadística en su artículo seminal "The Future of Data Analysis" [Tukey-1962]. Propuso una nueva disciplina científica llamada análisis de datos que incluía la inferencia estadística como un componente más. Tukey presentó gráficos simples (por ejemplo, diagramas de caja, diagramas de dispersión) que, junto con estadísticas resumen (media, mediana, cuantiles, etc.), ayudan a pintar un cuadro de un conjunto de datos.

## Elementos de Datos Estructurados

Los datos provienen de muchas fuentes: mediciones de sensores, eventos, textos, imágenes y videos. Gran parte de estos datos no están estructurados: las imágenes son una colección de píxeles, con cada píxel conteniendo información de color RGB (rojo, verde, azul). Los textos son secuencias de palabras y caracteres no palabras, a menudo organizados por secciones, subsecciones, etc. Los clics en secuencia son acciones de un usuario interactuando con una aplicación o página web. De hecho, un desafío importante de la ciencia de datos es convertir este torrente de datos en bruto en información procesable. Para aplicar los conceptos estadísticos cubiertos en este libro, los datos en bruto no estructurados deben ser procesados y manipulados en una forma estructurada. Una de las formas más comunes de datos estructurados es una tabla con filas y columnas, como los datos que podrían surgir de una base de datos relacional o ser recolectados para un estudio.

## Tipos Básicos de Datos Estructurados

### Datos Numéricos
- **Continuos:** Pueden tomar cualquier valor en un intervalo.
- **Discretos:** Pueden tomar solo valores enteros, como conteos.

### Datos Categóricos
- **Categóricos:** Pueden tomar solo un conjunto específico de valores que representan un conjunto de posibles categorías.
- **Binarios:** Un caso especial de datos categóricos con solo dos valores, por ejemplo, 0/1, sí/no.
- **Ordinales:** Datos categóricos que tienen un orden explícito.

## Conceptos Clave para Tipos de Datos
- **Datos Numéricos:** Datos expresados en una escala numérica.
- **Datos Continuos:** Pueden tomar cualquier valor en un intervalo.
- **Datos Discretos:** Pueden tomar solo valores enteros.
- **Datos Categóricos:** Pueden tomar solo un conjunto específico de valores.
- **Datos Binarios:** Datos categóricos con solo dos categorías de valores.
- **Datos Ordinales:** Datos categóricos que tienen un orden explícito.

## Datos Rectangulares
El marco de referencia típico para un análisis en ciencia de datos es un objeto de datos rectangular, como una hoja de cálculo o una tabla de base de datos.

### Términos Clave para Datos Rectangulares
- **Data frame:** Datos rectangulares (como una hoja de cálculo) es la estructura de datos básica para modelos estadísticos y de aprendizaje automático.
- **Feature (Característica):** Una columna dentro de una tabla.
- **Outcome (Resultado):** Muchas tareas de ciencia de datos involucran predecir un resultado.
- **Records (Registros):** Una fila dentro de una tabla.

## Estimaciones de Ubicación
Variables con datos medidos o contados pueden tener miles de valores distintos. Un paso básico en la exploración de los datos es obtener un "valor típico" para cada característica (variable): una estimación de dónde se encuentra la mayor parte de los datos.

### Términos Clave para Estimaciones de Ubicación
- **Mean (Media):** La suma de todos los valores dividida por el número de valores.
- **Weighted mean (Media ponderada):** La suma de todos los valores multiplicados por un peso dividido por la suma de los pesos.
- **Median (Mediana):** El valor tal que la mitad de los datos está por encima y la otra mitad por debajo.
- **Percentile (Percentil):** El valor tal que P por ciento de los datos está por debajo de él.
- **Weighted median (Mediana ponderada):** El valor tal que la mitad de la suma de los pesos está por encima y la otra mitad por debajo de los datos ordenados.
- **Trimmed mean (Media recortada):** El promedio de todos los valores después de eliminar un número fijo de valores extremos.
- **Robust (Robusto):** No sensible a valores extremos.
- **Outlier (Valor atípico):** Un valor de datos que es muy diferente de la mayoría de los datos.

## Estimaciones de Variabilidad
La ubicación es solo una dimensión en la resumidero de una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide si los valores de los datos están estrechamente agrupados o dispersos.

### Términos Clave para Métricas de Variabilidad
- **Deviations (Desviaciones):** La diferencia entre los valores observados y la estimación de la ubicación.
- **Variance (Varianza):** La suma de las desviaciones cuadradas de la media dividida por n - 1.
- **Standard deviation (Desviación estándar):** La raíz cuadrada de la varianza.
- **Mean absolute deviation (Desviación media absoluta):** La media de los valores absolutos de las desviaciones de la media.
- **Median absolute deviation from the median:** La mediana de los valores absolutos de las desviaciones de la mediana.
- **Range (Rango):** La diferencia entre el valor más grande y el más pequeño en un conjunto de datos.
- **Order statistics (Estadísticas de orden):** Métricas basadas en los valores de datos ordenados de menor a mayor.
- **Percentile (Percentil):** El valor tal que P por ciento de los valores toman este valor o menos y (100 - P) por ciento toman este valor o más.
- **Interquartile range (Rango intercuartil):** La diferencia entre el percentil 75 y el percentil 25.

## Explorando la Distribución de los Datos

### Términos Clave para Explorar la Distribución
- **Boxplot (Diagrama de caja):** Un gráfico introducido por Tukey como una forma rápida de visualizar la distribución de los datos.
- **Frequency table (Tabla de frecuencias):** Un recuento de los valores de datos numéricos que caen en un conjunto de intervalos (bins).
- **Histogram (Histograma):** Un gráfico de la tabla de frecuencias con los intervalos en el eje x y el recuento (o proporción) en el eje y.
- **Density plot (Gráfico de densidad):** Una versión suavizada del histograma, a menudo basada en una estimación de densidad kernel.

### Percentiles y Diagramas de Caja
Los percentiles también son valiosos para resumir la distribución completa. Es común informar los cuartiles (percentiles 25, 50 y 75) y los deciles (percentiles 10, 20, ..., 90).

### Tablas de Frecuencias e Histogramas
Una tabla de frecuencias de una variable divide el rango de la variable en segmentos igualmente espaciados y nos dice cuántos valores caen dentro de cada segmento.

### Gráficos de Densidad y Estimaciones
Relacionado con el histograma está el gráfico de densidad, que muestra la distribución de valores de datos como una línea continua.

## Explorando Datos Binarios y Categóricos
Para datos categóricos, proporciones simples o porcentajes cuentan la historia de los datos.

### Términos Clave para Explorar Datos Categóricos
- **Mode (Moda):** La categoría o valor que ocurre con más frecuencia en un conjunto de datos.
- **Expected value (Valor esperado):** Cuando las categorías pueden asociarse con un valor numérico, esto da un valor promedio basado en la probabilidad de ocurrencia de una categoría.
- **Bar charts (Gráficos de barras):** La frecuencia o proporción para cada categoría representada como barras.
- **Pie charts (Gráficos de pastel):** La frecuencia o proporción para cada categoría representada como segmentos de un pastel.

## Correlación
El análisis exploratorio de datos en muchos proyectos de modelado (ya sea en ciencia de datos o en investigación) implica examinar la correlación entre predictores y entre predictores y una variable objetivo.

### Términos Clave para Correlación
- **Correlation coefficient (Coeficiente de correlación):** Una métrica que mide la extensión en que las variables numéricas están asociadas entre sí (varía de -1 a +1).
- **Correlation matrix (Matriz de correlación):** Una tabla donde las variables se muestran tanto en las filas como en las columnas, y los valores de las celdas son las correlaciones entre las variables.
- **Scatterplot (Diagrama de dispersión):** Un gráfico en el que el eje x es el valor de una variable y el eje y es el valor de otra.

## Explorando Dos o Más Variables
Las estimaciones familiares como la media y la varianza observan las variables una a la vez (análisis univariado). El análisis de correlación es un método importante que compara dos variables (análisis bivariado). En esta sección, observamos estimaciones y gráficos adicionales, y más de dos variables (análisis multivariado).

### Términos Clave para Explorar Dos o Más Variables
- **Contingency table (Tabla de contingencia):** Un recuento de cuentas entre dos o más variables categóricas.
- **Hexagonal binning (Agrupamiento hexagonal):** Un gráfico de dos variables numéricas con los registros agrupados en hexágonos.
- **Contour plot (Gráfico de contornos):** Un gráfico que muestra la densidad de dos variables numéricas como un mapa topográfico.
- **Violin plot (Gráfico de violín):** Similar a un diagrama de caja, pero mostrando la estimación de densidad.

### Binning Hexagonal y Contornos
Los gráficos de binning hexagonal y los gráficos de contornos son útiles para mostrar la relación entre dos variables numéricas.

### Dos Variables Categóricas
Una forma útil de resumir dos variables categóricas es una tabla de contingencia: una tabla de recuentos por categoría.



# Elements of Structured Data

Los datos provienen de muchas fuentes: mediciones de sensores, eventos, textos, imágenes y videos. El Internet de las Cosas (IoT) está generando corrientes de información. Gran parte de estos datos no están estructurados: las imágenes son una colección de píxeles, con cada píxel conteniendo información de color RGB (rojo, verde, azul). Los textos son secuencias de palabras y caracteres no palabras, a menudo organizados por secciones, subsecciones, etc. Las secuencias de clics son secuencias de acciones de un usuario interactuando con una aplicación o una página web. De hecho, un desafío importante de la ciencia de datos es convertir este torrente de datos en bruto en información procesable. Para aplicar los conceptos estadísticos cubiertos en este libro, los datos en bruto no estructurados deben ser procesados y manipulados en una forma estructurada. Una de las formas más comunes de datos estructurados es una tabla con filas y columnas, como los datos que podrían surgir de una base de datos relacional o ser recolectados para un estudio.

Hay dos tipos básicos de datos estructurados: numéricos y categóricos. Los datos numéricos vienen en dos formas: continuos, como la velocidad del viento o la duración del tiempo, y discretos, como el conteo de la ocurrencia de un evento. Los datos categóricos solo toman un conjunto fijo de valores, como el tipo de pantalla de TV (plasma, LCD, LED, etc.) o el nombre de un estado (Alabama, Alaska, etc.). Los datos binarios son un caso especial de datos categóricos que toman solo uno de dos valores, como 0/1, sí/no, o verdadero/falso. Otro tipo útil de datos categóricos son los datos ordinales en los que las categorías están ordenadas; un ejemplo de esto es una calificación numérica (1, 2, 3, 4 o 5).

¿Por qué nos molestamos con una taxonomía de tipos de datos? Resulta que, para los propósitos de análisis de datos y modelado predictivo, el tipo de dato es importante para ayudar a determinar el tipo de visualización, análisis de datos o modelo estadístico. De hecho, el software de ciencia de datos, como R y Python, utiliza estos tipos de datos para mejorar el rendimiento computacional. Más importante aún, el tipo de dato para una variable determina cómo el software manejará los cálculos para esa variable.

## Términos Clave para Tipos de Datos

- **Numeric (Numérico)**: Datos que se expresan en una escala numérica.

- **Continuous (Continuos)**: Datos que pueden tomar cualquier valor en un intervalo. (Sinónimos: intervalo, flotante, numérico)

- **Discrete (Discretos)**: Datos que solo pueden tomar valores enteros, como conteos. (Sinónimos: entero, conteo)

- **Categorical (Categóricos)**: Datos que solo pueden tomar un conjunto específico de valores que representan un conjunto de posibles categorías. (Sinónimos: enums, enumerados, factores, nominales)

- **Binary (Binarios)**: Un caso especial de datos categóricos con solo dos categorías de valores, por ejemplo, 0/1, verdadero/falso. (Sinónimos: dicotómicos, lógicos, indicadores, booleanos)

- **Ordinal (Ordinales)**: Datos categóricos que tienen un orden explícito. (Sinónimo: factor ordenado)

Los ingenieros de software y los programadores de bases de datos pueden preguntarse por qué necesitamos siquiera la noción de datos categóricos y ordinales para el análisis. Después de todo, las categorías son simplemente una colección de valores de texto (o numéricos), y la base de datos subyacente maneja automáticamente la representación interna. Sin embargo, la identificación explícita de datos como categóricos, en lugar de texto, ofrece algunas ventajas:

- Saber que los datos son categóricos puede actuar como una señal que le dice al software cómo deben comportarse los procedimientos estadísticos, como producir un gráfico o ajustar un modelo. En particular, los datos ordinales pueden ser representados como un ordered.factor en R, preservando un orden especificado por el usuario en gráficos, tablas y modelos. En Python, scikit-learn soporta datos ordinales con el sklearn.preprocessing.OrdinalEncoder.

- El almacenamiento y la indexación pueden ser optimizados (como en una base de datos relacional).

- Los valores posibles que una variable categórica dada puede tomar se imponen en el software (como un enum).

La tercera "ventaja" puede llevar a un comportamiento no deseado o inesperado: el comportamiento predeterminado de las funciones de importación de datos en R (por ejemplo, read.csv) es convertir automáticamente una columna de texto en un factor. Las operaciones subsecuentes en esa columna asumirán que los únicos valores permitidos para esa columna son los originalmente importados, y asignar un nuevo valor de texto introducirá una advertencia y producirá un NA (valor faltante). El paquete pandas en Python no hará tal conversión automáticamente. Sin embargo, puedes especificar una columna como categórica explícitamente en la función read_csv.

### Ideas Clave

- Los datos suelen clasificarse en software por tipo.
- Los tipos de datos incluyen numéricos (continuos, discretos) y categóricos (binarios, ordinales).
- La tipificación de datos en software actúa como una señal para el software sobre cómo procesar los datos.

### Lecturas Adicionales

- La documentación de pandas describe los diferentes tipos de datos y cómo se pueden manipular en Python.
- Los tipos de datos pueden ser confusos, ya que los tipos pueden superponerse, y la taxonomía en un software puede diferir de la de otro. El sitio web R Tutorial cubre la taxonomía para R. La documentación de pandas describe los diferentes tipos de datos y cómo se pueden manipular en Python.
- Las bases de datos son más detalladas en su clasificación de tipos de datos, incorporando consideraciones de niveles de precisión, campos de longitud fija o variable, y más; ver la guía de W3Schools sobre SQL.


# Rectangular Data

El marco de referencia típico para un análisis en ciencia de datos es un objeto de datos rectangular, como una hoja de cálculo o una tabla de base de datos.

Los datos rectangulares son el término general para una matriz bidimensional con filas que indican registros (casos) y columnas que indican características (variables); el data frame es el formato específico en R y Python. Los datos no siempre comienzan en esta forma: los datos no estructurados (por ejemplo, texto) deben ser procesados y manipulados para que puedan ser representados como un conjunto de características en los datos rectangulares. Los datos en bases de datos relacionales deben ser extraídos y puestos en una sola tabla para la mayoría de las tareas de análisis y modelado de datos.

## Términos Clave para Datos Rectangulares

- **Data frame**: Los datos rectangulares (como una hoja de cálculo) son la estructura de datos básica para modelos estadísticos y de aprendizaje automático.

- **Feature**: Una columna dentro de una tabla es comúnmente referida como una característica.

  - **Sinónimos**: atributo, input, predictor, variable

- **Outcome**: Muchos proyectos de ciencia de datos involucran predecir un resultado, a menudo un resultado sí/no (en la Tabla 1-1, es "auction was competitive or not"). Las características a veces se utilizan para predecir el resultado en un experimento o estudio.

  - **Sinónimos**: variable dependiente, respuesta, objetivo, output

- **Records**: Una fila dentro de una tabla es comúnmente referida como un registro.

  - **Sinónimos**: caso, ejemplo, instancia, observación, patrón, muestra

### Tabla 1-1. Formato típico de un data frame

| Category               | Currency | SellerRating | Duration | EndDay | ClosePrice | OpenPrice | Competitive? |
|------------------------|----------|--------------|----------|--------|------------|-----------|--------------|
| Music/Movie/Game       | US       | 3249         | 5        | Mon    | 0.01       | 0.01      | 0            |
| Music/Movie/Game       | US       | 3249         | 5        | Mon    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |

En la Tabla 1-1, hay una mezcla de datos medidos o contados (por ejemplo, duración y precio) y datos categóricos (por ejemplo, categoría y moneda). Como se mencionó anteriormente, una forma especial de variable categórica es una variable binaria (sí/no o 0/1), vista en la columna más a la derecha en la Tabla 1-1: una variable indicadora que muestra si una subasta fue competitiva (tuvo múltiples postores) o no. Esta variable indicadora también resulta ser una variable de resultado, cuando el escenario es predecir si una subasta es competitiva o no.

## Data Frames e Índices

Las tablas de bases de datos tradicionales tienen una o más columnas designadas como un índice, esencialmente un número de fila. Esto puede mejorar enormemente la eficiencia de ciertas consultas a la base de datos. En Python, con la biblioteca pandas, la estructura de datos rectangular básica es un objeto DataFrame. Por defecto, se crea un índice entero automático para un DataFrame basado en el orden de las filas. En pandas, también es posible establecer índices multinivel/jerárquicos para mejorar la eficiencia de ciertas operaciones.

En R, la estructura de datos rectangular básica es un objeto data.frame. Un data.frame también tiene un índice entero implícito basado en el orden de las filas. El data.frame nativo de R no soporta índices especificados por el usuario o multinivel, aunque se puede crear una clave personalizada a través del atributo row.names. Para superar esta deficiencia, dos nuevos paquetes están ganando un uso generalizado: data.table y dplyr. Ambos soportan índices multinivel y ofrecen mejoras significativas en la velocidad al trabajar con un data.frame.

### Diferencias de Terminología

La terminología para datos rectangulares puede ser confusa. Los estadísticos y los científicos de datos utilizan diferentes términos para lo mismo. Para un estadístico, las variables predictoras se utilizan en un modelo para predecir una respuesta o variable dependiente. Para un científico de datos, las características se utilizan para predecir un objetivo. Un sinónimo es particularmente confuso: los científicos de la computación utilizarán el término muestra para una sola fila; una muestra para un estadístico significa una colección de filas.

## Estructuras de Datos No Rectangulares

Existen otras estructuras de datos además de los datos rectangulares.

Los datos de series temporales registran mediciones sucesivas de la misma variable. Es la materia prima para los métodos de pronóstico estadístico y también es un componente clave de los datos producidos por dispositivos: el Internet de las Cosas.

Las estructuras de datos espaciales, que se utilizan en el mapeo y análisis de localización, son más complejas y variadas que las estructuras de datos rectangulares. En la representación de objetos, el foco de los datos es un objeto (por ejemplo, una casa) y sus coordenadas espaciales. La vista de campo, por el contrario, se centra en pequeñas unidades de espacio y el valor de una métrica relevante (por ejemplo, el brillo de un píxel).

Las estructuras de datos de grafos (o redes) se utilizan para representar relaciones físicas, sociales y abstractas. Por ejemplo, un grafo de una red social, como Facebook o LinkedIn, puede representar conexiones entre personas en la red. Los centros de distribución conectados por carreteras son un ejemplo de una red física. Las estructuras de grafos son útiles para ciertos tipos de problemas, como la optimización de redes y los sistemas de recomendación.

Cada uno de estos tipos de datos tiene su metodología especializada en la ciencia de datos. El enfoque de este libro es en los datos rectangulares, el bloque de construcción fundamental del modelado predictivo.

### Ideas Clave

- La estructura de datos básica en ciencia de datos es una matriz rectangular en la que las filas son registros y las columnas son variables (características).
- La terminología puede ser confusa; hay una variedad de sinónimos que surgen de las diferentes disciplinas que contribuyen a la ciencia de datos (estadística, ciencia de la computación y tecnología de la información).

### Lecturas Adicionales

- Documentación sobre data frames en R
- Documentación sobre data frames en Python


# Estimaciones de Ubicación

Las variables con datos medidos o contados pueden tener miles de valores distintos. Un paso básico en la exploración de tus datos es obtener un "valor típico" para cada característica (variable): una estimación de dónde se encuentra la mayor parte de los datos (es decir, su tendencia central).

## Términos Clave para Estimaciones de Ubicación

- **Media**: La suma de todos los valores dividida por el número de valores.
  - Sinónimo: promedio

- **Media ponderada**: La suma de todos los valores multiplicados por un peso dividida por la suma de los pesos.
  - Sinónimo: promedio ponderado

- **Mediana**: El valor tal que la mitad de los datos está por encima y por debajo.
  - Sinónimo: percentil 50

- **Percentil**: El valor tal que P por ciento de los datos está por debajo.
  - Sinónimo: cuantil

- **Mediana ponderada**: El valor tal que la mitad de la suma de los pesos está por encima y por debajo de los datos ordenados.

- **Media recortada**: El promedio de todos los valores después de eliminar un número fijo de valores extremos.
  - Sinónimo: media truncada

- **Robusto**: No sensible a valores extremos.
  - Sinónimo: resistente

- **Valor atípico**: Un valor de datos que es muy diferente de la mayoría de los datos.
  - Sinónimo: valor extremo

A primera vista, resumir los datos podría parecer bastante trivial: simplemente toma la media de los datos. De hecho, aunque la media es fácil de calcular y expedita de usar, puede que no siempre sea la mejor medida para un valor central. Por esta razón, los estadísticos han desarrollado y promovido varias estimaciones alternativas a la media.

## Métricas y Estimaciones

Los estadísticos a menudo usan el término estimación para un valor calculado a partir de los datos a la mano, para hacer una distinción entre lo que vemos en los datos y el estado teórico verdadero o exacto. Los científicos de datos y los analistas de negocios son más propensos a referirse a dicho valor como una métrica. La diferencia refleja el enfoque de la estadística frente al de la ciencia de datos: la contabilidad de la incertidumbre está en el corazón de la disciplina de la estadística, mientras que los objetivos concretos de negocios u organizacionales son el enfoque de la ciencia de datos. Por lo tanto, los estadísticos estiman, y los científicos de datos miden.

### Media

La estimación más básica de la ubicación es la media, o valor promedio. La media es la suma de todos los valores dividida por el número de valores. Considera el siguiente conjunto de números: {3, 5, 1, 2}. La media es:

\[ \text{Media} = \frac{3 + 5 + 1 + 2}{4} = \frac{11}{4} = 2.75 \]

Verás que se usa el símbolo \(\bar{x}\) (pronunciado "x-barra") para representar la media de una muestra de una población. La fórmula para calcular la media para un conjunto de \(n\) valores \(x_1, x_2, \ldots, x_n\) es:

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]

Una variación de la media es una media recortada, que se calcula eliminando un número fijo de valores ordenados en cada extremo y luego tomando un promedio de los valores restantes. Representando los valores ordenados por \(x_1, x_2, \ldots, x_n\) donde \(x_1\) es el valor más pequeño y \(x_n\) el más grande, la fórmula para calcular la media recortada con \(p\) valores más pequeños y más grandes omitidos es:

\[ \bar{x}_{\text{recortada}} = \frac{1}{n - 2p} \sum_{i=p+1}^{n-p} x_i \]

Una media recortada elimina la influencia de valores extremos. Por ejemplo, en el buceo internacional se eliminan la puntuación más alta y más baja de cinco jueces, y la puntuación final es el promedio de las puntuaciones de los tres jueces restantes. Esto hace que sea difícil para un solo juez manipular la puntuación, quizás para favorecer al concursante de su país. Las medias recortadas se utilizan ampliamente y, en muchos casos, son preferibles a usar la media ordinaria.

Otro tipo de media es una media ponderada, que se calcula multiplicando cada valor de datos \(x_i\) por un peso especificado por el usuario \(w_i\) y dividiendo su suma por la suma de los pesos. La fórmula para una media ponderada es:

\[ \bar{x}_w = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} \]

Hay dos motivaciones principales para usar una media ponderada:

- Algunos valores son intrínsecamente más variables que otros, y las observaciones altamente variables se les da un peso menor. Por ejemplo, si estamos tomando el promedio de múltiples sensores y uno de los sensores es menos preciso, entonces podríamos darle menos peso a los datos de ese sensor.
- Los datos recopilados no representan igualmente a los diferentes grupos que estamos interesados en medir. Por ejemplo, debido a la forma en que se realizó un experimento en línea, es posible que no tengamos un conjunto de datos que refleje con precisión todos los grupos en la base de usuarios. Para corregir eso, podemos dar un mayor peso a los valores de los grupos que estaban subrepresentados.

### Mediana y Estimaciones Robustas

La mediana es el número central en una lista ordenada de los datos. Si hay un número par de valores de datos, el valor central es uno que no está realmente en el conjunto de datos, sino el promedio de los dos valores que dividen los datos ordenados en mitades superior e inferior. En comparación con la media, que utiliza todas las observaciones, la mediana depende solo de los valores en el centro de los datos ordenados. Aunque esto podría parecer una desventaja, ya que la media es mucho más sensible a los datos, hay muchos casos en los que la mediana es una mejor métrica para la ubicación.

Supongamos que queremos observar los ingresos familiares típicos en vecindarios alrededor del Lago Washington en Seattle. Al comparar el vecindario de Medina con el de Windermere, usar la media produciría resultados muy diferentes porque Bill Gates vive en Medina. Si usamos la mediana, no importará cuán rico sea Bill Gates, la posición de la observación central seguirá siendo la misma.

Por las mismas razones que se usa una media ponderada, también es posible calcular una mediana ponderada. Al igual que con la mediana, primero ordenamos los datos, aunque cada valor de datos tiene un peso asociado. En lugar del número central, la mediana ponderada es un valor tal que la suma de los pesos es igual para las mitades inferior y superior de la lista ordenada. Al igual que la mediana, la mediana ponderada es robusta frente a valores atípicos.

### Valores Atípicos

La mediana se refiere como una estimación robusta de la ubicación ya que no se ve influenciada por valores atípicos (casos extremos) que podrían sesgar los resultados. Un valor atípico es cualquier valor que está muy distante de los otros valores en un conjunto de datos. La definición exacta de un valor atípico es algo subjetiva, aunque ciertas convenciones se utilizan en varios resúmenes de datos y gráficos. Ser un valor atípico en sí mismo no hace que un valor de datos sea inválido o erróneo. Aun así, los valores atípicos a menudo son el resultado de errores de datos como mezclar datos de diferentes unidades (kilómetros frente a metros) o lecturas incorrectas de un sensor. Cuando los valores atípicos son el resultado de datos incorrectos, la media dará lugar a una mala estimación de la ubicación, mientras que la mediana seguirá siendo válida. En cualquier caso, los valores atípicos deben ser identificados y generalmente merecen una investigación adicional.

#### Detección de Anomalías

En contraste con el análisis típico de datos, donde los valores atípicos son a veces informativos y otras veces una molestia, en la detección de anomalías los puntos de interés son los valores atípicos, y la mayor parte de los datos sirve principalmente para definir lo "normal" contra lo cual se miden las anomalías.

La mediana no es la única estimación robusta de la ubicación. De hecho, una media recortada se utiliza ampliamente para evitar la influencia de valores atípicos. Por ejemplo, recortar el 10% inferior y superior (una elección común) de los datos proporcionará protección contra valores atípicos en todos los conjuntos de datos, excepto en los más pequeños. La media recortada puede considerarse un compromiso entre la mediana y la media: es robusta frente a valores extremos en los datos, pero utiliza más datos para calcular la estimación de la ubicación.

#### Ejemplo: Estimaciones de Ubicación de la Población y las Tasas de Homicidios

La Tabla 1-2 muestra las primeras filas del conjunto de datos que contiene la población y las tasas de homicidios (en unidades de asesinatos por cada 100,000 personas por año) para cada estado de EE. UU. (Censo de 2010).

| Estado       | Población  | Tasa de Homicidios | Abreviatura |
|--------------|-------------|-------------------|-------------|
| Alabama      | 4,779,736   | 5.7               | AL          |
| Alaska       | 710,231     | 5.6               | AK          |
| Arizona      | 6,392,017   | 4.7               | AZ          |
| Arkansas     | 2,915,918   | 5.6               | AR          |
| California   | 37,253,956  | 4.4               | CA          |
| Colorado     | 5,029,196   | 2.8               | CO          |
| Connecticut  | 3,574,097   | 2.4               | CT          |
| Delaware     | 897,934     | 5.8               | DE          |

Calcula la media, la media recortada y la mediana para la población usando Python:

```python
import pandas as pd
from scipy.stats import trim_mean

# Cargar los datos
state = pd.read_csv('state.csv')

# Calcular la media, la media recortada y la mediana
mean_population = state['Population'].mean()
trimmed_mean_population = trim_mean(state['Population'], 0.1)
median_population = state['Population'].median()

print("Media de la Población:", mean_population)
print("Media Recortada de la Población:", trimmed_mean_population)
print("Mediana de la Población:", median_population)


# Estimaciones de Variabilidad

La ubicación es solo una dimensión para resumir una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide si los valores de los datos están estrechamente agrupados o dispersos. En el corazón de la estadística se encuentra la variabilidad: medirla, reducirla, distinguir la variabilidad aleatoria de la real, identificar las diversas fuentes de variabilidad real y tomar decisiones en su presencia.

## Términos Clave para Métricas de Variabilidad

- **Desviaciones**: La diferencia entre los valores observados y la estimación de ubicación.
  - Sinónimos: errores, residuales.
  
- **Varianza**: La suma de las desviaciones al cuadrado con respecto a la media, dividida por n - 1, donde n es el número de valores de datos.
  - Sinónimo: error cuadrático medio.
  
- **Desviación estándar**: La raíz cuadrada de la varianza.
  
- **Desviación absoluta media**: La media de los valores absolutos de las desviaciones con respecto a la media.
  - Sinónimos: norma L1, norma Manhattan.
  
- **Desviación absoluta mediana desde la mediana**: La mediana de los valores absolutos de las desviaciones con respecto a la mediana.
  
- **Rango**: La diferencia entre el valor más grande y el más pequeño en un conjunto de datos.
  
- **Estadísticas de orden**: Métricas basadas en los valores de los datos ordenados de menor a mayor.
  - Sinónimo: rangos.
  
- **Percentil**: El valor tal que P por ciento de los valores toman este valor o menos y (100 - P) por ciento toman este valor o más.
  - Sinónimo: cuantil.
  
- **Rango intercuartílico (IQR)**: La diferencia entre el percentil 75 y el percentil 25.
  - Sinónimo: IQR.

Así como hay diferentes formas de medir la ubicación (media, mediana, etc.), también hay diferentes formas de medir la variabilidad.

## Desviación Estándar y Estimaciones Relacionadas

Las estimaciones de variación más utilizadas se basan en las diferencias, o desviaciones, entre la estimación de la ubicación y los datos observados. Para un conjunto de datos {1, 4, 4}, la media es 3 y la mediana es 4. Las desviaciones con respecto a la media son las diferencias: 1 - 3 = -2, 4 - 3 = 1, 4 - 3 = 1. Estas desviaciones nos dicen cuán dispersos están los datos alrededor del valor central.

Una forma de medir la variabilidad es estimar un valor típico para estas desviaciones. Promediar las desviaciones en sí mismas no nos diría mucho: las desviaciones negativas compensan las positivas. De hecho, la suma de las desviaciones con respecto a la media es precisamente cero. En cambio, un enfoque simple es tomar el promedio de los valores absolutos de las desviaciones con respecto a la media. En el ejemplo anterior, el valor absoluto de las desviaciones es {2, 1, 1}, y su promedio es (2 + 1 + 1) / 3 = 1.33. Esto se conoce como desviación absoluta media y se calcula con la fórmula:

\[
\text{Desviación absoluta media} = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}
\]

donde \(\bar{x}\) es la media de la muestra.

Las estimaciones más conocidas de la variabilidad son la varianza y la desviación estándar, que se basan en desviaciones al cuadrado. La varianza es un promedio de las desviaciones al cuadrado y la desviación estándar es la raíz cuadrada de la varianza:

\[
\text{Varianza} = s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}
\]

\[
\text{Desviación estándar} = s = \sqrt{\text{Varianza}}
\]

La desviación estándar es mucho más fácil de interpretar que la varianza, ya que está en la misma escala que los datos originales. Aún así, con su fórmula más complicada y menos intuitiva, podría parecer peculiar que la desviación estándar sea preferida en estadística sobre la desviación absoluta media. Debe su preeminencia a la teoría estadística: matemáticamente, trabajar con valores al cuadrado es mucho más conveniente que con valores absolutos, especialmente para modelos estadísticos.

### Grados de Libertad, y ¿n o n - 1?

En los libros de estadística, siempre hay alguna discusión sobre por qué tenemos n - 1 en el denominador en la fórmula de la varianza, en lugar de n, llevando al concepto de grados de libertad. Esta distinción no es importante, ya que n generalmente es lo suficientemente grande como para que no haga mucha diferencia si se divide por n o n - 1. Pero, en caso de que estés interesado, aquí está la historia. Se basa en la premisa de que deseas hacer estimaciones sobre una población, basadas en una muestra.

Si usas el denominador intuitivo de n en la fórmula de la varianza, subestimarás el valor real de la varianza y la desviación estándar en la población. Esto se refiere como una estimación sesgada. Sin embargo, si divides por n - 1 en lugar de n, la varianza se convierte en una estimación no sesgada.

Para explicar completamente por qué usar n lleva a una estimación sesgada, se involucra la noción de grados de libertad, que toma en cuenta el número de restricciones al calcular una estimación. En este caso, hay n - 1 grados de libertad, ya que hay una restricción: la desviación estándar depende de calcular la media de la muestra. Para la mayoría de los problemas, los científicos de datos no necesitan preocuparse por los grados de libertad.



Ni la varianza, ni la desviación estándar, ni la desviación absoluta media son robustas frente a valores atípicos y extremos (ver “Mediana y Estimaciones Robustas” en la página 10 para una discusión sobre estimaciones robustas de ubicación). La varianza y la desviación estándar son especialmente sensibles a los valores atípicos, ya que se basan en las desviaciones al cuadrado.

Una estimación robusta de la variabilidad es la desviación absoluta mediana respecto a la mediana o MAD:
\[
\text{Desviación absoluta mediana} = \text{Mediana} \left( |x_1 - m|, |x_2 - m|, \ldots, |x_N - m| \right)
\]
donde \( m \) es la mediana. Al igual que la mediana, el MAD no se ve influenciado por valores extremos.

También es posible calcular una desviación estándar recortada análoga a la media recortada (ver “Media” en la página 9).


### Ejemplo: Estimaciones de Variabilidad de la Población del Estado

La Tabla 1-3 (repetida de la Tabla 1-2 para mayor comodidad) muestra las primeras filas del conjunto de datos que contiene la población y las tasas de homicidios para cada estado.

```python
import pandas as pd
import numpy as np
import statsmodels.api as sm

# Cargar los datos
state = pd.read_csv('state.csv')

# Desviación estándar
std_dev = state['Population'].std()
print("Desviación estándar:", std_dev)

# Rango intercuartílico (IQR)
iqr = state['Population'].quantile(0.75) - state['Population'].quantile(0.25)
print("Rango intercuartílico (IQR):", iqr)

# Desviación absoluta mediana (MAD)
mad = sm.robust.scale.mad(state['Population'])
print("Desviación absoluta mediana (MAD):", mad)


### Estimaciones Basadas en Percentiles

Un enfoque diferente para estimar la dispersión se basa en observar la extensión de los datos ordenados. Las estadísticas basadas en datos ordenados (clasificados) se denominan estadísticas de orden. La medida más básica es el rango: la diferencia entre los números más grandes y más pequeños. Los valores mínimos y máximos en sí mismos son útiles y ayudan a identificar valores atípicos, pero el rango es extremadamente sensible a los valores atípicos y no es muy útil como una medida general de dispersión en los datos.

Para evitar la sensibilidad a los valores atípicos, podemos observar el rango de los datos después de eliminar valores de cada extremo. Formalmente, estos tipos de estimaciones se basan en las diferencias entre percentiles. En un conjunto de datos, el percentil P es un valor tal que al menos el P por ciento de los valores tienen este valor o menos y al menos (100 – P) por ciento de los valores tienen este valor o más. Por ejemplo, para encontrar el percentil 80, ordena los datos. Luego, comenzando con el valor más pequeño, avanza el 80 por ciento del camino hacia el valor más grande. Cabe señalar que la mediana es lo mismo que el percentil 50. El percentil es esencialmente lo mismo que un cuantil, con cuantiles indexados por fracciones (por lo que el cuantil 0.8 es lo mismo que el percentil 80).

Una medida común de variabilidad es la diferencia entre el percentil 25 y el percentil 75, llamada rango intercuartil (o IQR). Aquí hay un ejemplo simple: {3,1,5,3,6,7,2,9}. Los ordenamos para obtener {1,2,3,3,5,6,7,9}. El percentil 25 está en 2.5 y el percentil 75 está en 6.5, por lo que el rango intercuartil es 6.5 – 2.5 = 4. El software puede tener enfoques ligeramente diferentes que producen respuestas diferentes (ver el siguiente consejo); típicamente, estas diferencias son menores.

Para conjuntos de datos muy grandes, calcular percentiles exactos puede ser computacionalmente muy costoso ya que requiere ordenar todos los valores de los datos. El software de aprendizaje automático y estadístico utiliza algoritmos especiales, como [Zhang-Wang-2007], para obtener un percentil aproximado que se puede calcular muy rápidamente y se garantiza que tiene cierta precisión.

#### Percentil: Definición Precisa

Si tenemos un número par de datos (n es par), entonces el percentil es ambiguo según la definición anterior. De hecho, podríamos tomar cualquier valor entre las estadísticas de orden \( x_j \) y \( x_{j+1} \) donde \( j \) satisface:

<div style="text-align: center;">
\[
100 \cdot \frac{j}{n} \leq P < 100 \cdot \frac{j+1}{n}
\]
</div>

Formalmente, el percentil es el promedio ponderado:

<div style="text-align: center;">
\[
\text{Percentil P} = (1 - w) \cdot x_j + w \cdot x_{j+1}
\]
</div>

para algún peso \( w \) entre 0 y 1. El software estadístico tiene enfoques ligeramente diferentes para elegir \( w \). De hecho, la función `quantile` de R ofrece nueve alternativas diferentes para calcular el cuantil. Excepto para conjuntos de datos pequeños, generalmente no necesitas preocuparte por la forma precisa en que se calcula un percentil. Al momento de escribir esto, `numpy.quantile` de Python admite solo un enfoque, la interpolación lineal.


### Características de los Percentiles

1. **Independencia de la Distribución**:
   - Los percentiles son una medida no paramétrica, lo que significa que no dependen de la forma de la distribución de los datos. Pueden ser utilizados para describir cualquier conjunto de datos, independientemente de su distribución.

2. **Robustez frente a Valores Atípicos**:
   - Los percentiles no son tan sensibles a los valores atípicos como otras medidas de dispersión, como la varianza y la desviación estándar. Esto los hace útiles en distribuciones con outliers o distribuciones sesgadas.

3. **Descriptivos de Posición**:
   - Los percentiles proporcionan una descripción clara de la posición de un dato en el contexto del conjunto de datos. Por ejemplo, el percentil 50 (la mediana) indica el punto medio de los datos.

### Aplicabilidad en Diferentes Distribuciones

1. **Distribuciones Normales**:
   - En una distribución normal, los percentiles tienen interpretaciones específicas debido a la simetría y las propiedades de la campana de Gauss. Por ejemplo, el percentil 50 corresponde a la media, y los percentiles 25 y 75 corresponden a una desviación estándar a cada lado de la media.

2. **Distribuciones Sesgadas**:
   - Los percentiles siguen siendo útiles en distribuciones sesgadas porque no dependen de la media y la desviación estándar. En una distribución sesgada, la mediana (percentil 50) es una mejor medida de tendencia central que la media.

3. **Distribuciones Multimodales**:
   - En distribuciones con múltiples modos, los percentiles ayudan a describir la posición de los datos en relación con cada modo. Esto es útil para entender la estructura de la distribución.

4. **Distribuciones Asimétricas**:
   - Los percentiles son adecuados para distribuciones asimétricas, ya que no se ven afectados por la falta de simetría. La mediana y el rango intercuartílico son especialmente útiles en estos casos.

### Ejemplo Práctico

Imaginemos tres conjuntos de datos diferentes: uno con una distribución normal, otro con una distribución sesgada y otro con una distribución multimodal. En cada caso, los percentiles pueden proporcionar información valiosa sobre la distribución de los datos.

1. **Distribución Normal**:
   - Datos: \[ x = [3, 5, 7, 9, 11, 13, 15, 17, 19] \]
   - Percentil 25: \( P25 \approx 7 \)
   - Mediana (P50): \( P50 = 11 \)
   - Percentil 75: \( P75 \approx 15 \)

2. **Distribución Sesgada**:
   - Datos: \[ x = [1, 2, 3, 4, 5, 6, 7, 8, 20] \]
   - Percentil 25: \( P25 \approx 3 \)
   - Mediana (P50): \( P50 = 5 \)
   - Percentil 75: \( P75 \approx 7 \)

3. **Distribución Multimodal**:
   - Datos: \[ x = [1, 1, 2, 2, 9, 9, 10, 10] \]
   - Percentil 25: \( P25 \approx 2 \)
   - Mediana (P50): \( P50 = 5.5 \)
   - Percentil 75: \( P75 \approx 9.5 \)

### Interpretación Estadística

- **Distribución Normal**: Los percentiles muestran la simetría de la distribución alrededor de la mediana.
- **Distribución Sesgada**: La mediana es una mejor medida de la tendencia central que la media, y el rango intercuartílico proporciona una buena medida de la dispersión.
- **Distribución Multimodal**: Los percentiles ayudan a entender cómo se distribuyen los datos en torno a los diferentes modos.

### Conclusión

Los percentiles son una herramienta versátil y poderosa para analizar y describir datos, independientemente de la forma de la distribución. Son especialmente útiles para entender la dispersión, identificar valores atípicos y describir la tendencia central en diferentes tipos de distribuciones.
