In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns

In [2]:
# !pip install scipy
# !pip install statsmodels
# !pip install pingouin



In [3]:
from scipy import stats 
import statsmodels as sm
import pingouin as pg

# Estadistica para ciencia de Datos

# 1. Estadistica Descriptiva 

## Conceptos básicos

## Introducción

La estadística clásica se enfocó casi exclusivamente en la inferencia, un conjunto a veces complejo de procedimientos para sacar conclusiones sobre grandes poblaciones basadas en muestras pequeñas. En 1962, John W. Tukey llamó a una reforma de la estadística en su artículo seminal "The Future of Data Analysis" [Tukey-1962]. Propuso una nueva disciplina científica llamada análisis de datos que incluía la inferencia estadística como un componente más. Tukey presentó gráficos simples (por ejemplo, diagramas de caja, diagramas de dispersión) que, junto con estadísticas resumen (media, mediana, cuantiles, etc.), ayudan a pintar un cuadro de un conjunto de datos.

## Tipos Básicos de Datos Estructurados  

Hay dos tipos básicos de datos estructurados: `numéricos` y `categóricos`.  
Los datos numéricos vienen en dos formas: `continuos`, como la velocidad del viento o la duración del tiempo, y `discretos`, como el conteo de la ocurrencia de un evento.  
Los datos categóricos solo toman un conjunto fijo de valores, como el tipo de pantalla de TV (plasma, LCD, LED, etc.) o el nombre de un estado (Alabama, Alaska, etc.).  
Los datos binarios son un caso especial de datos categóricos que toman solo uno de dos valores, como 0/1, sí/no, o verdadero/falso.  
Otro tipo útil de datos categóricos son los datos ordinales en los que las categorías están ordenadas; un ejemplo de esto es una calificación numérica (1, 2, 3, 4 o 5), los grados en la ESO pueden clasificarse como ordinales.


## Términos Clave para Tipos de Datos

- **Numeric (Numérico)**: Datos que se expresan en una escala numérica.

- **Continuous (Continuos)**: Datos que pueden tomar cualquier valor en un intervalo. (Sinónimos: intervalo, flotante, numérico)

- **Discrete (Discretos)**: Datos que solo pueden tomar valores enteros, como conteos. (Sinónimos: entero, conteo)

- **Categorical (Categóricos)**: Datos que solo pueden tomar un conjunto específico de valores que representan un conjunto de posibles categorías. (Sinónimos: enums, enumerados, factores, nominales)

- **Binary (Binarios)**: Un caso especial de datos categóricos con solo dos categorías de valores, por ejemplo, 0/1, verdadero/falso. (Sinónimos: dicotómicos, lógicos, indicadores, booleanos)

- **Ordinal (Ordinales)**: Datos categóricos que tienen un orden explícito. (Sinónimo: factor ordenado)




# Rectangular Data  

Los datos rectangulares son el término general para un array bidimensional con filas que indican registros (casos) y columnas que indican características (features),  (variables); el data frame es el formato específico en R y Python.  
Los datos no siempre comienzan en esta forma: los datos no estructurados (por ejemplo, texto) deben ser procesados y manipulados para que puedan ser representados como un conjunto de características en los datos rectangulares.  
Los datos en bases de datos relacionales deben ser extraídos y puestos en una sola tabla para la mayoría de las tareas de análisis y modelado de datos.


## Términos Clave para Datos Rectangulares

- **Data frame**: Los datos rectangulares (como una hoja de cálculo) son la estructura de datos básica para modelos estadísticos y de aprendizaje automático.

- **Feature**: Una columna dentro de una tabla es comúnmente referida como una característica.

  - **Sinónimos**: atributo, input, predictor, variable

- **Outcome**: Muchos proyectos de ciencia de datos involucran predecir un resultado, a menudo un resultado sí/no (en la Tabla 1-1, es "auction was competitive or not"). Las características a veces se utilizan para predecir el resultado en un experimento o estudio.

  - **Sinónimos**: variable dependiente, respuesta, objetivo, output

- **Records**: Una fila dentro de una tabla es comúnmente referida como un registro.

  - **Sinónimos**: caso, ejemplo, instancia, observación, patrón, muestra

### Tabla 1-1. Formato típico de un data frame

| Category               | Currency | SellerRating | Duration | EndDay | ClosePrice | OpenPrice | Competitive? |
|------------------------|----------|--------------|----------|--------|------------|-----------|--------------|
| Music/Movie/Game       | US       | 3249         | 5        | Mon    | 0.01       | 0.01      | 0            |
| Music/Movie/Game       | US       | 3249         | 5        | Mon    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 0            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |
| Automotive             | US       | 3115         | 7        | Tue    | 0.01       | 0.01      | 1            |

En la Tabla 1-1, hay una mezcla de datos medidos o contados (por ejemplo, duración y precio) y datos categóricos (por ejemplo, categoría y moneda). Como se mencionó anteriormente, una forma especial de variable categórica es una variable binaria (sí/no o 0/1), vista en la columna más a la derecha en la Tabla 1-1: una variable indicadora que muestra si una subasta fue competitiva (tuvo múltiples postores) o no. Esta variable indicadora también resulta ser una variable de resultado, cuando el escenario es predecir si una subasta es competitiva o no.

## Estructuras de Datos No Rectangulares

Los **datos de series temporales** registran mediciones sucesivas de la misma variable. Es la materia prima para los métodos de pronóstico estadístico y también es un componente clave de los datos producidos por dispositivos: el Internet de las Cosas.

Las **estructuras de datos espaciales**, que se utilizan en el mapeo y análisis de localización, son más complejas y variadas que las estructuras de datos rectangulares.   

En la **representación de objetos**, el foco de los datos es un objeto (por ejemplo, una casa) y sus coordenadas espaciales. La vista de campo, por el contrario, se centra en pequeñas unidades de espacio y el valor de una métrica relevante (por ejemplo, el brillo de un píxel).

Las **estructuras de datos de grafos (o redes)** se utilizan para representar relaciones físicas, sociales y abstractas. Por ejemplo, un grafo de una red social, como Facebook o LinkedIn, puede representar conexiones entre personas en la red. Los centros de distribución conectados por carreteras son un ejemplo de una red física. Las estructuras de grafos son útiles para ciertos tipos de problemas, como la optimización de redes y los sistemas de recomendación.



# 1.1 Estimaciones de Ubicación (o medidas de tendencia central)

Las variables con datos medidos o contados pueden tener miles de valores distintos. Un paso básico en la exploración de tus datos es obtener un "valor típico" para cada característica (variable): una estimación de dónde se encuentra la mayor parte de los datos (es decir, su tendencia central).

## Términos Clave para Estimaciones de Ubicación

- **Media**: La suma de todos los valores dividida por el número de valores.
  - Sinónimo: promedio

- **Media ponderada**: La suma de todos los valores multiplicados por un peso dividida por la suma de los pesos.
  - Sinónimo: promedio ponderado

- **Mediana**: El valor tal que la mitad de los datos está por encima y por debajo.
  - Sinónimo: percentil 50

- **Percentil**: El valor tal que P por ciento de los datos está por debajo.
  - Sinónimo: cuantil

- **Mediana ponderada**: El valor tal que la mitad de la suma de los pesos está por encima y por debajo de los datos ordenados.

- **Media recortada**: El promedio de todos los valores después de eliminar un número fijo de valores extremos.
  - Sinónimo: media truncada

- **Robusto**: No sensible a valores extremos.
  - Sinónimo: resistente

- **Valor atípico**: Un valor de datos que es muy diferente de la mayoría de los datos.
  - Sinónimo: valor extremo

A primera vista, resumir los datos podría parecer bastante trivial: simplemente toma la media de los datos. De hecho, aunque la media es fácil de calcular y expedita de usar, puede que no siempre sea la mejor medida para un valor central. Por esta razón, los estadísticos han desarrollado y promovido varias estimaciones alternativas a la media.

## Métricas y Estimaciones

Los estadísticos a menudo usan el término estimación para un valor calculado a partir de los datos a la mano, para hacer una distinción entre lo que vemos en los datos y el estado teórico verdadero o exacto. Los científicos de datos y los analistas de negocios son más propensos a referirse a dicho valor como una métrica. 

### Media

La estimación más básica de la ubicación es la media, o valor promedio. La media es la suma de todos los valores dividida por el número de valores. Considera el siguiente conjunto de números: {3, 5, 1, 2}. La media es:

$ \text{Media} = \frac{3 + 5 + 1 + 2}{4} = \frac{11}{4} = 2.75 $

Verás que se usa el símbolo $\bar{x}$ (pronunciado "x-barra") para representar la media de una muestra de una población. La fórmula para calcular la media para un conjunto de $n$ valores $x_1, x_2, \ldots, x_n$ es:

$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $

**Ejemplos**

#### Con SciPy

In [7]:
import numpy as np
from scipy import stats

# Crear un conjunto de datos de ejemplo
data = np.array([3, 5, 1, 2, 7, 8, 10, 6, 4, 9])
data

array([ 3,  5,  1,  2,  7,  8, 10,  6,  4,  9])

In [8]:
# Calcular la media usando scipy
mean_scipy = np.mean(data)
print("Media usando SciPy:", mean_scipy)

Media usando SciPy: 5.5


#### Usando Pandas

In [9]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9]})
df

Unnamed: 0,values
0,3
1,5
2,1
3,2
4,7
5,8
6,10
7,6
8,4
9,9


In [10]:
# Calcular la media usando pandas
mean_pandas = df['values'].mean()
print("Media usando Pandas:", mean_pandas)

Media usando Pandas: 5.5


#### Usando Statsmodels

In [12]:
import statsmodels.api as sm
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9]})

# Agregar una columna de unos para representar el intercepto
df['intercept'] = 1

# Ajustar un modelo de regresión sin variables explicativas, solo el intercepto
model = sm.OLS(df['values'], df['intercept']).fit()

# La media es el valor del intercepto
mean_statsmodels = model.params['intercept']
print("Media usando Statsmodels:", mean_statsmodels)

Media usando Statsmodels: 5.500000000000001


**Calcula la media de los mismos datos dados arriba pero esta vez usando la libreria pingouine**

Una variación de la media es una media recortada (trimmed mean), que se calcula eliminando un número fijo de valores ordenados en cada extremo y luego tomando un promedio de los valores restantes. Representando los valores ordenados por $x_1, x_2, \ldots, x_n$ donde $x_1$ es el valor más pequeño y $x_n$ el más grande, la fórmula para calcular la media recortada con $p$ valores más pequeños y más grandes omitidos es:

$\bar{x}_{\text{recortada}} = \frac{1}{n - 2p} \sum_{i=p+1}^{n-p} x_i$

Una media recortada elimina la influencia de valores extremos. Por ejemplo, en el buceo internacional se eliminan la puntuación más alta y más baja de cinco jueces, y la puntuación final es el promedio de las puntuaciones de los tres jueces restantes. Esto hace que sea difícil para un solo juez manipular la puntuación, quizás para favorecer al concursante de su país. Las medias recortadas se utilizan ampliamente y, en muchos casos, son preferibles a usar la media ordinaria.

**Ejempos con Python**

#### SciPy

In [14]:
import numpy as np
from scipy.stats import trim_mean

# Crear un conjunto de datos de ejemplo
data = np.array([3, 5, 1, 2, 7, 8, 10, 6, 4, 9])

# Calcular la media recortada usando scipy
trimmed_mean_scipy = trim_mean(data, 0.1)  # Recorta el 10% de cada extremo
print("Media recortada usando SciPy:", trimmed_mean_scipy)

Media recortada usando SciPy: 5.5


#### Pandas

In [16]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9]})

# Calcular la media recortada usando pandas
trimmed_df = df['values'].sort_values().iloc[int(0.1*len(df)):int(0.9*len(df))]
trimmed_mean_pandas = trimmed_df.mean()
print("Media recortada usando Pandas:", trimmed_mean_pandas)

Media recortada usando Pandas: 5.5


**Explique el código de arriba**

#### Statsmodels  
No tiene un método directo. Se calcula de forma indirecta.

In [19]:
import statsmodels.api as sm
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9]})

# Usar una función personalizada para calcular la media recortada
def trimmed_mean(data, proportiontocut):
    n = len(data)
    k = int(n * proportiontocut)
    trimmed_data = np.sort(data)[k:n-k]
    return np.mean(trimmed_data)

# Calcular la media recortada usando la función personalizada
trimmed_mean_statsmodels = trimmed_mean(df['values'], 0.1)
print("Media recortada usando una función personalizada con Statsmodels:", trimmed_mean_statsmodels)


Media recortada usando una función personalizada con Statsmodels: 5.5


**Explique el código de arriba**

### Investigar como se calcula la media recortada con pingouine

Otro tipo de media es una `media ponderada (weighted mean)`, que se calcula multiplicando cada valor de datos $x_i$ por un peso especificado por el usuario $w_i$ y dividiendo su suma por la suma de los pesos. La fórmula para una media ponderada es:

$\bar{x}_w = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i}$

Hay dos motivaciones principales para usar una media ponderada:

- Algunos valores son intrínsecamente más variables que otros, y las observaciones altamente variables se les da un peso menor. Por ejemplo, si estamos tomando el promedio de múltiples sensores y uno de los sensores es menos preciso, entonces podríamos darle menos peso a los datos de ese sensor.
- Los datos recopilados no representan igualmente a los diferentes grupos que estamos interesados en medir. Por ejemplo, debido a la forma en que se realizó un experimento en línea, es posible que no tengamos un conjunto de datos que refleje con precisión todos los grupos en la base de usuarios. Para corregir eso, podemos dar un mayor peso a los valores de los grupos que estaban subrepresentados.

**Ejemplos con Python**

Vamos a utilizar un conjunto de datos simple donde cada valor tiene un peso asociado:

In [21]:
values = np.array([3, 5, 1, 2, 7, 8, 10, 6, 4, 9])
weights = np.array([1, 2, 1, 1, 2, 1, 3, 2, 1, 2])

#### Scipy

In [22]:
import numpy as np
from scipy.stats import describe

# Crear un conjunto de datos de ejemplo
values = np.array([3, 5, 1, 2, 7, 8, 10, 6, 4, 9])
weights = np.array([1, 2, 1, 1, 2, 1, 3, 2, 1, 2])

# Calcular la media ponderada usando scipy
weighted_mean_scipy = np.average(values, weights=weights)
print("Media ponderada usando SciPy:", weighted_mean_scipy)

Media ponderada usando SciPy: 6.375


#### Pandas

In [23]:
import pandas as pd

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9],
                   'weights': [1, 2, 1, 1, 2, 1, 3, 2, 1, 2]})

# Calcular la media ponderada usando pandas
weighted_mean_pandas = np.average(df['values'], weights=df['weights'])
print("Media ponderada usando Pandas:", weighted_mean_pandas)

Media ponderada usando Pandas: 6.375


#### Statsmodels

In [25]:
import statsmodels.api as sm
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9],
                   'weights': [1, 2, 1, 1, 2, 1, 3, 2, 1, 2]})

# Añadir una columna de unos para representar el intercepto
df['intercept'] = 1

# Ajustar un modelo de regresión ponderado
model = sm.WLS(df['values'], df[['intercept']], weights=df['weights']).fit()

# La media ponderada es el valor del intercepto
weighted_mean_statsmodels = model.params['intercept']
print("Media ponderada usando Statsmodels:", weighted_mean_statsmodels)

Media ponderada usando Statsmodels: 6.3750000000000036


**Explicar código de arriba**

#### Investigar cómo se calcula media ponderada usando pingouine

### Mediana y Estimaciones Robustas

La mediana es el número central en una lista ordenada de los datos. Si hay un número par de valores de datos, el valor central es uno que no está realmente en el conjunto de datos, sino el promedio de los dos valores que dividen los datos ordenados en mitades superior e inferior. En comparación con la media, que utiliza todas las observaciones, la mediana depende solo de los valores en el centro de los datos ordenados. Aunque esto podría parecer una desventaja, ya que la media es mucho más sensible a los datos, hay muchos casos en los que la mediana es una mejor métrica para la ubicación.

Supongamos que queremos observar los ingresos familiares típicos en vecindarios alrededor del Lago Washington en Seattle. Al comparar el vecindario de Medina con el de Windermere, usar la media produciría resultados muy diferentes porque Bill Gates vive en Medina. Si usamos la mediana, no importará cuán rico sea Bill Gates, la posición de la observación central seguirá siendo la misma.

Por las mismas razones que se usa una media ponderada, también es posible calcular una mediana ponderada. Al igual que con la mediana, primero ordenamos los datos, aunque cada valor de datos tiene un peso asociado. En lugar del número central, la mediana ponderada es un valor tal que la suma de los pesos es igual para las mitades inferior y superior de la lista ordenada. Al igual que la mediana, la mediana ponderada es robusta frente a valores atípicos.

**Ejemplos con Python**

#### SciPy (Numpy)

In [31]:
import numpy as np

# Crear un conjunto de datos de ejemplo
data = np.array([3, 5, 1, 2, 7, 8, 10, 6, 4, 9])

# Calcular la mediana usando numpy (parte de scipy)
median_scipy = np.median(data)
print("Mediana usando 'SciPy':", median_scipy)

Mediana usando 'SciPy': 5.5


#### Pandas (completar)

#### pingouine (completar)

#### Statsmodels

Statsmodels no tiene una función directa para calcular la mediana. Sin embargo, podemos usar una `regresión cuantílica` para calcularla, ya que la mediana es el cuantil 0.5.

In [33]:
import statsmodels.api as sm
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'values': [3, 5, 1, 2, 7, 8, 10, 6, 4, 9]})

# Ajustar un modelo de regresión cuantílica para calcular la mediana
quant_reg = sm.QuantReg(df['values'], np.ones(len(df['values'])))
res = quant_reg.fit(q=0.5)

# La mediana es el coeficiente del modelo
median_statsmodels = res.params[0]
print("Mediana usando Statsmodels:", median_statsmodels)

Mediana usando Statsmodels: 5.499999999999998


  median_statsmodels = res.params[0]


### Valores Atípicos

La mediana se refiere como una estimación robusta de la ubicación ya que no se ve influenciada por valores atípicos (casos extremos) que podrían sesgar los resultados. Un valor atípico es cualquier valor que está muy distante de los otros valores en un conjunto de datos. La definición exacta de un valor atípico es algo subjetiva, aunque ciertas convenciones se utilizan en varios resúmenes de datos y gráficos. Ser un valor atípico en sí mismo no hace que un valor de datos sea inválido o erróneo. Aun así, los valores atípicos a menudo son el resultado de errores de datos como mezclar datos de diferentes unidades (kilómetros frente a metros) o lecturas incorrectas de un sensor. Cuando los valores atípicos son el resultado de datos incorrectos, la media dará lugar a una mala estimación de la ubicación, mientras que la mediana seguirá siendo válida. En cualquier caso, los valores atípicos deben ser identificados y generalmente merecen una investigación adicional.

#### Detección de Anomalías

En contraste con el análisis típico de datos, donde los valores atípicos son a veces informativos y otras veces una molestia, en la detección de anomalías los puntos de interés son los valores atípicos, y la mayor parte de los datos sirve principalmente para definir lo "normal" contra lo cual se miden las anomalías.

La mediana no es la única estimación robusta de la ubicación. De hecho, una media recortada se utiliza ampliamente para evitar la influencia de valores atípicos. Por ejemplo, recortar el 10% inferior y superior (una elección común) de los datos proporcionará protección contra valores atípicos en todos los conjuntos de datos, excepto en los más pequeños. La media recortada puede considerarse un compromiso entre la mediana y la media: es robusta frente a valores extremos en los datos, pero utiliza más datos para calcular la estimación de la ubicación. 

#### Ejercicio 1: Estimaciones de Ubicación de la Población y las Tasas de Homicidios

La Tabla 1-2 muestra las primeras filas del conjunto de datos que contiene la población y las tasas de homicidios (en unidades de asesinatos por cada 100,000 personas por año) para cada estado de EE. UU. (Censo de 2010).

| Estado       | Población  | Tasa de Homicidios | Abreviatura |
|--------------|-------------|-------------------|-------------|
| Alabama      | 4,779,736   | 5.7               | AL          |
| Alaska       | 710,231     | 5.6               | AK          |
| Arizona      | 6,392,017   | 4.7               | AZ          |
| Arkansas     | 2,915,918   | 5.6               | AR          |
| California   | 37,253,956  | 4.4               | CA          |
| Colorado     | 5,029,196   | 2.8               | CO          |
| Connecticut  | 3,574,097   | 2.4               | CT          |
| Delaware     | 897,934     | 5.8               | DE          |

Calcula la media, la media recortada, la media ponderada y la mediana para la población usando Pandas, Scipy y Pingouine (Opcional: Statsmodels). Utilice el fichero `state.csv`

#### Ejercicio 2. Investigar cómo se interpreta estadísticamente la medida de tendecia central: `moda`.  
Buscar ejemplos concretos donde se aplique la moda. Desarrolle un ejemplo con Pandas, Scipy, Statsmodels y Pingouine

### (Siguiente clase) 1.2 Estimaciones de Variabilidad o medidas de variación

La ubicación es solo una dimensión para resumir una característica. Una segunda dimensión, la variabilidad, también conocida como dispersión, mide si los valores de los datos están estrechamente agrupados o dispersos. En el corazón de la estadística se encuentra la variabilidad: medirla, reducirla, distinguir la variabilidad aleatoria de la real, identificar las diversas fuentes de variabilidad real y tomar decisiones en su presencia.

## Términos Clave para Métricas de Variabilidad

- **Desviaciones**: La diferencia entre los valores observados y la estimación de ubicación.
  - Sinónimos: errores, residuales.
  
- **Varianza**: La suma de las desviaciones al cuadrado con respecto a la media, dividida por n - 1, donde n es el número de valores de datos.
  - Sinónimo: error cuadrático medio.
  
- **Desviación estándar**: La raíz cuadrada de la varianza.
  
- **Desviación absoluta media**: La media de los valores absolutos de las desviaciones con respecto a la media.
  - Sinónimos: norma L1, norma Manhattan.
  
- **Desviación absoluta mediana desde la mediana**: La mediana de los valores absolutos de las desviaciones con respecto a la mediana.
  
- **Rango**: La diferencia entre el valor más grande y el más pequeño en un conjunto de datos.
  
- **Estadísticas de orden**: Métricas basadas en los valores de los datos ordenados de menor a mayor.
  - Sinónimo: rangos.
  
- **Percentil**: El valor tal que P por ciento de los valores toman este valor o menos y (100 - P) por ciento toman este valor o más.
  - Sinónimo: cuantil.
  
- **Rango intercuartílico (IQR)**: La diferencia entre el percentil 75 y el percentil 25.
  - Sinónimo: IQR.

Así como hay diferentes formas de medir la ubicación (media, mediana, etc.), también hay diferentes formas de medir la variabilidad.

## Desviación Estándar y Estimaciones Relacionadas

Las estimaciones de variación más utilizadas se basan en las diferencias, o desviaciones, entre la estimación de la ubicación y los datos observados. Para un conjunto de datos {1, 4, 4}, la media es 3 y la mediana es 4. Las desviaciones con respecto a la media son las diferencias: 1 - 3 = -2, 4 - 3 = 1, 4 - 3 = 1. Estas desviaciones nos dicen cuán dispersos están los datos alrededor del valor central.

Una forma de medir la variabilidad es estimar un valor típico para estas desviaciones. Promediar las desviaciones en sí mismas no nos diría mucho: las desviaciones negativas compensan las positivas. De hecho, la suma de las desviaciones con respecto a la media es precisamente cero. En cambio, un enfoque simple es tomar el promedio de los valores absolutos de las desviaciones con respecto a la media. En el ejemplo anterior, el valor absoluto de las desviaciones es {2, 1, 1}, y su promedio es (2 + 1 + 1) / 3 = 1.33. Esto se conoce como desviación absoluta media y se calcula con la fórmula:

$
\text{Desviación absoluta media} = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}
$

donde $\bar{x}$ es la media de la muestra.

Las estimaciones más conocidas de la variabilidad son la varianza y la desviación estándar, que se basan en desviaciones al cuadrado. La varianza es un promedio de las desviaciones al cuadrado y la desviación estándar es la raíz cuadrada de la varianza:

$
\text{Varianza} = s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}
$

$
\text{Desviación estándar} = s = \sqrt{\text{Varianza}}
$

La desviación estándar es mucho más fácil de interpretar que la varianza, ya que está en la misma escala que los datos originales. Aún así, con su fórmula más complicada y menos intuitiva, podría parecer peculiar que la desviación estándar sea preferida en estadística sobre la desviación absoluta media. Debe su preeminencia a la teoría estadística: matemáticamente, trabajar con valores al cuadrado es mucho más conveniente que con valores absolutos, especialmente para modelos estadísticos.