# Medidas de Dispersión

Las medidas de dispersión son estadísticas que nos ayudan a entender cuán dispersos o concentrados están los datos alrededor de una medida central (como la media). Estas medidas son esenciales para evaluar la variabilidad de los datos y obtener una imagen completa de su distribución.

Las principales medidas de dispersión incluyen la desviación estándar, la varianza, el rango y el rango intercuartílico. Cada una de estas medidas proporciona una perspectiva diferente sobre la variabilidad de los datos.

## Desviación Estándar

La desviación estándar es una medida de dispersión que nos indica cuánto varían los valores en un conjunto de datos en relación con la media. Es una de las medidas de dispersión más utilizadas y se expresa en las mismas unidades que los datos originales, lo que facilita su interpretación.

Para calcular la desviación estándar:
1. Calcula la media del conjunto de datos.
2. Resta la media de cada valor para obtener las desviaciones.
3. Eleva al cuadrado cada una de las desviaciones.
4. Calcula la media de los valores al cuadrado.
5. Toma la raíz cuadrada de la varianza para obtener la desviación estándar.

La fórmula para la desviación estándar $\sigma$ de un conjunto de datos $x_1, x_2, \ldots, x_n$ es:

$$ \sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} $$

A continuación, se muestra cómo calcular la desviación estándar en Python utilizando una lista de pesos simulados de personas.


In [None]:
import math

# Lista de pesos en kilogramos
weights = [70, 72, 68, 65, 80, 77, 74, 71, 69, 73, 75, 78, 76, 67, 66, 79, 64, 63, 81, 82, 72, 70, 68, 73, 74, 65, 77, 76, 69, 71]

# Calcular la media
sum_weights = sum(weights)
mean_weight = sum_weights / len(weights)

# Calcular la suma de los cuadrados de las desviaciones
sum_squared_diff = 0
for weight in weights:
    sum_squared_diff += (weight - mean_weight) ** 2

# Calcular la desviación estándar
std_dev_weight = math.sqrt(sum_squared_diff / (len(weights)-1))

print(f"Desviación Estándar: {std_dev_weight}")

## Varianza

La varianza es una medida de dispersión que nos indica cuánto varían los valores en un conjunto de datos en relación con la media. A diferencia de la desviación estándar, que se expresa en las mismas unidades que los datos originales, la varianza se expresa en unidades al cuadrado. La varianza es útil para entender la variabilidad de los datos y es el primer paso para calcular la desviación estándar.

Para calcular la varianza:
1. Calcula la media del conjunto de datos.
2. Resta la media de cada valor para obtener las desviaciones.
3. Eleva al cuadrado cada una de las desviaciones.
4. Calcula la media de estos valores al cuadrado.

La fórmula para la varianza $\sigma^2$ de un conjunto de datos $x_1, x_2, \ldots, x_n$ es:

$$ \sigma^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 $$


In [None]:
# Lista de pesos en kilogramos
weights = [70, 72, 68, 65, 80, 77, 74, 71, 69, 73, 75, 78, 76, 67, 66, 79, 64, 63, 81, 82, 72, 70, 68, 73, 74, 65, 77, 76, 69, 71]

# Calcular la media
sum_weights = sum(weights)
mean_weight = sum_weights / len(weights)

# Calcular la suma de los cuadrados de las desviaciones
sum_squared_diff = 0
for weight in weights:
    sum_squared_diff += (weight - mean_weight) ** 2

# Calcular la varianza
variance_weight = sum_squared_diff / (len(weights)-1)

print(f"Varianza: {variance_weight}")

## Rango

El rango es una medida de dispersión que indica la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos. Es una medida simple que proporciona una idea general de la extensión de los valores en el conjunto de datos. Sin embargo, el rango no proporciona información sobre cómo están distribuidos los valores entre el mínimo y el máximo.

Para calcular el rango:
1. Identifica el valor máximo en el conjunto de datos.
2. Identifica el valor mínimo en el conjunto de datos.
3. Resta el valor mínimo del valor máximo.

La fórmula para el rango $R$ de un conjunto de datos $x_1, x_2, \ldots, x_n$ es:

$$ R = x_{\text{max}} - x_{\text{min}} $$


In [None]:
# Lista de pesos en kilogramos
weights = [70, 72, 68, 65, 80, 77, 74, 71, 69, 73, 75, 78, 76, 67, 66, 79, 64, 63, 81, 82, 72, 70, 68, 73, 74, 65, 77, 76, 69, 71]

# Calcular el valor máximo y mínimo
max_weight = max(weights)
min_weight = min(weights)

# Calcular el rango
range_weight = max_weight - min_weight

print(f"Rango: {range_weight}")

## Rango Intercuartílico

El rango intercuartílico (IQR, por sus siglas en inglés) es una medida de dispersión que describe la extensión del 50% medio de los datos. Se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) de un conjunto de datos. Los cuartiles dividen los datos ordenados en cuatro partes iguales, donde:

- El primer cuartil (Q1) es el valor por debajo del cual se encuentra el 25% de los datos.
- El tercer cuartil (Q3) es el valor por debajo del cual se encuentra el 75% de los datos.

El IQR es útil para entender la dispersión de los valores centrales y es menos afectado por valores extremos que el rango total.

Para calcular el rango intercuartílico:
1. Ordena el conjunto de datos.
2. Encuentra el primer cuartil (Q1).
3. Encuentra el tercer cuartil (Q3).
4. Resta Q1 de Q3.

La fórmula para el rango intercuartílico $IQR$ de un conjunto de datos es:

$$ IQR = Q3 - Q1 $$

In [None]:
# Lista de pesos en kilogramos
weights = [70, 72, 68, 65, 80, 77, 74, 71, 69, 73, 75, 78, 76, 67, 66, 79, 64, 63, 81, 82, 72, 70, 68, 73, 74, 65, 77, 76, 69, 71]

# Ordenar la lista de pesos
sorted_weights = sorted(weights)

# Función para calcular el cuartil
def calculate_percentile(data, percentile):
    k = (len(data) - 1) * percentile
    f = math.floor(k) # Índice del valor inferior
    c = math.ceil(k) # Índice del valor superior
    if f == c:
        return data[int(k)]
    return data[int(f)] * (c - k) + data[int(c)] * (k - f)

# Calcular Q1 y Q3
Q1 = calculate_percentile(sorted_weights, 0.25)
Q3 = calculate_percentile(sorted_weights, 0.75)

# Calcular el rango intercuartílico
IQR = Q3 - Q1

print(f"Rango Intercuartílico (IQR): {IQR}")

## Uso de la Biblioteca `statistics` en Python

La biblioteca `statistics` en Python proporciona funciones predefinidas para calcular diversas medidas de dispersión, como la desviación estándar, la varianza y el rango intercuartílico. Estas funciones simplifican los cálculos y permiten trabajar de manera más eficiente con conjuntos de datos grandes y complejos.

In [None]:
import statistics

# Lista de pesos en kilogramos
weights = [70, 72, 68, 65, 80, 77, 74, 71, 69, 73, 75, 78, 76, 67, 66, 79, 64, 63, 81, 82, 72, 70, 68, 73, 74, 65, 77, 76, 69, 71]

# Calcular la desviación estándar
std_dev_weight = statistics.stdev(weights)

# Calcular la varianza
variance_weight = statistics.variance(weights)

# Calcular el rango
range_weight = max(weights) - min(weights)

# Calcular el rango intercuartílico (IQR)
# Nota: La biblioteca `statistics` no tiene una función directa para el IQR, pero podemos calcularlo usando los percentiles
Q1 = statistics.quantiles(weights, n=4)[0]
Q3 = statistics.quantiles(weights, n=4)[2]
IQR = Q3 - Q1

print(f"Desviación Estándar: {std_dev_weight}")
print(f"Varianza: {variance_weight}")
print(f"Rango: {range_weight}")
print(f"Rango Intercuartílico (IQR): {IQR}")