# Medidas de Dispersión

La **propagación** es exactamente lo que parece: describe qué tan separados o cercanos están los puntos de datos en un conjunto. Al igual que con las medidas de tendencia central, existen diferentes **medidas de dispersión**.

## Varianza

La primera medida es la **varianza**, que mide el promedio de la distancia de cada punto de datos respecto a la media. Un valor alto de varianza indica que los datos están más dispersos.

### ¿Cómo se calcula la varianza?

1. Se resta la media a cada punto de datos.
2. Se eleva al cuadrado cada resultado.
3. Se suman todos los resultados.
4. Se divide entre el número de puntos de datos menos uno (n - 1), si es una muestra.

> **Nota:** Cuando mayor sea la varianza, mayor será la dispersión de los datos.

### Ejemplo en Python

Para calcular la varianza en Python, puedes usar:

```python
np.var(df, ddof=1)
```
- **ddof=1**: Calcula la varianza muestral.
- Sin `ddof=1` se calcula la varianza poblacional.

---

## Desviación estándar

La **desviación estándar** es la raíz cuadrada de la varianza. Sus unidades suelen ser más fáciles de interpretar porque no están elevadas al cuadrado.

---

## Desviación absoluta media (MAD)

La **desviación absoluta media (MAD)** toma el valor absoluto de las distancias a la media y luego calcula la media de esas distancias.

- Ninguna medida es intrínsecamente mejor que la otra, pero la desviación estándar (SD) es más común que la MAD.

---

## Cuantiles y percentiles

Antes de analizar la siguiente medida de dispersión, hablemos rápidamente de los **cuantiles**.

Los cuantiles (también llamados percentiles) dividen los datos en un número determinado de partes iguales.

### Ejemplo en Python

Calcular la mediana (percentil 0.5):

```python
np.quantile(df['columna'], 0.5)
```

Calcular los cuartiles (0%, 25%, 50%, 75% y 100%):

```python
np.quantile(df['columna'], [0, 0.25, 0.5, 0.75, 1])
```

O bien, usando `linspace` para obtener los cuantiles principales:

```python
np.quantile(df['columna'], np.linspace(0, 1, 5))
```

> En los diagramas de caja, los cuadros representan los cuartiles de los datos.

---


Intervalo intercuartilico (IQR)

Es un valor atipico asi como cualquier punto mayor que el tercer cuartil mas 1 punto 5 veces el IQR.

Para encontrar valores atipicos, comenzaremos calculando el RIQ.

In [6]:
import pandas as pd
import numpy as np
movies = pd.read_csv('../../data/TMDB_movie_dataset_v11.csv')
movies.head(3)

Unnamed: 0,id,title,vote_average,vote_count,status,release_date,revenue,runtime,adult,backdrop_path,...,original_title,overview,popularity,poster_path,tagline,genres,production_companies,production_countries,spoken_languages,keywords
0,27205,Inception,8.364,34495,Released,2010-07-15,825532764,148,False,/8ZTVqvKDQ8emSGUEMjsS4yHAwrp.jpg,...,Inception,"Cobb, a skilled thief who commits corporate es...",83.952,/oYuLEt3zVCKq57qu2F8dT7NIa6f.jpg,Your mind is the scene of the crime.,"Action, Science Fiction, Adventure","Legendary Pictures, Syncopy, Warner Bros. Pict...","United Kingdom, United States of America","English, French, Japanese, Swahili","rescue, mission, dream, airplane, paris, franc..."
1,157336,Interstellar,8.417,32571,Released,2014-11-05,701729206,169,False,/pbrkL804c8yAv3zBZR4QPEafpAR.jpg,...,Interstellar,The adventures of a group of explorers who mak...,140.241,/gEU2QniE6E77NI6lCU6MxlNBvIx.jpg,Mankind was born on Earth. It was never meant ...,"Adventure, Drama, Science Fiction","Legendary Pictures, Syncopy, Lynda Obst Produc...","United Kingdom, United States of America",English,"rescue, future, spacecraft, race against time,..."
2,155,The Dark Knight,8.512,30619,Released,2008-07-16,1004558444,152,False,/nMKdUUepR0i5zn0y1T4CsSB5chy.jpg,...,The Dark Knight,Batman raises the stakes in his war on crime. ...,130.643,/qJ2tW6WMUDux911r6m7haRef0WH.jpg,Welcome to a world without rules.,"Drama, Action, Crime, Thriller","DC Comics, Legendary Pictures, Syncopy, Isobel...","United Kingdom, United States of America","English, Mandarin","joker, sadism, chaos, secret identity, crime f..."


In [18]:
np.quantile(movies['vote_average'],0.75) - np.quantile(movies['vote_average'],0.25) # IQR


# Despues podemos calculas los umbrales inferior y superior siguiendo las formulas

from scipy.stats import iqr

np.float64(4.0)

Valores atipicos.
Valor atipico: Punto de datos que difiere sustancialmente de los demas.


¿Como sabemos que es una diferencia sustancial? Un punto de datos es un valor atipico si:

- data < Q1 - 1.5 * IQR
- data > Q3 + 1.5 * IQR

```python
from scipy.stats import iqr

iqr = iqr(movies['vote_average'])
lower_threshold = np.quantile(msleep['bodywt'],0.25) - 1.5 * iqr
upper_threshold = np.quantile(msleep['bodywt'],0.75) + 1.5 * iqr

msleep[(msleep['bodywt'] < lower_threshold) | (msleep['bodywt'] > upper_threshold)]
msleep['bodywt'].describe() # Para ver los valores atipicos
```