# Estadísticos de Orden

1. Objetivos:
- Aprender a calcular el rango y los percentiles usando pandas

---

2. Desarrollo:

**Rango**

El rango es simplemente la diferencia entre el valor máximo de un conjunto y el valor mínimo de un conjunto. Por lo tanto, podemos obtenerla de esta manera:

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('./datasets/melbourne_housing-clean.csv', index_col=0)

In [3]:
df.head()

Unnamed: 0,suburb,address,rooms,type,price,method,seller_g,date,distance,postcode,bedroom_2,bathroom,car,land_size,council_area,latitude,longitude,region_name,property_count
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [4]:
df['price'].max()

9000000.0

**Percentiles**

El percentil P es un valor que indica que por lo menos P% de los valores en el conjunto tienen este valor o un valor menor; mientras que (100-P)% de los valores tienen este valor o un valor mayor. Por ejemplo, para obtener el percentil 80 primero ordenamos nuestro conjunto de manera ascendente y después elegimos un valor de manera que el 80% de los valores en nuestro conjunto sean iguales o menores a ese valor.

En pandas, los percentiles están implementados como cuantiles, que es lo mismo que los percentiles pero en versión fracciones. Es decir, el percentil 80 es lo mismo que el cuantil 0.8.

In [5]:
df['price'].median() 

895500.0

In [6]:
# Cuartil 2
df['price'].quantile(0.5)

895500.0

In [8]:
# Cuartil 1
df['price'].quantile(0.25)

640000.0

In [9]:
# Cuartil 3
df['price'].quantile(0.75)

1325000.0

In [7]:
df['price'].quantile(0.8)

1440000.0

## Realizando los estadisticos de orden con numpy

In [10]:
import numpy as np

In [11]:
np.percentile(df['price'], 80)

1440000.0

In [13]:
# Q1
np.percentile(df['price'], 25)

640000.0

In [14]:
np.percentile(df['price'], 50)

895500.0

In [15]:
np.median(df['price'])

895500.0

En este caso, el 80% de los valores en nuestro conjunto de datos tienen un valor menor o igual a 1 440 000.

Como podrás ya haber imaginado, el valor mínimo equivale al percentil 0 y el valor máximo equivale al percentil 100, mientras que la mediana es exactamente igual que el percentil 50.

Sacando los percentiles podemos darnos una idea más o menos precisa de cómo están distribuidos nuestros datos.

Por ejemplo:

In [25]:
def imprimir_quantiles(datos):
    valor_minimo = datos.min()
    percentil_10 = datos.quantile(0.1)
    percentil_25 = datos.quantile(0.25)
    percentil_50 = datos.median()
    percentil_75 = datos.quantile(0.75)
    percentil_90 = datos.quantile(0.95)
    valor_maximo = datos.max()

    return {
        'Valor Minimo': valor_minimo,
        'percentil 10' : percentil_10, 
        'percentil 25' : percentil_25,
        'percentil 50' : percentil_50,
        'percentil 75' : percentil_75,
        'percentil 90' : percentil_90,
        'Valor Maximo' : valor_maximo,
    }

In [26]:
imprimir_quantiles(df['price'])

{'Valor Minimo': 85000.0,
 'percentil 10': 470000.0,
 'percentil 25': 640000.0,
 'percentil 50': 895500.0,
 'percentil 75': 1325000.0,
 'percentil 90': 2274500.0,
 'Valor Maximo': 9000000.0}

Viendo estos números podemos inferir varias cosas:

1. Casi todos nuestros datos están concentrados en valores menores a 2 000 000.
1. Eso quiere decir que tenemos algunos valores atípicos demasiado grandes (si los comparamos con el resto de los valores)
1. La mediana nos estaba dando un número más cercano al verdadero "valor típico" que el promedio.
1. El promedio tenía un sesgo hacia arriba debido a los valores extremadamente grandes.
1. El rango entre el valor máximo y mínimo no nos da una medida representativa de qué valores pueden tomar nuestros datos.

**Rango intercuartílico**

Otra medida muy común es lo que llamamos el rango intercuartílico, que es la diferencia entre el percentil 75 y el percentil 25. Este número nos da una idea del rango que tienen los valores más cercanos al valor típico.

En nuestro ejemplo, nuestro rango intercuartílico sería:

In [27]:
# Rango Intercuartilico
df['price'].quantile(0.75) - df['price'].quantile(0.25)

685000.0

In [28]:
# Rango

df['price'].max() - df['price'].min()

8915000.0