## Ejemplo 2: Media Truncada

### 1. Objetivos:
    - Aprender a estimar la media truncada usando scipy.
 
---
    
### 2. Desarrollo:

La media truncada es un estimado de locación más *robusto* que el promedio y la mediana. Esto significa que es menos sensible a valores atípicos. La media truncada se obtiene de la siguiente manera:

1. Primero ordenamos nuestro conjunto de manera ascendente.
2. Después decidimos qué porcentaje de nuestros datos vamos a truncar. Los valores más comunes suelen variar entre 5% y 25%.
3. Divide el porcentaje acordado entre dos y elimina esa fracción de tus datos del inicio y del final de tu secuencia. Por ejemplo, si decides truncar un 5%, elimina el 2.5% de tus datos del inicio de tu secuencia y el otro 2.5% del final de tu secuencia.
4. Obtén el promedio de los valores restantes.

Afortunadamente, no tenemos que hacer esto manualmente. La librería `scipy` ya ofrece un método para obtener la media truncada fácilmente:

In [19]:
from scipy import stats
import pandas as pd

In [20]:
df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)

In [21]:
df.head()

Unnamed: 0,suburb,address,rooms,type,price,method,seller_g,date,distance,postcode,bedroom_2,bathroom,car,land_size,council_area,latitude,longitude,region_name,property_count
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [18]:
stats.trim_mean(df['price'], 0.1)

973653.7960935823

Si obtenemos el promedio y la mediana podemos observar que la distancia entre la media truncada y la mediana es menor que la distancia entre el promedio y la mediana. Esto podría ser indicador de que tenemos valores atípicos en nuestro conjunto. Ya aprendemos después cómo determinar si esto es cierto o no.

In [13]:
df['price'].mean()

1068141.895071269

In [10]:
df['price'].median()

895500.0