# Ejemplo 1: Estimados de locación (localización)

## 1. Objetivos:
- Aprender a calcular estimados de locación utilizando `pandas`.
 
---
    
## 2. Desarrollo:

Vamos a utilizar un primer dataset para aprender a calcular estimados de locación usando `pandas`.

El dataset que usaremos en esta sesión contiene información acerca de propiedades que estuvieron (o están) en venta en la ciudad de Melbourne, Australia. El dataset contiene las características físicas de la propiedad, su locación, el tipo de vivienda que es y el precio de la propiedad.

Vamos a analizar la variable precio para entender cómo están distribuidos los precios de propiedades en esta ciudad.

In [3]:
import pandas as pd

In [4]:
# read_csv permite leer archivos csv
#df = pd.read_csv('../../data/melbourne_housing-clean.csv')

df = pd.read_csv('../../Datasets/melbourne_housing-clean.csv', index_col=0)

In [5]:
# head() permite dar un vistazo a los primeros renglones de nuestro dataframe

df.head()

Unnamed: 0,suburb,address,rooms,type,price,method,seller_g,date,distance,postcode,bedroom_2,bathroom,car,land_size,council_area,latitude,longitude,region_name,property_count
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,2.0,1.0,1.0,202.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,2.0,1.0,0.0,156.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,0.0,134.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,3.0,2.0,1.0,94.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,3.0,1.0,2.0,120.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


### La media o promedio

La media o promedio se obtiene sumando todos los valores de un conjunto de datos numéricos y dividiéndolos entre la cantidad de valores que tenemos en nuestro conjunto.

Vamos a analizar la columna `price`. Veamos cuál es el "valor típico" obtenido usando la media (promedio):

In [6]:
df['price'].mean()

# Observemos que esta forma es fuertemente dependiente del nombre de
# las columnas del dataframe

1068141.895071269

In [9]:
# ¿Cómo obtienen los nombres de las columnas del dataframe?
df.columns

Index(['suburb', 'address', 'rooms', 'type', 'price', 'method', 'seller_g',
       'date', 'distance', 'postcode', 'bedroom_2', 'bathroom', 'car',
       'land_size', 'council_area', 'latitude', 'longitude', 'region_name',
       'property_count'],
      dtype='object')

In [10]:
# Si quisiéramos la media de la columna land_size
df['land_size'].mean()

554.4580972007557

In [11]:
# Si quisiéramos la media de las columnas land_size y 'price'
# Se introducen como lista
df[['land_size', 'price']].mean()

land_size    5.544581e+02
price        1.068142e+06
dtype: float64

### La mediana

La mediana se obtiene de la siguiente manera:

1. Primero ordenamos de manera ascendente nuestros datos
2. Luego tomamos el valor que está justo en medio de nuestra secuencia ordenada de valores.
3. Si nuestro conjunto tiene un número par de valores y por lo tanto no tiene un valor justo a la mitad de la secuencia, se toma el promedio de los dos valores que se encuentran a la mitad de la secuencia.

Ahora veamos el "valor típico" obtenido usando la mediana:

In [12]:
# lo único que cambia es el método, ahora se ocupa .median()

df['price'].median()

895500.0

In [13]:
# Si quisiéramos la mediana de la columna land_size
df['land_size'].median()

412.0

In [14]:
# Si quisiéramos la media de las columnas land_size y 'price'
# Se introducen como lista
df[['land_size', 'price']].median()

land_size       412.0
price        895500.0
dtype: float64

Hemos obtenido valores distintos. Más adelante vamos a aprender qué significa esto y cómo podemos determinar si esta diferencia es relevante o no.

In [15]:
# Podemos obtener varias de las medidas de tendencia central
# y de dispersión de manera sencilla:

df.describe()

Unnamed: 0,rooms,price,distance,postcode,bedroom_2,bathroom,car,land_size,latitude,longitude,property_count
count,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0,11646.0
mean,2.885025,1068142.0,9.583059,3102.080543,2.859437,1.514855,1.564743,554.458097,-37.809574,144.992541,7455.297098
std,0.958165,643728.2,5.304187,84.043125,0.971155,0.690793,0.946698,1460.432326,0.072706,0.095678,4368.452377
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,-38.18255,144.43181,249.0
25%,2.0,640000.0,5.9,3044.0,2.0,1.0,1.0,162.0,-37.8554,144.9315,4385.0
50%,3.0,895500.0,9.1,3083.0,3.0,1.0,1.0,412.0,-37.8032,144.998,6567.0
75%,3.0,1325000.0,12.3,3146.0,3.0,2.0,2.0,656.0,-37.759163,145.052775,10331.0
max,8.0,9000000.0,47.4,3977.0,20.0,8.0,10.0,76000.0,-37.41381,145.52635,21650.0


Me calcula me media, desviación estándar, mínimo, max, y cuartiles y el conteo de las variables numéricas del dataframe

In [None]:
# Breviario cultural:
# y qué pasa con la variables cualitativas de mi dataframe
# Vamos a contar cuántas categorías tienen dichas variables

In [16]:
# ocupamos la función value_counts()
df['suburb'].value_counts()

Reservoir         315
Richmond          243
Bentleigh East    233
Preston           225
Brunswick         201
                 ... 
Kooyong             1
Hurstbridge         1
Croydon South       1
Hampton Park        1
Bullengarook        1
Name: suburb, Length: 304, dtype: int64

In [17]:
# ocupamos la función value_counts()
df['region_name'].value_counts()

Southern Metropolitan         4224
Northern Metropolitan         3418
Western Metropolitan          2528
Eastern Metropolitan          1124
South-Eastern Metropolitan     272
Eastern Victoria                36
Northern Victoria               22
Western Victoria                22
Name: region_name, dtype: int64

In [18]:
# ocupamos la función value_counts()
df[['region_name','suburb']].value_counts()

region_name            suburb        
Northern Metropolitan  Reservoir         315
                       Richmond          243
Southern Metropolitan  Bentleigh East    233
Northern Metropolitan  Preston           225
                       Brunswick         201
                                        ... 
Northern Victoria      Gladstone Park      1
                       Healesville         1
                       Ivanhoe             1
Southern Metropolitan  Oakleigh South      1
Western Victoria       Mentone             1
Length: 385, dtype: int64