# Análisis exploratorio de datos

Ahora vamos a explorar un dataset para obtener información y crear un mejor sentido de comprensión sobre el mismo.

En internet, podemos encontrar muchos datasets gratuitos para descargar en formato csv. Por ejemplo:

- Datos abiertos de Argentina: https://datos.gob.ar/
- Google: https://datasetsearch.research.google.com/

En este caso, vamos a explorar un dataset que contiene datos sobre precios de casas en sidney. Lo descargamos de https://www.kaggle.com/mihirhalai/sydney-house-prices

**Usamos SydneyHousePrices.csv**



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from google.colab import drive # La usamos para montar nuestra unidad de Google Drive
drive.mount('/content/drive') # Montamos nuestra unidad de Google Drive

In [None]:
df = pd.read_csv('/content/drive/MyDrive/Curso DS/datasets/SydneyHousePrices.csv')

Empecemos a explorar. Lo primero es saber con que datos contamos y que significan cada una de las columnas

In [None]:
df.head()

Las columnas que tenemos son:

- Id: es simplemente un valor numérico que identifica a la propiedad. No nos es útil para el análisis (la podemos descartar).
- Date: Fecha de publicación
- suburb: suburbio
- postalCode: Código postal
- sellPrice: Precio de la casa
- bed: Cuantas camas tiene
- Car: Lugar para cuantos autos tiene
- propType: tipo de propiedad

Ahora, que tipos de datos contienen las columnas?

In [None]:
df.info()

¿ Cuántas filas tiene el dataset ?

In [None]:
df.shape[0]

Tenemos valores nulos?

In [None]:
df.isna().sum()

¿ Qué porcentaje de nulos hay por columna ?

In [None]:
df.isna().sum() / df.shape[0]

Las separemos en variables numéricas y categóricas:

Numéricas (cuantitativas):
- sellPrice
- bed
- bath
- car

Categóricas:
- suburb
- postalCode
- propType

## Análisis varibales categóricas

Exploramos las variables categóricas

### ¿ Cuántos valores únicos hay en cada columna de las categóricas ?

In [None]:
df['suburb'].nunique()

In [None]:
df['postalCode'].nunique()

In [None]:
df['propType'].nunique()

Podemos ver como se distribuyen estas variables categóricas:

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.countplot(x='propType', data=df, order=df.propType.value_counts().index)
plt.yscale("log")
plt.xticks(rotation=90)
plt.title("Countplot variable propType")
plt.show()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.countplot(x='postalCode', data=df, order=df.postalCode.value_counts()[:50].index)
plt.xticks(rotation=90)
plt.title("Countplot variable postalCode")
plt.show()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.countplot(x='suburb', data=df, order=df.suburb.value_counts()[:40].index)
plt.xticks(rotation=90)
plt.title("Countplot variable suburb")
plt.show()

## Análisis variables numéricas

### ¿ Cómo se distribuyen ?

#### Sell Price

In [None]:
df.sellPrice.describe()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=df.sellPrice)
ax.set_title("Distribución de la variable sellPrice")
plt.show()

¿ Por qué se ve tan feo este gráfico ?

Tenemos valores extemos! Lo podemos ver en un boxplot

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.sellPrice)
ax.set_title("Distribución de la variable sellPrice")
plt.show()

En este caso, vamos a descartar estos valores extremos para seguir con nuestro análisis sobre los casos más "normales".

Para esto, vamos a utilizar el IQR.

EJERCICIO: Filtrar outliers utilizando el IQR.

In [None]:
#COMPLETAR

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.sellPrice)
ax.set_title("Distribución de la variable sellPrice (Sacando valores extremos)")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=df.sellPrice)
ax.set_title("Distribución de la variable sellPrice (Sacando valores extremos)")
plt.show()

#### Bed

In [None]:
df.bed.describe()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.countplot(x='bed', data=df, order=df.bed.value_counts().index)
plt.xticks(rotation=90)
plt.title("Countplot variable bed")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.bed)
ax.set_title("Distribución de la variable bed")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=df.bed)
ax.set_title("Distribución de la variable bed")
plt.show()

Vemos que la variable bed también tiene muchos valores extremos. La limpiamos para poder visualizar mejor.

Para limpiarla, también vamos a utilizar el IQR.

EJERCICIO: Para no repetir código, hacer una función que reciba un df y el nombre de la columna a limpiar. Esta función debe retornar el df sin outliers en la columna especificada.

In [None]:
#COMPLETAR

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.bed)
ax.set_title("Distribución de la variable bed (sin valores extremos)")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=df.bed)
ax.set_title("Distribución de la variable bed (sin valores extremos)")
plt.show()

#### Bath

In [None]:
df.bath.describe()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.countplot(x='bath', data=df, order=df.bath.value_counts().index)
plt.xticks(rotation=90)
plt.title("Countplot variable bath")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.bath)
ax.set_title("Distribución de la variable bath")
plt.show()

Vemos en el gráfico que a partir de 4 los valores son considerados extremos. Tomemos solo las casas que tienen hasta 4 baños:

In [None]:
df = df[df.bath <=4]

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.bath)
ax.set_title("Distribución de la variable bath (hasta 3 baños)")
plt.show()

#### Car

In [None]:
df.car.describe()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.countplot(x='car', data=df, order=df.car.value_counts().index)
plt.xticks(rotation=90)
plt.title("Countplot variable car")
plt.show()

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.car)
ax.set_title("Distribución de la variable car")
plt.show()

Lo mismo con autos, vemos que a partir de 4 hay muy pocos casos. Vamos a tomar solo hasta 4 autos

In [None]:
df = df[df.car <=4]

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.boxplot(x=df.car)
ax.set_title("Distribución de la variable car (hasta 4 autos)")
plt.show()

## Relación entre variables

Ahora queremos ver, como estas distintas variables afectan el precio de las casas.

Para arrancar, podemos graficar un heatmap con correlaciones:

In [None]:
sns.heatmap(df.corr(method='kendall'))
plt.show()

No está muy claro, no?

Hagamos algunos retoques.

Primero, sacamos la variabli Id que no vamos a utilizar:

Además, vemos que en el heatmap aparece la variable postalCode. Esto no tiene sentido, ya que la variable postalCode es categórica.



In [None]:
df_corr = df[['sellPrice', 'bed', 'bath', 'car']].copy()

sns.heatmap(df_corr.corr(method='kendall'))
plt.show()

¿ Mejor ?

Igual, vemos que de la diagonal para arriba, el grafico se duplica. Eliminemos la mitad superior y utilicemos una paleta de colores que sea más simple de visualizar.

https://seaborn.pydata.org/examples/many_pairwise_correlations.html

In [None]:
# Generate a mask for the upper triangle
mask = np.triu(np.ones_like(df_corr.corr(), dtype=bool))

# Set up the matplotlib figure
f, ax = plt.subplots(figsize=(11, 9))

# Generate a custom diverging colormap
cmap = sns.diverging_palette(230, 20, as_cmap=True)

# Draw the heatmap with the mask and correct aspect ratio
sns.heatmap(df_corr.corr(), mask=mask, cmap=cmap, center=0,
            square=True, linewidths=.5)

In [None]:
df_corr.corr()

Vemos que el par de variables con correlación más alta es: bath - bed.

Ahora, veamos como sube o baja el precio en relación a la cantidad de autos, camas y baños:

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.lineplot(x='car', y='sellPrice', data=df)
plt.xticks(rotation=90)
plt.title("Relación precio / car")
plt.show()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.lineplot(x='bath', y='sellPrice', data=df)
plt.xticks(rotation=90)
plt.title("Relación precio / bath")
plt.show()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = plt.axes()
ax = sns.lineplot(x='bed', y='sellPrice', data=df)
plt.xticks(rotation=90)
plt.title("Relación precio / bed")
plt.show()

In [None]:
df.head()

# Ejercicio

Responder las siguientes preguntas (utilizando df como quedó, sin los valores extremos) y graficar cuando corresponda:

1- ¿ En qué suburb se encuentra la casa (house) más cara ?

2- ¿ Cuántos baños tiene la casa (house) más barata ?

3- Calcular el sellPrice medio para cada propType

4- ¿ Cuántas "townhouse" hay en el postalCode 2107 ?

5 - ¿ Cuál es el suburb con el sellPrice medio más alto ?

6 - Escribir una función que reciba una lista de propType y:
  - Primero valide que el propType sea válido (exista en el dataset, sea tipo sting y lo que consideren relevante validar), si no es válido, imprimir un error explicativo (pueden investigar "Raise exception" en python) y finalizar.
  - Por cada elemento válido de la lista, hacer un plot de la distribución de el sellPrice de ese tipo de propiedad.