# Análisis Exploratorio de Datos

Uno de los primeros pasos a la hora de realizar un proyecto que involucre el análisis de datos es explorar y visualizar los datos. El objetivo principal es obtener información sobre el contenido de los datos, ayudar a enmarcar las preguntas que haremos y detectar posibles vías para avanzar en las respuestas a estas preguntas.

Vamos a trabajar con un dataset de precios de casas en Melbourne. Pueden leer un poco más [acá](https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot)

**Plan**

1. Conseguir los datos.

2. Exploración y visualización de los datos para obtener información.
     * ¿Qué tipo de preguntas podemos abordar con este conjunto de datos?

     * ¿Necesitamos datos adicionales?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

## Obtención de los datos

El primer paso es hacerse con el conjunto de datos. Un archivo `csv` está disponible en el repositorio del curso, así que simplemente definimos la ruta desde la cual leeremos el archivo.

In [None]:
data = pd.read_csv('datasets/melb_data.csv')

## Exploración de los datos

Ahora tenemos los datos en un formato muy práctico, una instancia de `pandas.DataFrame`.

Si no estás familiarizado con `Pandas`, veremos formas muy básicas de ver el contenido de una tabla. Ante la duda se puede agregar "?" a un objeto o método para acceder a su documentación.

In [None]:
data.head?

Arrancamos con información general. Miremos tipos de datos, cantidad de registros y columnas

In [None]:
data.shape

In [None]:
data.columns

In [None]:
data.info()

Para investigar, qué es 'Dtype'? Qué es object?

Es bastante común que en conjuntos de datos reales falten algunos valores (se les ocurren algunas razones?). 

Miremos alguna variable categórica (que tomma valores discretos)

In [None]:
print(data['Type'].unique())
print(data.Type.unique())

Podemos dar un paso más y ver cuántas veces aparece cada valor.

In [None]:
print(data['Type'].value_counts())
print(data['Type'].value_counts(normalize=True).round(2))

Ahora vamos a las variables numéricas. Un método muy útil es el 'describe' que nos puede dar un pantallazo rápido de los datos

In [None]:
data.describe()

In [None]:
data.sort_values(by='Price', ascending=False)

## Ejercicio

Hagamos algunas visualizaciones. Elijan una variable categórica y una numérica.
1) Construyan un histograma de la variable numérica
2) Cuáles son los valores más extremos? (Pista: 'nsmallest', 'nlargest', 'sort_values')
3) Ahora sepárenlo segun el valor de la variable categórica. Comparen las distribuciones que observan 

Groupby

El método groupby nos permite hacer cálculos y gráficos agrupando por valor de alguna variable. Por ejemplo, veamos cómo cambian los valores medios de las columnas con la variable `price`.

In [None]:
data.groupby(by='Bathroom').mean()

Correlaciones

Una métrica muy común para entender la relación (**lineal**) entre dos variables es el coeficiente de Pearson, que llamamos $\hat{\rho_{XY}}$. Este es un _estimador_ del coeficiente de correlación poblacional:

$$
\hat{\rho_{XY}} = r = \frac{\hat{\mathrm{cov}}_{XY}}{\hat{\sigma}_X \hat{\sigma}_Y}\;\;,
$$
donde 

$$
\hat{\sigma}_X^2 = \frac{1}{N - 1}\sum_{i=1}^N (x_i - \bar{X})^2\;\;,
$$
$$
\hat{\mathrm{cov}}_{XY} = \frac{1}{N - 1}\sum_{i=1}^N (x_i - \bar{X})(y_i - \bar{Y})\;\;,
$$
y
$$
\hat{\mu}_X = \bar{X}\;\;.
$$

Los valores extremos son -1 y 1, para una (anti-)correlación lineal perfecta entre ambas variables.

Intuitivamente, la correlación nos dice si las variables tienen más o menos, una relación **lineal**. Para obtener una idea más intuitiva, analicemos esta imagen, tomada de [Wikipedia](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient):

<img src="https://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg">

Los números sobre cada subimagen indican el valor del coeficiente de Pearson. **¿Qué te hace pensar esta figura?**

Miren también [este](https://www.research.autodesk.com/publications/same-stats-different-graphs/) ejemplo.

Calculemos ahora el coeficiente de Pearson para un conjunto de pares de variables

In [None]:
data.columns

In [None]:
some_columns = ['Price', 'Distance', 'Landsize', 'Lattitude']
corr_matrix = data[some_columns].corr()

In [None]:
# What size do you expect `corr_matrix` to be?
print(corr_matrix.shape)

Podemos imprimir la matriz; pero más interesante, la podemos graficar.

In [None]:
print(corr_matrix)

In [None]:
plt.imshow(corr_matrix)

# Set ticks
xt = plt.xticks(np.arange(len(some_columns)), some_columns, rotation=45, ha='right', va='top')
yt = plt.yticks(np.arange(len(some_columns)), some_columns, rotation=0, ha='right', va='center')

# Set colorbar
plt.colorbar(label='Pearson CC')

## Preguntas

1) ¿Qué preguntas pueden responder estos datos?

2) ¿Cuáles serían los primeros pasos para encontrar respuestas a esas preguntas?

3) ¿Qué variables serían más relevantes en ese caso?

## Visualización

¡Una excelente manera de obtener información a partir del conjunto de datos es hacer gráficos!

`Pandas` tiene un lindo *wrapper* a `matplotlib.pyplot`, but intentaremos usar exclusivamente las funciones de `pyplot` (que importamos arriba como `plt`).

Algunas funciones que podemos probar son:

* `plt.plot` o `plt.scatter` para graficar una variable en función de otra.
* `plt.hist` o `plt.bar` para ver cómo se distribuyen los valores de una variable.

Y para los que tengan más tendencia a la estadística:

* `plt.boxplot` para comparar las distribuciones de las variables.
* `plt.violinplot` para hacer lo mismo usando una estimación de *kernel* (que es un algoritmo considerado de machine learning).

Recuerdá que podés obtener la documentación de cada función agregando `?` al nombre. Por ejemplo:

In [None]:
plt.plot?

La visualización sirve para mostrar alguna de la información que ya estuvimos discutiendo arriba de manera más directa.

Por ejemplo, podemos ver como cambia la distribución del precio de las casas con respecto a cada categoría de `ocean proximity`.

In [None]:
fig = plt.figure(figsize=(12, 6))
ax = fig.add_subplot(111)

categories = data['Bathroom'].unique()



datos = [data.loc[(data['Bathroom'] == cat)].Price for cat in categories]

ax.violinplot(dataset=datos, showextrema=False, showmeans=True, points=1000)
ax.xaxis.set_ticks(range(1, len(categories)+1))
ax.xaxis.set_ticklabels(categories)

ax.set_ylabel('Price', fontsize=16)

Hagamos un gráfico simple de latitud versus longitud.

In [None]:
# Let's make  simple plot of latitude vs longitude
scatter = plt.scatter(data['Longtitude'], data['Lattitude'])

Ejercicio. Agreguenle información a este gráfico. Por ejemplo, podemos visualizar el precio como color? O como tamaño? Y si queremos pintar según la zona?

Para pensar:

Supongamos que tienen la tarea de predecir el precio de una casa en función de sus características. Basandose en su sentido común, qué variables creen que pueden ser útiles? Intenten demostrar que esto es así.