<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Análisis-exploratorio" data-toc-modified-id="Análisis-exploratorio-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Análisis exploratorio</a></span><ul class="toc-item"><li><span><a href="#Variable-respuesta" data-toc-modified-id="Variable-respuesta-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Variable respuesta</a></span></li><li><span><a href="#Variables-predictoras" data-toc-modified-id="Variables-predictoras-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Variables predictoras</a></span><ul class="toc-item"><li><span><a href="#Variables-numéricas" data-toc-modified-id="Variables-numéricas-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>Variables numéricas</a></span></li><li><span><a href="#Correlación-entre-variables-numéricas" data-toc-modified-id="Correlación-entre-variables-numéricas-1.2.2"><span class="toc-item-num">1.2.2&nbsp;&nbsp;</span>Correlación entre variables numéricas</a></span></li><li><span><a href="#Variables-categóricas" data-toc-modified-id="Variables-categóricas-1.2.3"><span class="toc-item-num">1.2.3&nbsp;&nbsp;</span>Variables categóricas</a></span></li></ul></li></ul></li><li><span><a href="#Preprocesado" data-toc-modified-id="Preprocesado-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Preprocesado</a></span></li></ul></div>

In [None]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd


# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
from matplotlib import style
import matplotlib.ticker as ticker
import seaborn as sns

plt.rcParams["figure.figsize"] = (10,8)


# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

Cargamos los datos sin el preprocesado. Eso si, están limpias las columnas de `gender` y `state` que estaban un poco sucias. 

In [None]:
df = pd.read_csv("data/california_limpio.csv", index_col = 0)

# Análisis exploratorio

Antes de entrenar un modelo predictivo, o incluso antes de realizar cualquier cálculo con un nuevo conjunto de datos, es muy importante realizar una exploración descriptiva de los mismos. Este proceso permite entender mejor qué información contiene cada variable, así como detectar posibles errores. Algunos ejemplos frecuentes son:

Que una columna se haya almacenado con el tipo incorrecto: una variable numérica está siendo reconocida como texto o viceversa.

Que una variable contenga valores que no tienen sentido: por ejemplo, para indicar que no se dispone del precio de una vivienda se introduce el valor 0 o un espacio en blanco.

Que en una variable de tipo numérico se haya introducido una palabra en lugar de un número.

Además, este análisis inicial puede dar pistas sobre qué variables son adecuadas como predictores en un modelo (más sobre esto en los siguientes apartados).

In [None]:
# Número de datos nulos por columna
# ==============================================================================


## Variable respuesta

Cuando se crea un modelo, es muy importante estudiar la distribución de la variable respuesta, ya que, a fin de cuentas, es lo que interesa predecir. La variable precio tiene una distribución asimétrica con una cola positiva debido a que, unas pocas viviendas, tienen un precio muy superior a la media. 

In [None]:
# vamos a ver visualmente como está distribuida la variable respuesta




Como aprendimos en la lección de normalización y estandarización para poder hacer un modelo de regresión lienal es obligatorio que nuestra variable respuesta siga una distribución normal. Por lo que tendremos que hacer algunas transformaciones en la fase de preprocesado. Recordemos que podremos aplicar: 

- La raíz cuadrada


- El logarítmo


- La tranformación boxcox



## Variables predictoras

Al igual que con la variable respuesta debemos conocer como son nuestras variables predictoras, como se relacionan entre ellas y como lo hacen con la variable respuesta.

Vamos a ello: 

### Variables numéricas


In [None]:
# exploramos cuáles son los principales estadísticos de las variables numéricas



In [None]:
# Gráfico de distribución para cada variable numérica
# ==============================================================================



Como el objetivo del estudio es predecir el precio de las viviendas, el análisis de cada variable se hace también en relación a la variable respuesta precio. Analizando los datos de esta forma, se pueden empezar a extraer ideas sobre qué variables están más relacionadas con el precio y de qué forma.

In [None]:
# Gráfico de relación entre variables predictoras y la variable a predecir
# ==============================================================================



### Correlación entre variables numéricas

In [None]:
# creamos un dataframe todo de unos de la misma forma que nuestra matriz de correlación


El coeficiente de correlación de Pearson oscila entre –1 y +1:

- Un valor menor que 0 indica que existe una correlación negativa, es decir, que las dos variables están asociadas en sentido inverso. Cuánto más se acerca a -1, mayor es la fuerza de esa relación invertida (cuando el valor en una sea muy alto, el valor en la otra será muy bajo). Cuando es exactamente -1, eso significa que tienen una correlación negativa perfecta.


- Un valor mayor que 0 indica que existe una correlación positiva. En este caso las variables estarían asociadas en sentido directo. Cuanto más cerca de +1, más alta es su asociación. Un valor exacto de +1 indicaría una relación lineal positiva perfecta.


- Finalmente, una correlación de 0, o próxima a 0, indica que no hay relación lineal entre las dos variables.

Existe bastante consenso a la hora de interpretar los valores del coeficiente de correlación de Pearson utilizando los siguientes criterios (y considerando los valores absolutos):

- Entre 0 y 0.10: correlación inexistente


- Entre 0.10 y 0.29: correlación débil


- Entre 0.30 y 0.60: correlación moderada


- Entre 0.60 y 1: correlación fuerte


**Otros tipos de correlación** 

Meter la imagen, la tiene jeancha

### Variables categóricas

In [None]:
# Gráfico para cada variable cualitativa
# ==============================================================================



# Preprocesado

Aquí incluimos: 

- Gestión de **outliers**


- Gestión de **nulos**


- **Codificación** variables categóricas


- **Normalización** y **Estandarización**