# Notebook_1_analisis_de_residuos

En este notebook vamos a trabajar con modelos de regresion , como las regresiones lineales simples y modelos de árbol

## Realizamos los import necesarios para nuestro trabajo

In [None]:
import pandas as pd
import numpy as np 
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
import statsmodels.tsa.api as smt
from sklearn.model_selection import train_test_split
from sklearn import tree
import seaborn as sns 
import matplotlib.pyplot as plt

Algunas configuraciones para llos plot del notebook

In [None]:
%matplotlib inline
%config InlineBackend.figure_format ='retina'

sns.set_style('darkgrid')
sns.mpl.rcParams['figure.figsize'] = (15.0, 9.0)

### Explicación de los problemas que vamos a ver

En este notebook se van a desarrollar tres ejercicios para observar y poner en practica lo que se ha observado durante la presentación de la sesión en la parte de residuos.

Los primeros dos ejercicios, se basan en observar el comportamiento de una regresion lineal en ciertos conjuntos de datos. en ellos se ajustará un modelo de reresión lineal y se llevaran a cabo una serie de comprobaciones que validen la correcta aplicación del modelo.

Los siguientes ejercicios trataran la observación y diagnostico de los residuos para distintos modelos.

# Ejercicio 1

### Leemos los datos

Los datos definen a ciertos individuos y sobre ellos se quiere calcular los metros cuadrados de la casa en la que viven.

In [None]:
datos_propietarios = pd.read_csv('https://raw.githubusercontent.com/jguijarh/The_Valley_outliers_and_residuals/main/data_residuals/data_metros.csv')
datos_propietarios.head()

### Dividar datos en variables dependientes y variables independientes

Lllevar a cabo la selección de variables de variables para entrenar y para predecir

In [None]:
X_propietarios = ###
Y_propietarios = ###

### Definir el modelo

Definimos y ajustamos un modelo lineal con sklearn 

In [None]:
lin_reg_propietarios = ###

### Entrenar el modelo
lin_reg_propietarios.### ...

print(f'Coefficients: {lin_reg_propietarios.coef_}')
print(f'Intercept: {lin_reg_propietarios.intercept_}')
print(f'R^2 score: {lin_reg_propietarios.score(X_propietarios, Y_propietarios)}')

### Linealidad de los modelos

In [None]:
def test_de_linealidad(model, X, y):
    '''
    Funcion para llevar a cabo la visualizacion de la linealidad
    '''
    ###
    


In [None]:
test_de_linealidad(lin_reg_propietarios, X_propietarios, Y_propietarios) 

### Media de los residuos

In [None]:
def calcular_media_residuos(model, X, y):
    '''
    Funcion para llevar a cabo el calcula de la media de residuos
    '''
   ###

In [None]:
calcular_media_residuos(lin_reg_propietarios, X_propietarios, Y_propietarios) 

### Distribución normal  de los residuos

Queremos observar la distribuci'on de los residuos.

In [None]:
def comprobar_normalidad(model, X, y):
    '''
    Funcion para llevar a cabo la visualizacion de la normalidad
    '''
    ###

In [None]:
comprobar_normalidad(lin_reg_propietarios, X_propietarios, Y_propietarios) 

#### Test de normalidad en los residuos

### Comprobar la homocedasticidad

In [None]:
def test_de_homocedasticidad(model, X, y):
    '''
    Testeo visual de la homocedasticidad
    '''
    ###

In [None]:
test_de_homocedasticidad(lin_reg_propietarios, X_propietarios, Y_propietarios) 

### Comprobar la no autocorrelacion de los residuos

Para testear la autocorrelacion de los residuos emplearemos smt.graphics.plot_acf() que nos permite observar de forma visual estas correlaciones

In [None]:
def test_autocorrelacion(model,X,y):
    '''
    Testeo visual de la homocedasticidad
    '''
    ###

In [None]:
test_autocorrelacion(lin_reg_propietarios, X_propietarios, Y_propietarios) 

# Ejercicio 2

Vamos a realizar lo mismo que en el ejercicio 1 pero esta vez con los datos de los precios de las viviendas en boston, dataset muy utilizado en el mundo del dato

### Lectura de los datos para el ejercicio

In [None]:
from sklearn.datasets import load_boston
boston = load_boston()

X_boston = pd.DataFrame(boston.data, columns=boston.feature_names)
X_boston.drop('CHAS', axis=1, inplace=True)
Y_boston = pd.Series(boston.target, name='MEDV')

# inspect data
X_boston.head()

### Definición del modelo a emplear

Entrenamos un modelo para predecir sobre los datos del problema del boston house price

In [None]:
lin_reg_boston = ###
### Entrenar el modelo
lin_reg_boston

print(f'Coeficientes de la regresion: {lin_reg_boston.coef_}')
print(f'Intercepto: {lin_reg_boston.intercept_}')
print(f'R^2 score: {lin_reg_boston.score(X_boston, Y_boston)}')

### Linealidad de los modelos

In [None]:
test_de_linealidad(lin_reg_boston, X_boston, Y_boston) 

### Media de los residuos

In [None]:
calcular_media_residuos(lin_reg_boston, X_boston, Y_boston)

### Distribución normal  de los residuos

In [None]:
comprobar_normalidad(lin_reg_boston, X_boston, Y_boston) 

### Comprobar la homocedasticidad

In [None]:
test_de_homocedasticidad(lin_reg_boston, X_boston, Y_boston) 

### Comprobar la no autocorrelacion de los residuos

In [None]:
test_autocorrelacion(lin_reg_boston, X_boston, Y_boston)

Analizamos las gráficas

# Ejercicio 3

Ahora vamos a probar a implementar un modelo de arbol en el dato de las propiedades de boston y observar como se comporta su diagrama de residuos.

### Dividimos los datos 

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_boston,
                                                    Y_boston ,
                                                    test_size = 0.3, 
                                                    random_state = 25)
# Definir un árbol con 5 de profundidad y calcular las predicciones
tree_model_5 = ###
y_train_pred_5 = ###

# Definir un árbol con 8 de profundidad y calcular las predicciones
tree_model_8 = ###
y_train_pred_8 = ###

# Definir un árbol con 15 de profundidad y calcular las predicciones
tree_model_15 = ###
y_train_pred_15 = ###

## Visualización de los residuos para un arbol de decisión

In [None]:
def plot_tree_residuals(model,X, y):
    '''
    Función para visualizar el residual plot de los modelos de arbol. 
    Es idéntica a la del testeo de la linealidad
    '''
    ####

In [None]:
plot_tree_residuals(tree_model_5, X_train, y_train)

In [None]:
plot_tree_residuals(tree_model_8, X_train, y_train)

In [None]:
plot_tree_residuals(tree_model_15, X_train, y_train)