# Regresión Lineal
Este notebook es de práctica para Regresión Lineal

In [None]:
%matplotlib inline 

import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import sklearn

# special matplotlib argument for improved plots
from matplotlib import rcParams

In [None]:
# Cargamos un Dataset de ejemplo de SciKitLearn
from sklearn.datasets import load_boston
boston = load_boston()

In [None]:
# Es un diccionario con varios elementos, vamos a conocer sus claves
print(boston.keys())

In [None]:
#Forma de los datos
print(boston.data.shape)

In [None]:
#Nombres de las características
print(boston.feature_names)

In [None]:
# Descripción del Dataset
print(boston.DESCR)

In [None]:
# Convertir en DataFrame
df_boston = pd.DataFrame(boston.data, columns = boston.feature_names)
df_boston.head()

In [None]:
# La variable objetivo se encuentra en otro elemento del diccionario
print("Variable Objetivo: ", boston.target)

In [None]:
# Agregar variable objetivo al DataFrame
df_boston["PRICE"] = boston.target
df_boston.head()

# Ejercicio
Realizar Análisis inicial y estadística descriptiva,
* Verificar si hay datos faltantes
* Qué tipo de variables estadísticas son cada una de las características
* Use la funcion df_boston.describe() para analizar los principales datos de estadística descriptiva del DataSet
* Cree gráficos de histogramas
* Cree un gráfico de la matriz de correlación del DataFrame
    * ¿Cuáles de las características tienen alta correlación entre ellas?
    * ¿Cuáles de las caractarísticas tienen más relación con la variable objetivo?
* Cree un grafico de dispersión del DataFrame y verifique si se ven grupos

In [None]:
df_boston["PRICE"]

## Separar Sets de Entrenamiento y de Test
Para realizar un entrenamiento de un modelo en aprendizaje de máquina se debe considerar una parte del Dataset para entrenamiento y otro para Test, para poder validar el comportamiento del modelo en Datos que no ha visto en el entrenamiento

In [None]:
# Set de Características
X = df_boston.drop("PRICE", axis =1)
X.head()

In [None]:
# Set de Variable Objetivo
Y = df_boston["PRICE"]
Y.head()

In [None]:
from sklearn.model_selection import train_test_split

# Separar Set para Entrenamiento y para Test

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.35)

In [None]:
print("Tamaños de set de entrenamiento:", X_train.shape, Y_train.shape)

In [None]:
print("Tamaño de set de test", X_test.shape, Y_test.shape)

In [None]:
# Regresión Lineal

from sklearn.linear_model import LinearRegression

lm = LinearRegression()
lm.fit(X_train, Y_train)  # Entrenamiento de regresión Lineal


In [None]:
lm.coef_  # Coeficientes para cada uno de las características

In [None]:
lm.intercept_

In [None]:
# Usar el modelo para predecir los valores de Y del set de Test
Y_pred = lm.predict(X_test)

In [None]:
# Gráfica de Precios predecidos contra Precios reales

plt.scatter(Y_test, Y_pred)
plt.xlabel("Precios: $Y_i$")
plt.ylabel("Precios Predecidos: $\hat{Y}_i$")
plt.title("Precios vs Precios Predecidos: $Y_i$ vs $\hat{Y}_i$")

## Error cuadrático medio
El Error cuadrático medio mide la cantidad de error que hay entre dos conjuntos de datos. En otras palabras, compara un valor predicho y un valor observado o conocido.

In [None]:
mse = sklearn.metrics.mean_squared_error(Y_test, Y_pred)
print(mse)

In [None]:
lm.score(X, Y)

In [None]:
residuo = Y_pred - Y_test

In [None]:
# Gráfica de residuos

plt.scatter(residuo, Y_pred)
plt.xlabel("Residuo")
plt.ylabel("Precios Predecidos: $\hat{Y}_i$")
plt.title("Residuos vs Precios Predecidos: $Y_i$ vs $\hat{Y}_i$")

La gráfica de residuos contra los valores reales de la variable dependiente debe mostrar dispersión, no se debe detectar alguna relacion lineal, cuadrática, exponencial. Si es así debe transformarse alguna variable independiente para dejar relación lineal con la variable objetivo.

## R2 - Coeficiente de determinación.
En estadística, el coeficiente de determinación, denominado R² y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo.
https://www.youtube.com/watch?v=N8Xw_R2oFx0

In [None]:
r2 = sklearn.metrics.r2_score(Y_test, Y_pred)
print(r2)