# Importar Dataset

In [None]:
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd

# Documentacion para carga de Dataset: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html

In [None]:
boston = load_boston()
boston.keys()

a = boston['data']
b = boston['target']

In [None]:
columnas = boston['feature_names']
columnas = np.append(columnas, 'MEDV')
columnas

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV'], dtype='<U7')

In [None]:
a.shape

(506, 13)

In [None]:
b.T.shape

In [None]:
c = np.column_stack((a,b))

In [None]:
a[0]

In [None]:
b[0]

In [None]:
c[0]

In [None]:
print('El dataset de Boston cuenta con {} filas y {} columnas'.format(c.shape[0], c.shape[1]))

In [None]:
boston_df = pd.DataFrame(c, columns = columnas)
boston_df.head()

# Analizamos el Dataset

In [1]:
boston_df.info()

NameError: ignored

In [None]:
boston_df.describe()

# Inspeccion visual de los datos

Dentro de las alternativas para poder visualizar datos, nos encontramos con diferentes librerias tales como Matplotlib, Seaborn, Pandas, Bokeh, etc. 

A lo largo del curso vamos a utilizar Seaborn, ya que consideramos que posee un buen balance entre versalitidad, simplicidad y funciona muy bien con Pandas. Tambien importaremos Matplotlib, ya que seaborn esta construida sobre ella, y probablemente necesitemos utilizar algunas de las funciones.

In [None]:
import matplotlib.pyplot as plt # 
import seaborn as sns # como importamos pandas as pd, numpy as np, searbon es comun importarla como sns.

In [None]:
sns.set_style("whitegrid") # para que los graficos posean un estilo particular utilizamos sns.set_style

fig, ax = plt.subplots(figsize = (20,10))


sns.scatterplot(x = 'LSTAT',
                y = 'MEDV',
                data = boston_df,
                ax = ax
                )

# Regresion lineal


Como vimos en el grafico anterior, hace sentido que haya una relacion entre LSTAT y MEDV, con lo cual podemos proceder a estimar una regresion lineal.

Para esto, necesitaremos importar otra libreria de sklearn que nos permita hacer los calculos correspondientes.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

A su vez, nos vamos a encontrar con un problema si intentamos pasarle a los modelos de sklearn una serie de pandas, ya que solo recibe Numpy Arrays, pero eso es muy facil de convertir con pandas, simplemente necesitamos utilizar el metodo **.values** sobre la columna que deseemos.

Es importante tener en consideracion los siguientes conceptos, vistos en la teoria:

- R2
- Residuos


In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
reg = LinearRegression() # Inicializamos una instancia de regresion lineal en el parametro reg, esto nos va a permitir entrenar al modelo y luego utilizarlo para predecir.

In [None]:
X = boston_df['LSTAT'].values.reshape(-1, 1)
y = boston_df['MEDV'].values

reg.fit(X, y)

Ya tenemos inicializada nuestra instacia de regresion lineal, y la hemos entrenado con los datos de LSTAT y MEDV, ahora deberiamos poder obtener los parametros para poder construir nuestra recta, recordemos que la funcion de la recta es:

      y = m * x + b


Donde b es la ordenada al origen y m la pendiente de la recta.

In [None]:
m = reg.coef_[0]

print('El valor de la pendiente de la recta es: {}'.format(m))

In [None]:
b = reg.intercept_

print('El valor de la ordenada al origen de la recta es: {}'.format(b))

In [None]:
# ahora formulemos la recta

y_pred = m * X + b
y_pred[:20].reshape(-1)

In [None]:
# tambien podemos utilizar una funcionalidad de la libreria llamada predict, esto nos simplifica el hecho de realizar la formula, verifiquemos si llegamos al mismo resultado

y_pred2 = reg.predict(X)
y_pred2[:20]

In [None]:
# para obtener los residuos, simplemente restamos los valores de y reales, con los y predichos

residuos = y.reshape(-1) - y_pred.reshape(-1)
residuos.shape

In [None]:
# para analizarlo estadisticamente lo convertiremos en una serie de pandas y luego utilizaremos el metodo "describe"
# tambien se pueden utilizar las funciones de Numpy para resumir estadisticamente al df, queda a criterio y facilidad de cada persona

pd.Series(residuos.reshape(-1)).describe()

In [None]:
# SCT es las suma total de los cuadrados de la distancia entre el valor de las y de la muestra y su media muestral y_raya
# SCR es la suma total dela diferencia elevada al cuadrado de la distancia entre las y de la muestra y las y ajustadas por el modelo
y_pred = (m * X + b).reshape(-1)
SCT = sum((y - np.mean(y)) ** 2)
SCR = sum((y - y_pred) ** 2)

r2 = 1 - (SCR/SCT)
print('El valor es de R cuadrado es {}'.format(r2))

In [None]:
# ahora nos queda obtener el valor de R2

reg.score(X, y)

Ahora vamos a imprimir tanto los datos como la recta del modelo generado

In [None]:
x_recta = np.linspace(0, 40, 100)

y_recta = m * x_recta + b

fig, ax = plt.subplots(2, figsize = (20,15))

# en el primer grafico insertamos un scatterplot con los residuos
ax[0].scatter(X, residuos)
ax[0].set_title('Residuos')

# en el segundo insertamos tanto la recta resultante del modelo de regresion lineal como los datos iniciales que utilizamos para 
ax[1].plot(x_recta, y_recta, c = 'r')
sns.scatterplot(x = 'LSTAT',
                y = 'MEDV',
                data = boston_df,
                ax = ax[1]
                )
ax[1].set_title('Regresion lineal')



In [None]:
# dato interesante para entender la funcion de plt.subplots(), la variable "ax", es una tupla del tamaño de el numero indicado. Dada esta propiedad podemos descomponerla la tupla en la misma formula 

fig, (ax0, ax1) = plt.subplots(2, figsize = (20,15))

# en el primer grafico insertamos un scatterplot con los residuos
ax0.scatter(X, residuos)
ax0.set_title('Residuos')

# en el segundo insertamos tanto la recta resultante del modelo de regresion lineal como los datos iniciales que utilizamos para 
ax1.plot(x_recta, y_recta, c = 'r')
sns.scatterplot(x = 'LSTAT',
                y = 'MEDV',
                data = boston_df,
                ax = ax1
                )
ax1.set_title('Regresion lineal')

# Predecir un valor

Si queremos predecir un valor podemos ir nuevamente por dos caminos:

- Reemplazar los valores en la formula obtenida
- Utilizar el método **.predict()** sobre el modelo generado

(recoredemos que es necesario pasar los datos como numpy arrays para que la libreria lo tome correctamente)

Probemos predecir un valor, y luego, una serie de valores. Vamos a definir las variables en la siguiente linea de codigo.

Una vez terminado el ejercicio, verifiquemos si graficamente nos hace sentido el resultado.

In [None]:
lstat_unica = np.array(5).reshape(-1, 1) # el reshape lo hacemos para que el formato del arreglo tenga formato definido

lstat_mult = np.array([5, 10, 20, 30]).reshape(-1, 1)

In [None]:
# utilizamos el metodo para obtener el dato a traves de reemplazar los arreglos previos en la formula

lstat_pred_unica = m * lstat_unica + b

lstat_pred_mult = m * lstat_mult + b

In [None]:
# verificamos la prediccion de un valor simple

lstat_pred_unica

In [None]:
# verificamos la prediccion de un arreglo

lstat_pred_mult.reshape(-1)

In [None]:
# ahora vamos a utilizar el metodo .predict() sobre nuestro modelo ya entrenado para un caso simple

reg.predict(lstat_unica)

In [None]:
# ahora probamos lo mismo pero con el arreglo multiple.

reg.predict(lstat_mult)

# Conclusiones

Como vimos hoy hay muchas formas diferentes de como llegar al mismo resultado, dependiendo el tipo de problema siempre va a haber una alternativa mas simple para su resolucion.

Invitamos a revisar las librerias de sklearn y numpy, ya que van a ser muy necesarias para las siguientes practicas.