# Ejemplo 01
**_Dr. Antonio Arista Jalife._**

En este ejemplo vamos a cargar datos de viviendas de boston y con ellos vamos a entrenar un modelo de regresión lineal. Para ello vamos a cargar un dataset y veremos sus características.

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
boston_dataset = load_boston()
bostonDataFrame = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
bostonDataFrame['MEDV'] = boston_dataset.target
bostonDataFrame.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


Los datos disponibles del dataset son:
- CRIM: Tasa de crimen per-capita. 
- ZN: Proporción de tierras para uso residenciales.
- INDUS: Proporción de acres de negocios por pueblo.
- CHAS: 1 si la propiedad colinda con el rio Charles, 0 sino.
- NOX: Concentracón de ácido nítrico. (parte por 10 millones)
- RM: Cantidad promedio de habitaciones por vivienda.
- AGE: Proporción de unidades construidas antes de 1940 con dueño.
- DIS: Distancias a 5 centros de empleo de Boston.
- RAD: Índice de accesibilidad a vías rápidas.
- TAX: Impuestos por cada 10,000 USD de costo.
- PTRATIO: Radio maestro-pupilo por pueblo. 
- B: 1000(Bk — 0.63)², donde Bk es la proporcion de personas descendientes de afroamericanos.
- LSTAT: Porcentaje de personas de estratos bajos de la población.

Y el dato a predecir es:
- MEDV: Valor promedio de casas ocupadas (en miles).

In [3]:
#Aqui elegiremos 2 campos: Porcentaje de personas de estatos bajos, y cantidad promedio de habitaciones por vivienda.
X = bostonDataFrame[['LSTAT', 'RM']]
Y = bostonDataFrame['MEDV']

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el precio

In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(303, 2)
(203, 2)
(303,)
(203,)


### Entrenamiento y predicciones:
Trataremos de predecir que tal funciona el regresor lineal. 

In [5]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [6]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =28.139615508258466
Pruebas: MSE =34.28359366137776


### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [7]:
df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,prediccion,valor_real
0,37.647015,37.6
1,29.032609,27.9
2,25.444085,22.6
3,1.874892,13.8
4,33.70681,35.2
5,8.846136,10.4
6,30.363831,23.9
7,27.577564,29.0
8,26.271478,22.8
9,22.275428,23.2
