# Ejemplo 01
**_Dr. Antonio Arista Jalife._**

En este ejemplo vamos a cargar datos de viviendas de boston y con ellos vamos a entrenar un modelo de regresión lineal. Para ello vamos a cargar un dataset y veremos sus características.

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [2]:
housing = fetch_california_housing()
housingDataFrame = pd.DataFrame(housing.data, columns = housing.feature_names)
housingDataFrame["MedHouseVal"] = housing.target
housingDataFrame.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


Los datos disponibles del dataset son:
- **MedInc:** Mediana de ingreso en la cuadra
- **HouseAge:** Mediana de edad de las casas en la cuadra
- **AveRooms:** Promedio de cuartos por número de habitantes en la casa
- **AveBedrms:** Promedio de habitaciones por número de habitantes de la casa
- **Population:** Población total en la cuadra
- **AveOccup:** Promedio de habitantes en la casa
- **Latitude:** Latitud de la cuadra
- **Longitude:** Longitud de la cuadra

Y el dato a predecir es:
- **MedHouseVal:** Costo promedio de casas  (en miles).

In [3]:
#Aqui elegiremos 2 campos: Mediana de ingreso en la cuadra, y cantidad promedio de habitaciones por habitantes.
X = housingDataFrame[['MedInc', 'AveBedrms']]
Y = housingDataFrame['MedHouseVal']

Aqui vamos a dividir los datos en Train y Test y entrenaremos un regresor lineal para obtener lo mejor que pueda una predicción sobre el precio

In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

(12384, 2)
(8256, 2)
(12384,)
(8256,)


### Entrenamiento y predicciones:
Trataremos de predecir que tal funciona el regresor lineal. 

In [5]:
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)

In [6]:
y_train_predict = lin_model.predict(X_train)
MSE = mean_squared_error(Y_train,y_train_predict)
print("Entrenamiento: MSE ="+str(MSE))

y_test_predict = lin_model.predict(X_test)
MSE = (mean_squared_error(Y_test, y_test_predict))
print("Pruebas: MSE ="+str(MSE))

Entrenamiento: MSE =0.697532017688797
Pruebas: MSE =0.7068301704412728


In [7]:
import numpy as np
np.sqrt(MSE)

0.8407319254324014

### Predicciones:
Ahora, veamos que tal predijo nuestro modelo poniendo lado a lado las predicciones y los valores reales

In [8]:
df_predicciones = pd.DataFrame({'valor_real':Y_test, 'prediccion':y_test_predict})
df_predicciones = df_predicciones.reset_index(drop = True)
df_predicciones.head(10)

Unnamed: 0,valor_real,prediccion
0,0.936,1.586953
1,1.536,1.95222
2,1.325,1.394057
3,1.479,1.555578
4,1.207,1.514277
5,1.155,2.457804
6,1.633,1.638246
7,1.603,1.72192
8,3.406,3.030692
9,5.00001,3.682019


In [9]:
from sklearn.metrics import mean_absolute_percentage_error
mean_absolute_percentage_error(Y_test, y_test_predict)

0.3835735715516498

In [10]:
lin_model.coef_

array([0.41719478, 0.0100056 ])

In [11]:
lin_model.intercept_

0.4356262857620037

In [13]:
lin_model.score(X_test,Y_test)

0.480921251241171