En *machine learning*, los modelos supervisados se usan siempre que se quiera predecir un resultado determinado a partir de una entrada dada y hay ejemplos de pares entrada-salida. Se construye un modelo de *machine learning* a partir de estos pares de entrada y salida que componen los datos de entrenamiento. El principal objetivo es hacer predicciones precisas a datos inéditos. 

Los dos principales tipos de modelos supervisados son de **clasificación** y de **regresión**. En la clasificación el objetivo es predecir una etiqueta de clase, que es una elección predefinida de posibilidades.  Por otra perte, en modelos de regresión se trata de predecir un número continuo (número real). Por ejemplo, predecir el ingreso de una persona dada su edad, educación, su residencia, etcétera. 

Para distinguir qué tipo de modelo supervisado es adecuado a cada situación es importante ver si hay algún orden o continuidad en los datos de salida, si ocurre esto, lo mejor será utilizar un modelo de regresión. Por el contrario, si no hay orden o continuidad en los datos de salida, lo adecuado sería usar un modelo de clasificación.

Cuando un modelo funciona muy bien para el *training set* pero no para el *test set* se dice que tiene sobreajuste (*overfitting*); cuando un modelo hace suposiciones muy sencillas se dice que está desajustado (*underfitting*) porque no se explican los datos de salida para los datos de entrenamiento precisamente. 

Por lo tanto, el modelo adecuado será aquel que no sea tan complejo ni tan sencillo. Al punto medio entre estos dos modelos se le conoce como *sweet spot*, que será el que mejor desempeño tenga generalizando. 



### Regresión lineal

In [1]:
import pandas as pd
datos=pd.read_csv("housecsv.txt")
datos.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


### Preparación de datos

In [2]:
from sklearn.linear_model import LinearRegression
#dividir en datos de entrenamiento y los datos de prueba
from sklearn.model_selection import train_test_split

In [51]:
#seleccionar variables. House value es el objetivo
#el modelo predice el valor de una casa en función de la población y el ingreso
x_train, x_test, y_train, y_test= train_test_split(datos[["population","median_income"]],datos.median_house_value,test_size=.25)

In [28]:
x_train.shape,x_test.shape

((14448, 2), (6192, 2))

### Modelo

In [52]:
#definir modelo
modelo=LinearRegression()

In [53]:
#ajustar el modelo a los datos
modelo.fit(x_train,y_train)

LinearRegression()

In [54]:
#R^2 del modelo
modelo.score(x_test,y_test)

0.4717737391332707

### Mejorar el modelo

In [18]:
from sklearn import preprocessing

In [57]:
#dividir datos de prueba en dos
x_val, x_test, y_val, y_test= train_test_split(x_test, y_test)

In [58]:
x_val.shape, x_test.shape

((3870, 2), (1290, 2))

In [32]:
escala= preprocessing.StandardScaler()
modelo=LinearRegression()

In [59]:
escala.fit(x_train)

StandardScaler()

In [60]:
x_escalada=escala.transform(x_train)
x_escalada

array([[ 0.33404898,  1.78737767],
       [ 0.63826356, -0.88065783],
       [-0.63445339,  0.87383998],
       ...,
       [-0.04578957, -0.07577766],
       [ 0.19998831,  0.09151628],
       [-0.00625886, -0.99714747]])

In [61]:
x_train.head()

Unnamed: 0,population,median_income
18090,1818.0,7.2986
3806,2172.0,2.1888
16936,691.0,5.549
5193,526.0,2.5
1006,1422.0,3.7212


In [62]:
#ajustar modelo
modelo.fit(x_escalada,y_train)

LinearRegression()

In [63]:
#evaluación del modelo
modelo.score(escala.transform(x_val), y_val)

0.47589773704722005

### Predecir datos

In [65]:
#con los datos de entrenamiento
modelo.predict(escala.transform(x_train))

array([347945.69754901, 135094.92775154, 278674.98556519, ...,
       201299.78030218, 213754.92598244, 128015.1564983 ])

In [69]:
y_train

18090    500001.0
3806     195600.0
16936    500001.0
5193     110200.0
1006     183800.0
           ...   
7145     172900.0
20442    404700.0
11310    188500.0
7873     179500.0
18773     63000.0
Name: median_house_value, Length: 15480, dtype: float64

In [70]:
datos["median_house_value"]

0        452600.0
1        358500.0
2        352100.0
3        341300.0
4        342200.0
           ...   
20635     78100.0
20636     77100.0
20637     92300.0
20638     84700.0
20639     89400.0
Name: median_house_value, Length: 20640, dtype: float64

In [72]:
#con datos inéditos
modelo.predict(escala.transform(x_test))

array([127528.33361447, 300756.2474896 , 134247.38056817, ...,
       215720.77439335, 152082.81177843, 374299.24568053])