## Tipos de Regresión Lineal

En capitulos previos hemos usado la librería scikit-learn para realizar una simple regresión lineal de ciertos datasets, ahora miraremos en más detalle lo que es una Regresión Lineal y una variación de esta llamada **Regresión Polinomial**.

![](featurelabel.png)

En la imagen anterior podemos observar como existen columnas del dataset Iris usado en el capitulo 5.

   * 4 Columnas que son características o llamadas **variables independientes**.
   * 1 Columna llamada label o **variable dependiente**. (Si existe más de 1 serían **Variables dependientes**).

Hasta ahora solo habiamos visto la relación entre **una** variable independiente con **una** variable dependiente, pero ahora veremos:

   * Regresión Múltiple: La relación lineal entre varias variables independientes y una variable dependiente.
   * Regresión Polinomial: Modelando la relación entre una variable independiente y una variable dependiente usando el n-ésimo grado de una función polinomial.
   * Regresión Múltiple Polinomial: Modelando la relación entre varias variables independientes y una variable dependiente usando el n-ésimo grado de una función polinomial.

### Regresión Lineal

En el *aprendizaje automático*, la regresión lineal es el algoritmo más simple que existe para aplicar a un dataset para modelar la relación entre sus variables (independientes con dependientes). Ahora aprenderemos una variante de la regresión lineal simple llamada regresión lineal múltiple y la aplicaremos para predecir el precio de una casa basado en las caracteristicas de la casa.

### Usando el dataset Boston

Este dataset es tomado de la librería StatLib, el cual es proporcionado por *Carnegie Mellon University* , es común usarlo en *aprendizaje automático* y es un buen candidato para usarlo con problemas de regresión.

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [6]:
from sklearn.datasets import load_boston

dataset = load_boston() 
print(dataset.data) # dataset bidimensional

[[6.3200e-03 1.8000e+01 2.3100e+00 ... 1.5300e+01 3.9690e+02 4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9690e+02 9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 ... 1.7800e+01 3.9283e+02 4.0300e+00]
 ...
 [6.0760e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 5.6400e+00]
 [1.0959e-01 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9345e+02 6.4800e+00]
 [4.7410e-02 0.0000e+00 1.1930e+01 ... 2.1000e+01 3.9690e+02 7.8800e+00]]


In [7]:
print(dataset.feature_names) # los nombres de cada columna

['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


In [9]:
print(dataset.DESCR) # Descripción en detalle de cada columna

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [10]:
print(dataset.target) # precio de las casas (variable dependiente)

[24.  21.6 34.7 33.4 36.2 28.7 22.9 27.1 16.5 18.9 15.  18.9 21.7 20.4
 18.2 19.9 23.1 17.5 20.2 18.2 13.6 19.6 15.2 14.5 15.6 13.9 16.6 14.8
 18.4 21.  12.7 14.5 13.2 13.1 13.5 18.9 20.  21.  24.7 30.8 34.9 26.6
 25.3 24.7 21.2 19.3 20.  16.6 14.4 19.4 19.7 20.5 25.  23.4 18.9 35.4
 24.7 31.6 23.3 19.6 18.7 16.  22.2 25.  33.  23.5 19.4 22.  17.4 20.9
 24.2 21.7 22.8 23.4 24.1 21.4 20.  20.8 21.2 20.3 28.  23.9 24.8 22.9
 23.9 26.6 22.5 22.2 23.6 28.7 22.6 22.  22.9 25.  20.6 28.4 21.4 38.7
 43.8 33.2 27.5 26.5 18.6 19.3 20.1 19.5 19.5 20.4 19.8 19.4 21.7 22.8
 18.8 18.7 18.5 18.3 21.2 19.2 20.4 19.3 22.  20.3 20.5 17.3 18.8 21.4
 15.7 16.2 18.  14.3 19.2 19.6 23.  18.4 15.6 18.1 17.4 17.1 13.3 17.8
 14.  14.4 13.4 15.6 11.8 13.8 15.6 14.6 17.8 15.4 21.5 19.6 15.3 19.4
 17.  15.6 13.1 41.3 24.3 23.3 27.  50.  50.  50.  22.7 25.  50.  23.8
 23.8 22.3 17.4 19.1 23.1 23.6 22.6 29.4 23.2 24.6 29.9 37.2 39.8 36.2
 37.9 32.5 26.4 29.6 50.  32.  29.8 34.9 37.  30.5 36.4 31.1 29.1 50.
 33.3 3

In [11]:
# Ahora lo pasaremos a un dataframe

df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [12]:
# Agregamos la variable dependiente si es que deseamos...

df['MEDV'] = dataset.target
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


### Limpiando el dataframe

Si queremos usar la librería scikit-learn pues tenemos que tener todo nuestro dataframe con valores numéricos, es decir 
en case de tener alguna columna con valores strings debemos cambiarlos.

In [14]:
df.info() # Afortunadamente solo tenemos valores numéricos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
CRIM       506 non-null float64
ZN         506 non-null float64
INDUS      506 non-null float64
CHAS       506 non-null float64
NOX        506 non-null float64
RM         506 non-null float64
AGE        506 non-null float64
DIS        506 non-null float64
RAD        506 non-null float64
TAX        506 non-null float64
PTRATIO    506 non-null float64
B          506 non-null float64
LSTAT      506 non-null float64
MEDV       506 non-null float64
dtypes: float64(14)
memory usage: 55.5 KB


In [15]:
# Procedemos a eliminar valores faltantes si es que lo hubiesen
df.isnull().sum()

CRIM       0
ZN         0
INDUS      0
CHAS       0
NOX        0
RM         0
AGE        0
DIS        0
RAD        0
TAX        0
PTRATIO    0
B          0
LSTAT      0
MEDV       0
dtype: int64

### Selección de características (variables independientes)

Como hemos visto nuestro dataframe esta limpio y correcto para usarlo, por lo que procedemos con la selección de las características de nuestro futuro modelo. Si bien tenemos 13 columnas no vamos a usar todos para entrenar nuestro modelo debido a que no todos serán relevantes y entre los que si lo son algunos tienen mayor relevancia que otros por lo que podemos dejar algunos más, para realizar esto podemos usar la funcion corr() que calcula la correlación de dos en dos de las columnas...

In [22]:
corr = df.corr()
print(corr)
type(corr)

             CRIM        ZN     INDUS      CHAS       NOX        RM       AGE  \
CRIM     1.000000 -0.200469  0.406583 -0.055892  0.420972 -0.219247  0.352734   
ZN      -0.200469  1.000000 -0.533828 -0.042697 -0.516604  0.311991 -0.569537   
INDUS    0.406583 -0.533828  1.000000  0.062938  0.763651 -0.391676  0.644779   
CHAS    -0.055892 -0.042697  0.062938  1.000000  0.091203  0.091251  0.086518   
NOX      0.420972 -0.516604  0.763651  0.091203  1.000000 -0.302188  0.731470   
RM      -0.219247  0.311991 -0.391676  0.091251 -0.302188  1.000000 -0.240265   
AGE      0.352734 -0.569537  0.644779  0.086518  0.731470 -0.240265  1.000000   
DIS     -0.379670  0.664408 -0.708027 -0.099176 -0.769230  0.205246 -0.747881   
RAD      0.625505 -0.311948  0.595129 -0.007368  0.611441 -0.209847  0.456022   
TAX      0.582764 -0.314563  0.720760 -0.035587  0.668023 -0.292048  0.506456   
PTRATIO  0.289946 -0.391679  0.383248 -0.121515  0.188933 -0.355501  0.261515   
B       -0.385064  0.175520 

pandas.core.frame.DataFrame

Aqui arriba observamos como existen valores entre -1 y 1:
   * corr > 0: Si una variable aumenta la otra aumenta, si una disminuye la otra también.
   * corr < 0: Si una variable aumenta la otra disminuye, y viceversa.
   * corr = 0: no existe correlación

Esta correlación no es más que un estadístico que se halla con el coeficiente de correlación de Pearson, que es la covarianza de dos variables por el producto de sus desviaciónes estándars.

![](correlation.png)

In [24]:
corr['MEDV'] # veamos la correlación entre nuestra variable dependiente y las demás columnas

CRIM      -0.388305
ZN         0.360445
INDUS     -0.483725
CHAS       0.175260
NOX       -0.427321
RM         0.695360
AGE       -0.376955
DIS        0.249929
RAD       -0.381626
TAX       -0.468536
PTRATIO   -0.507787
B          0.333461
LSTAT     -0.737663
MEDV       1.000000
Name: MEDV, dtype: float64

Aqui observamos que de todos existen dos que tienen una correlación más alta en valor absoluto:
   * RM: 0.695360
   * LSTAT: -0.737663
   
Entonces podemos decir que a más **RM** (número de habitaciónes por vivienda) se incrementa el precio, pero a mayor **LSTAT** (menor status de la población) obtenemos un menor precio esto es decir que a un barrio más peligroso los precios de las casas bajarán.

In [27]:
# Para no buscarlo visualmente podemos extraer las 3 columnas con mayor correlación (en valor absoluto).

print(df.corr().abs().nlargest(3, 'MEDV').index) # mostrando solo los indices
print(df.corr().abs().nlargest(3, 'MEDV').values[:,13]) # mostrando todo

Index(['MEDV', 'LSTAT', 'RM'], dtype='object')
[1.         0.73766273 0.69535995]


Es obvio que vamos a obviar la correlación entre MEDV y él mismo ya que no tiene sentido analizar la correlación entre la misma columna. 