##### Titulo: Regresión lineal
##### Autor: Dr. Gabriel Guerrero
##### Fecha: 20190704

La regresion lineal es uno de los metodos mas utilizados en la prediccion numerica

Supongamos que tenemos una sola caracteristica y para cada una un valor

La idea es encontrar la ecuacion de la recta, su pendiente y ordenada al origen, que mejor aproxima a todos los valores

La idea de "mejor aproxima" se define como la suma del cuadrado de cada uno de los errores 

El error de calculo en cada punto es (yi -xiw)**2 


Dado un conjunto de valores (x1, y1) ..., (xm, ym) 


# Regresión Lineal
 
![Reg](reglin.jpg)

Nuestro objetivo al utilizar la regresión es predecir un valor objetivo, numérico. Una forma de hacerlo es escribir una ecuación para el valor objetivo, con respecto a las demas entradas.

** Ventajas: ** resultados fáciles de interpretar y computacionalmente económico.

** Desventajas: ** modeliza mal los datos no lineales.

** Necesita: ** valores numéricos, valor nominal.



## Se importan las bibliotecas 

In [None]:
from numpy import *
import matplotlib.pyplot as plt
% matplotlib notebook

Para desplegar el contenido de un archivo se antepone el comando mágico "!" que ejecuta comandos de shell.

En este caso se visualizan los primeros 10 registros del archivo ex0.txt. 

In [None]:
! head -10 ex0.txt

La distribución gráfica de los datos es la siguiente:
![distr](Distribucion_ex0.png)

Se busca encontrar la recta que mejor se ajuste a estos datos haciendo uso de una regresión lineal
![recta](recta.png)



### Para poder realizar lo anterior se definen un par de funciones para trabajar con nuestros datos:

Se define una función que lee el archivo y que devuelva un par de listas.

In [None]:
def loadDataSet(fileName):
    numFeat = len(open(fileName).readline().split('\t')) - 1  
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr =[]
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat,labelMat

Se define otra función que calcula la línea que mejor se ajusta a los datos (se programa la regresión lineal).

Esta función recibe como parámetros un par de listas y devuelve la pendiente y la ordenada al origen (las betas) de la recta que mejor se aproxima a la distribución de los datos.

In [None]:
def standRegres(xArr,yArr):
    xMat = mat(xArr); yMat = mat(yArr).T
    xTx = xMat.T*xMat
    if linalg.det(xTx) == 0.0:
        print ("La matriz no tiene inversa")
        return
    ws = xTx.I * (xMat.T*yMat)
    return ws

## Aplicamos la primera función a nuestro archivo

In [None]:
xArr,yArr = loadDataSet('ex0.txt')

Obtenemos las listas xArr y yArr.

Para visualizar los primeros 'n' elementos de una lista 'lista' se utiliza la notación lista[:n]. En este caso visualizamos los primeros 5 lementos de la lista xArr y de yArr.

In [None]:
xArr[:5]

In [None]:
yArr[:5]

Se hace una lista que contenga el segundo elemento de cada 'sub lista' de xArr.

In [None]:
df = [x[1] for x in xArr]

Se muestran los primeros 5 elementos de df.

In [None]:
df[:5]

## Se obtiene gráfica de la distribución de los datos usando matplotlib 

In [None]:
fig, ax = plt.subplots()
ax.plot(df, yArr, '.')
ax.set_title('Datos del archivo ex0.txt')
plt.show()

### Encontramos las betas da la ecuación

Es decir buscamos la pendiente y la ordenada al origen de la recta que mejor se aproxima a la distribución de los datos 

In [None]:
ws = standRegres(xArr, yArr)
ws

Se encuentran los valores que toma "y" en función de los datos que se tienen en "x"

In [None]:
xMat = mat(xArr)
yMat = mat(yArr)
yHat = xMat * ws
yHat

## Se visualiza la recta haciendo uso de matplotlib

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xMat[:,1].flatten().A[0], yMat.T[:,0].flatten().A[0], marker='.') 
xMat.sort(0)
yHat = xMat*ws
ax.plot(xMat[:,1],yHat, 'red')
plt.show()