In [1]:
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn import linear_model
from scipy.stats import *

from bokeh.plotting import figure
from bokeh.io import output_notebook, show#, output_file #Descomentar para guardar el archivo .html
from bokeh.models.widgets import Panel, Tabs
output_notebook()

In [21]:
def sets(data_frame):
    entrenamiento, prueba = train_test_split(data_frame, test_size=0.2, random_state=18)
    return entrenamiento, prueba

def cuadratica(x,n=None):
    return 0.6*x**2+(1.6*x)

def la_funcion(f, data_frame,n=None):    
    aplicada = f(data_frame,n)
    return aplicada

def la_regresion(f, data_frame,n=None):
    entrenamiento, prueba = sets(data_frame)
    regresion = linear_model.LinearRegression()
    return regresion.fit(la_funcion(f, entrenamiento.X.reshape(-1, 1),n), entrenamiento.y)

def los_errores(f, data_frame,n=None):
    entrenamiento, prueba = sets(data_frame)
    regresion = la_regresion(f, data_frame,n)
    las_buenas = entrenamiento.y
    errores = []
    for i in np.arange(-10,10,0.1):
        las_predichas = (regresion.predict(entrenamiento.X.reshape(-1,1))+i)
        las_predichas = la_funcion(f,las_predichas,n)
        errores.append(sum((las_buenas-las_predichas)**2)/len(las_buenas))
    return errores

def la_grafica(f, data_frame,n=None):
    entrenamiento, prueba = sets(data_frame)
    regresion = la_regresion(f, data_frame,n)
    errores = los_errores(f, data_frame,n)
    
    s1 = figure(width=750, plot_height=500, title=None)
    s1.circle(entrenamiento.X,entrenamiento.y, size=5, color="red", alpha=0.5)
    s1.line(entrenamiento.sort_values(by='X').X, la_funcion(f, regresion.predict(entrenamiento.sort_values(by='X').X.reshape(-1,1)),n), line_width=1.5, color="navy", alpha=0.7)
    s1.title.text = "Regresión de entrenamiento"
    s1.xaxis.axis_label = "X"
    s1.yaxis.axis_label = "y"
    tab1 = Panel(child=s1, title="Entrenamiento")
    
    s2 = figure(width=750, plot_height=500, title=None)
    s2.circle(prueba.X,prueba.y, size=5, color="red", alpha=0.5)
    s2.line(prueba.sort_values(by='X').X, la_funcion(f, regresion.predict(prueba.sort_values(by='X').X.reshape(-1,1)),n), line_width=1.5, color="navy", alpha=0.7)
    s2.title.text = "Regresión con la prueba"
    s2.xaxis.axis_label = "X"
    s2.yaxis.axis_label = "y"
    tab2 = Panel(child=s2, title="Prueba")
    
    s3 = figure(width=750, plot_height=500, title=None)
    s3.circle(np.arange(-10,10,0.1)+regresion.intercept_,errores, size=5, color="red", alpha=0.5)
    s3.circle(regresion.intercept_,sum(((la_funcion(f,regresion.coef_*entrenamiento.X,n)+la_funcion(f,regresion.intercept_,n)-entrenamiento.y)**2))/len(entrenamiento.X),size=8,color="navy",alpha=0.6)
    s3.title.text = "Errores"
    s3.xaxis.axis_label = "X"
    s3.yaxis.axis_label = "y"
    tab3 = Panel(child=s3, title="Errores")
    
    tabs = Tabs(tabs=[ tab1, tab2, tab3])

    show(tabs)
    
    #print('Score de varianza: \n{}\n').format(score_varianza)

    #print('Suma del cuadrado de los residuos: \n{}\n').format(suma_cuadrados)

    #print('Coeficiente: \n{}\n').format(coeficiente)
    
    print('Ordenada: \n{}\n').format(regresion.intercept_)
    
    print('Pendiente: \n{}\n').format(regresion.coef_[0])


In [19]:
df0 = pd.read_csv("regLin.csv")
df1 = pd.read_csv("regLin2.csv")
df2 = pd.read_csv("regLin3.csv")

In [22]:
la_grafica(pow,df0,1)

Ordenada: 
2.41565236604

Pendiente: 
0.61000643195



In [23]:
la_grafica(cuadratica,df1)

Ordenada: 
-0.511716784719

Pendiente: 
0.990786457795



In [24]:
la_grafica(np.sin,df2)

Ordenada: 
6.67873291393e-11

Pendiente: 
1.00000000003

