# Reto 2

In [1]:
#Importar librerías
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

Se leen los datos utilizando readcsv de Pandas

In [2]:
#Leer el archivo con los datos
data_wine = pd.read_csv('./data/winequality-white.csv',sep=';')

Se separan los datos en "x" y "y". Se normaliza x

In [3]:
#La variable dependiente es la última columna, las independientes son las anteriores
x= pd.DataFrame.from_records(preprocessing.normalize(data_wine.iloc[:,0:11]))
y= data_wine.iloc[:,11:12]

Se parten los datos en entrenamiento y test

In [4]:
#Se divide el archivo para entrenamiento y test. Se reserven 2000 datos para test
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 2000, random_state = 0)

In [5]:
#Se concatenan los datos de test
newData= pd.concat([xTrain,yTrain], axis = 1)

Se escogen aleatoriamente diferentes tamaños de datos para entrenar

In [6]:
#De estos datos concatenados se escogen aleatoriamente 100,1000 y 2898 para diferentes modelos. 
#De aquí se vuelven a separar en x y y
dataTrain1= newData.sample(100, random_state = 0)
xTrain1= dataTrain1.iloc[:,0:11]
yTrain1= dataTrain1.iloc[:,11]
dataTrain2= newData.sample(1000, random_state = 0)
xTrain2= dataTrain2.iloc[:,0:11]
yTrain2= dataTrain2.iloc[:,11]
dataTrain3= newData.sample(2898, random_state = 0)
xTrain3= dataTrain3.iloc[:,0:11]
yTrain3= dataTrain3.iloc[:,11]

Se entrenan los modelos

In [7]:
#Se entrenan los modelos respectivos utilizando la librería de regresión lineal de skelearn
linearRegr1 = LinearRegression()
linearRegr1.fit(xTrain1, yTrain1)
print(linearRegr1.coef_)
linearRegr2 = LinearRegression()
linearRegr2.fit(xTrain2, yTrain2)
print(linearRegr2.coef_)
linearRegr3 = LinearRegression()
linearRegr3.fit(xTrain3, yTrain3)
print(linearRegr3.coef_)

[   9.18043753 -297.37333753  -43.39188013    2.08983943  -38.9739378
   11.31463224   36.4460685  -779.5933183   114.29170588  167.58647873
   42.89160425]
[-3.86358296e-02 -2.32120321e+02 -3.68357650e+01  3.51869418e+00
 -3.13133503e+02  7.52671803e+00  2.36929580e+01 -5.46990605e+02
  6.10183996e+01  1.02581283e+00  4.13683096e+01]
[   0.79107365 -184.11604285  -10.73052733    2.83914324 -247.22059891
    5.33019901   14.09951252 -486.67706273   37.80892092   53.16384432
   38.05965421]


Se evalúan los datos con la función score de skelearn

In [8]:
#Resultado de test de modelo 1
score1 = linearRegr1.score(xTest, yTest)
print(score1)

0.014844918467560753


In [9]:
#Resultado de test de modelo 2
score2 = linearRegr2.score(xTest, yTest)
print(score2)

0.17491900838852514


In [10]:
#Resultado de test de modelo 3
score3 = linearRegr3.score(xTest, yTest)
print(score3)

0.245228036809525


Se construye una función de éxito para evaluar el modelo.
Esta función es la que será utilizada para evaluar el modelo con descenso de gradiente también y así poder comprar

In [11]:
#Función para calcular R^2 como 1-u/v, similar a como lo calcula sklearn para validar
def calc_r2(nX,nY,w):
    a=nX.to_numpy()
    y=nY.to_numpy()
    x = np.ones((a.shape[0],a.shape[1]+1))
    x[:,:-1] = a
    wNumber= x.shape[1]
    numData= x.shape[0]
    u=0
    v=0
    #ym es la media de todos los y
    ym= y.mean()
    err=0
    for i in range(0, numData):
        xi=x[i]
        yi=y[i]
        yp=(xi*w).sum()
        #u es la suma de cuadrados residuales (yi - yPredecido)
        u+=(yi-yp)**2
        #u es la suma total de cuadrados (yi - yMedia)
        v+=(yi-ym)**2
    r2=1-(u/v)
    return r2
    

Se evalúa el modelo con la función personalizada de éxito

In [12]:
ws=linearRegr1.coef_
#Cálculo de R^2 para el modelo 1
r21 = calc_r2(xTest, yTest,np.append(ws,linearRegr1.intercept_))
print(r21)

[0.01484492]


In [13]:
ws=linearRegr2.coef_
#Cálculo de R^2 para el modelo 1
r22 = calc_r2(xTest, yTest,np.append(ws,linearRegr2.intercept_))
print(r22)

[0.17491901]


In [14]:
ws=linearRegr3.coef_
#Cálculo de R^2 para el modelo 1
r23 = calc_r2(xTest, yTest,np.append(ws,linearRegr3.intercept_))
print(r23)

[0.24522804]


# Resultados
Se puede observar que en todos los casos el R^2 es muy bajo, ninguno llegó a 0.3. También se observa que a medida que el número de datos aumenta, aumenta este valor de R^2. El resultado de la función de R^2 propia arroja un valor similar a la de sklearn, por lo tanto esta puede ser utilizada en el reto 4 para calcular el error con el modelo con descenso de gradiente.
El bajo resultado puede ser explicado con que el modelo no es lineal. Todos los modelos tienen ordenes de magnitud distintos para cada uno de sus parámetros respecto a los demás. A medida que los modelos se entrenan con más datos el R^2