# Regressão Linear

Esta apresentação foi baseada em:
<TT>https://bids.github.io/2015-06-04-berkeley/intermediate-python/03-sklearn-abalone.html</TT>

Primeiro, os devidos $\texttt{import}$s:

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
#from sklearn import datasets
from sklearn import linear_model
import matplotlib.pyplot as plt
#from mpl_toolkits.mplot3d import Axes3D

Precisaremos de algumas funções para facilitar<br>
algumas manipulações entediantes...

In [None]:
# acrescenta uma coluna de 1s no final de uma matriz
def add_ones_column(M):
    return np.column_stack((M, np.ones(np.shape(M)[0])))

# constroi e resolve a equação normal A^T A x = A^T b
def solve_normal_eqn(M,v):
    return np.linalg.solve(np.matmul(np.transpose(M),M),\
                          np.matmul(np.transpose(M), v))

# constroi os gráficos dos resultados, comparando a
# saída real com a saída estimada. Calcula, ainda, o erro
def scatter_results(true_y, predicted_y):
    #Scatter-plot the predicted vs real
    #Plots:
    #   * real(x) vs predicted(y)
    #   * perfect agreement line
    #Returns the root mean square of the error

    fig, ax = plt.subplots(figsize=(8, 8))
    ax.plot(true_y, predicted_y, '.b')
    
    min_limit = min(np.amin(true_y),np.amin(predicted_y))
    max_limit = max(np.amax(true_y),np.amax(predicted_y))
    ax.plot([min_limit, max_limit], [min_limit, max_limit], '--k')
    
    
    #rms = (true_y - predicted_y).std()
    rmse = np.sqrt(np.mean((true_y - predicted_y)**2))
    
    ax.text(0.99*max_limit, 1.01*min_limit,'Root Mean Square Error = %.2f' % rmse,
            ha='right', va='bottom')

    ax.set_xlim(min_limit, max_limit)
    ax.set_ylim(min_limit, max_limit)
    
    ax.set_xlabel('Valores reais')
    ax.set_ylabel('Valores estimados')
    
    return rmse

Primeiro, iremos trabalhar com o banco de dados Power Plant.

In [None]:
column_names = ["temperature", " pressure", "humidity", "vacuum", "energy"]

data = pd.read_csv("datasets/power_plant/power_plant.csv", names=column_names, skiprows=1)

print("Number of samples: %d" % len(data))
print(data.head())

y = data.energy.values

del data["energy"] # remove output variable from data, so we can convert all the dataframe to a numpy 2D array

X = data.values.astype(np.float)

O segundo banco de dados é o Abalone.<br>
Os resultados são piores que o anterior, mas aceitáveis.

In [None]:
'''
column_names = ["sex", "length", "diameter", "height", "whole weight", 
                "shucked weight", "viscera weight", "shell weight", "rings"]

data = pd.read_csv("abalone.data", names=column_names)

print("Number of samples: %d" % len(data))
print(data.head())

y = data.rings.values

del data["sex"] # removendo a primeira característica
del data["rings"] # remove rings from data, so we can convert all the dataframe to a numpy 2D array

X = data.values.astype(np.float)
'''

Vamos dividir os dados em conjuntos de treinamento e teste:<br>
60% para treinamento e 40% para teste.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40, random_state=0)

Utilizaremos a decomposição QR:

In [None]:
# sem o coeficiente linear (somente para comparar com a regressão do sklearn)
#Q, R = np.linalg.qr(X_train)
# com o coeficiente linear
Q, R = np.linalg.qr(add_ones_column(X_train))

coef_regression = np.linalg.solve(R, np.matmul(np.transpose(Q), y_train))

print('Coeficientes da regressão:\n', coef_regression)

# com o coeficiente linear
predicted_y_test = np.matmul(add_ones_column(X_test), coef_regression)
predicted_y_train = np.matmul(add_ones_column(X_train), coef_regression)

Poderíamos ter usado a regressão linear da biblioteca sklearn,<br>
mas os resultados seriam os mesmos.

In [None]:
'''
# linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)
# se o coeficiente linear for necessário, troque False por True
lmreg = linear_model.LinearRegression(fit_intercept = False)

lmreg.fit(X_train, y_train)

print('Coeficientes da regressão:\n', lmreg.coef_)

predicted_y_test = lmreg.predict(X_test)
predicted_y_train = lmreg.predict(X_train)
'''

Podemos visualizar os resultados da previsão usando:

In [None]:
scatter_results(y_train, predicted_y_train)
plt.title('Conjunto de Treinamento')

scatter_results(y_test, predicted_y_test)
plt.title('Conjunto de Teste')

## Banco de dados Yacht Hydrodynamics

O terceiro banco de dados a ser analisado é o Yacht Hydrodynamics.

In [None]:
column_names = ["center of buoyancy", " prismatic coefficient", "length/displacement", "beam/draught", "length/beam", 
                "Froude number", "resistance"]

data = pd.read_csv("datasets/yacht-hydrodynamics/yacht_hydrodynamics.csv", names=column_names)

print("Number of samples: %d" % len(data))
print(data.head())

y = data.resistance.values

del data["resistance"] # remove resuistance from data, so we can convert all the dataframe to a numpy 2D array

X = data.values.astype(np.float)

E executar os passos anteriores.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40, random_state=0)

# sem o coeficiente linear (somente para comparar com a regressão do sklearn)
#Q, R = np.linalg.qr(X_train)
# com o coeficiente linear
Q, R = np.linalg.qr(add_ones_column(X_train))

coef_regression = np.linalg.solve(R, np.matmul(np.transpose(Q), y_train))

print('Coeficientes da regressão:\n', coef_regression)

# com o coeficiente linear
predicted_y_test = np.matmul(add_ones_column(X_test), coef_regression)
predicted_y_train = np.matmul(add_ones_column(X_train), coef_regression)

scatter_results(y_train, predicted_y_train)
plt.title('Conjunto de Treinamento')

scatter_results(y_test, predicted_y_test)
plt.title('Conjunto de Teste')

Neste caso (Yacht Hydrodynamics),<br>
o modelo não parece ser linear (ou afim).<br>
Vamos tentar um modelo quadrático.

In [None]:
aux_train = add_ones_column(np.column_stack((np.square(X_train),X_train)))
aux_test = add_ones_column(np.column_stack((np.square(X_test),X_test)))

Q, R = np.linalg.qr(aux_train)

coef_regression = np.linalg.solve(R, np.matmul(np.transpose(Q), y_train))

print('Coeficientes da regressão:\n', coef_regression)

# com o coeficiente linear
predicted_y_train = np.matmul(aux_train, coef_regression)
predicted_y_test = np.matmul(aux_test, coef_regression)

scatter_results(y_train, predicted_y_train)
plt.title('Conjunto de Treinamento')
scatter_results(y_test, predicted_y_test)
plt.title('Conjunto de Teste')

Ainda ruim...<br>
Voltemos ao modelo linear e acrescentemos um passo:

In [None]:
Q, R = np.linalg.qr(add_ones_column(X_train))

coef_regression = np.linalg.solve(R, np.matmul(np.transpose(Q), y_train))

print('Coeficientes da regressão:\n', coef_regression)

# com o coeficiente linear
predicted_y_test = np.matmul(add_ones_column(X_test), coef_regression)
predicted_y_train = np.matmul(add_ones_column(X_train), coef_regression)

scatter_results(y_train, predicted_y_train)
plt.title('Conjunto de Treinamento')
scatter_results(y_test, predicted_y_test)
plt.title('Conjunto de Teste')

Note como parece haver uma relação logarítmica entre o valor estimado e o valor real: 
\begin{align}
 y_{est} = \log(y_{real}) \, .
\end{align}
Que tal tentarmos algo como:
\begin{align}
 \alpha_0 y_{est} + \alpha_1 = \log(y_{real}) \, .
\end{align}
Assim, a nova estimativa $y_{new}$ será dada por:
\begin{align}
 y_{new} = \exp(\alpha_0 y_{est} + \alpha_1) \, .
\end{align}
Usaremos regressão linear para obter os valores de $\alpha$.<br>

In [None]:
alpha = solve_normal_eqn(add_ones_column(predicted_y_train),\
                        np.log(y_train))
print('alpha = ', alpha)
predicted_z_train = np.exp(alpha[0] * predicted_y_train + alpha[1])
predicted_z_test =  np.exp(alpha[0] * predicted_y_test  + alpha[1])

scatter_results(y_train, predicted_z_train)
plt.title('Conjunto de Treinamento')
scatter_results(y_test, predicted_z_test)
plt.title('Conjunto de Teste')

Uma maravilha!<br>
Note que conseguimos capturar a "lei" física que rege o processo,<br>
principalmente com valores mais baixos de resistência.<br>
Neste caso, a "lei" física que aproxima o valor da resistência é<br>
o logaritmo de uma combinação afim das variáveis de entrada.