# Regressão Linear


In [1]:
import numpy as np
import matplotlib.pyplot as plt

#### Parte 1

1. Implemente a regressão linear simples (uma variável)
$$ y = \beta_0 + \beta_1 x $$

Cálculo dos coeficientes
$$ \beta_1 = \frac{\sum_{i=0}^{n-1}{ (x_i - mean(x)) \times (y_i - mean(y)) }}{\sum_{i=0}^{n-1}{(x_i - mean(x))^2}} $$

$$ \beta_0 = mean(y) - \beta_1 \times mean(x) $$

In [2]:
class RegressaoSimples():
    def __init__(self):
        pass
    
    def fit(self, x, y):
        sum1 = 0
        sum2 = 0
        mean_x = np.mean(x)
        mean_y = np.mean(y)
        
        for i in range(len(x)):
            sum1 += (x[i] - mean_x) * (y[i] - mean_y)
            sum2 += (x[i] - mean_x) ** 2
        
        #Calculando os coeficientes
        self.b1 = sum1 / sum2
        self.b0 = mean_y - self.b1 * mean_x
        
    def predict(self, x):
        y_predict = []
        for i in range(len(x)):
            y_predict.append(self.b0 + self.b1 * x[i])
        return y_predict
    
    def coef(self):
        return self.b0, self.b1

2. Implemente a regressão linear múltipla. No treinamento, adicione o termo de bias incluindo uma coluna de 1’s na matriz de amostras
$$ y = \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \beta_0$$
Cálculo dos coeficientes
$$ \beta = (x^{T} x)^{-1} x^{T} y $$

In [3]:
class RegressaoMultipla():
    def __init__(self):
        pass
    
    def fit(self, x, y):
        
        #Adicionando o termo de bias (incluindo uma coluna de 1's na matriz de amostras)
        x = np.c_[x, np.ones(x.shape[0])]
        
        #Calculando os coeficientes
        self.b = np.matmul(np.matmul(np.linalg.inv(np.matmul(np.transpose(x), x)), np.transpose(x)), y)
        
    def predict(self, x):
        self.y = self.b[0]
        for i in range(1, self.b.shape[0]):
            self.y += self.b[i] * x[:, i-1]
            
        return self.y
    
    def coef(self):
        return self.b

3. Implemente as funções

    a. RSS(y_true, y_predict)
$$ RSS = \sum_{i=0}^{n-1}{ (y_i - \hat{y_i})^2 } $$

In [4]:
def RSS(y_true, y_predict):
    soma = 0
    for i,j in enumerate(y_true):
        soma += (j - y_predict[i])**2
    
    return soma

    b. RSE(y_true, y_predict)
$$ RSE = \sqrt{ \frac {1} {n-2}\sum_{i=0}^{n-1}{ (y_i - \hat{y_i})^2 }} $$

In [5]:
def RSE(y_true, y_predict):
    sum_y = 0
    for i,j in enumerate(y_true):
        sum_y += (j - y_predict[i])**2
        
    rse = np.sqrt(sum_y / ((i+1) - 2))
    
    return rse

    c. R2(y_true, y_predict)
$$ R^2 = 1 - \frac{RSS}{TSS} $$


$$ TSS = \sum_{i=0}^{n-1}{ (y_i - \bar{y})^2 } $$

In [6]:
def TSS(y_true, y_mean):
    soma = 0
    for i in y_true:
        soma += (i - y_mean)**2
    
    return soma

In [7]:
def R2(y_true, y_predict):
    y_mean = np.mean(y_true)
    
    var_sum_rss = RSS(y_true, y_predict)
    var_sum_tss = TSS(y_true, y_mean)
    
    r2 = 1 - (var_sum_rss/var_sum_tss)
    return r2

    d. MAE(y_true, y_predict)
$$ MAE = \frac{1}{n} \sum_{i=0}^{n-1}{ \vert y_i - \hat{y}_i \vert } $$

In [8]:
def MAE(y_true, y_predict):
    sum_y = 0
    for i,j in enumerate(y_true):
        sum_y += abs(j - y_predict[i])
        
    mae = sum_y / (i+1)
    
    return mae

#### Parte 2

1. Carregue o conjunto de dados Advertising.csv

In [9]:
#Carregando o conjunto de dados
dataset = "Advertising.csv"
dados = np.loadtxt(dataset, skiprows=1, delimiter=",")

In [10]:
#Mostrando alguns dados
dados[:6]

array([[  1. , 230.1,  37.8,  69.2,  22.1],
       [  2. ,  44.5,  39.3,  45.1,  10.4],
       [  3. ,  17.2,  45.9,  69.3,   9.3],
       [  4. , 151.5,  41.3,  58.5,  18.5],
       [  5. , 180.8,  10.8,  58.4,  12.9],
       [  6. ,   8.7,  48.9,  75. ,   7.2]])

In [11]:
TV = dados[:,1]
radio = dados[:,2]
newspaper = dados[:,3]
sales = dados[:,4]

In [12]:
#Para regressão múltipla
x = dados[:, 1:4]

2. Aplique a regressão linear simples para 

    i) variável TV contra Sales, 

    ii) variável Radio contra Sales 
    
    iii) variável Newspaper contra Sales

In [13]:
#i) variável TV contra Sales
model1 = RegressaoSimples()
model1.fit(TV, sales)
sales_predict = model1.predict(TV)
sales_predict

[17.970774512765534,
 9.14797404839708,
 7.8502237645756425,
 14.234394574730185,
 15.627218139417664,
 7.446162320894975,
 9.765950374026335,
 12.74649772917667,
 7.441408656851673,
 16.53041430764504,
 10.174765481750304,
 17.23871025009703,
 8.163965591433572,
 11.667415991347124,
 16.734821861507022,
 16.32125308973975,
 10.255577770486438,
 20.409404166979442,
 10.322129067092666,
 14.034740684911505,
 17.4145958196992,
 18.317791987926576,
 7.6600772028435635,
 17.885208559986097,
 9.99412624810483,
 19.52997631896858,
 13.825579467006218,
 18.446140917095732,
 18.859709688863003,
 10.388680363698892,
 20.95607553195917,
 12.399480254015627,
 11.653154999217218,
 19.658325248137736,
 11.581850038567687,
 20.851494923006527,
 19.720122880700657,
 10.583580589474273,
 9.081422751790852,
 17.87094756785619,
 16.65876323681419,
 15.446578905772189,
 20.989351180262283,
 16.86792445471948,
 8.225763223996498,
 15.35625928894945,
 11.29663019596957,
 18.436633589009126,
 17.83291825550

In [14]:
#ii) variável Radio contra Sales
model2 = RegressaoSimples()
model2.fit(radio, sales)
sales_predict2 = model2.predict(radio)
sales_predict2

[16.9659787073925,
 17.26972238248116,
 18.606194552871262,
 17.67471394926604,
 11.498592555796634,
 19.21368190304858,
 15.953499790430303,
 13.280555449650102,
 9.73687924028241,
 9.838127131978629,
 10.486113638834436,
 14.171536896576836,
 16.419240092232915,
 10.850606048940827,
 15.973749368769546,
 18.970686962977652,
 16.722983767321573,
 17.330471117498895,
 13.462801654703298,
 14.151287318237593,
 14.920771295128862,
 10.344366590459728,
 12.531321051098075,
 12.733816834490515,
 11.863084965903024,
 10.020373337031826,
 15.244764548556766,
 12.693317677812027,
 14.799273825093398,
 12.55157062943732,
 15.042268765164327,
 12.835064726186735,
 9.615381770246946,
 13.361553763007077,
 9.595132191907702,
 10.141870807067288,
 18.18095340774714,
 19.3149297947448,
 14.718275511736422,
 16.94572912905326,
 13.827294064809688,
 16.074997260465768,
 14.920771295128862,
 11.01260267565478,
 14.515779728343983,
 13.867793221488176,
 11.316346350743439,
 17.715213105944528,
 12.5110

In [15]:
#iii) variável Newspaper contra Sales
model3 = RegressaoSimples()
model3.fit(newspaper, sales)
sales_predict3 = model3.predict(newspaper)
sales_predict3

[16.136169483559478,
 14.81806581037769,
 16.141638793406702,
 15.55095332990615,
 15.545484020058923,
 16.45338945469866,
 13.636694883376585,
 12.985847011556533,
 12.406100167750434,
 13.510900756890356,
 13.674980052307177,
 12.570179463167255,
 15.955682258600973,
 12.74519737827853,
 14.867289599002735,
 15.24467197846142,
 18.58642029511732,
 15.403281964031013,
 13.352290771320764,
 13.396045250098583,
 15.272018527697558,
 13.636694883376585,
 15.064184753502918,
 13.784366249251724,
 13.352290771320764,
 13.417922489487491,
 13.040540110028806,
 13.60387902429322,
 13.60387902429322,
 14.582885486946914,
 14.71414892328037,
 14.462560670307912,
 13.992200023446362,
 12.367814998819844,
 12.756135997972985,
 12.816298406292486,
 12.624872561639528,
 14.850881669461053,
 14.271134825654956,
 14.101586220390908,
 14.079708981002,
 14.46802998015514,
 12.449854646528253,
 13.795304868946177,
 14.719618233127596,
 14.074239671154771,
 14.30395068473832,
 13.363229391015219,
 15.08

    a. Reporte o RSS, RSE, R2 e o MAE para cada um

In [16]:
#i) variável TV contra Sales
print("RSS: ", RSS(sales, sales_predict))
print("RSE: ", RSE(sales, sales_predict))
print("R2: ", R2(sales, sales_predict))
print("MAE: ", MAE(sales, sales_predict))

RSS:  2102.5305831313517
RSE:  3.258656368650463
R2:  0.6118750508500708
MAE:  2.5498060389274864


In [17]:
#ii) variável Radio contra Sales
print("RSS: ", RSS(sales, sales_predict2))
print("RSE: ", RSE(sales, sales_predict2))
print("R2: ", R2(sales, sales_predict2))
print("MAE: ", MAE(sales, sales_predict2))

RSS:  3618.4795490250863
RSE:  4.274944354901059
R2:  0.33203245544529514
MAE:  3.320218797642066


In [18]:
#iii) variável Newspaper contra Sales
print("RSS: ", RSS(sales, sales_predict3))
print("RSE: ", RSE(sales, sales_predict3))
print("R2: ", R2(sales, sales_predict3))
print("MAE: ", MAE(sales, sales_predict3))

RSS:  5134.804544111939
RSE:  5.092480366520192
R2:  0.0521204454443045
MAE:  4.146559743838488


    b. Reporte os coeficientes para cada um

In [19]:
#i) variável TV contra Sales
print("Coeficiente B0: ", model1.coef()[0])
print("Coeficiente B1: ", model1.coef()[1])

Coeficiente B0:  7.032593549127704
Coeficiente B1:  0.04753664043301969


In [20]:
#ii) variável Radio contra Sales
print("Coeficiente B0: ", model2.coef()[0])
print("Coeficiente B1: ", model2.coef()[1])

Coeficiente B0:  9.311638095158287
Coeficiente B1:  0.20249578339243954


In [21]:
#iii) variável Newspaper contra Sales
print("Coeficiente B0: ", model3.coef()[0])
print("Coeficiente B1: ", model3.coef()[1])

Coeficiente B0:  12.351407069278162
Coeficiente B1:  0.05469309847227332


    c. Que conclusão podemos tirar ao analisar as medidas de erro e os parâmetros sobre a relação das variáveis TV, Radio e Newspaper com a variável alvo Sales? Todas variáveis tem relação com Sales?

Com os erros calculados acima, é perceptível que a correlação entre TV e sales é maior que as outras variáveis e sales. Todas as variáveis possuem relação com sales, porém newspaper obteve um resultado mais alto nas métricas calculadas, ou seja, newspaper tem uma correlação menor com sales. As correlações estão mostradas em seguida.

In [22]:
print("Correlação entre as variáveis TV e sales: ", np.corrcoef(TV, sales)[0][1])
print("Correlação entre as variáveis radio e sales: ", np.corrcoef(radio, sales)[0][1])
print("Correlação entre as variáveis newspaper e sales: ", np.corrcoef(newspaper, sales)[0][1])

Correlação entre as variáveis TV e sales:  0.7822244248616061
Correlação entre as variáveis radio e sales:  0.5762225745710551
Correlação entre as variáveis newspaper e sales:  0.22829902637616528


3. Aplique a regressão linear múltipla na matriz de observações completa contra Sales

In [23]:
modelo = RegressaoMultipla()
modelo.fit(x, sales)
sales_p = modelo.predict(x)
sales_p

array([246.75844867, 140.93848748, 206.90589331, 200.49024186,
       205.75192596, 222.05194509,  79.91611103,  56.7778545 ,
         4.60383343, 100.01581918,  83.62270405,  52.25381692,
       198.16917249,  39.57955981, 173.67951857, 192.30228918,
       347.82351567, 217.0470535 ,  66.85244867,  83.92422701,
       198.12867411, 113.86139963, 148.28677745, 120.06853536,
        65.55978775, 106.91501757,  63.98631157, 112.59506213,
       114.22448335, 133.24607023, 182.19686631, 134.75388084,
       106.53600713,  50.98025409,  39.83441611,  79.82774648,
        65.01343081, 148.38494894, 111.29872418, 137.03595484,
       131.06886105, 147.11594397,  60.65943992, 116.63058956,
       132.0051142 , 125.60904215, 121.86498647,  99.60051308,
       189.51397164, 120.7974129 , 139.39641798,  29.54422014,
       157.18041588, 206.93621954,  96.27106126, 213.82649502,
       123.06290011,  74.48919662, 150.53256179,  67.0701043 ,
        73.02227807, 210.02160562, 125.37659634,  44.06

    a. Reporte o RSS, SER, R2 e o MAE

In [24]:
print("RSS: ", RSS(sales, sales_p))
print("RSE: ", RSE(sales, sales_p))
print("R2: ", R2(sales, sales_p))
print("MAE: ", MAE(sales, sales_p))

RSS:  2982487.6601610975
RSE:  122.73169513500828
R2:  -549.5641062858205
MAE:  103.51784088022326


    b. Reporte os coeficientes

In [25]:
print("Coeficientes: ", modelo.coef())

Coeficientes:  [ 4.57646455e-02  1.88530017e-01 -1.03749304e-03  2.93888937e+00]


    c. Ao analisar os coeficientes e o erro e comparar com a questão anterior, esse método seria mais adequado para relacionar as variáveis TV, Radio e Newspaper com a variável alvo Sales?

Na questão anterior, a variável que obteve maior correlação foi TV. Porém, ao analisar os coeficientes aplicando a regressão linear múltipla, a variável que teve maior correlação com sales foi radio, porque o valor obtido do coeficiente foi mais alto que os valores das demais variáveis. A variável newspaper teve um valor de coeficiente mais baixo que as demais, e, como na questão anterior, tem uma correlação menor com sales.