# Código de forma "Manual"

In [None]:
# regressão utilizando o otimizador
# definindo as bibliotecas
import numpy as np #biblioteca necessária para trabalhar com vetores e matrizes
import scipy #biblioteca necessária para obter as funções de treinamento
import matplotlib.pyplot as plt #biblioteca utilizada para construir os gráficos
from scipy.optimize import curve_fit #biblioteca utilizada para realizar a otimização dos MSE

In [None]:
# Definindo as variáveis
idade = [18,25,57,45,26,64,37,40,24,33] # variavel independente (prever salario baseado na idade)
salarioAnual = [15000,29000,68000,52000,32000,80000,41000,45000,26000,33000] #variavel dependente

xData = np.array(idade) # transformando a lista em array
yData = np.array(salarioAnual) #transformando a lista em array

In [None]:
# Define a função a ser otimizada (regressão simples).
def equacaoLinear(x, a, b):
  return a * x + b

In [None]:
# Gera os parâmetros iniciais para o otimizador
parametrosIniciais = np.array([1.0,1.0]) 

In [None]:
# Realiza a otimização através do erro médio quadrado (MSE)
parametrosOtimizados, pcov = curve_fit(equacaoLinear, xData, yData, parametrosIniciais)
# Parâmetros otimizados, contém os parâmetros de ajuste da curva 
# pcov - contém a convariância dos parâmetros encontrados

In [None]:
# Realiza a previsão dos dados através do modelo (constroi a equacao linear)
previsaoModelo = equacaoLinear(xData, *parametrosOtimizados) #Utiliza a função linear com os parâmetros otimizados

In [None]:
# Encontra o erro absoluto (linhas verticais)
erroAbsoluto = previsaoModelo - yData #(valor previsto - valor real)

In [None]:
# Calcula o erro quadrado entre cada medida
SE = np.square(erroAbsoluto)
# Calcula o MSE
MSE = np.mean(SE)
print('SE: ', SE)
print('MSE: ', MSE)

In [None]:
# Realiza o calculo de coeficiente de determinação 
Rsquared = 1.0 - (np.var(erroAbsoluto) / np.var(yData)) #numpy.var - encontra a variancia entre os dados do vetor
print('Coeficiente de Determinação: ', Rsquared)

In [None]:
#  Mostra os parâmetros da regressão
print('Y= {} X{}' .format(parametrosOtimizados[0], parametrosOtimizados[1]))

In [None]:
# Realiza o plot da figura
f = plt.figure(figsize = (4,4), dpi = 100) # indica o tamanho da figura
axes = f.add_subplot(111) # cria os objetos para o subplot

# Realiza o plot dos dados (pontos no gráfico)
axes.plot(xData, yData, 'ro')

# Cria os Dados para serem utilizados na construção da linha (equação)
xModel = np.linspace(min(xData), max(xData)) # Encontra os valores minimos e maximos da linha
yModel = equacaoLinear(xModel, *parametrosOtimizados) # Aplica a função com os parâmetros obtidos

#Realiza o plot da linha
axes.plot(xModel, yModel)
plt.ylabel("Idade")
plt.xlabel("Salario Anual (R$)")

# Mesmo código porém em SKLearn


In [None]:
# utiliza as funções do SKLearn para construir a regressão linear
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [None]:
reg = LinearRegression() # objeto para a regressão linear
x_ModeloSklearn = xData.reshape((-1,1)) # na regressão linear é necessário que o x seja 2D
regressao = reg.fit (x_ModeloSklearn, yData) # realiza a regressão

In [None]:
previsao = reg.predict(x_ModeloSklearn)

In [None]:
MSE = mean_squared_error(yData, previsao) # encontra MSE atraves do sklearn
print('MSE', MSE)

In [None]:
#parâmetros encontrados
print('Y = {} X {}'.format(reg.coef_, reg.intercept_))

from sklearn.metrics import r2_score # metodo para calculo do R2

R_2 = r2_score(yData, previsao) # realiza calculo do R2
print("coeficiente de determinação:", R_2)

# Construção de uma regressão para um banco de dados real 

In [None]:
import pandas as pd 


In [None]:
from google.colab import files
uploaded = files.upload()


In [None]:
# leitura do banco de dados
data = pd.read_csv("headbrain.csv")
data.head() # visualiza as 5 primeiras linhas do banco de dados.

In [None]:
# Como o formato em cada uma das colunas do dataframe são series é necessário converter array
x = data["Head Size(cm^3)"].values
y = data["Brain Weight(grams)"].values

In [None]:
# Realiza a construção do modelo de regressão
reg = LinearRegression()
x_Reshaped = x.reshape((-1,1)) # coloca os dados no formato 2D
regressao = reg.fit(x_Reshaped, y) # encontra os coeficientes (realiza a regressão)

In [None]:
# realiza a previsão
previsao = reg.predict(x_Reshaped)

In [None]:
# parâmetros encontrados
print('Y = {} X {}'.format(reg.coef_,reg.intercept_))

R_2 = r2_score(y, previsao)  # realiza o calculo do R2

print('Coeficiente de determinação (R2):' , R_2)

In [None]:
# realiza o plot dos dados
plt.figure(figsize = (4,4), dpi = 100) 
plt.scatter(x,y, color = 'gray') #realiza o plot do gráfico de dispersão
plt.plot(x, previsao, color = 'red', linewidth = 2) #realiza o plot da linha
plt.xlabel ("Head Size (cm^3)")
plt.ylabel ("Brain Weight (grams)")
plt.show()
