## Definindo problema de Negócio

Nosso objetivo neste conjunto de dados é o de prever o peso de um peixe baseando-de nas variáveis de entradas disponíveis. Essas variáveis incluem fatores como nome da especie do peixe, peso do peixe, altura, tamanho, etc. 
Esta análise pode vir a ser utilizada em supermercados/armazéns que almejam estabelecer um preço baixo e justo dos 
seus peixes tendo em conta a situação crítica actual do país.  


## Definindo o Dataset 
Usaremos um conjunto de dados com registos de 7 espécies diferentes de peixeis comuns nas vendas do mercado de peixes. Com este conjunto de dados iremos de prever o peso do peixe com um modelo de regressão linear multípla. 

In [123]:
#imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
from sklearn import linear_model
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score

In [2]:
df = pd.read_csv("Fish.csv")

In [3]:
df.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


1. Species: Nome do tipo de espécie do peixe
2. Length1: Comprimento vertical em cm 
3. Length2: Comprimento diagonal em cm
4. Length3: Medida transversal em relação ao comprimento, em cm 
5. Height:  Altura em cm
6. Width:  largura em cm
7. Weight(TARGET): Peso do peixe em gramas (g)

In [20]:
#Trocando a posição da coluna Target para o fim 
# Armazenando a coluna que desejamos mover em uma variável
coluna_armazenada = df['Weight']

# Remoção da coluna original do DataFrame
df = df.drop('Weight', axis=1)

# Inserindo a coluna armazenada na última posição do DataFrame
df['Weight'] = coluna_armazenada

In [21]:
df.head()

Unnamed: 0,Species,Length1,Length2,Length3,Height,Width,Weight
0,Bream,23.2,25.4,30.0,11.52,4.02,242.0
1,Bream,24.0,26.3,31.2,12.48,4.3056,290.0
2,Bream,23.9,26.5,31.1,12.3778,4.6961,340.0
3,Bream,26.3,29.0,33.5,12.73,4.4555,363.0
4,Bream,26.5,29.0,34.0,12.444,5.134,430.0


In [33]:
#Coletando X e Y 
#X são as variáveis preditoras
#Y é a variável a ser prevista
X = df.iloc[:,1:-1]
Y = df['Weight'].values

In [35]:
#Variáveis explanatórias
X.head()

Unnamed: 0,Length1,Length2,Length3,Height,Width
0,23.2,25.4,30.0,11.52,4.02
1,24.0,26.3,31.2,12.48,4.3056
2,23.9,26.5,31.1,12.3778,4.6961
3,26.3,29.0,33.5,12.73,4.4555
4,26.5,29.0,34.0,12.444,5.134


In [36]:
#Variável Target 
Y

array([ 242. ,  290. ,  340. ,  363. ,  430. ,  450. ,  500. ,  390. ,
        450. ,  500. ,  475. ,  500. ,  500. ,  340. ,  600. ,  600. ,
        700. ,  700. ,  610. ,  650. ,  575. ,  685. ,  620. ,  680. ,
        700. ,  725. ,  720. ,  714. ,  850. , 1000. ,  920. ,  955. ,
        925. ,  975. ,  950. ,   40. ,   69. ,   78. ,   87. ,  120. ,
          0. ,  110. ,  120. ,  150. ,  145. ,  160. ,  140. ,  160. ,
        169. ,  161. ,  200. ,  180. ,  290. ,  272. ,  390. ,  270. ,
        270. ,  306. ,  540. ,  800. , 1000. ,   55. ,   60. ,   90. ,
        120. ,  150. ,  140. ,  170. ,  145. ,  200. ,  273. ,  300. ,
          5.9,   32. ,   40. ,   51.5,   70. ,  100. ,   78. ,   80. ,
         85. ,   85. ,  110. ,  115. ,  125. ,  130. ,  120. ,  120. ,
        130. ,  135. ,  110. ,  130. ,  150. ,  145. ,  150. ,  170. ,
        225. ,  145. ,  188. ,  180. ,  197. ,  218. ,  300. ,  260. ,
        265. ,  250. ,  250. ,  300. ,  320. ,  514. ,  556. ,  840. ,
      

## Usando todas as variáveis explanatórias com StatsModels

In [38]:
#Adicionado a constante pois o statsmodels requer isso
Xc= sm.add_constant(X)
modelo = sm.OLS(Y, Xc)
modelo_v1 = modelo.fit()

In [40]:
modelo_v1.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.885
Model:,OLS,Adj. R-squared:,0.882
Method:,Least Squares,F-statistic:,236.2
Date:,"Tue, 20 Jun 2023",Prob (F-statistic):,4.9500000000000006e-70
Time:,09:23:41,Log-Likelihood:,-987.96
No. Observations:,159,AIC:,1988.0
Df Residuals:,153,BIC:,2006.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-499.5870,29.572,-16.894,0.000,-558.010,-441.164
Length1,62.3552,40.209,1.551,0.123,-17.081,141.791
Length2,-6.5268,41.759,-0.156,0.876,-89.025,75.971
Length3,-29.0262,17.353,-1.673,0.096,-63.309,5.256
Height,28.2974,8.729,3.242,0.001,11.052,45.543
Width,22.4733,20.372,1.103,0.272,-17.773,62.720

0,1,2,3
Omnibus:,20.989,Durbin-Watson:,0.424
Prob(Omnibus):,0.0,Jarque-Bera (JB):,27.307
Skew:,0.792,Prob(JB):,1.18e-06
Kurtosis:,4.269,Cond. No.,315.0


In [41]:
#Analisando o valor de R-Squared é possível verificar que temos um número que consegue explicar bem a variabilidade ~ 0.88
#Isso se deve ao facto de estarmos a treinar o modelo com várias variáveis

#Analisando o valor-p é possível verificar se há ou não uma associação que não seja por acaso entre as variáveis explanatórias
# e a variável que estamos tentando prever, notando o quão pequena a variável é. P deve ser menor que 0,05
#Valor p não é um valor único, mas sim mas uma ferramenta de avaliação ou seja um indicativo.

#Variáveis cujo valor-p  é superior a 0,05 tem uma relação ao acaso. Ou seja, pura sorte. Isso é um indicador que pode vir 
# a nos fazer remover esta variável do nosso conjunto de dados. Não podemos fazer previsões com variáveis que influnciam
# a variável preditora por acaso.



##  2  - Identificação das variáveis do Dataset mais relevantes para usar no modelo de regressão linear múltipla

## 2.1 Matriz de Correlação

In [65]:
df_corr = df.iloc[:,1:-1]
matriz_corr = df_corr.corr()
print (matriz_corr)

          Length1   Length2   Length3    Height     Width
Length1  1.000000  0.999517  0.992031  0.625378  0.867050
Length2  0.999517  1.000000  0.994103  0.640441  0.873547
Length3  0.992031  0.994103  1.000000  0.703409  0.878520
Height   0.625378  0.640441  0.703409  1.000000  0.792881
Width    0.867050  0.873547  0.878520  0.792881  1.000000


In [74]:
#Criando um Correlation Plot
variables = df.columns[:-1]
#def visualize_correlation_matrix(data, hurdle = 0.0):
  #  R = np.corrcoef(data, rowvar = 0)
  #  R[np.where(np.abs(R) < hurdle)] = 0.0
  #  heatmap = plt.pcolor(R, cmap = mpl.cm.coolwarm, alpha = 0.8)
   # heatmap.axes.set_frame_on(False)
  # heatmap.axes.set_yticks(np.arange(R.shape[0]) + 0.5, minor = False)
   # heatmap.axes.set_xticks(np.arange(R.shape[1]) + 0.5, minor = False)
  #  heatmap.axes.set_xticklabels(variables, minor = False)
  #  plt.xticks(rotation=90)
  #  heatmap.axes.set_yticklabels(variables, minor = False)
  #  plt.tick_params(axis = 'both', which = 'both', bottom = 'off', top = 'off', left = 'off', right = 'off') 
  #  plt.colorbar()
  #  plt.show()
    #visualize_correlation_matrix(matriz_corr, hurdle = 0.5)

## 2.2 - Avaliando a Multicolinearidade

Se tivermos duas variáveis que contém o mesmo tipo de informação podemos tornar o modelo a ser tendencioso, ao remover uma das variáveis é possível termos o modelo muito mais generalizável.Pois é o nosso objetivo criar um modelo que seja o mais generalizável possível, de modo que quando inserirmos uma nova variável de entrada ele seja capaz de prever as saídas. 

## 2.2.1  - Autovalores(Eigenvalues) e Autovetores(Eigenvectors)
Uma forma ainda mais automática de detectar associações multicolineares (e descobrir problemas numéricos em uma inversão de matriz) é usar autovetores. Explicados em termos simples, os autovetores são uma maneira muito inteligente de recombinar a variância entre as variáveis, criando novos recursos acumulando toda a variância compartilhada. Tal recombinação pode ser obtida usando a função NumPy linalg.eig, resultando em um vetor de autovalores (representando a quantidade de variância recombinada para cada nova variável) e autovetores (uma matriz nos dizendo como as novas variáveis se relacionam com as antigas).

Consiste de uma operação matemática para identificar a variância total entre as variáveis. E verificar se há ou não multicollinearidade. 

In [80]:
#Gerando eigenvalues e eigenvectors
corr = np.corrcoef(df_corr, rowvar = 0)
eigenvalues, eigenvectors = np.linalg.eig(corr)

Depois de extrair os autovalores, imprimimos em ordem descrescente e procuramos qualquer elemento cujo valor seja próximo de zero ou pequeno em comparação com os outros. Valores próximos a zero podem representar um problema real para equações normais e outros métodos de otimização baseados na inversão matricial. Valores pequenos representam uma fonte elevada mas não crítica de multicolinearidade.  Valores próximos de 0 indicam multicollinearidade.

In [81]:
print(eigenvalues)

[4.36938852e+00 5.09715394e-01 1.18988494e-01 2.78502369e-04
 1.62909068e-03]


O menor valor está na posição 2. Vamos buscar a posição 2 no autovetor.

In [82]:
print(eigenvectors[:,2])

[ 0.12137817  0.12619859  0.28705679  0.37168002 -0.86532862]


No eigenvector, observamos valores nas posições de índice 2, 3 e 4, que estão realmente em destaque em termos de valor absoluto.
Ou seja de acordo ao conjunto de valores são os mais altos.

Agora nós imprimimos os nomes das variáveis para saber quais contribuem mais com seus valores para construir o autovetor. 
Associamos o vetor de variáveis com o eigenvector.

In [83]:
print(variables[2], variables[3], variables[4])

Length2 Length3 Height


Tendo encontrado os culpados da multicolinearidade, o que devemos fazer com essas variáveis? 
A remoção de algumas delas é geralmente a melhor solução.

## Gradiente Descendente 


In [86]:
#Gerando os dados
observations = len(df)
variables = df.columns

Ao trabalhar com gradiente descendente, o ideal é que as variáveis estejam na mesma escala.Não podemos ter variáveis em escala completamente diferentes. 

## Feature Scaling
Consiste em aplicar feature nas features, ou seja nas variáveis.
Podemos aplicar feature Scaling através de duas técnicas: Padronização ou Normalização. Normalização aplica escala aos dados
com intervalo entre 0 e 1. A padronização divide a média pelo desvio padrão para obter uma unidade de variância. Vamos usar
a padronização ( StandradScaler) pois nesse caso esta técnica ajusta os coeficientes e torna a superfície de erros mais "tratável". É necessário perceber que cada algoritmo de machine learning requer um pré-processamento dos dados. 

In [89]:
#Aplicando Padronização

standardization = StandardScaler()
#Padronização das variáveis explanatórias
Xst = standardization.fit_transform(X)
#Coletar as médias
original_means = standardization.mean_
#Coletar as escalas
original_stds = standardization.scale_

In [92]:
#Gerando X padronizado e Y
Xst = np.column_stack((Xst, np.ones(observations)))
y = df['Weight'].values

In [93]:
def random_w( p ):
    return np.array([np.random.normal() for j in range(p)])

def hypothesis(X,w):
    return np.dot(X,w)

def loss(X,w,y):
    return hypothesis(X,w) - y

def squared_loss(X,w,y):
    return loss(X,w,y)**2

def gradient(X,w,y):
    gradients = list()
    n = float(len( y ))
    for j in range(len(w)):
        gradients.append(np.sum(loss(X,w,y) * X[:,j]) / n)
    return gradients

def update(X,w,y, alpha = 0.01):
    return [t - alpha*g for t, g in zip(w, gradient(X,w,y))]

def optimize(X,y, alpha = 0.01, eta = 10**-12, iterations = 1000):
    w = random_w(X.shape[1])
    path = list()
    for k in range(iterations):
        SSL = np.sum(squared_loss(X,w,y))
        new_w = update(X,w,y, alpha = alpha)
        new_SSL = np.sum(squared_loss(X,new_w,y))
        w = new_w
        if k>=5 and (new_SSL - SSL <= eta and new_SSL - SSL >= -eta):
            path.append(new_SSL)
            return w, path
        if k % (iterations / 20) == 0:
            path.append(new_SSL)
    return w, path 

In [94]:
#Imprimindo o resultado 
alpha = 0.01
alpha = 0.01
w, path = optimize(Xst, y, alpha, eta = 10**-12, iterations = 20000)
print ("Coeficientes finais padronizados: " + ', '.join(map(lambda x: "%0.4f" % x, w)))            


Coeficientes finais padronizados: 164.5326, 109.8077, -49.4921, 64.0940, 70.4909, 133.0467, 131.3979, 133.8818


In [100]:
#Desfazendo a Padronização para obter os valores reais dos coeficientes pois a padronização é simplesmente usada para analisar
#os resultados finais

#unstandardized_betas = w[:-1] / original_stds
#unstandardized_bias  = w[-1]-np.sum((original_means / original_stds) * w[:-1])

## Importância dos Atributos

In [106]:
#Criando um modelo 
modelo = linear_model.LinearRegression(fit_intercept =True)

In [107]:
#Treinando o modelo com dados não padronizados(em escalas diferentes)
modelo.fit(X,y)

In [109]:
#Imprimindo os coeficientes e as variáveis por ordem de importância
for coef, var in sorted(zip(map(abs, modelo.coef_), df.columns[:-1]), reverse = True):
    print ("%6.3f %s" % (coef,var))

62.355 Species
29.026 Length2
28.297 Length3
22.473 Height
 6.527 Length1


Observação importante: O modelo de regressão multípla espera receber as variáveis de forma padronizada, logo devemos padronizar 
os mesmos

In [112]:
#Padronizando os dados
standardization = StandardScaler()
Stand_coef_linear_reg = make_pipeline(standardization, modelo)


In [114]:
#Treinando o modelo com dados padronizados ( na mesma escala)
#Primeiro aplica a padronização e depois treina o modelo
Stand_coef_linear_reg.fit(X,Y)

In [116]:
# Imprimindo os coeficientes e as variáveis
for coef, var in sorted(zip(map(abs, Stand_coef_linear_reg.steps[1][1].coef_), df.columns[:-1]), reverse = True):
    print ("%6.3f %s" % (coef,var))

621.367 Species
335.940 Length2
120.906 Length3
69.723 Length1
37.766 Height


## Usando o R Squared
Métrica usada para valiar a performance do modelo

In [118]:
#Criação do objeto
modelo = linear_model.LinearRegression(fit_intercept = True)

In [121]:
def r2_est(X,Y):
    return r2_score(y, modelo.fit(X, Y).predict(X))

In [124]:
print('Coeficiente R2: %0.3f' % r2_est(X,Y))

Coeficiente R2: 0.885


A partir deste resultado podemos dizer que as variáveis explanatórias conseguem explicar 88% da variabilidade da variável preditora.

In [125]:
#Verificar impacto de cada variável no R2
r2_impact = list()
for j in range(X.shape[1]):
    selection = [i for i in range(X.shape[1]) if i!=j]
    r2_impact.append(((r2_est(X,Y) - r2_est(X.values[:,selection],y)), df.columns[j]))
    
for imp, varname in sorted(r2_impact, reverse = True):
    print ('%6.3f %s' %  (imp, varname))

 0.008 Length3
 0.002 Length2
 0.002 Species
 0.001 Height
 0.000 Length1


## Fazendo Previsões com o modelo de Regressão Linear Múltipla

In [126]:
# Imports
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

In [127]:
#Criando o bloco principal de previsões
#Carregando o DataSet
df2 = pd.read_csv("Fish.csv")

In [128]:
df2.head()

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


In [129]:
df2.shape

(159, 7)

Temos um dataset com 159 observações e 7 colunas.

In [130]:
#Ao invés de usar todas as variáveis para efetuar as previsões, vamos usar apenas as 2 variáveis que têm mais impacto no R2
X = df2[['Length3','Length2']]
Y = df2['Weight'].values

In [131]:
X.head()

Unnamed: 0,Length3,Length2
0,30.0,25.4
1,31.2,26.3
2,31.1,26.5
3,33.5,29.0
4,34.0,29.0


In [132]:
Y

array([ 242. ,  290. ,  340. ,  363. ,  430. ,  450. ,  500. ,  390. ,
        450. ,  500. ,  475. ,  500. ,  500. ,  340. ,  600. ,  600. ,
        700. ,  700. ,  610. ,  650. ,  575. ,  685. ,  620. ,  680. ,
        700. ,  725. ,  720. ,  714. ,  850. , 1000. ,  920. ,  955. ,
        925. ,  975. ,  950. ,   40. ,   69. ,   78. ,   87. ,  120. ,
          0. ,  110. ,  120. ,  150. ,  145. ,  160. ,  140. ,  160. ,
        169. ,  161. ,  200. ,  180. ,  290. ,  272. ,  390. ,  270. ,
        270. ,  306. ,  540. ,  800. , 1000. ,   55. ,   60. ,   90. ,
        120. ,  150. ,  140. ,  170. ,  145. ,  200. ,  273. ,  300. ,
          5.9,   32. ,   40. ,   51.5,   70. ,  100. ,   78. ,   80. ,
         85. ,   85. ,  110. ,  115. ,  125. ,  130. ,  120. ,  120. ,
        130. ,  135. ,  110. ,  130. ,  150. ,  145. ,  150. ,  170. ,
        225. ,  145. ,  188. ,  180. ,  197. ,  218. ,  300. ,  260. ,
        265. ,  250. ,  250. ,  300. ,  320. ,  514. ,  556. ,  840. ,
      

In [133]:
#Divisão em dados de treino e de teste
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state = 42)

In [134]:
#Criando o modelo
modelo = LinearRegression(fit_intercept=True)

In [135]:
#Treina o modelo
modelo_v2 = modelo.fit(X_train, y_train)

In [136]:
#Calcula a métrica R2 do nosso modelo
r2_score(y_test, modelo_v2.fit(X_train, y_train).predict(X_test))

0.8400101038572236

In [139]:
#Produzindo a matriz com os novos dados de entrada para a previsão
Length3 = 30
Length2 = 25.4

#Lista com os valores das variáveis
dadosN = [Length3,Length2]

#Reshape
Xp = np.array(dadosN).reshape(1,-1)

#Previsao
print("Peso do peixe:", modelo_v2.predict(Xp))

Peso do peixe: [334.311474]


