# Tutorial Python 05 - Regressões lineares múltiplas com sklearn

Limpar memória do Python

In [1]:
%reset -f

## Visão geral
### Porque usar o sklearn?
Nos últimos tutoriais aprendemos a fazer regressões como  pandas, que é uma ferramenta muito útil no dia-dia. De certa forma, podemos dizer que o pandas é um pacote que se aplica muito bem para o dia-dia da estatística básica. 

Mas para utilizar algoritimos de machine learning, o melhor pacote é o sklearn. O sklearn foi construido em cima de outros pracotes pré-existentes (NumPy, SciPy e matplotlin), portanto, o pacote faz uma boa integração das funções pré-existentes.

### Porque o sklean é melhor que o pandas?
* skelarn tem melhor documentação, com exemplos práticos de como aplicar as funções presentes no pacote (disponível em: https://scikit-learn.org/stable/)
* skelarn tem maior variedade de aplicações, tais como:
  * Regression
  * Classification
  * Clustering
  * Support vector machines
  * Dimensionality reduction
* skelarn também é mais rápido que o pandas
* skelarn é famoso por ser numericalmente estavel (numerical stability).Isso quer dizer que o pacote lida bem com números com uma grande variedade de escalas. Resumidamente, se você está trabalhando com machine learning, as vezes aparece um numero muito grande ou muito pequeno. Nesses casos, se o pacote que você utiliza não for bom, o seu codigo pode "quebrar". Exemplo, imagine que você precisa multiplicar um valor por uma dada variável, e derrepente essa variável assume um valor de 0.0000001, se você arrendar esse valor para 4 casas decimais, o valor arredondado será de zero. A partir daí, qualquer valor que multiplique o padrametro, será zero também.

### Limitação do sklean
O sklean não é o melhor pacote para deeplearning. Nesses casos os melhores pacotes são:
* tensorflow https://www.tensorflow.org/learn
* keras  https://keras.io/
* PyTorch https://pytorch.org/

### Diferenças de aplicação
A maior diferença da aplicação do pandas para o sklearn é que no pandas você informa insere os dados para análise por meio de data frames enquanto no sklearn você usa arrays.


### Variações do machine learning
Existem 3 tipos de método de machine learning
* Supervisionada (Supervised)
* Não-supervisionada (Unsupervised)
* Reforço (Reinforcement)

É importante notar, que nós apenas "vemos" o aprendizado supervisionado. O modelo de aprendizado supervisioando contem uma ou mais variáveis preditoras (inputs) e uma variável resposta (output). 


### Diferença entre modelos de Machine Learning e Esatatística tradicional
Apesar de os modelos matemático serem os mesmos, é importante notar que algumas diferenças de conceitos podem influenciar a escolha do método, e a definição de alguns parâmetros nas análises. O exemplo apresentado anteriormente, dizia respeito a dados de um artigo científico que buscava entender se elementos do habitat afetam o comportamento de uma ave. Nesse caso, o objetivo era avaliar se uma variável x influencia uma variável y.
Quando lhe damos com machine learning, o objetivo é outro. A ideia é fornecer valores de observações de variáveis x, e o algoritmo fazer uma previsão sobre a y. 
Trazendo essa comparação para outro exemplo. Suponha dois cenários: i) um universitário quer saber se temperatura do dia influencia na venda de sorvetes; ii) um dono de supermercado quer saber qual é a previsão de sorvetes que serão vendidos na sua loja na próxima semana. No cenário i, o universitário irá aplicar um modelo tradicional de estatística, e irá avaliar se existem evidências que a temperatura do dia afeta a venda de sorvertes (eg. Fazer uma regressão linear entre Nº sovertes vendido ~ temperatura do dia, e avaliar o valor de p do coeficiente de regressão linear). No cenário ii, o dono da loja não está interessado no valor de p, a única coisa que ele quer saber é qual é a previsão (quantos/números) de potes de sorvete que sertão vendidos na semana seguinte.
Portanto, de forma geral, no cenário i, o universitário irá aplicar um modelo de estatística tradicional, enquanto no cenário ii o dono do supermercado vai aplicar um modelo de machine learning. Note que como o objetivo no cenário ii é prever o número de sorvetes vendidos, faz mais sentido não padronizar valores de y, dado que tal fator dificultaria a interpretação da previsão do modelo.


## Carregar pacotes necessário 

In [2]:
# Como foi dito anteriormente, o sklearn foi construido em cima dos pacotes: NumPy, pandas, matplotlib and seaborn. Portanto vamos carregar esses pacotes
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Adicionalmente, vamos carregar o seaborn para gerar gráficos interessantes para ilustrar esse tutorial
import seaborn as sns
sns.set()

# Para completar, para aplicarmos nosso primeiro modelo a ser aplicado em  machine learning, vamos carregar o sklearn
from sklearn.linear_model import LinearRegression # O modulo LinearRegression vai trazer todas as ferramentas que vamos precisar para fazer nossos primeiros modelos de regressão linear no sklearn


## Carregue o banco de dados
Aqui usaremos o conjunto de dados publicado por Biagolini-Jr. et al 2021 https://doi.org/10.1007/s00265-021-03015-2. Esse conjunto de dados consiste em dados de filmagem de display de Tiziu registradas em Brasília/DF, coletadas em duas áreas.

Como estamos lhe dando com Machine learning, a ideia agora será prever qual é a duração de saltos de tiziu, dado determinadas condições ambientais.

Carregar os dados seguindo o mesmo procedimento usado nos outros tutoriais:

In [3]:
dados = pd.read_excel('Dados_Biagolini-Jr_et_al_2021.xlsx')
nonPAD = dados[dados["Disturbance"] == 0]

Veja a descrição geral do novo conjunto de dados

In [4]:
nonPAD.describe()

Unnamed: 0,nLeaps,LeapDuration,LeapRate,Nseeds,ShadowIntensity,VegetationDensity,Disturbance,Truck,Fire,Mower,BorderDistance,RoadDistance,LakeDistance,DawnTime,DayYear,Longitude,Latitude
count,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0,39.0
mean,19.589744,464.04974,14.121309,497.740071,1.768495,0.334628,0.0,0.025641,0.153846,0.179487,86.085695,232.430726,409.479839,2.621797,52.461538,-47.866115,-15.757153
std,8.34997,69.785181,2.805358,438.218596,1.095031,0.108133,0.0,0.160128,0.365518,0.388776,45.235166,144.164528,229.67262,1.348704,19.005326,0.00863,0.003812
min,11.0,318.772727,7.320644,0.0,0.256048,0.092675,0.0,0.0,0.0,0.0,7.988528,29.696078,11.245272,0.7981,18.0,-47.874406,-15.764221
25%,15.0,415.995215,12.401862,266.13,0.926267,0.262368,0.0,0.0,0.0,0.0,48.870137,122.838805,185.780428,1.5272,33.5,-47.873101,-15.760967
50%,18.0,450.90566,14.826012,375.24,1.581984,0.347358,0.0,0.0,0.0,0.0,96.152144,166.642358,545.096972,2.0725,59.0,-47.872535,-15.755073
75%,22.0,507.149306,16.001096,628.32,2.519705,0.408062,0.0,0.0,0.0,0.0,116.770096,376.626299,594.312593,3.8325,64.0,-47.857048,-15.754148
max,53.0,683.777778,19.144863,2329.68,4.781968,0.60456,0.0,1.0,1.0,1.0,160.362508,476.253447,715.202997,5.6433,78.0,-47.852807,-15.752316


#### Padronização dos dados (Standardization ou Feature scaling)
OBS: alguns autores tambem chamam de Normalization, mas esse termo também é usado para outras coisas relacionadas ao machine learning, então para evitar confusão, não use o termo normalização.
Selecione os dados para análise

In [5]:
y = nonPAD ['LeapDuration'] # Duração do salto (quantos milisegundos leva do momento que o Tiziu tira a pata do poleiro até colocar a pata novamente no poleiro)
xBruto = nonPAD [['Nseeds','ShadowIntensity']]  # Nseeds = Número médio de semenstes em plotes de 50cm2; ShadowIntensity = Intensidade de sombreamento
# x2= nonPAD ['ShadowIntensity']

Aplique a padronização nos seus dados, com estamos trabalhando com Machine Learning, vamos aplicar a padronização apenas para as variáveis preditoras


$Valor{Padronizado} = \frac{(Valor{Obs} - Media)}{Variância}$

In [6]:
from sklearn.preprocessing import StandardScaler # Importar pacote
scaler = StandardScaler() # Renomear função
scaler.fit(xBruto) # Escale o conjunto de dados x
x_scaled = scaler.transform(xBruto) # Fazer a padronização dos dados
x_scaled # Observe os dados

array([[ 4.23507329,  0.37996634],
       [ 0.02002   , -1.25904825],
       [-0.14365523, -0.38502697],
       [ 1.04722848, -0.14450101],
       [ 0.79803217, -1.16932335],
       [-0.10190418,  0.08964864],
       [ 0.23645044,  1.02493431],
       [ 0.86646136,  0.67314986],
       [-0.72632056, -0.16258528],
       [-0.30497243,  0.08967217],
       [-0.2683998 ,  1.51046613],
       [-0.38103055, -0.73630321],
       [ 0.4077546 ,  0.71681939],
       [-0.6165102 , -0.38042473],
       [-1.00794367, -0.26003234],
       [ 2.83911777,  0.82133452],
       [-0.2831953 , -0.83314322],
       [-0.53273067,  2.78792709],
       [ 0.16168692, -1.08870412],
       [ 0.87788164, -1.25666713],
       [-0.43942654, -0.10075148],
       [-0.32855276, -1.39924722],
       [-0.36332219, -1.24953318],
       [-0.7051445 , -0.34359738],
       [ 0.26442318, -0.1725521 ],
       [-0.53814028,  1.98092067],
       [ 0.3393254 ,  1.8302043 ],
       [ 0.47655368, -0.244828  ],
       [-0.18975247,

Definir suas variáveis dependente e intependente

## Regressão linear

Vamos agora rodar o modelo de regressão propriamente dito

In [7]:
reg = LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None) # Esse codigo irá criar um objeto chamado reg, que vai estar vazio, mas é definido como LinearRegression class
reg.fit(x_scaled,y) # Codigo para ajustar a regressão, onde a primeira variável representa os inputs, e a segunda o target.

LinearRegression()

Os parametros da função LinearRegression, são:
* fit_intercept = Informa ao algoritmos que ele deve calcular um valor de intercept0 (que seria o B0 no nosso exemplo)
* normalize = Faz a padronização automaticamente do nosso conjunto de dados
* copy_X = Se verdadeiro, o sklearn faz uma copia de x antes de fazer a normalização, de forma a não correr risco de mudar a estrutura do x original
* n_jobs = número de CPU que devem ser usadas para essa analise. Se for definido como "None" o pacote vai operar da mesma forma que se tivesse sido definido "=1". Ou seja, vai rodar o codigo em só 1 CPU.

### Calculo do $R^2_{não-ajustado}$


In [8]:
reg.score(x_scaled,y)

0.3604362430620176

### Calculo do $R^2_{ajustadado}$


A formula para calcular o R2 ajustado é:


$R^2_{adj.} = 1 - (1-R^2)*\frac{n-1}{n-p-1}$

In [9]:
# Para calcular o R2, primeiro você calcula o r2 padrão
r2 = reg.score(x_scaled,y)
# Colete o número de observações do seu modelo
n = x_scaled.shape[0]
# Colete o número de variáveis contidas no seu modelo
p = x_scaled.shape[1]

# Aplique os dados na formula apresentada. Note que quanto mais variáveis tem o seu modelo (p), menor seráo valor de r2. 
adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
adjusted_r2

0.3249049232321296

Se preferir, você pode criar uma função para calcular o r2 ajustado

In [10]:
def adj_r2(x,y):
    r2 = reg.score(x,y)
    n = x.shape[0]
    p = x.shape[1]
    adjusted_r2 = 1-(1-r2)*(n-1)/(n-p-1)
    return adjusted_r2

Aplique a função ao seu conjunto de dados

In [11]:
adj_r2(x_scaled,y)

0.3249049232321296

### Coeficientes

In [12]:
reg.coef_

array([32.08080627, 23.47540708])

### Intercepto

In [13]:
reg.intercept_

464.04974023076926

### Montar uma tabela com resultados gerais


In [14]:
reg_summary = pd.DataFrame([['Bias'],['Nseeds'],['ShadowIntensity']], columns=['Features'])
reg_summary['Weights'] = reg.intercept_, reg.coef_[0], reg.coef_[1]
reg_summary

Unnamed: 0,Features,Weights
0,Bias,464.04974
1,Nseeds,32.080806
2,ShadowIntensity,23.475407


O termo Weigths é o termo usado para referenciar os coeficientes do modelo quando estamos trabalhando com modelos de aprendizado de máquina. A lógica é que quanto menor o valor do Weight, menor é o impacto da variável na previsão da variável resposta.

Quando você padroniza seus dados em um modelo de machine learning, na pratica não importa muito se suas variáveis vão ter efeito significativo ou não. Suponha uma variável que não influencia em nada a variável resposta. Se ela foi padronizada, o valor de Weight para ela, será muito próxima de zero. Logo, qualquer valor observado multiplicado por um número próximo a zero, vai fazer com que não haja impacto na previsão da variável resposta. Apesar disso, se você acha que faz sentido manter uma determinada variável no seu modelo, mesmo que o valor dela foi muito baixo (beirando zero) é melhor deixar a variável lá e não remove-la, porque ela poderia interagir com outras e a soma dela com outras variáveis insignificantes poderiam afetar a previsão da variável resposta. 

Em machine learning o intercpto é chamado de Bias, aideia é que o intercepto nada mais é que uma constante que "puxa nossa estimativa para um lado". Se por acaso você tiver padronizado sua variável resposta, o Bias esperado é que seja um valor próximo a zero.

### Fazer previsões
Peveja qual a duração de saltos do display, em dados com dados de plotes de semente de 50-1000 e sobras de 0.5-2

In [15]:
GerarSementes = np.arange(50, 1000, 100)
GerarSombras = np.arange(0.5, 2, 0.5)
Arranjos = [GerarSementes, GerarSombras]

In [16]:
import itertools 
new_data = pd.DataFrame(data=itertools.product(*Arranjos),columns=[['Nseeds','ShadowIntensity']]) # Crie o conjunto de dados que você deseja prever
new_data.head()

Unnamed: 0,Nseeds,ShadowIntensity
0,50,0.5
1,50,1.0
2,50,1.5
3,150,0.5
4,150,1.0


Fazer previsões

In [17]:
reg.predict(new_data)

array([ 2079.82775743,  2091.56546097,  2103.3031645 ,  5287.90838474,
        5299.64608828,  5311.38379182,  8495.98901206,  8507.7267156 ,
        8519.46441914, 11704.06963938, 11715.80734291, 11727.54504645,
       14912.15026669, 14923.88797023, 14935.62567377, 18120.23089401,
       18131.96859755, 18143.70630109, 21328.31152133, 21340.04922486,
       21351.7869284 , 24536.39214864, 24548.12985218, 24559.86755572,
       27744.47277596, 27756.2104795 , 27767.94818304, 30952.55340328,
       30964.29110681, 30976.02881035])

Colocar as previsões numa tabela

In [18]:
new_data['Predicted_LeapDuration'] = reg.predict(new_data)
new_data

Unnamed: 0,Nseeds,ShadowIntensity,Predicted_LeapDuration
0,50,0.5,2079.827757
1,50,1.0,2091.565461
2,50,1.5,2103.303165
3,150,0.5,5287.908385
4,150,1.0,5299.646088
5,150,1.5,5311.383792
6,250,0.5,8495.989012
7,250,1.0,8507.726716
8,250,1.5,8519.464419
9,350,0.5,11704.069639


### Seleção de modelos - Feature selection
Para saber se seu modelo está adequado, ou se uma das variáveis está mais atrapalhando que ajudando, podemos usar o método chamado de "Feature selection" baseado em estatística F para determinar quais variáveis devem ser removidas do nosso modelo. 

Como os dados aqui usados para exemplo são de um artigo que teve o modelo previamente selecionado, ao testar se alguma variável deve ser removida, a resposta será não. Portanto, para fins didátivos vou refazer o modelo adicionando uma terceira variável que não tem poder de prever a duração dos displays.

#### Descrição do método feature_selection. f_regression
A função f_regression cria uma regressão lineare simples, de cada uma das variáveis preditoras com a variável resposta. No exemplo aqui apresentado, será criado 3 regressão, que consitirão em
* LeapDuration <- Nseeds            
  * Como o número de sementes influência a duração dos saltos no display
* LeapDuration <- ShadowIntensity
  * Como o sombreamento do habitat influência a duração dos saltos no display
* LeapDuration <- DawnTime
  * Como o número de horas depois do avolrecer influência a duração dos saltos no display



#### Aplicação do método
Primeiro vamos refazer o modelo, incluindo a nova variável DawnTime

In [19]:
# Selecionar as variáveis
xBruto = nonPAD [['Nseeds','ShadowIntensity','DawnTime']]

# Fazer a padronização dos dados
from sklearn.preprocessing import StandardScaler # Importar pacote
scaler = StandardScaler() # Renomear função
scaler.fit(xBruto) # Escale o conjunto de dados x
x_scaled  = scaler.transform(xBruto) # Fazer a padronização dos dados
x_scaled  = pd.DataFrame(x_scaled, columns = ['Nseeds','ShadowIntensity','DawnTime'])

# Definir variáveis dependente e independentes
y = nonPAD ['LeapDuration'] 
x = x_scaled [['Nseeds','ShadowIntensity','DawnTime']] 

# Construir o modelo
reg = LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None) # Esse codigo irá criar um objeto chamado reg, que vai estar vazio, mas é definido como LinearRegression class
reg.fit(x,y) # Codigo para ajustar a regressão, onde a primeira variável representa os inputs, e a segunda o target.

LinearRegression()

Agrora, vamos aplicar o <i>Feature selection</i>

Importe o modulo feature selection do pacote sklearn

In [20]:
from sklearn.feature_selection import f_regression

Aplique o método: ao executar o comando a seguir, você vai criar as multiplas regressões lineares. O produto desta função será um objeto com 2 array, sendo que o primeiro vai apresentar valores de estatística F, e o segundo valores de p, associados a essas regressões.

In [21]:
f_regression(x,y)

(array([12.0171462 ,  6.2829509 ,  0.22317449]),
 array([0.00135214, 0.0167131 , 0.63940635]))

Note que apenas o ultimo valor de p (relacionado a variavel DawnTime) apresenta valor >0.05, portanto, isso indica que essa variável não influência significativamente a duração dos saltos do display do Tiziu.

OBS: Caso ao rodar esse codigo com seu conjunto de dados você observe um resultado como 8e-5, isso quer dizer que o valor calculado é de 8 multiplicado 10 elevado à -5, ou seja:

$8e-5 =  8*10^{-5} =  \frac{8}{10^5}=  \frac{8}{100000}  = 0.00008 $



### Criar uma tabela de valores de p

Crie uma tabela com onde a primeira coluna será o nome das variáveis

In [22]:
reg_summary = pd.DataFrame(data = x.columns.values, columns=['Features'])
reg_summary

Unnamed: 0,Features
0,Nseeds
1,ShadowIntensity
2,DawnTime


Adicione uma coluna com valores de coeficientes

In [23]:
reg_summary ['Coefficients'] = reg.coef_
reg_summary

Unnamed: 0,Features,Coefficients
0,Nseeds,34.247256
1,ShadowIntensity,23.642821
2,DawnTime,12.163352


Adicione uma coluna com valores de p

In [24]:
p_values = f_regression(x,y)[1]
reg_summary ['p-values'] = p_values.round(3)
reg_summary

Unnamed: 0,Features,Coefficients,p-values
0,Nseeds,34.247256,0.001
1,ShadowIntensity,23.642821,0.017
2,DawnTime,12.163352,0.639


#### Extra

O método de <i>Feature selection</i> tem como "defeito" não considerar a interação entre as variáveis. Muitas vezes variáveis que sozinhas não são bons preditores da variável resposta, podem ter efeito significativo quando levadas em consideração juntas. Portanto, o método aqui apresentado deve ser visto com cautela. Esse é mais um argumento de que para <i> machine learning </i>  não necessariamente, remover variáveis de um modelo é o procedimento mais correto

Para aqueles que se interessarem em estatística tradicional, no código abaixo vou apresentar quais são os procedimentos para calcular o valor de p considerando as interações. Pelo método apresentado abaixo, você pode chegar no mesmo resultado apresentado no artigo de onde foram extraídos os dados usados nesse tutorial. Mas note que no artigo foi feita padronização dos dados das variáveis preditora e também da variável resposta.

Fazer a padronização de todas as variáveis (preditoras e resposta)

In [25]:
DadosBrutos = nonPAD [['LeapDuration','Nseeds','ShadowIntensity']]
from sklearn.preprocessing import StandardScaler # Importar pacote
scaler = StandardScaler() # Renomear função
scaler.fit(DadosBrutos) # Escale o conjunto de dados x
DadosPadronizados = scaler.transform(DadosBrutos) # Fazer a padronização dos dados
DadosPadronizados = pd.DataFrame(DadosPadronizados, columns = ['LeapDuration','Nseeds','ShadowIntensity'])
y = DadosPadronizados ['LeapDuration'] # Duração do salto (quantos milisegundos leva
x = DadosPadronizados [['Nseeds','ShadowIntensity']] # Nseeds = Número médio de seme
reg = LinearRegression()
reg.fit(x,y)

LinearRegression()

Vamos redefinir como o Python irá calcular os valores de p

In [26]:
# Since the p-values are obtained through certain statistics, we need the 'stat' module from scipy.stats
from sklearn import linear_model
import scipy.stats as stat

# Since we are using an object oriented language such as Python, we can simply define our own 
# LinearRegression class (the same one from sklearn)
# By typing the code below we will ovewrite a part of the class with one that includes p-values
# Here's the full source code of the ORIGINAL class: https://github.com/scikit-learn/scikit-learn/blob/7b136e9/sklearn/linear_model/base.py#L362


class LinearRegression(linear_model.LinearRegression):
    """
    LinearRegression class after sklearn's, but calculate t-statistics
    and p-values for model coefficients (betas).
    Additional attributes available after .fit()
    are `t` and `p` which are of the shape (y.shape[1], X.shape[1])
    which is (n_features, n_coefs)
    This class sets the intercept to 0 by default, since usually we include it
    in X.
    """
    
    # nothing changes in __init__
    def __init__(self, fit_intercept=True, normalize=False, copy_X=True,
                 n_jobs=1):
        self.fit_intercept = fit_intercept
        self.normalize = normalize
        self.copy_X = copy_X
        self.n_jobs = n_jobs

    
    def fit(self, X, y, n_jobs=1):
        self = super(LinearRegression, self).fit(X, y, n_jobs)
        
        # Calculate SSE (sum of squared errors)
        # and SE (standard error)
        sse = np.sum((self.predict(X) - y) ** 2, axis=0) / float(X.shape[0] - X.shape[1])
        se = np.array([np.sqrt(np.diagonal(sse * np.linalg.inv(np.dot(X.T, X))))])

        # compute the t-statistic for each feature
        self.t = self.coef_ / se
        # find the p-value for each feature
        self.p = np.squeeze(2 * (1 - stat.t.cdf(np.abs(self.t), y.shape[0] - X.shape[1])))
        return self

In [27]:
# When we create the regression everything is the same
reg_with_pvalues = LinearRegression()
reg_with_pvalues.fit(x,y)

LinearRegression()

In [28]:
# Let's create a new data frame with the names of the features
reg_summary = pd.DataFrame([['Nseeds'],['ShadowIntensity']],columns =['Features'])
# Then we create and fill a second column, called 'Coefficients' with the coefficients of the regression
reg_summary['Coefficients'] = reg_with_pvalues.coef_
# Finally, we add the p-values we just calculated
reg_summary['p-values'] = reg_with_pvalues.p.round(3)

In [29]:
# This result is identical to the one from StatsModels
reg_summary

Unnamed: 0,Features,Coefficients,p-values
0,Nseeds,0.465718,0.001
1,ShadowIntensity,0.340793,0.014
