# Linear Regression

## O cálculo de uma regressão linear pode ser escrito como:

$Y \approx B_0 + B_1X + e$ 

### Aonde:

$Y$ = **F(x)** da função ou **Valor Target** | Valor que buscamos prever ao usar a regressão

$B_0$ = **Coeficiente Linear** | Também chamado de **Interceptor**

$B_1$ = **Coeficiente Angular** | Também chamado de **Slope**

$X$ = **Predictor** | Dados que serão usados na regressão com o intuito de **Prever** ou **Inferir**

### Essas variáveis podem ser escritas de formas diferentes e com novas abordagens, como:

^ = símbolo de **hat**

$\hat{Y}$ = **Y Hat** | Aproximação criada pela regressão que busca chegar no valor de $Y$

$\hat{B_0}$ = **Coeficiente Linear Hat**, mais naturalmente chamado de **B0 Hat** | É o Coeficiente Linear que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

$\hat{B_1}$ = **Coeficiente Angular Hat**, mais naturalmente chamado de **B1 Hat** | É o Coeficiente Angular que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

_ = Chamo esse símbolo de **linha** quando ele fica acima da variável

$\bar{Y}$ =  **Média do valor target** 

## Dentro da Regressão vamos encontrar vários termos que serão muito úteis, como:

$p$ = Quantidade de **Predictors** disponíveis ou sendo usados, depende do contexto

$n$ = Quantidade de **Dados** que temos disponíveis | Lembrando sempre que, para cada número de predictor(p) disponível, teremos 1 dado. Exemplo: Temos n=1 e p=5, então temos, para cada P um 
dado, totalizando no fim, 5 observações de cada predictor

$e$ = **Erro Residual**, valor dado por $($ $Y$ - $\hat{Y}$ $)$

$bias$ = **Inabilidade** do modelo se encaixar na True Relationship

$Variance$ = Valor proporcional ao quão **disperso** é o seu modelo (Alto = Squiggly line | Baixo = Reta)

$RSS$ = **Residual Sum of Squares** (Todos os erros residuais ao quadrado)

$TSS$ = **Total Sum Of Squares** (Variancia total da resposta de Y)

$SE$ = **Stardard Error**. Usado, geralmente, para calcular o quão próximo está a Prediction do True Value. Seus valores dependem do **Coef** para serem tomados como alto ou baixos. Se o STD-Error 50% maior que o **coef**, podemos inferir que ele é alto, já se ele for menor do que o **coef**, por volta de 10%, podemos inferir que ele é baixo

$µ$ = **Média** de algo, por exemplo de uma população, sendo a média de toda a população

$\hat{µ}$ = **Média de uma sample** de algo, ou seja, a média de apenas uma parte de algo, como, por exemplo, a média de apenas uma amostra da população total

$SE(\hat{µ})$ = **Stardad Error de µ**. Usado pra calcular o quão próximo está o $\hat{µ}$ do $µ$

$H_0$ = **Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o Predictor ($H_0$ = $B_1$ = 0)

$H_a$ = **Negação da Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o predictor ($H_a$ = $B_1$ $\neq$ 0)

$RSE$ = **Residual Squared Error**. Em resumo, valor inversamente proporcional ao quanto o modelo acerta em relação à True Relationship

$R²$ = **Medida de Fit de um modelo em relação ao Y**. O valor tem um range de 0 a 1, facilitando assim o entendimento. Sendo valores próximos de 0 aqueles que **não se encaixam** bem ao Y e valores próximos de 1, aqueles que se **encaixam** bem ao Y

T-statistics = **Medida que nos informa se o predictor é eficiente** Para valores diferentes de 0, pode indicar que a variável é importante prevendo o seu target value.
Se for próxima ou igual a 0, pode indicar que ela não é eficiente para o nosso modelo.

P-value = **Valor diretamente proporcial à H_0(Null Hypothesis)**. Quanto maior, maior a evidência de um predictor ser null hypothesis

## Perguntas que devem ser feitas antes de considerarmos uma Simple ou Multiple Linear Regression


### 1. Existe relacionamento entre a resposta e os predictors?

Para descobrir, fazemos o teste de hipóteses, por meio do F-Statistics que é calculado por meio de:

F-statistic = $\frac{(TSS - RSS)/p}{RSS/(n-p-1)}$

Quando o resultado do F-statistic for um número **Próximo** ou **Igual** a 1, nossa hipótese de que tal predictor **não tem relação** com Y é maior

Quando o resultado do F-statistic for um número **Maior** e **Distante** de 1, nossa hipótese de que tal predictor **tem relação** com Y é maior

Caso exista uma relação, partimos para o P-Value, que é calculado por meio de:

P-Value = $P(F_{obs} \ge F | H_0)$


💣PERIGO💣: Quando o **P(Predictors)** for menor que o **N(Dados)** não podemos usar o método **Least Squares**, portanto, não podemos usar o F-Statiscs
em sua forma **Eficiente** 

### 2. Quais variáveis são importantes?

Para saber quais variáveis são importantes, usamos métodos de VARIABLE SELECTION. Antes de entrar nisso, é importante entendermos que, para cada p maior ou igual
a 2, teremos os subconjuntos $2^p$. Para exemplificar, imagine um cenário em que temos 2 predictors para fazer um modelo, sendo eles X1 e X2. Teremos 4 subconjuntos
de modelos, sendo eles X1X2, X1, X2 e o modelo Null. Agora retornaremos ao VARIABLE SELECTION, que é dividido em métodos, sendo eles:

#### Forward Selection:
É um dos métodos de selecionar as variáveis importantes. Imagine um cenário em que queremos prever qual será o resultado de um aluno em um teste.
Para prever, temos os seguintes predictors: Idade, Quanto tempo ele estudou, Quanto ele dormiu na noite anterior ao teste, Quantos irmãos ele tem. Agora pegamos um
Null Model(No sentido de não ter predictors) e vamos adicionando 1 por 1 cada predictor e ir testando a eficiência de predictor. Existem vários modos de testar, tais
como R² e outros modos que eu vi no livro, dos quais vou estudar mais pra frente, provavelmente. E aí vamos adicionando e testando até ver que o predictor adicionado
não agrega mais tanto e ir descartando-os. É importante que na hora de selecionarmos usarmos o bom senso e o olhar crítico para entender que, por exemplo, Quanto tempo
ele estudou provavelmente agrega muito mais do que a quantidade de irmãos que ele tem.

#### Backward Selection:
É um método em que pegamos um modelo que não seja Null model(No sentido de não ter predictors) e vamos removendo os predictors com P-Values altos
até que todos os restantes tenham um P-Value abaixo de um limite. Limite nesse exemplo eu falo como sendo, por exemplo temos um cenário em que o modelo tem 3 predictors:
Quantos gols marcou, Quanto treina, Qual o nome do jogador. Os p-values são respectivamente <0,00001; <0,00001; 3. Ao observar, vemos que o p-value do predictor "Nome do
jogador" é MUITO algo quando comparado ao p-value dos outros predictors, então vamos retirá-lo, mas é aí que entra a questão do Limite. Ao observar os outros 2 predictors,
podemos notar que ambos são valores baixíssimos e que estão em um "Limite" de serem menores que 0,00001, daí entra a idéia de limite.

💣PERIGO💣: Não pode ser usada quando P(predictors) > N(Dados)

#### Mixed Selection:
É um método engloba tanto o forward selection como o backward selection, tendo como base, escolher um Null Model ou um Modelo que já tenha alguns predictors e performar
uma **Forward Sleection**, após isso, uma **Backward Selection**, e, por fim, repetir esses 2 processos até que não existam mais predictors para adicionar, nem para remover.
No fim, esse método tem outros jeitos de ser feito, como repetindo o processo de forward selection até que exista um valor com um P-value muito alto, aí fazemos um backward
selection e removemos ele. No fim das contas Mixed Selection acaba sendo uma forma mais completa do que usar apenas um dos métodos anteriores.

### 3. O quão bem o modelo se encaixa nos dados?

#### Uso do R² para entender o quão bem o modelo se aproxima do True Value:
É sabido que, sempre que adicionamos novos predictors, esses vão alterar o valor do R², já que eles vão afetar a **Variance**, então temos que ter bastante cuidado
ao olhar para o valor de R². Assim, como colocar predictors com **Null Hypothesis** ou predictores eficientes podem alterar o valor do R², precisamos checar o quanto eles
alteram esse valor. Caso o predictor altere muito pouco, podemos ver a possiblidade de descartá-lo, já que ele ali em nosso modelo pode acabar causando **Noise**, ou como a
literatura fala, deixar nosso modelo **Poor**. Já quando o predictor aumenta o valor do R², podemos considerá-lo bom para o nosso modelo, então podemos ver a possibilidade 
de adicioná-lo.

#### Uso do RSE(Residual Squared Error):
Por mais que não seja um valor com um range entre 0 e 1, o que facilita sua visualização, podemos usá-lo também para testar. Podemos usar como exemplo um modelo que busca prever
o quão bem um aluno será em um teste. Quando colocamos **Tempo de Estudo** e **Tempo de sono na noite anterior ao teste** como predictors, temos um RSE de 1,6. Ao adicionar o
predictor **Batimentos Cardíacos por Minuto**, o RSE fica 1.61, o que indica que ele não impactou tanto aqui. Porém, quando testamos apenas o predictor **Tempo de Estudo**
temos um RSE de 3,24, indicando que quando adicionamos o predictor tempo de sono na noite anterior, temos um erro bem menor no nosso modelo em relação à True Relationship.
Deixando claro assim, que os 2 predictors, T.E e T.S.N.A.T juntos performam bem melhor na diminuição do erro.

### 4. Dado vários predictors, qual o valor de resposta queremos atingir?

#### Primeiro temos algumas incertezas para tratar. Será que as estimativas de valores dos nossos predictors servem para representar o todo?
Sempre que obtemos um predictor, precisamos pensar se aquele predictor representa um todo, como por exemplo, **dados de TODOS os seres humanos do planeta** ou se ele é apenas
um pedaço desse todo. Para termos mais certeza de que o predictor que representa a parcela de um todo pode ser usado para prever o todo, usamos o **Confidence Interval**

#### Confidence Interval
O confidence interval é uma fórmula usada para nos aproximarmos dos **True Values** mesmo usando apenas amostras de um todo. Por exemplo: Queremos medir a média da altura de
todas as pessoas do mundo. Obter os dados de todas as pessoas pode ser um pouco complicado, então optamos por trabalhar apenas com uma amostra de 100 pessoas desse todo.
Ao aplicar o confidence interval nessa amostra, conseguimos ver que você está 95% confiante de que a média da altura de todas as pessoas do mundo está dentro do intervalo
criado por esse cálculo

#### A regressão LINEAR é a melhor escolha nesse caso?
Sabemos que a abordagem de uma regressão pode ser feita pelos diversos tipos de funções, como por exemplo, logarítma, exponencial, que criam modelos mais flexíveis.

## Tipos de variáveis

### O que fazer quando encontrarmos dados qualitativos?

#### Predictors com apenas 2 levels
É muito comum nos depararmos com dados qualitativos, como por exemplo, **Pessoa que tem ou não tem uma casa** e dentro desse predictor, ter apenas Sim e Não. Na função
matemática usada pra criar um modelo de regressão, apenas utilizamos números, então vamos precisar criar uma **Dummy Variable** para o caso de precisarmos usar dados
qualitativos. Consideramos um predictor com 2 levels quando ele só tem 2 opções, assim como no exemplo da casa. Para criar uma **dummy variable**, vamos definir por meio
de números as opções do predictor. No exemplo da casa, uma alternativa seria colocar as pessoas que tem a casa como 1 e as pessoas que não tem a casa como 0, tornando assim
a equação para aqueles que tem casa: F(x) = $B_0 + B_1 + e$. E a dos que não tem casa como: F(x) = $B_0 + e$, já que o B1 é 0. Porém, usar os valores 0 e 1 pode deixar a
análise da regressão um pouco pior do que se colocássemos 1 e -1. Usando como exemplo a diferença de salária entre mulheres e homens em uma empresa, ao usar 1 e -1, teremos
a prediction ou inference do salário tanto dos homens como o das mulheres, já se deixarmos 0 e 1, teremos o 1 sendo o valor base + o que os homens ganha à mais ou à menos e
o 0 sendo o valor base, precisando assim, fazer a subtração do valor dos homens menos o valor base para descobrimos o quanto as mulheres ganham. Podemos usar das 2 formas
porém, 1 e -1 facilita um pouco a visualização.

#### Predictor com 3 ou mais levels
Nesse caso, usando como exemplo se uma pessoa é do Norte, Nordeste e Sul, escolhemos um desses para ser o B1, outro B2 e outro pra ser 0. Nesse caso, as **Dummy Variables** ficariam 

B1 = 1 (Mora no Norte)

B1 = 0 (Não Mora no Norte)

B2 = 1 (Mora no Nordeste)

B2 = 0 (Não Mora no Nordeste)

0 = Mora no Sul

## Interaction Term

### Predictors combinados
Imagine que queremos saber quão alta será a venda de sorvetes, e pra isso, usamos 2 predictors: "Temperatura do dia" "A pessoa está de férias?". Podemos muito bem testar
separadamente esses predictors, mas é aí que entram os **Interaction Terms**. Eles são uma junção de 2 predictors que é feita com o objetivo de tentar descobrir novos
insights. E se quando o clima estiver quente e as pessoas estiverem de férias a venda de sorvete seja muito maior? para descobrir isso, criamos um Interaction term entre
esses 2 predictors

Outro exemplo bem interessante é, por exemplo, de uma fábrica. Queremos prever a quantidade de **Unidades** vendidas por meio de **Linhas de produção** e **Trabalhadores**.
Nós sabemos que caso aumentarmos as Linhas, precisaríamos também aumentar os trabalhores pra exercer suas funções dentro dessas linhas. Sendo assim, ao aumentar apenas o
número de linhas de produção, nosso modelo vai evidenciar que não agregou em nada, mas pode ser que agrege, basta fazermos um interaction term entre as **Linhas de produção**
e **Trabalhadores**

## Problemas Potenciais em uma regressão

### Existem problemas potenciais ao usar uma regressão?

#### Residual Plots
Residual plots são scatterplots que usamos como referência para identificar possívels problemas potenciais em nosso modelo. Ele representa o erro do nosso modelo em relação
aos dados que buscamos prever em forma de gráfico.
Existe uma função dentro da seaborn para a criação de **Residual Plots**: https://seaborn.pydata.org/generated/seaborn.residplot.html

#### Não-linearidade dos dados
Para descobrir se existe ou não linearidade nos dados, podemos usar o Residual Plot. À partir dele, é possível entender, por meio da distância dos erros, se ter usado uma Linear
Regression foi realmente correto. Aqui temos um exemplo em que ter usado a Linear regression foi bom:

Podemos identificar que cada ponto está bem próximo da **Residual Line**, ou seja, quando o eixo Y é 0. Dando a entender que ter usado uma Linear Regression fez os erros serem pequenos
e constantes.

![image.png](attachment:image.png)

Já nesse novo scatterplot, podemos identificar um padrão totalmente diferente do primeiro. Ao contrário do anterior, esse tem pontos muito mais dispersos e distantes da **Residual Line**

![image-2.png](attachment:image-2.png)

#### Correlation of error terms
Em um modelo é importante que não haja uma ocorrência exagerada de erros relacionados uns com os outros. Imagine que em um projeto estamos usando um dataset com dados de 2 culturas diferentes,
sendo 1 delas com 40000 pessoas e a 2 com 3 pessoas. O fato das 40000 pessoas serem da mesma cultura, pode apontar certos padrões nos dados desse grupo, o que pode acabar **enviesando** o nosso
modelo. É importante saber distinguir, não por meio de um número exato, mas sim de perceber uma ocorrência exagerada de erros correlacionados.

#### Non-constant variance error terms
Nessa parte aprendemos sobre um termo bem difícil de falar e ler: **"Heterocedasticidade"**. Para fins de entender a ideia mais rápido, vou usar um exemplo recorrente. Imagine que buscamos
criar um modelo que consiga prever com a maior precisão possível o preço de uma casa baseado em sua área em M². Assim que terminamos o nosso modelo e fomos testar, identificamos que quando
o modelo precisa prever o preço de uma casa pequena, com seus 10 à 50 m², ele tem uma Variance muito baixa e constante, ou seja, além de ele conseguir prever de forma constante, percebemos
que ele consegue prever bem. Já quando usamos ele para prever o preço de casas grandes, com seus 80+ m², ele apresenta uma variance diferente de quando preve casas pequenas. Quando isso
ocorre, da variância não ser constante, chamamos de "Non-constante variance error terms" ou a palavra difícil :P **Heterocedasticidade**.

#### Outliers
Imagine que estamos criando um modelo que busca prever o peso usando a altura e os nossos dados no eixo X e Y estão representados por:

![image-3.png](attachment:image-3.png)

Nesse gráfico, podemos observar 2 valores que tem um Y_i distante do Y_hat_i. Quando encontramos esses valores que estão longe do valor
que nosso modelo preveu(Linha Azul), chamamos de **Outliers**

Para elucidar, aqueles pontos vermelhos são, para cada altura, um peso muito alto, provavelmente uma pessoa obesa. Dado que a maioria
das pessoas segue um padrão, é possível que esses **Outliers** acabem atrapalhando o Fit do nosso modelo

#### High leverage Points
Já um High Leverage Point é um ponto parecido com um Outlier, ele também é um ponto que está distante dos demais, porém esse ponto está contido na lista de **Inputs**, ou seja, nos X_i ... X_n
Exemplo de High Leverage Point:

Temos um data set com vários dados sobre quantos sorvetes uma criança come em um dia quente. Neste dataset podemos identificar que normalmente as crianças comem de 2 à 3 sorvetes em um dia quente. No meio desses dados encontramos uma criança que comeu 20 sorvetes, tornando assim, esse dado um High Leverage Point, pois está distante dos demais nos X_i. As causas desse HLP podem
variar muito. Pode ser que tenha sido um aniversário ou um desafio que causou isso.

#### Colinearity
Colinearidade ocorre no âmbito dos predictors. Um exemplo de colinearidade é quando tentamos prever a nota que um aluno vai tirar baseada em 2 predictors: **Horas Estudadas** e **Exercícios Feitos**. A tendência que ocorre é que quanto mais horas estudadas o aluno tiver, mais exercícios ele faça, então são 2 predictors que andam bem juntos. Isso é um problema pois o nosso modelo
não vai conseguir identificar o impacto individual de cada predictor na resposta e vai ser bem instável. Existem algumas formas de resolver esse problema, como remover um desses predictors
ou até mesmo utilizar uma técnica que foi dita anteriormente. A técnica de fazer **Interaction Terms**, técnica essa que transforma esses 2 predictors em um só, facilitando assim para o nosso
modelo trabalhar.

Colinearidade pode acabar causando uma diminuição no T-Statistic(Medida que nos informa se o predictor é eficiente), tornando assim difícil de saber se algum deles é um Null Hypothesis. Existe
um cálculo que busca identificar colinearidade chamado **Variance Inflaction Factor** (VIF). Quando sua resposta for 1, ele indica **colinearidade nula**, já se ele for 5 ou mais, indica que
ali temos um problema de colinearidade grave.

## Plano de marketing em uma Linear Regression

#### Existe uma relação entre um predictor e o resultado?
Testamos a **Null Hypothesis** por meio do **F-statistics** e do **P-value**

#### Quão forte é a relação do predictor com o resultado?
Testamos o **RSE(Residual Squared Error)** que é uma medida inversamente proporcional ao quanto o modelo acerta em relação à True RelationShip e o R² que mede a eficiência da regressão com os dados. Ele tem um range entre 0 e 1, o que facilita o entendimento

#### Qual dado é associado com o valor que estamos buscando?
Associamos o **T-statistics** com o **P-value** afim de entender quais dados são realmente associados

#### Quão grande é a associação de cada predictor com o valor que estamos buscando?
Para isso podemos usar o **Confidence Interval** afim de saber quão associado estão os predictors. Quando o confidence interval contém 0 em seu intervalo, podemos inferir que aquele predictor
talvez não seja tão associado com o Target Value. À partir disso, é importante checarcos colinearidade e fazer uma regressão linear com cada predictor à fim de compará-las

#### Quão preciso foi o nosso modelo?
Podemos fazer o MSE(Median Squared Error) à fim de ver a média dos erros do nosso modelo. Caso o valor seja bem próximo de zero, podemos entender que nosso modelo foi preciso. Caso ele seja
distante, podemos entender que não foi preciso, exigindo assim que retornemos a fase de checar erros, etc

#### Existe uma relação linear entre os dados?
Para sabermos isso, podemos criar um residual plot e identificar o comportamento dos erros

💥 Esse resumo está sendo feito para uso próprio; portanto, nele, esqueço todas as formalidades e o deixo mais agradável para eu entender.