# Linear Regression

## O cálculo de uma regressão linear pode ser escrito como:

$Y \approx B_0 + B_1X$

### Aonde:

$Y$ = **F(x)** da função ou **Valor Target** | Valor que buscamos prever ao usar a regressão

$B_0$ = **Coeficiente Linear** | Também chamado de **Interceptor**

$B_1$ = **Coeficiente Angular** | Também chamado de **Slope**

$X$ = **Predictor** | Dados que serão usados na regressão com o intuito de **Prever** ou **Inferir**

### Essas variáveis podem ser escritas de formas diferentes e com novas abordagens, como:

^ = símbolo de **hat**

$\hat{Y}$ = **Y Hat** | Aproximação criada pela regressão que busca chegar no valor de $Y$

$\hat{B_0}$ = **Coeficiente Linear Hat**, mais naturalmente chamado de **B0 Hat** | É o Coeficiente Linear que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

$\hat{B_1}$ = **Coeficiente Angular Hat**, mais naturalmente chamado de **B1 Hat** | É o Coeficiente Angular que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

_ = Chamo esse símbolo de **linha** quando ele fica acima da variável

$\bar{Y}$ =  **Média do valor target** 

## Dentro da Regressão vamos encontrar vários termos que serão muito úteis, como:

$p$ = Quantidade de **Predictors** disponíveis ou sendo usados, depende do contexto

$n$ = Quantidade de **Dados** que temos disponíveis | Lembrando sempre que, para cada número de predictor(p) disponível, teremos 1 dado. Exemplo: Temos n=1 e p=5, então temos, para cada P um 
dado, totalizando no fim, 5 observações de cada predictor

$e$ = **Erro Residual**, valor dado por $($ $Y$ - $\hat{Y}$ $)$

$bias$ = **Inabilidade** do modelo se encaixar na True Relationship

$Variance$ = Valor proporcional ao quão **disperso** é o seu modelo (Alto = Squiggly line | Baixo = Reta)

$RSS$ = **Residual Sum of Squares** (Todos os erros residuais ao quadrado)

$TSS$ = **Total Sum Of Squares** (Variancia total da resposta de Y)

$SE$ = **Stardard Error**. Usado, geralmente, para calcular o quão próximo está a Prediction do True Value

$µ$ = **Média** de algo, por exemplo de uma população, sendo a média de toda a população

$\hat{µ}$ = **Média de uma sample** de algo, ou seja, a média de apenas uma parte de algo, como, por exemplo, a média de apenas uma amostra da população total

$SE(\hat{µ})$ = **Stardad Error de µ**. Usado pra calcular o quão próximo está o $\hat{µ}$ do $µ$

$H_0$ = **Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o Predictor ($H_0$ = $B_1$ = 0)

$H_a$ = **Negação da Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o predictor ($H_a$ = $B_1$ $\neq$ 0)

$RSE$ = **Residual Squared Error**. Em resumo, valor inversamente proporcional ao quanto o modelo acerta em relação à True Relationship

$R²$ = **Medida de Fit de um modelo em relação ao Y**. O valor tem um range de 0 a 1, facilitando assim o entendimento. Sendo valores próximos de 0 aqueles que **não se encaixam** bem ao Y e valores próximos de 1, aqueles que se **encaixam** bem ao Y

T-statistics = **Medida que nos informa se o predictor é eficiente**

P-value = **Valor diretamente proporcial à H_0(Null Hypothesis)**. Quanto maior, maior a evidência de um predictor ser null hypothesis

## Perguntas que devem ser feitas antes de considerarmos uma Simple ou Multiple Linear Regression


### 1. Existe relacionamento entre a resposta e os predictors?

Para descobrir, fazemos o teste de hipóteses, por meio do F-Statistics que é calculado por meio de:

F-statistic = $\frac{(TSS - RSS)/p}{RSS/(n-p-1)}$

Quando o resultado do F-statistic for um número **Próximo** ou **Igual** a 1, nossa hipótese de que tal predictor **não tem relação** com Y é maior

Quando o resultado do F-statistic for um número **Maior** e **Distante** de 1, nossa hiótese de que tal predictor **tem relação** com Y é maior

Caso exista uma relação, partimos para o P-Value, que é calculado por meio de:

P-Value = $P(F_{obs} \ge F | H_0)$


💣PERIGO💣: Quando o **P(Predictors)** for menor que o **N(Dados)** não podemos usar o método **Least Squares**, portanto, não podemos usar o F-Statiscs
em sua forma **Eficiente** 

### 2. Quais variáveis são importantes?

Para saber quais variáveis são importantes, usamos métodos de VARIABLE SELECTION. Antes de entrar nisso, é importante entendermos que, para cada p maior ou igual
a 2, teremos os subconjuntos $2^p$. Para exemplificar, imagine um cenário em que temos 2 predictors para fazer um modelo, sendo eles X1 e X2. Teremos 4 subconjuntos
de modelos, sendo eles X1X2, X1, X2 e o modelo Null. Agora retornaremos ao VARIABLE SELECTION, que é dividido em métodos, sendo eles:

#### Forward Selection:
É um dos métodos de selecionar as variáveis importantes. Imagine um cenário em que queremos prever qual será o resultado de um aluno em um teste.
Para prever, temos os seguintes predictors: Idade, Quanto tempo ele estudou, Quanto ele dormiu na noite anterior ao teste, Quantos irmãos ele tem. Agora pegamos um
Null Model(No sentido de não ter predictors) e vamos adicionando 1 por 1 cada predictor e ir testando a eficiência de predictor. Existem vários modos de testar, tais
como R² e outros modos que eu vi no livro, dos quais vou estudar mais pra frente, provavelmente. E aí vamos adicionando e testando até ver que o predictor adicionado
não agrega mais tanto e ir descartando-os. É importante que na hora de selecionarmos usarmos o bom senso e o olhar crítico para entender que, por exemplo, Quanto tempo
ele estudou provavelmente agrega muito mais do que a quantidade de irmãos que ele tem.

#### Backward Selection:
É um método em que pegamos um modelo que não seja Null model(No sentido de não ter predictors) e vamos removendo os predictors com P-Values altos
até que todos os restantes tenham um P-Value abaixo de um limite. Limite nesse exemplo eu falo como sendo, por exemplo temos um cenário em que o modelo tem 3 predictors:
Quantos gols marcou, Quanto treina, Qual o nome do jogador. Os p-values são respectivamente <0,00001; <0,00001; 3. Ao observar, vemos que o p-value do predictor "Nome do
jogador" é MUITO algo quando comparado ao p-value dos outros predictors, então vamos retirá-lo, mas é aí que entra a questão do Limite. Ao observar os outros 2 predictors,
podemos notar que ambos são valores baixíssimos e que estão em um "Limite" de serem menores que 0,00001, daí entra a idéia de limite.

💣PERIGO💣: Não pode ser usada quando P(predictors) > N(Dados)

#### Mixed Selection:
É um método engloba tanto o forward selection como o backward selection, tendo como base, escolher um Null Model ou um Modelo que já tenha alguns predictors e performar
uma **Forward Sleection**, após isso, uma **Backward Sleection**, e, por fim, repetir esses 2 processos até que não existam mais predictors para adicionar, nem para remover.
No fim, esse método tem outros jeitos de ser feito, como repetindo o processo de forward selection até que exista um valor com um P-value muito alto, aí fazemos um backward
selection e removemos ele. No fim das contas Mixed Selection acaba sendo uma forma mais completa do que usar apenas um dos métodos anteriores.

### 3. O quão bem o modelo se encaixa nos dados?

#### Uso do R² para entender o quão bem o modelo se aproxima do True Value:
É sabido que, sempre que adicionamos novos predictors, esses vão alterar o valor do R², já que eles vão afetar a **Variance**, então temos que ter bastante cuidado
ao olhar para o valor de R². Assim, como colocar predictors com **Null Hypothesis** ou predictores eficientes podem alterar o valor do R², precisamos checar o quanto eles
alteram esse valor. Caso o predictor altere muito pouco, podemos ver a possiblidade de descartá-lo, já que ele ali em nosso modelo pode acabar causando **Noise**, ou como a
literatura fala, deixar nosso modelo **Poor**. Já quando o predictor aumenta o valor do R², podemos considerá-lo bom para o nosso modelo, então podemos ver a possibilidade 
de adicioná-lo.

#### Uso do RSE(Residual Squared Error):
Por mais que não seja um valor com um range entre 0 e 1, o que facilita sua visualização, podemos usá-lo também para testar. Podemos usar como exemplo um modelo que busca prever
o quão bem um aluno será em um teste. Quando colocamos **Tempo de Estudo** e **Tempo de sono na noite anterior ao teste** como predictors, temos um RSE de 1,6. Ao adicionar o
predictor **Batimentos Cardíacos por Minuto**, o RSE fica 1.61, o que indica que ele não impactou tanto aqui. Porém, quando testamos apenas o predictor **Tempo de Estudo**
temos um RSE de 3,24, indicando que quando adicionamos o predictor tempo de sono na noite anterior, temos um erro bem menor no nosso modelo em relação à True Relationship.
Deixando claro assim, que os 2 predictors, T.E e T.S.N.A.T juntos performam bem melhor na diminuição do erro.

### 4. Dado vários predictors, qual o valor de resposta queremos atingir?

#### Primeiro temos algumas incertezas para tratar. Será que as estimativas de valores dos nossos predictors servem para representar o todo?
Sempre que obtemos um predictor, precisamos pensar se aquele predictor representa um todo, como por exemplo, **dados de TODOS os seres humanos do planeta** ou se ele é apenas
um pedaço desse todo. Para termos mais certeza de que o predictor que representa a parcela de um todo pode ser usado para prever o todo, usamos o **Confidence Interval**

#### Confidence Interval
O confidence interval é uma fórmula usada para nos aproximarmos dos **True Values** mesmo usando apenas amostras de um todo. Por exemplo: Queremos medir a média da altura de
todas as pessoas do mundo. Obter os dados de todas as pessoas pode ser um pouco complicado, então optamos por trabalhar apenas com uma amostra de 100 pessoas desse todo.
Ao aplicar o confidence interval nessa amostra, conseguimos ver que você está 95% confiante de que a média da altura de todas as pessoas do mundo está dentro do intervalo
criado por esse cálculo

#### A regressão LINEAR é a melhor escolha nesse caso?
Sabemos que a abordagem de uma regressão pode ser feita pelos diversos tipos de funções, como por exemplo, logarítma, exponencial, que criam modelos mais flexíveis.

## Tipos de variáveis

### O que fazer quando encontrarmos dados qualitativos?

#### Predictors com apenas 2 levels
É muito comúm nos depararmos com dados qualitativos, como por exemplo, **Pessoa que tem ou não tem uma casa** e dentro desse predictor, ter apenas Sim e Não. Na função
matemática usada pra criar um modelo de regressão, apenas utilizamos números, então vamos precisar criar uma Dummy Variable para o caso de precisarmos usar dados
qualitativos. Consideramos um predictor com 2 levels quando ele só tem 2 opções, assim como no exemplo da casa. Para criar uma dummy variable, vamos definir por meio
de números as opções do predictor. No exemplo da casa, uma alternativa seria colocar as pessoas que tem a casa como 1 e as pessoas que não tem a casa como 0, tornando assim
a equação para aqueles que tem casa: F(x) = $B_0 + B_1 + e$. E a dos que não tem casa como: F(x) = $B_0 + e$, já que o B1 é 0. Porém, usar os valores 0 e 1 pode deixar a
análise da regressão um pouco pior do que se colocássemos 1 e -1. Usando como exemplo a diferença de salária entre mulheres e homens em uma empresa, ao usar 1 e -1, teremos
a prediction ou inference do salário tanto dos homens como o das mulheres, já se deixarmos 0 e 1, teremos o 1 sendo o valor base + o que os homens ganha à mais ou à menos e
o 0 sendo o valor base, precisando assim, fazer a subtração do valor dos homens menos o valor base para descobrimos o quanto as mulheres ganham. Podemos usar das 2 formas
porém, 1 e -1 facilita um pouco a visualização.

#### Predictor com 3 ou mais levels
Nesse caso, usando como exemplo se uma pessoa é do Norte, Nordeste e Sul, escolhemos um desses para ser o B1, outro B2 e outro pra ser 0. Nesse caso, as dummy variables ficariam 

B1 = 1 (Mora no Norte)

B1 = 0 (Não Mora no Norte)

B2 = 1 (Mora no Nordeste)

B2 = 0 (Não Mora no Nordeste)

0 = Mora no Sul

## Interaction Term

### Predictors combinados
Imagine que queremos saber quão alta será a venda de sorvetes, e pra isso, usamos 2 predictors: "Temperatura do dia" "A pessoa está de férias?". Podemos muito bem testar
separadamente esses predictors, mas é aí que entram os **Interaction Terms**. Eles são uma junção de 2 predictors que é feita com o objetivo de tentar descobrir novos
insights. E se quando o clima estiver quente e as pessoas estiverem de férias a venda de sorvete seja muito maior? para descobrir isso, criamos um Interaction term entre
esses 2 predictors

## Problemas Potenciais em uma regressão

### Existem problemas potenciais ao usar uma regressão?

#### Residual Plots
Residual plots são scatterplots que usamos como referência para identificar possívels problemas potenciais em nosso modelo.
Existe uma função dentro da seaborn para a criação de **Residual Plots**: https://seaborn.pydata.org/generated/seaborn.residplot.html

#### Não-linearidade dos dados
Adicionar imagens para melhorar o entendimento


💥 Esse resumo está sendo feito para uso próprio; portanto, nele, esqueço todas as formalidades e o deixo mais agradável para eu entender.