# Linear Regression

## O cálculo de uma regressão linear pode ser escrito como:

$Y \approx B_0 + B_1X$

### Aonde:

$Y$ = **F(x)** da função ou **Valor Target** | Valor que buscamos prever ao usar a regressão

$B_0$ = **Coeficiente Linear** | Também chamado de **Interceptor**

$B_1$ = **Coeficiente Angular** | Também chamado de **Slope**

$X$ = **Predictor** | Dados que serão usados na regressão com o intuito de **Prever** ou **Inferir**

### Essas variáveis podem ser escritas de formas diferentes e com novas abordagens, como:

^ = símbolo de **hat**

$\hat{Y}$ = **Y Hat** | Aproximação criada pela regressão que busca chegar no valor de $Y$

$\hat{B_0}$ = **Coeficiente Linear Hat**, mais naturalmente chamado de **B0 Hat** | É o Coeficiente Linear que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

$\hat{B_1}$ = **Coeficiente Angular Hat**, mais naturalmente chamado de **B1 Hat** | É o Coeficiente Angular que encontramos ao usar algum método de aproximação para reduzir os erros do modelo(No caso do livro, é usado o Least Squares)

_ = Chamo esse símbolo de **linha** quando ele fica acima da variável

$\bar{Y}$ =  **Média do valor target** 

## Dentro da Regressão vamos encontrar vários termos que serão muito úteis, como:

$p$ = Quantidade de **Predictors** disponíveis ou sendo usados, depende do contexto

$n$ = Quantidade de **Dados** que temos disponíveis | Lembrando sempre que, para cada número de predictor(p) disponível, teremos 1 dado. Exemplo: Temos n=1 e p=5, então temos, para cada P um 
dado, totalizando no fim, 5 observações de cada predictor

$e$ = **Erro Residual**, valor dado por $($ $Y$ - $\hat{Y}$ $)$

$bias$ = **Inabilidade** do modelo se encaixar na True Relationship

$Variance$ = Valor proporcional ao quão **disperso** é o seu modelo (Alto = Squiggly line | Baixo = Reta)

$RSS$ = **Residual Sum of Squares** (Todos os erros residuais ao quadrado)

$TSS$ = **Total Sum Of Squares** (Variancia total da resposta de Y)

$SE$ = **Stardard Error**. Usado, geralmente, para calcular o quão próximo está a Prediction do True Value

$µ$ = **Média** de algo, por exemplo de uma população, sendo a média de toda a população

$\hat{µ}$ = **Média de uma sample** de algo, ou seja, a média de apenas uma parte de algo, como, por exemplo, a média de apenas uma amostra da população total

$SE(\hat{µ})$ = **Stardad Error de µ**. Usado pra calcular o quão próximo está o $\hat{µ}$ do $µ$

$H_0$ = **Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o Predictor ($H_0$ = $B_1$ = 0)

$H_a$ = **Negação da Null Hypothesis**. Hipótese de que existe uma relação entre o Y e o predictor ($H_a$ = $B_1$ $\neq$ 0)

$RSE$ = **Residual Squared Error**. Em resumo, valor inversamente proporcional ao quanto o modelo acerta em relação à True Relationship

$R²$ = **Medida de Fit de um modelo em relação ao Y**. O valor tem um range de 0 a 1, facilitando assim o entendimento. Sendo valores próximos de 0 aqueles que **não se encaixam** bem ao Y e valores próximos de 1, aqueles que se **encaixam** bem ao Y

T-statistics = **Medida que nos informa se o predictor é eficiente**

P-value = **Valor diretamente proporcial à H_0(Null Hypothesis)**. Quanto maior, maior a evidência de um predictor ser null hypothesis

## Perguntas que devem ser feitas antes de considerarmos uma Simple ou Multiple Linear Regression



### 1. Existe relacionamento entre a resposta e os predictors?

Para descobrir, fazemos o teste de hipóteses, por meio do F-Statistics que é calculado por meio de:

F-statistic = $\frac{(TSS - RSS)/p}{RSS/(n-p-1)}$

Quando o resultado do F-statistic for um número **Próximo** ou **Igual** a 1, nossa hipótese de que tal predictor **não tem relação** com Y é maior

Quando o resultado do F-statistic for um número **Maior** e **Distante** de 1, nossa hiótese de que tal predictor **tem relação** com Y é maior

Caso exista uma relação, partimos para o P-Value, que é calculado por meio de:

P-Value = $P(F_{obs} \ge F | H_0)$


💣PERIGO💣: Quando o **P(Predictors)** for menor que o **N(Dados)** não podemos usar o método **Least Squares**, portanto, não podemos usar o F-Statiscs
em sua forma **Eficiente** 

### 2. Quais variáveis são importantes?

Para saber quais variáveis são importantes, usamos métodos de VARIABLE SELECTION. Antes de entrar nisso, é importante entendermos que, para cada p maior ou igual
a 2, teremos os subconjuntos $2^p$. Para exemplificar, imagine um cenário em que temos 2 predictors para fazer um modelo, sendo eles X1 e X2. Teremos 4 subconjuntos
de modelos, sendo eles X1X2, X1, X2 e o modelo Null. Agora retornaremos ao VARIABLE SELECTION, que é dividido em métodos, sendo eles:

Forward Selection: É um dos métodos de selecionar as variáveis importantes. Imagine um cenário em que queremos prever qual será o resultado de um aluno em um teste.
Para prever, temos os seguintes predictors: Idade, Quanto tempo ele estudou, Quanto ele dormiu na noite anterior ao teste, Quantos irmãos ele tem. Agora pegamos um
Null Model(No sentido de não ter predictors) e vamos adicionando 1 por 1 cada predictor e ir testando a eficiência de predictor. Existem vários modos de testar, tais
como R² e outros modos que eu vi no livro, dos quais vou estudar mais pra frente, provavelmente. E aí vamos adicionando e testando até ver que o predictor adicionado
não agrega mais tanto e ir descartando-os. É importante que na hora de selecionarmos usarmos o bom senso e o olhar crítico para entender que, por exemplo, Quanto tempo
ele estudou provavelmente agrega muito mais do que a quantidade de irmãos que ele tem.

Backward Selection: É um método em que pegamos um modelo que não seja Null model(No sentido de não ter predictors) e vamos removendo os predictors com P-Values altos
até que todos os restantes tenham um P-Value abaixo de um limite. Limite nesse exemplo eu falo como sendo, por exemplo temos um cenário em que o modelo tem 3 predictors:
Quantos gols marcou, Quanto treina, Qual o nome do jogador. Os p-values são respectivamente <0,00001; <0,00001; 3. Ao observar, vemos que o p-value do predictor "Nome do
jogador" é MUITO algo quando comparado ao p-value dos outros predictors, então vamos retirá-lo, mas é aí que entra a questão do Limite. Ao observar os outros 2 predictors,
podemos notar que ambos são valores baixíssimos e que estão em um "Limite" de serem menores que 0,00001, daí entra a idéia de limite

💣PERIGO💣: Não pode ser usada quando P(predictors) > N(Dados)

Mixed Selection:

💥 Esse resumo está sendo feito para uso próprio; portanto, nele, esqueço todas as formalidades e o deixo mais agradável para eu entender.