# Chapter 3

> Moreover, it serves as a good jumping-oﬀ point for
newer approaches: as we will see in later chapters, many fancy statistical
learning approaches can be seen as generalizations or extensions of linear
regression.

> Here are a few important questions that we might
seek to address:
>
> 1. Is there a relationship between advertising budget and sales?
> 2. How strong is the relationship between advertising budget and sales?
> 3. Which media are associated with sales?
> 4. How large is the association between each medium and sales?
> 5. How accurately can we predict future sales?
> 6. Is the relationship linear?
> 7. Is there synergy among the advertising media?
>
> It turns out that linear regression can be used to answer each of these
questions.

Assumir que
$$
    Y \approx \beta_0 + \beta_1 X
$$
Onde $\approx$ significa **aproximadamente modelado como** mais que **o valor é aproximadamente igual a**.

$$
    \hat y_i = \hat \beta_0 + \hat \beta_1x_i \implies
    e_i = y_i - \hat y_i
$$

Onde $e_i$ é o i-ésimo resíduo entre os valores reais e o modelo usando os coeficientes estimados.

$$
    RSS = \sum^n_{i=1} e^2_i = \sum^n_{i=1}(y_i - \hat \beta_0 - \hat \beta_1x_i)^2
$$

Onde RSS é a soma residual dos quadrados, uma técnica simples diretamente relacionada à aproximação do modelo aos dados. É possível provar que os valores para $\left\{\hat \beta_0, \hat \beta_1\right\}$ que otimizam RSS são

$$
    \hat \beta_1 = \frac {\sum^n_{i=1}(x_i-\bar x)(y_i - \bar y)}{\sum^n_i=1(x_i-\bar x)^2} \\
    \hat \beta_0 = \bar y - \hat \beta_1 \bar x
$$

Essa técnica é conhecida como otimização por mínimos quadrados, onde as médias usadas nesse contexto usam a média artimética dos valores do dataset de treino.

**Dúvida:** O livro afirma que a função de RSS é sempre côncava e os valores para $\Beta = \left\{\hat \beta_0, \hat \beta_1\right\}$ acima sempre se encontram no mínimo global da função. Existe alguma afirmação que pode ser feita sobre a concavidade do RSS?

Mesmo analisando $\Beta$ obtido com um dataset que vem de uma função exata os valores nunca serão iguais aos coeficientes da função original.

Se queremos estimar o valor médio ($\mu$) da população usando uma amostra ($\hat \mu$) e queremos saber quão diferentes os dois valores são podemos avaliar o Erro Padrão de $\hat \mu = SE(\hat \mu)$:
$$
    Var(\hat \mu) = SE(\mu)^2 = \frac{\sigma^2}n
$$
Essa equação também indica que quanto maior o número de exemplos (n) menor o erro padrão e é possível inferir que a proximidade entre $\beta_0, \beta_1$ é:
$$
SE(\hat \beta_0)^2 = \sigma^2\left[\frac 1 n + \frac{\bar x^2}{\sum^n_{i=1}(x_i-\bar x)^2}\right] \\ ~ \\
SE(\hat \beta_1)^2 = \frac{\sigma^2}{\sum^n_{i=1}(x_i-\bar x)^2}
$$
Desde que os erros em comum para cada exemplo tenham $\sigma^2$ iguais e não possuam correlação, o que nem sempre é verdadeiro.

Essas medidas de erro podem ser usadas para definir intervalos de confiança, o que significa que há X% de probabilidade que que esse intervalo contém o valor real da predição, o que em muitos casos é o suficiente (o capítulo 3.1. tem uma explicação com mais detalhes do que isso significa).

Essa informação também pode ser usada para criar testes de hipótese. O teste de hipótese mais comum envolve a hipótese nula, ou seja:

> $H_0$: Não há relação entre X e Y.

Contra a hipótese alternativa:

> $H_a$: Existe alguma relação entre X e Y.

Isso corresponde matematicamente a testar que:

$$
H_0: \beta_1 = 0 \\
H_a: \beta_1 \neq 0
$$

Já que caso a hipótese nula seja verdadeira $Y = \beta_1 + \epsilon$ logo não depende de X.

Para garantir que a hipótese nula é verdadeira é preciso determinar que $\hat \beta_1 \neq 0$ é suficientemente distante de 0, para que o valor obtido nao seja todo proveniente do erro, o que depende do erro padrão ($SE(\hat\beta_1)$). Se esse erro for significativamente pequeno há forte evidência que há uma relação entre os dois valores, e se for grande, $\beta_1$ precisa ser grande em valor absoluto para rejeitar a hipótese nula. Esse teste pode ser feito usando uma estatística-t:
$$
    t = \frac {\hat \Beta_1 - 0} {SE(\hat \beta_1)}
$$
Esse valor mede o número de desvios padrão que $\hat\beta_1$ está de 0. Se nenhuma relação existir entre X e Y a distribuição normal de t terá n-2 graus de liberdade. Para valores maioresq ue 30 é muito próxima da distribuição normal padrão e é simples descobrir a probabilidade de observar um número igual a |t| ou maior assumindo que $\Beta_1 = 0$, que é chamado de valor p.

Valores p pequenos podem ser uma inferência que há uma associação entre o preditor e a resposta já que significa que a probabilidade daquela distribuição ser uma coincidência é muito pequena. Nesses casos a hipótese nula pode ser rejeitada. Uma regra geral é abaixo de 5% mas esse valor depende demais do contexto.

**obs:** já vi muitas pessoas classificarem em dados normais outliers como tendo 2 desvios padrão ou mais de distância da média e acredito que essa regra geral veio do teste t.

Todos os testes acima são feitos para ajudar a decidir se há ou não relação entre os dados mas não dizem qual modelo se adequa melhor aos dados. Geralmente para determinar isso o RSE (residual standard error) e R^2 são usados mas existem muitos outros.

**RSE:** É uma estimativa do desvio padrão de $\epsilon$, o erro irredutível, ou seja, representa o valor médio da diferença entre a resposta real e a verdadeira linha de regressão.
$$
RSE = \sqrt{\frac 1 {n-2}RSS} = \sqrt{\frac 1 {n-2}\sum^n_{i=1}(y_i-\hat y_i)^2} \\
RSS = \sum^n_{i=1}(y_i-\hat y_i)^2
$$
RSE pode ser considerada uma medida absoluta da falta de ajuste do modelo (minimizável) e é medido nas unidades de Y.

**$R^2$:** É uma proporção da variância explicada pelo modelo independentemente da escala de Y.
$$
R^2 = \frac{TSS - RSS}{TSS} = 1-\frac {RSS} {TSS} \\ ~ \\
TSS = \sum(y_i-\bar y)^2
$$
TSS pode ser interpretado como a variância total na resposta antes da regressão ser treinada.

RSS pode ser interpretado como a variabilidade que não foi explicada após treinar a regressão, logo TSS - RSS é a quantidade de veriabilidade na resposta que foi explicada e $R^2$ a proporção entre os dois valores (maximizável). 

Uma vantagem do $R^2$ é que esse valor é inerentemente mais interpretável mas em muitos contextos trazer explicabilidade para um modelo não é viável. Em geral $R^2$ é uma métrica mais útil quando as relações dos dados são interpretáveis / possuem insights mais claros. Frequentemente bons modelos de predição não possuem bom $R^2$ mesmo que possuam bom desempenho na realidade.

Essa métrica pode ser tratada como uma medida da linearidade da relação entre X e Y, bem como a medida de correlação descrita antes.

**OBS:** Qual a diferença dessa correlação para Pearson / Spearman / etc.?

É possível demonstrar que em contextos de regressão linear simplesos dois valores são iguais, mas em contextos de regressão linear múltipla essa relação não é necessariamente verdadeira e R^2 descreve a correlação melhor que a função $Cor(X, Y)$.