# Regressão Linear Simples
Existem cinco etapas básicas ao implementar a regressão linear:

1. Importe os pacotes e classes que você precisa.
2. Forneça dados para trabalhar e, eventualmente, faça as transformações apropriadas.
3. Crie um modelo de regressão e ajuste-o aos dados existentes.
4. Verifique os resultados do ajuste do modelo para saber se o modelo é satisfatório.
5. Aplique o modelo para previsões.

Essas etapas são mais ou menos gerais para a maioria das abordagens e implementações de regressão. Vamos aprender como executar essas etapas em diferentes cenários.

## Passo 1: Importando pacotes e classes
A primeira etapa é importar o pacote `numpy` e a classe `LinearRegression` de `sklearn.linear_model`:
[texto do link](https://)

In [1]:
import numpy as np
from sklearn.linear_model import LinearRegression

Agora temos todas as funcionalidades necessárias para implementar a regressão linear.

O tipo de dados fundamental do NumPy é o array chamado `numpy.ndarray`. Aqui, vamos usar o termo **array** para nos referirmos a instâncias do tipo `numpy.ndarray`.

A classe `sklearn.linear_model.LinearRegression` é usada realizar regressão linear e polinomial e para fazer previsões.

## Passo 2: Fornecendo dados

A segunda etapa é definir os dados com os quais trabalhar. As entradas (observações, $x$) e as saídas (resposta, $y$) devem ser matrizes. Esta é a maneira mais simples de fornecer dados para regressão:

In [2]:
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])

Temos dois arrays: a entrada, `x`, e a saída, `y`.

Note que invocamos o método `.reshape()` em `x` porque esse array deve ser bidimensional. Mais especificamente, devemos ter uma **coluna** e quantas linhas forem necessárias. Isso é exatamente o que o argumento `(-1, 1)` de `.reshape()` especifica.

Esta é a aparência de `x` e `y` agora:

In [3]:
print(x)
print(x.shape)
print(y)
print(y.shape)

[[ 5]
 [15]
 [25]
 [35]
 [45]
 [55]]
(6, 1)
[ 5 20 14 32 22 38]
(6,)


Observe que, `x` tem duas dimensões e `x.shape` é `(6, 1)`, enquanto `y` tem uma única dimensão e `y.shape` é `(6,)`.

## Passo 3: Criando e ajustando o modelo
A próxima etapa é criar um modelo de regressão linear e ajustá-lo usando os dados existentes.

Para isso, vamos criar uma instância da classe `LinearRegression`, que representará o modelo de regressão:



In [4]:
model = LinearRegression()

Esta instrução cria o modelo variável como uma instância de `LinearRegression`. Podemos fornecer vários parâmetros opcionais para `LinearRegression`:

- `fit_intercept` é um booleano que, se for `True`, permite calcular a interceptação $b_0$; se for `False`, considera-a igual a zero. O padrão é `True`.
- `normalize` é um booleano que, se for `True`, permite normalizar as variáveis ​​de entrada. O padrão é `False` e, nesse caso, não normaliza as variáveis ​​de entrada.
- `copy_X` é um booleano que decide se deseja copiar (`True`) ou sobrescrever as variáveis ​​de entrada (`False`). O padrão é `True`.
- `n_jobs` é um número inteiro ou `None`. Representa o número de processos a serem usados num ambiente de computação paralela. O padrão é `None`, o que geralmente significa um único processo. O parâmetro `-1` indica usar todos os processadores disponíveis.

Da maneira como definimos aqui, o modelo usa os valores padrão de todos os parâmetros.

Uma vez criado o modelo, é hora de ajustá-lo. Para isso, precisamos chamar o método `.fit()` no modelo criado:

In [5]:
model.fit(x, y)

Usando `.fit()`, nós calculamos os valores dos pesos $b_0$ e $b_1$, usando a entrada e a saída existentes, `x` e `y`, como argumentos. Em outras palavras, `.fit()` faz o modelo se ajustar aos dados.

Esse método retorna `self`, que é o próprio modelo de variável. Por esse motivo, podemos substituir as duas últimas chamadas por esta única:

In [6]:
model = LinearRegression().fit(x, y)

## Passo 4: Obtendo os resultados
Depois de ajustar seu modelo, devemos verificar se o modelo funciona satisfatoriamente e interpretá-lo.

Para isso, utilizamos o o coeficiente de determinação, $R^2$, invocando o método `.score()` no modelo:

In [7]:
r_sq = model.score(x, y)
print(f"coeficiente de determinacao: {r_sq}")

coeficiente de determinacao: 0.7158756137479542


Quando aplicamos `.score()`, os argumentos também são o preditor $x$ e a resposta $y$, e o valor de retorno é $R^2$.

Os atributos do modelo são `.intercept_`, que representa o coeficiente $b_0$ e `.coef_`, que representa $b_1$:

In [8]:
print(f"interceptacao: {model.intercept_}")
print(f"inclinacao: {model.coef_}")

interceptacao: 5.633333333333329
inclinacao: [0.54]


O código acima ilustra como obter $b_0$ e $b_1$. Note que `.intercept_` é um escalar, enquanto `.coef_` é um array.

> **Observação:** No `scikit-learn`, por convenção, um sublinhado à direita indica que um atributo é **estimado**. Neste exemplo, `.intercept_` e `.coef_` são valores estimados.

O valor de $b_0$ é aproximadamente $5.63$. Isto ilustra que o seu modelo prevê a resposta 5.63 quando $x=0$. O valor $b_1 = 0.54$ significa que a resposta prevista aumenta 0.54 quando $x$ aumenta uma unidade.

Note, também, que podemos fornecer $y$ como uma matriz bidimensional. Nesse caso, obteremos um resultado semelhante. Por exemplo:

In [9]:
new_model = LinearRegression().fit(x, y.reshape((-1, 1)))
print(f"interceptacao: {new_model.intercept_}")
print(f"inclinacao: {new_model.coef_}")

interceptacao: [5.63333333]
inclinacao: [[0.54]]


Como podemos ver, este exemplo é muito semelhante ao anterior, mas neste caso, `.intercept_` é uma matriz unidimensional com o elemento único $b_0$ e `.coef_` é uma matriz bidimensional com o elemento único, $b_1$.

## Passo 5: Fazendo previsões
Depois de ter um modelo satisfatório, podemos usá-lo para previsões com dados novos ou existentes. Para obter a resposta prevista, utilizamos o método `.predict()`:


In [10]:
y_pred = model.predict(x)
print(f"responsta predita:\n{y_pred}")

responsta predita:
[ 8.33333333 13.73333333 19.13333333 24.53333333 29.93333333 35.33333333]


Ao aplicar `.predict()`, passamos o regressor como argumento e obtemos a resposta prevista correspondente. A seguir, vemos uma maneira quase idêntica de prever a resposta:

In [11]:
y_pred = model.intercept_ + model.coef_ * x
print(f"responsta predita:\n{y_pred}")

responsta predita:
[[ 8.33333333]
 [13.73333333]
 [19.13333333]
 [24.53333333]
 [29.93333333]
 [35.33333333]]


Nesse último caso, multiplicamos cada elemento de `x` por `model.coef_` e somamos `model.intercept_` ao produto.

A saída aqui difere do exemplo anterior apenas nas dimensões. A resposta prevista agora é uma matriz bidimensional, enquanto no caso anterior tinha uma dimensão.

Se reduzirmos o número de dimensões de `x` para um, essas duas abordagens produzirão o mesmo resultado. Podemos fazer isso substituindo `x` por `x.reshape(-1)`, `x.flatten()` ou `x.ravel()` ao multiplicá-lo por `model.coef_`.

Na prática, os modelos de regressão são frequentemente aplicados para previsões. Isso significa que você pode usar modelos ajustados para calcular os resultados com base em novos dados:

In [12]:
x_new = np.arange(5).reshape((-1, 1))
print(x_new)
y_new = model.predict(x_new)
print(y_new)

[[0]
 [1]
 [2]
 [3]
 [4]]
[5.63333333 6.17333333 6.71333333 7.25333333 7.79333333]


Aqui `.predict()` é aplicado ao novo regressor `x_new` e produz a resposta `y_new`. Este exemplo usa o método `arange()` do `numpy` para gerar uma matriz com os elementos no intervalo $[0,5)$.