# Regressão Linear

A regressão linear é um método estatístico utilizado para entender a relação entre duas ou mais variáveis. No modelo mais simples, chamado de regressão linear simples, temos uma variável independente e uma variável dependente. A ideia é que se você variar a variável independente, a variável dependente irá mudar de acordo com uma relação linear específica.

Essa relação linear é geralmente expressa na forma da equação, 

$$y = mx + b$$

onde:
- $y$ é a variável dependente que estamos tentando prever ou entender
- $x$ é a variável independente que estamos usando para fazer a previsão
- $m$ é a inclinação da linha de regressão, que representa o efeito que $x$ tem sobre $y$
- $b$ é o intercepto $y$, que é o valor de $y$ quando $x$ é zero

**EXEMPLO**

Vamos imaginar que você esteja tentando prever o tempo de sentença de um réu a partir de um dataset de condenações anteriores de vários juízes. Um objetivo alternativo poderia ser entender como os diferentes fatores afetam as decisões judiciais.


| Idade (anos) | Condenações Anteriores | Gravidade do Crime | Tempo de Sentença (anos) |
|--------------|------------------------|--------------------|--------------------------|
| 20           | 0                      | 3                  | 2                        |
| 25           | 1                      | 5                  | 3                        |
| 30           | 2                      | 6                  | 4                        |
| 35           | 0                      | 7                  | 5                        |
| 40           | 3                      | 8                  | 6                        |
| 45           | 1                      | 7                  | 6                        |
| 50           | 2                      | 8                  | 7                        |
| 30           | 1                      | 9                  | 8                        |
| 35           | 0                      | 4                  | 3                        |
| 25           | 0                      | 2                  | 1                        |
| 45           | 3                      | 7                  | 7                        |
| 50           | 4                      | 10                 | 10                       |
| 40           | 2                      | 6                  | 6                        |
| 30           | 0                      | 3                  | 2                        |
| 35           | 1                      | 5                  | 4                        |
| 30           | 3                      | 6                  | 5                        |
| 40           | 0                      | 7                  | 6                        |
| 35           | 2                      | 8                  | 7                        |
| 45           | 1                      | 7                  | 6                        |
| 50           | 2                      | 8                  | 7                        |

## Considerações

Algumas coisas que você deve saber antes de usar a regressão linear.

1. **Relacionamento Linear:** O método da regressão linear pressupõe que há uma relação linear entre as variáveis independentes e a variável dependente. Se a verdadeira relação for não-linear, os resultados do modelo podem ser imprecisos. Uma observação importante é que o `sklearn` oferece uma maneira de trabalhar com alguns dados não lineares.

2. **Independência das Observações:** A regressão linear pressupõe que todas as observações são independentes umas das outras. Na prática, isso nem sempre é verdadeiro. Por exemplo, em uma série temporal, as observações são frequentemente dependentes umas das outras.

3. **Homocedasticidade:** A regressão linear pressupõe que a variância dos erros é constante em todos os níveis das variáveis independentes. Quando essa suposição é violada (por exemplo, se a variância dos erros aumentar com o valor da variável independente), temos a chamada heterocedasticidade, o que pode levar a estimativas de coeficientes imprecisas e p-valores enganosos.

4. **Erros Normalmente Distribuídos:** A regressão linear pressupõe que os erros (a diferença entre os valores previstos e reais) estão normalmente distribuídos. Se os erros têm uma distribuição diferente, pode afetar a confiabilidade das estimativas do modelo.

5. **Ausência de Multicolinearidade:** A regressão linear pressupõe que as variáveis independentes não estão perfeitamente correlacionadas entre si, uma condição conhecida como multicolinearidade. Quando essa suposição é violada, pode ser difícil determinar o efeito individual de cada variável independente sobre a variável dependente.

6. **Relações de Causalidade:** Finalmente, embora a regressão linear possa identificar correlações entre variáveis, ela não pode, por si só, confirmar relações de causa e efeito. Por exemplo, mesmo que o modelo encontre uma relação forte entre a idade de um réu e a duração da sentença, isso não significa necessariamente que a idade cause diretamente uma sentença mais longa ou mais curta.

## O Algoritmo na Prática

**Bibliotecas**

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import numpy as np

**Ingestão**

In [2]:
# Simulando os dados
data = {
    "Idade": [20, 25, 30, 35, 40, 45, 50, 30, 35, 25, 45, 50, 40, 30, 35, 30, 40, 35, 45, 50],
    "Condenações_Anteriores": [0, 1, 2, 0, 3, 1, 2, 1, 0, 0, 3, 4, 2, 0, 1, 3, 0, 2, 1, 2],
    "Gravidade_Crime": [3, 5, 6, 7, 8, 7, 8, 9, 4, 2, 7, 10, 6, 3, 5, 6, 7, 8, 7, 8],
    "Tempo_Sentença": [2, 3, 4, 5, 6, 6, 7, 8, 3, 1, 7, 10, 6, 2, 4, 5, 6, 7, 6, 7]
}
df = pd.DataFrame(data)

**Preparação**

In [3]:
# Dividindo os dados em conjuntos de treinamento e teste
X = df[["Idade", "Condenações_Anteriores", "Gravidade_Crime"]]
y = df["Tempo_Sentença"]

# 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Treinamento**

In [4]:
# Criando o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

In [5]:
print(f"Estes são os coeficientes angulares do modelo {model.coef_}")
print(f"Este é o intercepto (viés) do modelo {model.intercept_}")

Estes são os coeficientes angulares do modelo [0.03994931 0.16292336 0.86577554]
Este é o intercepto (viés) do modelo -1.9120805485634955


**Testes**

In [6]:
# Fazendo previsões
y_pred = model.predict(X_test)

# Calculando o RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"RMSE: {rmse}")


RMSE: 0.40929096881868005


In [12]:
# Isso é uma função
def predict(model, idade, cond_anteriores, gravidade_crime):
    previsao = model.predict([[idade, cond_anteriores, gravidade_crime]])
    return round(previsao[0]) 

idade = 40
cond_anteriores = 10
gravidade_crime = 1
predict(model, idade, cond_anteriores, gravidade_crime)



2