# 📊 O Que é Regressão Linear? 

A regressão linear é uma técnica estatística fundamental usada para entender a relação entre duas variáveis: uma dependente (ou variável de resposta) e uma independente (ou variável preditora). Vamos explorar esse conceito de forma simples e clara! 🌟


## 📚 Conceito Básico

Imagine que você quer prever o valor de uma variável com base em outra variável. Por exemplo, prever o salário de uma pessoa com base em seus anos de experiência. A regressão linear tenta encontrar a **melhor linha reta** que se ajusta aos dados. Essa linha é chamada de **linha de regressão**.



![image.png](attachment:image.png)

## 🔧 Como Funciona

1. **Coleta de Dados**: Recolhemos dados históricos que mostram a relação entre as variáveis (por exemplo, anos de experiência e salários).
2. **Ajuste do Modelo**: Utilizamos técnicas matemáticas para encontrar a melhor linha reta que minimiza a diferença entre os valores reais e os valores previstos.
3. **Previsão**: Usamos a linha ajustada para prever novos valores.


## 🧮 Exemplo Prático

Vamos imaginar um exemplo simples:

- Você tem dados de anos de experiência (x) e salários correspondentes (y).
- A regressão linear encontra uma linha que pode ser algo como: 

y = 30,000 + 5,000x

Isso significa que, com cada ano adicional de experiência, o salário aumenta em $5,000, começando de um salário base de $30,000.


## 📉 Visualização

![Linha de Regressão](https://www.gstatic.com/education/formulas/images_long_content/linear_regression_1.svg)

Na visualização acima:
- Os pontos azuis representam os dados reais.
- A linha vermelha é a linha de regressão que melhor se ajusta aos dados.


## 🎯 Aplicações da Regressão Linear

A regressão linear é amplamente usada em diversas áreas, incluindo:
- **Economia**: Previsão de preços, análise de tendências.
- **Negócios**: Análise de vendas, previsão de receitas.
- **Ciências Sociais**: Pesquisa de mercado, análise de comportamento.
- **Engenharia**: Modelagem de dados experimentais, otimização.


## 🚀 Resumo

A regressão linear é uma ferramenta poderosa para entender e prever a relação entre variáveis. Ao encontrar a linha de melhor ajuste, podemos fazer previsões informadas e tomar decisões baseadas em dados.


# Prática 💪
Vamos implementar um exemplo prático usando Python. Para isso, precisamos das bibliotecas `numpy`, `pandas`, `scikit-learn` e `matplotlib`.

In [None]:
# Instale as bibliotecas (se necessário)
# !pip install numpy pandas scikit-learn matplotlib

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt


### 1. Carregar os Dados

Vamos usar um conjunto de dados de exemplo para demonstrar a regressão linear. Suponha que temos um arquivo CSV chamado `dados.csv` com duas colunas: `Experiencia` (anos de experiência) e `Salario` (salário anual).

In [None]:
# Carregar os dados
dados = pd.read_csv('dados.csv')
print(dados.head())


### 2. Preparar os Dados

Separamos as variáveis independentes (X) da variável dependente (y):

In [None]:
# Variável independente (Experiencia)
X = dados[['Experiencia']]

# Variável dependente (Salario)
y = dados['Salario']


### 3. Criar o Modelo

Criamos uma instância do modelo de regressão linear e ajustamos os dados:

In [None]:
# Criar o modelo de regressão linear
modelo = LinearRegression()

# Ajustar o modelo aos dados
modelo.fit(X, y)


### 4. Fazer Previsões

Agora podemos usar o modelo para fazer previsões. Por exemplo, podemos prever o salário para alguém com 5 anos de experiência:

In [None]:
# Fazer uma previsão
experiencia_nova = np.array([[5]])
salario_previsto = modelo.predict(experiencia_nova)
print(f'Salário previsto para 5 anos de experiência: {salario_previsto[0]:.2f}')


### 5. Visualizar os Resultados

Por fim, podemos visualizar a linha de regressão junto com os dados originais:

In [None]:
# Plotar os dados e a linha de regressão
plt.scatter(X, y, color='blue')  # Dados originais
plt.plot(X, modelo.predict(X), color='red')  # Linha de regressão
plt.title('Regressão Linear')
plt.xlabel('Anos de Experiência')
plt.ylabel('Salário')
plt.show()


# 📊 Limitações da Regressão Linear

### ❌ Relação Não Linear

Se a relação entre as variáveis não for linear, a regressão linear não fornecerá bons resultados.

### ❌ Dados com Outliers Significativos

Outliers, ou valores extremamente diferentes dos outros dados, podem distorcer a linha de regressão, resultando em previsões imprecisas.

### ❌ Dados Categóricos

A regressão linear não é adequada para dados categóricos, que representam categorias em vez de valores numéricos.

### ❌ Heterocedasticidade

Se a variância dos erros não for constante (heterocedasticidade), a regressão linear pode fornecer resultados distorcidos.

### ❌ Dados Autocorrelacionados

Em séries temporais, onde os valores consecutivos estão correlacionados, a regressão linear simples não é apropriada. Métodos de séries temporais são mais adequados nesses casos.