# üìä O Que √© Regress√£o Linear? 

A regress√£o linear √© uma t√©cnica estat√≠stica fundamental usada para entender a rela√ß√£o entre duas vari√°veis: uma dependente (ou vari√°vel de resposta) e uma independente (ou vari√°vel preditora). Vamos explorar esse conceito de forma simples e clara! üåü


## üìö Conceito B√°sico

Imagine que voc√™ quer prever o valor de uma vari√°vel com base em outra vari√°vel. Por exemplo, prever o sal√°rio de uma pessoa com base em seus anos de experi√™ncia. A regress√£o linear tenta encontrar a **melhor linha reta** que se ajusta aos dados. Essa linha √© chamada de **linha de regress√£o**.



![image.png](attachment:image.png)

## üîß Como Funciona

1. **Coleta de Dados**: Recolhemos dados hist√≥ricos que mostram a rela√ß√£o entre as vari√°veis (por exemplo, anos de experi√™ncia e sal√°rios).
2. **Ajuste do Modelo**: Utilizamos t√©cnicas matem√°ticas para encontrar a melhor linha reta que minimiza a diferen√ßa entre os valores reais e os valores previstos.
3. **Previs√£o**: Usamos a linha ajustada para prever novos valores.


## üßÆ Exemplo Pr√°tico

Vamos imaginar um exemplo simples:

- Voc√™ tem dados de anos de experi√™ncia (x) e sal√°rios correspondentes (y).
- A regress√£o linear encontra uma linha que pode ser algo como: 

y = 30,000 + 5,000x

Isso significa que, com cada ano adicional de experi√™ncia, o sal√°rio aumenta em $5,000, come√ßando de um sal√°rio base de $30,000.


## üìâ Visualiza√ß√£o

![Linha de Regress√£o](https://www.gstatic.com/education/formulas/images_long_content/linear_regression_1.svg)

Na visualiza√ß√£o acima:
- Os pontos azuis representam os dados reais.
- A linha vermelha √© a linha de regress√£o que melhor se ajusta aos dados.


## üéØ Aplica√ß√µes da Regress√£o Linear

A regress√£o linear √© amplamente usada em diversas √°reas, incluindo:
- **Economia**: Previs√£o de pre√ßos, an√°lise de tend√™ncias.
- **Neg√≥cios**: An√°lise de vendas, previs√£o de receitas.
- **Ci√™ncias Sociais**: Pesquisa de mercado, an√°lise de comportamento.
- **Engenharia**: Modelagem de dados experimentais, otimiza√ß√£o.


## üöÄ Resumo

A regress√£o linear √© uma ferramenta poderosa para entender e prever a rela√ß√£o entre vari√°veis. Ao encontrar a linha de melhor ajuste, podemos fazer previs√µes informadas e tomar decis√µes baseadas em dados.


# Pr√°tica üí™
Vamos implementar um exemplo pr√°tico usando Python. Para isso, precisamos das bibliotecas `numpy`, `pandas`, `scikit-learn` e `matplotlib`.

In [None]:
# Instale as bibliotecas (se necess√°rio)
# !pip install numpy pandas scikit-learn matplotlib

import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt


### 1. Carregar os Dados

Vamos usar um conjunto de dados de exemplo para demonstrar a regress√£o linear. Suponha que temos um arquivo CSV chamado `dados.csv` com duas colunas: `Experiencia` (anos de experi√™ncia) e `Salario` (sal√°rio anual).

In [None]:
# Carregar os dados
dados = pd.read_csv('dados.csv')
print(dados.head())


### 2. Preparar os Dados

Separamos as vari√°veis independentes (X) da vari√°vel dependente (y):

In [None]:
# Vari√°vel independente (Experiencia)
X = dados[['Experiencia']]

# Vari√°vel dependente (Salario)
y = dados['Salario']


### 3. Criar o Modelo

Criamos uma inst√¢ncia do modelo de regress√£o linear e ajustamos os dados:

In [None]:
# Criar o modelo de regress√£o linear
modelo = LinearRegression()

# Ajustar o modelo aos dados
modelo.fit(X, y)


### 4. Fazer Previs√µes

Agora podemos usar o modelo para fazer previs√µes. Por exemplo, podemos prever o sal√°rio para algu√©m com 5 anos de experi√™ncia:

In [None]:
# Fazer uma previs√£o
experiencia_nova = np.array([[5]])
salario_previsto = modelo.predict(experiencia_nova)
print(f'Sal√°rio previsto para 5 anos de experi√™ncia: {salario_previsto[0]:.2f}')


### 5. Visualizar os Resultados

Por fim, podemos visualizar a linha de regress√£o junto com os dados originais:

In [None]:
# Plotar os dados e a linha de regress√£o
plt.scatter(X, y, color='blue')  # Dados originais
plt.plot(X, modelo.predict(X), color='red')  # Linha de regress√£o
plt.title('Regress√£o Linear')
plt.xlabel('Anos de Experi√™ncia')
plt.ylabel('Sal√°rio')
plt.show()


# üìä Limita√ß√µes da Regress√£o Linear

### ‚ùå Rela√ß√£o N√£o Linear

Se a rela√ß√£o entre as vari√°veis n√£o for linear, a regress√£o linear n√£o fornecer√° bons resultados.

### ‚ùå Dados com Outliers Significativos

Outliers, ou valores extremamente diferentes dos outros dados, podem distorcer a linha de regress√£o, resultando em previs√µes imprecisas.

### ‚ùå Dados Categ√≥ricos

A regress√£o linear n√£o √© adequada para dados categ√≥ricos, que representam categorias em vez de valores num√©ricos.

### ‚ùå Heterocedasticidade

Se a vari√¢ncia dos erros n√£o for constante (heterocedasticidade), a regress√£o linear pode fornecer resultados distorcidos.

### ‚ùå Dados Autocorrelacionados

Em s√©ries temporais, onde os valores consecutivos est√£o correlacionados, a regress√£o linear simples n√£o √© apropriada. M√©todos de s√©ries temporais s√£o mais adequados nesses casos.