# <center><span style="font-size: 42px; color: darkgreen;">Machine Learning - Regressão</span></center>


<br><br>

---

<br>

# Introdução

Este documento aborda conceitos fundamentais sobre **Machine Learning**, com ênfase nos modelos de regressão. É ideal para quem deseja entender como construir modelos preditivos para resolver problemas envolvendo variáveis quantitativas. Também são apresentados métodos matemáticos e estatísticos essenciais para implementação e interpretação de modelos.

<br><br>

---

<br>

## Como Organizamos Nosso Trabalho ?

O aprendizado de máquina neste material é dividido em etapas claras para facilitar o entendimento:

1. **Introdução aos Modelos de Regressão**:
   - **Exemplo**: Análise inicial sobre a previsão de preços de imóveis com base em área e número de quartos.

<br>

2. **Fundamentos Teóricos**:
   - Definição de variáveis dependentes e independentes.
     - **Exemplo**: Determinar como a idade de um carro (independente) afeta seu valor de revenda (dependente).
   - Correlação e causalidade.
     - **Exemplo**: Identificar a relação entre horas de estudo e nota em provas, explicando por que correlação não implica causalidade.

<br>

3. **Matemática por Trás do Modelo**:
   - Método dos Mínimos Quadrados.
     - **Exemplo**: Ajustar uma reta de regressão para dados de vendas mensais com base em gastos com marketing.
   - Coeficiente de Determinação.
     - **Exemplo**: Mostrar como o \( R^2 \) reflete a eficácia do modelo em explicar variações nos dados.

<br>

4. **Prática**:
   - Implementação e interpretação de modelos.
     - **Exemplo**: Construir um modelo em Python usando StatsModels para prever salários com base em experiência profissional e formação acadêmica.

<br><br>

---

<br>

## O que é Regressão ?

A regressão é uma técnica estatística utilizada para modelar a relação entre variáveis quantitativas. Ela busca prever os valores de uma **variável dependente (y)** com base em uma ou mais **variáveis independentes (x)**. Exemplos incluem:

- Determinar a produtividade de uma safra com base na quantidade de fertilizante utilizada.
- Prever a população de uma cidade com base em dados históricos.

<br><br>

---

<br>

## Variáveis Dependentes e Independentes

- **Variável Dependente (y)**: É o alvo ou o resultado que desejamos prever.
- **Variáveis Independentes (x)**: São os fatores que influenciam ou explicam a variável dependente.

Exemplo:

- **Sexo, idade, salário, anos de residência** influenciam a **aprovação de crédito** (Sim ou Não).

<br><br>

---

<br>

## O Que Representa a Correlação?

A correlação mede a força e a direção do relacionamento entre duas variáveis. O coeficiente de correlação varia de -1 a 1:

- **Próximo de -1**: Relação fortemente negativa.
- **Próximo de 1**: Relação fortemente positiva.
- **Próximo de 0**: Nenhuma relação aparente.

<br><br>

### Correlação Não Implica Causalidade

É importante destacar que uma correlação entre variáveis não significa necessariamente que uma causa a outra. Outros fatores externos podem influenciar ambas as variáveis.

<br><br>

---

<br>

## Tipos de Modelos de Regressão

1. **Regressão Linear Simples**:
   - Utiliza apenas uma variável independente para prever o valor da dependente.
   - **Exemplo**: Previsão do preço de uma casa com base apenas em sua área (metros quadrados).
     - Se a área for 100 m² e o modelo gerou a equação:  y = 500x + 20, o preço estimado seria:
       
       y = 500(100) + 20 = 50.020  reais.

<br>

2. **Regressão Linear Múltipla**:
   - Inclui duas ou mais variáveis independentes.
   - **Exemplo**: Previsão do preço de uma casa considerando área, idade do imóvel e número de quartos.
     - Dados: x_1 = área (m²), x_2 = idade, x_3 = quartos.
     - Equação:  y = 400x_1 - 100x_2 + 300x_3.

<br>

3. **Regressão Logística**:
   - Utilizada para prever valores binários (sim/não).
   - **Exemplo**: Determinar se um cliente fará uma compra (sim/não) com base em tempo no site e visitas anteriores.
     - Probabilidade de compra: p = 1 / (1 + e^{-z}), onde z é calculado pelo modelo.

<br>

4. **Ridge e LASSO Regression**:
   - Aplicam regularização para reduzir o excesso de ajuste.
   - **Exemplo**: Prever vendas considerando muitas variáveis explicativas, onde Ridge diminui coeficientes e LASSO pode zerar alguns.

<br><br>

---

<br>

## Formalizando a Regressão Linear Simples

A equação da reta de regressão linear simples é representada por:


y = a + b * x

- **a**: Intercepto (ponto onde a reta cruza o eixo y).
- **b**: Inclinação da reta.
- **x**: Variável independente.
- **y**: Variável dependente prevista.

<br><br>

---

<br>

## Coeficiente de Determinação

Indica a proporção da variabilidade da variável dependente que é explicada pelas variáveis independentes no modelo. Por exemplo:

Imagine que você está analisando o impacto da quantidade de horas de estudo (variável independente) no desempenho em uma prova (variável dependente). Os dados coletados mostram o seguinte:

| Horas de Estudo (x) | Nota na Prova (y) |
|---------------------|-------------------|
| 2                   | 50                |
| 3                   | 55                |
| 5                   | 75                |
| 7                   | 85                |
| 8                   | 95                |

A regressão linear gerada produz a equação:


y = 10x + 30

- Para x = 6, a nota prevista seria:

   y = 10(6) + 30 = 90.

O **R²** indica que 92% da variação das notas pode ser explicada pelas horas de estudo, enquanto 8% é devido a fatores não considerados no modelo.

<br><br>

---

<br>

## Interpretando Modelos StatsModels

O pacote **StatsModels** é amplamente utilizado para ajustar e interpretar modelos de regressão. Aqui estão os principais elementos do output que ajudam na análise:

1. **Coeficientes**:
   - Representam os valores de `a` e `b` na equação da regressão linear.
   - Indicam como cada variável independente afeta a variável dependente.

<br>

2. **Erro Padrão**:
   - Mede a variabilidade dos coeficientes estimados.
   - Valores baixos indicam maior confiança nos coeficientes.

<br>

3. **P-valor**:
   - Indica se os coeficientes são estatisticamente significantes.
   - Geralmente, coeficientes com `p < 0.05` são considerados significantes.

<br>

4. **R² e R² Ajustado**:
   - **R²**: Mede a proporção da variabilidade explicada pelo modelo.
   - **R² Ajustado**: Considera o número de variáveis no modelo e é mais útil para modelos com múltiplas variáveis independentes.

<br>

5. **Teste F**:
   - Avalia a significância geral do modelo.
   - Um valor de `F` alto e um `p-valor` associado baixo indicam que o modelo é relevante.

<br>

### Exemplo com Python e StatsModels

```python
import statsmodels.api as sm

# Dados fictícios
X = [1, 2, 3, 4, 5]
y = [2, 4, 5, 4, 5]

# Adicionar uma constante para o intercepto
X = sm.add_constant(X)

# Ajustar o modelo
modelo = sm.OLS(y, X).fit()

# Resumo do modelo
print(modelo.summary())
```
