# Aula 01: Introdução ao Machine Learning

Nesta primeira aula, vamos familiarizar-nos com o fluxo de trabalho essencial de um projeto de Machine Learning. Independentemente da complexidade do algoritmo, a estrutura base mantém-se:

1.  **Dados:** Preparação e Análise Exploratória.
2.  **Modelo:** Treino do algoritmo.
3.  **Avaliação:** Análise dos resultados.

---

## Exercício 1: Regressão Linear em Dados Sintéticos

### 1. Enunciado
**Objetivo:** Ajustar uma reta a um conjunto de dados simples para entender a relação entre variáveis.

Vamos gerar dados onde a variável $y$ depende de $x$ através da equação linear $y = 3x + 4$, adicionando ruído aleatório (simulando erros de medição ou variabilidade natural).

O modelo matemático que tentaremos encontrar é:
$$y = \beta_0 + \beta_1 x + \epsilon$$

Onde:
* $\beta_1$ é o declive (esperamos que seja próximo de 3).
* $\beta_0$ é a interseção (esperamos que seja próximo de 4).
* $\epsilon$ é o ruído aleatório.

In [None]:
# Importação das bibliotecas necessárias
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Configuração estética dos gráficos
plt.style.use('ggplot')

In [None]:
# --- 2. Célula de Dados ---

# Definir semente para reprodutibilidade (todos os alunos terão os mesmos dados)
np.random.seed(42)

# Gerar X (Variável Independente): 100 pontos entre 0 e 10
X = 10 * np.random.rand(100, 1)

# Gerar y (Variável Dependente): y = mx + b + ruído
m, b = 3, 4
ruido = np.random.randn(100, 1) * 2  # Ruído com distribuição normal
y = m * X + b + ruido

# Visualização Inicial
plt.figure(figsize=(8, 5))
plt.scatter(X, y, color='blue', alpha=0.6, label='Dados Observados')
plt.title('Análise Exploratória: Relação entre X e y')
plt.xlabel('Variável Independente (X)')
plt.ylabel('Variável Dependente (y)')
plt.legend()
plt.show()

print(f"Dados gerados: {X.shape[0]} amostras.")

In [None]:
# --- 3. Célula de Modelo ---

# 1. Instanciar o modelo
modelo = LinearRegression()

# 2. Treinar o modelo (Fit)
# O algoritmo aprende os coeficientes (beta_0 e beta_1) que minimizam o erro
modelo.fit(X, y)

# Extrair os parâmetros aprendidos
beta_1 = modelo.coef_[0][0]  # Declive
beta_0 = modelo.intercept_[0] # Interseção

print("Treino concluído com sucesso!")
print(f"Equação real (geradora): y = 3.00x + 4.00")
print(f"Equação aprendida pelo modelo: y = {beta_1:.2f}x + {beta_0:.2f}")

In [None]:
# --- 4. Célula de Resposta/Avaliação ---

# Fazer previsões usando o modelo treinado
y_pred = modelo.predict(X)

# Calcular métricas de erro
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)

print(f"Métricas de Performance:")
print(f"- MSE (Erro Quadrático Médio): {mse:.2f}")
print(f"- R² (Coeficiente de Determinação): {r2:.4f} (Excelente ajuste)")

# Visualização Final: Dados Reais vs Linha do Modelo
plt.figure(figsize=(8, 5))
# Pontos reais
plt.scatter(X, y, color='blue', alpha=0.5, label='Dados Reais')
# Linha do modelo
plt.plot(X, y_pred, color='red', linewidth=2, label=f'Regressão (Modelo)')

plt.title('Resultado Final: Ajuste da Regressão Linear')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()