# Resumo e Prática de Machine Learning (MBA FIAP)
Este notebook contém o conteúdo das aulas de Machine Learning do MBA, incluindo teoria, cenários de uso, exemplos práticos e conceitos como overfitting.

## 📋 Resumo das Aulas
| Aula         | Tópico                        | Resumo |
|--------------|-------------------------------|--------|
| Aula 0       | Introdução ao ML              | Conceitos básicos, ciclo de vida de dados e modelos, perfis profissionais, importância dos dados. |
| Aula 1       | Tipos de Analytics            | Descritivo, Diagnóstico, Preditivo, Prescritivo. Diferenças e aplicações no negócio. |
| Aula 1       | Tipos de Aprendizado          | Supervisionado, não supervisionado, reforço. Exemplos e aplicações. |
| Aula 1       | Ciclo de vida do modelo       | Definição do caso de uso, aquisição de dados, seleção de algoritmo, construção, validação, implantação. |
| Aula 2       | SVM (Support Vector Machines) | Algoritmo de classificação que busca o hiperplano de maior margem. Uso de kernels para dados não lineares. |
| Aula 2       | Métricas de Avaliação         | Matriz de confusão, acurácia, precision, recall, F1-score, ROC e AUC. |
| Aula 3       | K-means                       | Algoritmo de agrupamento particional. Sensível à inicialização, bom para clusters esféricos. |
| Aula 3       | Hierarchical Clustering       | Agrupamento hierárquico (bottom-up/top-down), uso de dendrogramas, estratégias de linkage. |
| Aula 3       | DBSCAN                        | Algoritmo de agrupamento por densidade, identifica clusters de formas arbitrárias e outliers. |
| Aula 4       | CART (Árvores de Decisão)     | Algoritmo para classificação e regressão. Usa métricas como Gini e RSS/MSE. Pruning para evitar overfitting. |
| Aula 5       | Ensemble Methods              | Combinação de modelos para melhorar performance. Bagging, Boosting, Voting. |
| Aula 5       | Random Forest                 | Ensemble de árvores de decisão com amostragem bootstrap e seleção aleatória de features. |
| Aula 6       | XGBoost                       | Algoritmo de boosting eficiente, regularização L1/L2, otimizações para grandes volumes de dados. |
| Aula 7       | LightGBM                      | Boosting baseado em árvores, otimizações GOSS e EFB para eficiência e escalabilidade. |
| Regularização| Ridge, Lasso, Elastic Net     | Técnicas para evitar overfitting em modelos lineares, penalizando coeficientes (L2, L1, combinação). |

## 🧠 Overfitting
Overfitting ocorre quando um modelo aprende não só os padrões reais dos dados de treinamento, mas também o “ruído” ou as particularidades específicas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas ruim em dados novos.

### Como evitar?
- Usar validação cruzada.
- Regularização.
- Reduzir a complexidade do modelo.
- Aumentar a quantidade de dados de treino.

Abaixo, um exemplo visual com regressão polinomial.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

np.random.seed(0)
X = np.linspace(0, 1, 15).reshape(-1, 1)
y = np.sin(2 * np.pi * X).ravel() + np.random.normal(0, 0.15, X.shape[0])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
degrees = [1, 4, 12]
plt.figure(figsize=(12, 4))

for i, d in enumerate(degrees):
    poly = PolynomialFeatures(degree=d)
    X_train_poly = poly.fit_transform(X_train)
    X_test_poly = poly.transform(X_test)
    model = LinearRegression()
    model.fit(X_train_poly, y_train)
    y_train_pred = model.predict(X_train_poly)
    y_test_pred = model.predict(X_test_poly)
    plt.subplot(1, 3, i+1)
    plt.scatter(X_train, y_train, color='blue', label='Treino')
    plt.scatter(X_test, y_test, color='red', label='Teste')
    X_plot = np.linspace(0, 1, 100).reshape(-1, 1)
    plt.plot(X_plot, model.predict(poly.transform(X_plot)), color='green')
    plt.title(f'Grau {d}
Erro treino: {mean_squared_error(y_train, y_train_pred):.2f}
Erro teste: {mean_squared_error(y_test, y_test_pred):.2f}')
    plt.legend()

plt.tight_layout()
plt.show()