# Resumo e Pr√°tica de Machine Learning (MBA FIAP)
Este notebook cont√©m o conte√∫do das aulas de Machine Learning do MBA, incluindo teoria, cen√°rios de uso, exemplos pr√°ticos e conceitos como overfitting.

## üìã Resumo das Aulas
| Aula         | T√≥pico                        | Resumo |
|--------------|-------------------------------|--------|
| Aula 0       | Introdu√ß√£o ao ML              | Conceitos b√°sicos, ciclo de vida de dados e modelos, perfis profissionais, import√¢ncia dos dados. |
| Aula 1       | Tipos de Analytics            | Descritivo, Diagn√≥stico, Preditivo, Prescritivo. Diferen√ßas e aplica√ß√µes no neg√≥cio. |
| Aula 1       | Tipos de Aprendizado          | Supervisionado, n√£o supervisionado, refor√ßo. Exemplos e aplica√ß√µes. |
| Aula 1       | Ciclo de vida do modelo       | Defini√ß√£o do caso de uso, aquisi√ß√£o de dados, sele√ß√£o de algoritmo, constru√ß√£o, valida√ß√£o, implanta√ß√£o. |
| Aula 2       | SVM (Support Vector Machines) | Algoritmo de classifica√ß√£o que busca o hiperplano de maior margem. Uso de kernels para dados n√£o lineares. |
| Aula 2       | M√©tricas de Avalia√ß√£o         | Matriz de confus√£o, acur√°cia, precision, recall, F1-score, ROC e AUC. |
| Aula 3       | K-means                       | Algoritmo de agrupamento particional. Sens√≠vel √† inicializa√ß√£o, bom para clusters esf√©ricos. |
| Aula 3       | Hierarchical Clustering       | Agrupamento hier√°rquico (bottom-up/top-down), uso de dendrogramas, estrat√©gias de linkage. |
| Aula 3       | DBSCAN                        | Algoritmo de agrupamento por densidade, identifica clusters de formas arbitr√°rias e outliers. |
| Aula 4       | CART (√Årvores de Decis√£o)     | Algoritmo para classifica√ß√£o e regress√£o. Usa m√©tricas como Gini e RSS/MSE. Pruning para evitar overfitting. |
| Aula 5       | Ensemble Methods              | Combina√ß√£o de modelos para melhorar performance. Bagging, Boosting, Voting. |
| Aula 5       | Random Forest                 | Ensemble de √°rvores de decis√£o com amostragem bootstrap e sele√ß√£o aleat√≥ria de features. |
| Aula 6       | XGBoost                       | Algoritmo de boosting eficiente, regulariza√ß√£o L1/L2, otimiza√ß√µes para grandes volumes de dados. |
| Aula 7       | LightGBM                      | Boosting baseado em √°rvores, otimiza√ß√µes GOSS e EFB para efici√™ncia e escalabilidade. |
| Regulariza√ß√£o| Ridge, Lasso, Elastic Net     | T√©cnicas para evitar overfitting em modelos lineares, penalizando coeficientes (L2, L1, combina√ß√£o). |

## üß† Overfitting
Overfitting ocorre quando um modelo aprende n√£o s√≥ os padr√µes reais dos dados de treinamento, mas tamb√©m o ‚Äúru√≠do‚Äù ou as particularidades espec√≠ficas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas ruim em dados novos.

### Como evitar?
- Usar valida√ß√£o cruzada.
- Regulariza√ß√£o.
- Reduzir a complexidade do modelo.
- Aumentar a quantidade de dados de treino.

Abaixo, um exemplo visual com regress√£o polinomial.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

np.random.seed(0)
X = np.linspace(0, 1, 15).reshape(-1, 1)
y = np.sin(2 * np.pi * X).ravel() + np.random.normal(0, 0.15, X.shape[0])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
degrees = [1, 4, 12]
plt.figure(figsize=(12, 4))

for i, d in enumerate(degrees):
    poly = PolynomialFeatures(degree=d)
    X_train_poly = poly.fit_transform(X_train)
    X_test_poly = poly.transform(X_test)
    model = LinearRegression()
    model.fit(X_train_poly, y_train)
    y_train_pred = model.predict(X_train_poly)
    y_test_pred = model.predict(X_test_poly)
    plt.subplot(1, 3, i+1)
    plt.scatter(X_train, y_train, color='blue', label='Treino')
    plt.scatter(X_test, y_test, color='red', label='Teste')
    X_plot = np.linspace(0, 1, 100).reshape(-1, 1)
    plt.plot(X_plot, model.predict(poly.transform(X_plot)), color='green')
    plt.title(f'Grau {d}
Erro treino: {mean_squared_error(y_train, y_train_pred):.2f}
Erro teste: {mean_squared_error(y_test, y_test_pred):.2f}')
    plt.legend()

plt.tight_layout()
plt.show()