# Resumo e Prática de Machine Learning (MBA FIAP)
Este notebook contém o conteúdo das aulas de Machine Learning do MBA, incluindo teoria, cenários de uso, exemplos práticos e conceitos como overfitting.

## 📋 Resumo das Aulas
| Aula         | Tópico                        | Resumo |
|--------------|-------------------------------|--------|
| Aula 0       | Introdução ao ML              | Conceitos básicos, ciclo de vida de dados e modelos, perfis profissionais, importância dos dados. |
| Aula 1       | Tipos de Analytics            | Descritivo, Diagnóstico, Preditivo, Prescritivo. Diferenças e aplicações no negócio. |
| Aula 1       | Tipos de Aprendizado          | Supervisionado, não supervisionado, reforço. Exemplos e aplicações. |
| Aula 1       | Ciclo de vida do modelo       | Definição do caso de uso, aquisição de dados, seleção de algoritmo, construção, validação, implantação. |
| Aula 2       | SVM (Support Vector Machines) | Algoritmo de classificação que busca o hiperplano de maior margem. Uso de kernels para dados não lineares. |
| Aula 2       | Métricas de Avaliação         | Matriz de confusão, acurácia, precision, recall, F1-score, ROC e AUC. |
| Aula 3       | K-means                       | Algoritmo de agrupamento particional. Sensível à inicialização, bom para clusters esféricos. |
| Aula 3       | Hierarchical Clustering       | Agrupamento hierárquico (bottom-up/top-down), uso de dendrogramas, estratégias de linkage. |
| Aula 3       | DBSCAN                        | Algoritmo de agrupamento por densidade, identifica clusters de formas arbitrárias e outliers. |
| Aula 4       | CART (Árvores de Decisão)     | Algoritmo para classificação e regressão. Usa métricas como Gini e RSS/MSE. Pruning para evitar overfitting. |
| Aula 5       | Ensemble Methods              | Combinação de modelos para melhorar performance. Bagging, Boosting, Voting. |
| Aula 5       | Random Forest                 | Ensemble de árvores de decisão com amostragem bootstrap e seleção aleatória de features. |
| Aula 6       | XGBoost                       | Algoritmo de boosting eficiente, regularização L1/L2, otimizações para grandes volumes de dados. |
| Aula 7       | LightGBM                      | Boosting baseado em árvores, otimizações GOSS e EFB para eficiência e escalabilidade. |
| Regularização| Ridge, Lasso, Elastic Net     | Técnicas para evitar overfitting em modelos lineares, penalizando coeficientes (L2, L1, combinação). |

Exemplos de Resumos de Tópicos

K-means: Algoritmo de agrupamento que particiona dados em k clusters, minimizando a soma das distâncias intra-cluster. Sensível à inicialização dos centróides e à presença de outliers.
DBSCAN: Algoritmo de agrupamento baseado em densidade. Não requer número de clusters a priori, identifica ruído e é robusto a outliers, mas sensível à escolha dos parâmetros ε e min_samples.
CART: Algoritmo de árvore de decisão para classificação e regressão. Utiliza métricas como Gini (classificação) e RSS/MSE (regressão). Pruning é usado para evitar overfitting.
XGBoost: Algoritmo de boosting de árvores com regularização, otimizações para dados esparsos, paralelização e uso eficiente de memória. Muito utilizado em competições de ML.

1. K-means (Agrupamento Não Supervisionado)
Teoria
O K-means é um algoritmo de agrupamento (clustering) que divide os dados em K grupos (clusters) baseando-se na proximidade dos pontos ao centróide do grupo. O objetivo é minimizar a soma das distâncias quadradas entre os pontos e o centróide do seu cluster.

Iterativo: Inicializa K centróides aleatórios, atribui cada ponto ao centróide mais próximo, recalcula os centróides e repete até convergir.
Função objetivo: Minimizar a soma das distâncias quadradas intra-cluster.

Cenários de uso

Segmentação de clientes (marketing)
Compressão de imagens (redução de cores)
Agrupamento de documentos/textos

## Exemplo prático em Python

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Gerar dados sintéticos
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# Aplicar K-means
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

# Visualizar resultado
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', alpha=0.6)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200)
plt.title('K-means clustering')
plt.show()

2. DBSCAN (Agrupamento por Densidade)
Teoria
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) identifica clusters como regiões de alta densidade separadas por regiões de baixa densidade. Não precisa do número de clusters a priori e identifica outliers.

Parâmetros: eps (raio de vizinhança), min_samples (mínimo de pontos para formar um cluster).
Tipos de pontos: core, border, noise.

Cenários de uso

Detecção de anomalias (fraudes, falhas)
Agrupamento de dados espaciais/geográficos
Dados com clusters de formas arbitrárias

## Exemplo prático em Python

In [None]:
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

X, _ = make_moons(n_samples=200, noise=0.05, random_state=0)
dbscan = DBSCAN(eps=0.2, min_samples=5)
labels = dbscan.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='plasma')
plt.title('DBSCAN clustering')
plt.show()

3. SVM (Support Vector Machine)
Teoria
SVM é um algoritmo de classificação (e regressão) que busca o hiperplano que melhor separa as classes, maximizando a margem entre elas. Pode usar kernels para separar dados não linearmente separáveis.

Kernel trick: transforma dados para espaço de maior dimensão.
Soft margin: permite alguns erros para maior generalização.

Cenários de uso

Classificação de textos (spam vs. não-spam)
Reconhecimento de imagens
Diagnóstico médico

## Exemplo prático em Python

In [None]:
from sklearn import datasets
from sklearn.svm import SVC
import matplotlib.pyplot as plt

X, y = datasets.make_classification(n_samples=100, n_features=2, n_redundant=0, n_clusters_per_class=1)
svc = SVC(kernel='rbf', C=1, gamma=1)
svc.fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm')
plt.title('SVM Classification')


4. Árvores de Decisão (CART)
Teoria
Árvores de decisão são modelos que particionam o espaço de atributos em regiões, tomando decisões binárias em cada nó. Usam métricas como Gini (classificação) ou MSE (regressão).

Pruning: poda para evitar overfitting.
Interpretação fácil.

Cenários de uso

Decisão de crédito
Diagnóstico médico
Previsão de vendas

## Exemplo prático em Python

In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris = load_iris()
X, y = iris.data, iris.target
tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X, y)

plt.figure(figsize=(12,8))
plot_tree(tree, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()

5. Random Forest (Ensemble de Árvores)
Teoria
Random Forest é um ensemble de árvores de decisão, cada uma treinada em uma amostra diferente dos dados e com subconjunto aleatório de features. Reduz overfitting e melhora a generalização.
Cenários de uso

Classificação de clientes
Previsão de churn
Diagnóstico de doenças

## Exemplo prático em Python

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

wine = load_wine()
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3, random_state=42)
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)


6. XGBoost (Extreme Gradient Boosting)
Teoria
XGBoost é um algoritmo de boosting de árvores, altamente eficiente, com regularização L1/L2, paralelização e otimizações para grandes volumes de dados.
Cenários de uso

Competições de ML (Kaggle)
Previsão de inadimplência
Modelos de risco

## Exemplo prático em Python

In [None]:
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Acurácia:", accuracy_score(y_test, y_pred))

# 7. Regularização (Ridge, Lasso, Elastic Net)
Teoria
Regularização é usada para evitar overfitting em modelos lineares, penalizando coeficientes grandes.

Ridge (L2): penaliza o quadrado dos coeficientes.
Lasso (L1): penaliza o valor absoluto dos coeficientes (pode zerar alguns).
Elastic Net: combinação de L1 e L2.

Cenários de uso

Regressão com muitos atributos
Seleção automática de variáveis

## Exemplo prático em Python

In [None]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.datasets import make_regression

X, y = make_regression(n_samples=100, n_features=10, noise=10)
ridge = Ridge(alpha=1.0)
lasso = Lasso(alpha=0.1)
enet = ElasticNet(alpha=0.1, l1_ratio=0.5)

ridge.fit(X, y)
lasso.fit(X, y)
enet.fit(X, y)

print("Ridge coef:", ridge.coef_)
print("Lasso coef:", lasso.coef_)
print("ElasticNet coef:", enet.coef_)

# 🧠 Overfitting
Overfitting ocorre quando um modelo aprende não só os padrões reais dos dados de treinamento, mas também o “ruído” ou as particularidades específicas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas ruim em dados novos.

### Conceito
Overfitting é um conceito central em Machine Learning e estatística. Ele ocorre quando um modelo aprende não só os padrões reais dos dados de treinamento, mas também o “ruído” ou as particularidades específicas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas um desempenho ruim em dados novos (teste ou produção).

### O que é?
Overfitting acontece quando o modelo é complexo demais para a quantidade de dados ou para a tarefa, ajustando-se até mesmo às pequenas flutuações aleatórias dos dados de treino.
O modelo “memoriza” os dados de treino, mas não “generaliza” para novos dados.

### Sintomas:
Alta acurácia (ou baixo erro) no treino.
Baixa acurácia (ou alto erro) no teste/validação.


### Causas comuns:
Modelo muito complexo (muitos parâmetros, árvores profundas, polinômios de grau alto, etc.).
Poucos dados de treino.
Falta de regularização.

## Cenários de uso

### Quando é um problema?
Sempre que você precisa que o modelo funcione bem em dados que nunca viu antes (produção, novos clientes, etc.).
Exemplo: Um modelo de crédito que aprende detalhes dos clientes antigos, mas não consegue prever o risco de novos clientes.


### Como evitar?
Usar validação cruzada.
Regularização (Ridge, Lasso, Dropout em redes neurais).
Reduzir a complexidade do modelo.
Aumentar a quantidade de dados de treino.

### O que você verá:
Grau 1 (linear): subajuste (underfitting), erro alto em ambos.
Grau 4: bom ajuste, erro baixo em ambos.
Grau 12: overfitting, erro quase zero no treino, mas alto no teste.

### Resumindo
Overfitting = modelo aprende demais os dados de treino, perde capacidade de generalização.
Solução: simplifique o modelo, use mais dados, regularização, validação cruzada.
Sempre compare o desempenho em treino e teste!

## Exemplo prático em Python
Um exemplo visual com regressão polinomial.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

np.random.seed(0)
X = np.linspace(0, 1, 15).reshape(-1, 1)
y = np.sin(2 * np.pi * X).ravel() + np.random.normal(0, 0.15, X.shape[0])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
degrees = [1, 4, 12]
plt.figure(figsize=(12, 4))

for i, d in enumerate(degrees):
    poly = PolynomialFeatures(degree=d)
    X_train_poly = poly.fit_transform(X_train)
    X_test_poly = poly.transform(X_test)
    model = LinearRegression()
    model.fit(X_train_poly, y_train)
    y_train_pred = model.predict(X_train_poly)
    y_test_pred = model.predict(X_test_poly)
    plt.subplot(1, 3, i+1)
    plt.scatter(X_train, y_train, color='blue', label='Treino')
    plt.scatter(X_test, y_test, color='red', label='Teste')
    X_plot = np.linspace(0, 1, 100).reshape(-1, 1)
    plt.plot(X_plot, model.predict(poly.transform(X_plot)), color='green')
    plt.title(f'Grau {d}
Erro treino: {mean_squared_error(y_train, y_train_pred):.2f}
Erro teste: {mean_squared_error(y_test, y_test_pred):.2f}')
    plt.legend()

plt.tight_layout()
plt.show()