# Resumo e Pr√°tica de Machine Learning (MBA FIAP)
Este notebook cont√©m o conte√∫do das aulas de Machine Learning do MBA, incluindo teoria, cen√°rios de uso, exemplos pr√°ticos e conceitos como overfitting.

## üìã Resumo das Aulas
| Aula         | T√≥pico                        | Resumo |
|--------------|-------------------------------|--------|
| Aula 0       | Introdu√ß√£o ao ML              | Conceitos b√°sicos, ciclo de vida de dados e modelos, perfis profissionais, import√¢ncia dos dados. |
| Aula 1       | Tipos de Analytics            | Descritivo, Diagn√≥stico, Preditivo, Prescritivo. Diferen√ßas e aplica√ß√µes no neg√≥cio. |
| Aula 1       | Tipos de Aprendizado          | Supervisionado, n√£o supervisionado, refor√ßo. Exemplos e aplica√ß√µes. |
| Aula 1       | Ciclo de vida do modelo       | Defini√ß√£o do caso de uso, aquisi√ß√£o de dados, sele√ß√£o de algoritmo, constru√ß√£o, valida√ß√£o, implanta√ß√£o. |
| Aula 2       | SVM (Support Vector Machines) | Algoritmo de classifica√ß√£o que busca o hiperplano de maior margem. Uso de kernels para dados n√£o lineares. |
| Aula 2       | M√©tricas de Avalia√ß√£o         | Matriz de confus√£o, acur√°cia, precision, recall, F1-score, ROC e AUC. |
| Aula 3       | K-means                       | Algoritmo de agrupamento particional. Sens√≠vel √† inicializa√ß√£o, bom para clusters esf√©ricos. |
| Aula 3       | Hierarchical Clustering       | Agrupamento hier√°rquico (bottom-up/top-down), uso de dendrogramas, estrat√©gias de linkage. |
| Aula 3       | DBSCAN                        | Algoritmo de agrupamento por densidade, identifica clusters de formas arbitr√°rias e outliers. |
| Aula 4       | CART (√Årvores de Decis√£o)     | Algoritmo para classifica√ß√£o e regress√£o. Usa m√©tricas como Gini e RSS/MSE. Pruning para evitar overfitting. |
| Aula 5       | Ensemble Methods              | Combina√ß√£o de modelos para melhorar performance. Bagging, Boosting, Voting. |
| Aula 5       | Random Forest                 | Ensemble de √°rvores de decis√£o com amostragem bootstrap e sele√ß√£o aleat√≥ria de features. |
| Aula 6       | XGBoost                       | Algoritmo de boosting eficiente, regulariza√ß√£o L1/L2, otimiza√ß√µes para grandes volumes de dados. |
| Aula 7       | LightGBM                      | Boosting baseado em √°rvores, otimiza√ß√µes GOSS e EFB para efici√™ncia e escalabilidade. |
| Regulariza√ß√£o| Ridge, Lasso, Elastic Net     | T√©cnicas para evitar overfitting em modelos lineares, penalizando coeficientes (L2, L1, combina√ß√£o). |

Exemplos de Resumos de T√≥picos

K-means: Algoritmo de agrupamento que particiona dados em k clusters, minimizando a soma das dist√¢ncias intra-cluster. Sens√≠vel √† inicializa√ß√£o dos centr√≥ides e √† presen√ßa de outliers.
DBSCAN: Algoritmo de agrupamento baseado em densidade. N√£o requer n√∫mero de clusters a priori, identifica ru√≠do e √© robusto a outliers, mas sens√≠vel √† escolha dos par√¢metros Œµ e min_samples.
CART: Algoritmo de √°rvore de decis√£o para classifica√ß√£o e regress√£o. Utiliza m√©tricas como Gini (classifica√ß√£o) e RSS/MSE (regress√£o). Pruning √© usado para evitar overfitting.
XGBoost: Algoritmo de boosting de √°rvores com regulariza√ß√£o, otimiza√ß√µes para dados esparsos, paraleliza√ß√£o e uso eficiente de mem√≥ria. Muito utilizado em competi√ß√µes de ML.

1. K-means (Agrupamento N√£o Supervisionado)
Teoria
O K-means √© um algoritmo de agrupamento (clustering) que divide os dados em K grupos (clusters) baseando-se na proximidade dos pontos ao centr√≥ide do grupo. O objetivo √© minimizar a soma das dist√¢ncias quadradas entre os pontos e o centr√≥ide do seu cluster.

Iterativo: Inicializa K centr√≥ides aleat√≥rios, atribui cada ponto ao centr√≥ide mais pr√≥ximo, recalcula os centr√≥ides e repete at√© convergir.
Fun√ß√£o objetivo: Minimizar a soma das dist√¢ncias quadradas intra-cluster.

Cen√°rios de uso

Segmenta√ß√£o de clientes (marketing)
Compress√£o de imagens (redu√ß√£o de cores)
Agrupamento de documentos/textos

## Exemplo pr√°tico em Python

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Gerar dados sint√©ticos
X, y = make_blobs(n_samples=300, centers=4, random_state=42)

# Aplicar K-means
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_
centroids = kmeans.cluster_centers_

# Visualizar resultado
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', alpha=0.6)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200)
plt.title('K-means clustering')
plt.show()

2. DBSCAN (Agrupamento por Densidade)
Teoria
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) identifica clusters como regi√µes de alta densidade separadas por regi√µes de baixa densidade. N√£o precisa do n√∫mero de clusters a priori e identifica outliers.

Par√¢metros: eps (raio de vizinhan√ßa), min_samples (m√≠nimo de pontos para formar um cluster).
Tipos de pontos: core, border, noise.

Cen√°rios de uso

Detec√ß√£o de anomalias (fraudes, falhas)
Agrupamento de dados espaciais/geogr√°ficos
Dados com clusters de formas arbitr√°rias

## Exemplo pr√°tico em Python

In [None]:
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

X, _ = make_moons(n_samples=200, noise=0.05, random_state=0)
dbscan = DBSCAN(eps=0.2, min_samples=5)
labels = dbscan.fit_predict(X)

plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='plasma')
plt.title('DBSCAN clustering')
plt.show()

3. SVM (Support Vector Machine)
Teoria
SVM √© um algoritmo de classifica√ß√£o (e regress√£o) que busca o hiperplano que melhor separa as classes, maximizando a margem entre elas. Pode usar kernels para separar dados n√£o linearmente separ√°veis.

Kernel trick: transforma dados para espa√ßo de maior dimens√£o.
Soft margin: permite alguns erros para maior generaliza√ß√£o.

Cen√°rios de uso

Classifica√ß√£o de textos (spam vs. n√£o-spam)
Reconhecimento de imagens
Diagn√≥stico m√©dico

## Exemplo pr√°tico em Python

In [None]:
from sklearn import datasets
from sklearn.svm import SVC
import matplotlib.pyplot as plt

X, y = datasets.make_classification(n_samples=100, n_features=2, n_redundant=0, n_clusters_per_class=1)
svc = SVC(kernel='rbf', C=1, gamma=1)
svc.fit(X, y)

plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm')
plt.title('SVM Classification')


4. √Årvores de Decis√£o (CART)
Teoria
√Årvores de decis√£o s√£o modelos que particionam o espa√ßo de atributos em regi√µes, tomando decis√µes bin√°rias em cada n√≥. Usam m√©tricas como Gini (classifica√ß√£o) ou MSE (regress√£o).

Pruning: poda para evitar overfitting.
Interpreta√ß√£o f√°cil.

Cen√°rios de uso

Decis√£o de cr√©dito
Diagn√≥stico m√©dico
Previs√£o de vendas

## Exemplo pr√°tico em Python

In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris = load_iris()
X, y = iris.data, iris.target
tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X, y)

plt.figure(figsize=(12,8))
plot_tree(tree, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.show()

5. Random Forest (Ensemble de √Årvores)
Teoria
Random Forest √© um ensemble de √°rvores de decis√£o, cada uma treinada em uma amostra diferente dos dados e com subconjunto aleat√≥rio de features. Reduz overfitting e melhora a generaliza√ß√£o.
Cen√°rios de uso

Classifica√ß√£o de clientes
Previs√£o de churn
Diagn√≥stico de doen√ßas

## Exemplo pr√°tico em Python

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

wine = load_wine()
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3, random_state=42)
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)


6. XGBoost (Extreme Gradient Boosting)
Teoria
XGBoost √© um algoritmo de boosting de √°rvores, altamente eficiente, com regulariza√ß√£o L1/L2, paraleliza√ß√£o e otimiza√ß√µes para grandes volumes de dados.
Cen√°rios de uso

Competi√ß√µes de ML (Kaggle)
Previs√£o de inadimpl√™ncia
Modelos de risco

## Exemplo pr√°tico em Python

In [None]:
import xgboost as xgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
model = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Acur√°cia:", accuracy_score(y_test, y_pred))

# 7. Regulariza√ß√£o (Ridge, Lasso, Elastic Net)
Teoria
Regulariza√ß√£o √© usada para evitar overfitting em modelos lineares, penalizando coeficientes grandes.

Ridge (L2): penaliza o quadrado dos coeficientes.
Lasso (L1): penaliza o valor absoluto dos coeficientes (pode zerar alguns).
Elastic Net: combina√ß√£o de L1 e L2.

Cen√°rios de uso

Regress√£o com muitos atributos
Sele√ß√£o autom√°tica de vari√°veis

## Exemplo pr√°tico em Python

In [None]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.datasets import make_regression

X, y = make_regression(n_samples=100, n_features=10, noise=10)
ridge = Ridge(alpha=1.0)
lasso = Lasso(alpha=0.1)
enet = ElasticNet(alpha=0.1, l1_ratio=0.5)

ridge.fit(X, y)
lasso.fit(X, y)
enet.fit(X, y)

print("Ridge coef:", ridge.coef_)
print("Lasso coef:", lasso.coef_)
print("ElasticNet coef:", enet.coef_)

# üß† Overfitting
Overfitting ocorre quando um modelo aprende n√£o s√≥ os padr√µes reais dos dados de treinamento, mas tamb√©m o ‚Äúru√≠do‚Äù ou as particularidades espec√≠ficas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas ruim em dados novos.

### Conceito
Overfitting √© um conceito central em Machine Learning e estat√≠stica. Ele ocorre quando um modelo aprende n√£o s√≥ os padr√µes reais dos dados de treinamento, mas tamb√©m o ‚Äúru√≠do‚Äù ou as particularidades espec√≠ficas desses dados. Isso faz com que o modelo tenha um desempenho excelente nos dados de treino, mas um desempenho ruim em dados novos (teste ou produ√ß√£o).

### O que √©?
Overfitting acontece quando o modelo √© complexo demais para a quantidade de dados ou para a tarefa, ajustando-se at√© mesmo √†s pequenas flutua√ß√µes aleat√≥rias dos dados de treino.
O modelo ‚Äúmemoriza‚Äù os dados de treino, mas n√£o ‚Äúgeneraliza‚Äù para novos dados.

### Sintomas:
Alta acur√°cia (ou baixo erro) no treino.
Baixa acur√°cia (ou alto erro) no teste/valida√ß√£o.


### Causas comuns:
Modelo muito complexo (muitos par√¢metros, √°rvores profundas, polin√¥mios de grau alto, etc.).
Poucos dados de treino.
Falta de regulariza√ß√£o.

## Cen√°rios de uso

### Quando √© um problema?
Sempre que voc√™ precisa que o modelo funcione bem em dados que nunca viu antes (produ√ß√£o, novos clientes, etc.).
Exemplo: Um modelo de cr√©dito que aprende detalhes dos clientes antigos, mas n√£o consegue prever o risco de novos clientes.


### Como evitar?
Usar valida√ß√£o cruzada.
Regulariza√ß√£o (Ridge, Lasso, Dropout em redes neurais).
Reduzir a complexidade do modelo.
Aumentar a quantidade de dados de treino.

### O que voc√™ ver√°:
Grau 1 (linear): subajuste (underfitting), erro alto em ambos.
Grau 4: bom ajuste, erro baixo em ambos.
Grau 12: overfitting, erro quase zero no treino, mas alto no teste.

### Resumindo
Overfitting = modelo aprende demais os dados de treino, perde capacidade de generaliza√ß√£o.
Solu√ß√£o: simplifique o modelo, use mais dados, regulariza√ß√£o, valida√ß√£o cruzada.
Sempre compare o desempenho em treino e teste!

## Exemplo pr√°tico em Python
Um exemplo visual com regress√£o polinomial.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

np.random.seed(0)
X = np.linspace(0, 1, 15).reshape(-1, 1)
y = np.sin(2 * np.pi * X).ravel() + np.random.normal(0, 0.15, X.shape[0])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
degrees = [1, 4, 12]
plt.figure(figsize=(12, 4))

for i, d in enumerate(degrees):
    poly = PolynomialFeatures(degree=d)
    X_train_poly = poly.fit_transform(X_train)
    X_test_poly = poly.transform(X_test)
    model = LinearRegression()
    model.fit(X_train_poly, y_train)
    y_train_pred = model.predict(X_train_poly)
    y_test_pred = model.predict(X_test_poly)
    plt.subplot(1, 3, i+1)
    plt.scatter(X_train, y_train, color='blue', label='Treino')
    plt.scatter(X_test, y_test, color='red', label='Teste')
    X_plot = np.linspace(0, 1, 100).reshape(-1, 1)
    plt.plot(X_plot, model.predict(poly.transform(X_plot)), color='green')
    plt.title(f'Grau {d}
Erro treino: {mean_squared_error(y_train, y_train_pred):.2f}
Erro teste: {mean_squared_error(y_test, y_test_pred):.2f}')
    plt.legend()

plt.tight_layout()
plt.show()