# Introdução ao Machine Learning

Este notebook apresenta os conceitos fundamentais de Machine Learning (Aprendizado de Máquina) e implementa um exemplo prático.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

## O que é Machine Learning?

Machine Learning é uma área da Inteligência Artificial que permite que computadores aprendam a partir de dados, sem serem explicitamente programados.

### Tipos de Aprendizado:

1. **Aprendizado Supervisionado**: O modelo aprende com dados rotulados
   - Classificação: Prever categorias (ex: spam ou não spam)
   - Regressão: Prever valores contínuos (ex: preço de uma casa)

2. **Aprendizado Não Supervisionado**: O modelo encontra padrões em dados não rotulados
   - Clustering: Agrupar dados similares
   - Redução de dimensionalidade: Simplificar dados complexos

3. **Aprendizado por Reforço**: O modelo aprende através de tentativa e erro com recompensas

## Pipeline de Machine Learning

Um projeto típico de ML segue estas etapas:

1. **Coleta de Dados**: Obter dados relevantes
2. **Exploração**: Entender os dados (EDA)
3. **Pré-processamento**: Limpar e preparar os dados
4. **Divisão**: Separar em treino e teste
5. **Treinamento**: Treinar o modelo
6. **Avaliação**: Medir a performance
7. **Otimização**: Melhorar o modelo
8. **Deploy**: Colocar em produção

## Exemplo Prático: Classificação Simples

In [None]:
# 1. Gerando dados sintéticos
from sklearn.datasets import make_classification

X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=15,
    n_redundant=5,
    random_state=42
)

print(f"Shape dos dados: {X.shape}")
print(f"Shape dos labels: {y.shape}")
print(f"Distribuição das classes: {np.bincount(y)}")

In [None]:
# 2. Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"Tamanho do conjunto de treino: {X_train.shape[0]}")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]}")

In [None]:
# 3. Normalização dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Média antes da normalização:", X_train[:, 0].mean())
print("Média depois da normalização:", X_train_scaled[:, 0].mean())
print("Desvio padrão depois da normalização:", X_train_scaled[:, 0].std())

In [None]:
# 4. Treinamento do modelo
from sklearn.linear_model import LogisticRegression

modelo = LogisticRegression(random_state=42, max_iter=1000)
modelo.fit(X_train_scaled, y_train)

print("Modelo treinado com sucesso!")

In [None]:
# 5. Fazendo previsões
y_pred = modelo.predict(X_test_scaled)

print("Primeiras 10 previsões:", y_pred[:10])
print("Primeiros 10 valores reais:", y_test[:10])

In [None]:
# 6. Avaliando o modelo
acuracia = accuracy_score(y_test, y_pred)
print(f"Acurácia: {acuracia:.2%}")

print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred))

In [None]:
# 7. Matriz de Confusão
import seaborn as sns

cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusão')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

## Conceitos Importantes

### Overfitting vs Underfitting

- **Overfitting**: Modelo memoriza os dados de treino e não generaliza bem
- **Underfitting**: Modelo é muito simples e não captura padrões importantes

### Validação Cruzada

Técnica para avaliar o modelo de forma mais robusta, dividindo os dados em múltiplos folds.

In [None]:
# Exemplo de validação cruzada
from sklearn.model_selection import cross_val_score

scores = cross_val_score(modelo, X_train_scaled, y_train, cv=5)
print(f"Scores de validação cruzada: {scores}")
print(f"Média: {scores.mean():.2%}")
print(f"Desvio padrão: {scores.std():.4f}")

## Exercícios

1. Experimente diferentes proporções de divisão treino/teste (70/30, 80/20, 90/10) e compare os resultados
2. Tente treinar o modelo sem normalizar os dados e compare a performance
3. Pesquise e implemente outro algoritmo de classificação (ex: Decision Tree, Random Forest)
4. Calcule outras métricas como precision, recall e F1-score manualmente

In [None]:
# Seu código aqui
