# Python + Machine Learning — Guia Inicial (Notebook)

**Atualizado:** 2025-08-22 10:59

Bem-vindo(a)! Este notebook foi feito para quem está começando em **Python para Machine Learning**.
A proposta é **prática e progressiva**: primeiro o essencial de Python/NumPy/pandas/Matplotlib; depois, o fluxo básico de ML com **scikit-learn** (classificação e regressão).

> Dica: execute as células na ordem. Se estiver no Google Colab, vá em `Runtime > Run all` (Executar tudo) para testar tudo de uma vez.

## Como usar este notebook
1. Execute cada célula (Shift+Enter).
2. Se precisar, instale dependências (apenas se der erro de import).
3. Leia os comentários no código e os blocos de texto explicativos antes de seguir.

## (Opcional) Instalar/Atualizar dependências
Se estiver no Colab ou em um ambiente novo e ocorrer erro de import, rode a célula abaixo **uma vez**:

In [None]:
# Rode SOMENTE se precisar
# import sys
# !{sys.executable} -m pip install -q -U numpy pandas matplotlib scikit-learn joblib

## Verificando o ambiente
Vamos checar as versões das principais bibliotecas.

In [None]:
import sys, platform
import numpy as np, pandas as pd, matplotlib, sklearn

print("Python:", sys.version.split()[0])
print("OS:", platform.platform())
print("NumPy:", np.__version__)
print("pandas:", pd.__version__)
print("Matplotlib:", matplotlib.__version__)
print("scikit-learn:", sklearn.__version__)

---
# 1. Python Básico para Ciência de Dados

Aqui estão os blocos fundamentais de Python que você vai usar o tempo todo em ML:
- Variáveis e tipos (int, float, str, bool)
- Listas, dicionários e tuplas
- Controle de fluxo (if/for)
- Funções
- Compreensões de listas (list comprehensions)

In [None]:
# Variáveis e tipos
idade = 30              # int
altura = 1.78           # float
nome = "Ana"            # str
ativo = True            # bool

print(type(idade), type(altura), type(nome), type(ativo))

# Listas
notas = [7.5, 8.0, 6.5]
notas.append(9.0)
media = sum(notas) / len(notas)
print("Notas:", notas)
print("Média:", media)

# Dicionários
aluno = {"nome": "Ana", "idade": 21, "curso": "DS"}
aluno["cidade"] = "Rio"
print("Aluno:", aluno)
print("Idade do aluno:", aluno["idade"])

# If/for
aprovado = media >= 7.0
if aprovado:
    print("Status: aprovado")
else:
    print("Status: reprovado")

for i, n in enumerate(notas, start=1):
    print(f"Nota {i}: {n}")

# Funções
def saudacao(pessoa, formal=False):
    if formal:
        return f"Olá, {pessoa}. Seja bem-vindo(a)."
    return f"Oi, {pessoa}!"

print(saudacao("Ana"))
print(saudacao("Ana", formal=True))

# Compreensão de listas
pares = [x for x in range(10) if x % 2 == 0]
print("Pares:", pares)

---
# 2. NumPy Essencial

**NumPy** fornece arrays eficientes e operações vetorizadas (rápidas!).
Conceitos principais:
- `ndarray` (array N-dimensional)
- `shape` (formato), `dtype` (tipo)
- Slicing, broadcasting, operações matemáticas

In [None]:
import numpy as np

np.random.seed(42)

a = np.array([1, 2, 3])
b = np.array([[1.0, 2.0], [3.0, 4.0]])

print("a:", a, "| shape:", a.shape, "| dtype:", a.dtype)
print("b:\n", b, "\nshape:", b.shape, "| dtype:", b.dtype)

# Operações vetorizadas
c = a * 10
print("a * 10 ->", c)

# Broadcasting: somar vetor a cada linha de uma matriz
m = np.arange(6).reshape(3, 2)
v = np.array([10, 100])
print("m:\n", m)
print("v:", v)
print("m + v:\n", m + v)

# Estatísticas rápidas
x = np.random.randn(1000)
print("média:", x.mean(), "| desvio:", x.std(), "| min:", x.min(), "| max:", x.max())

---
# 3. pandas Essencial

**pandas** é a biblioteca para manipulação de dados em tabelas (DataFrames).
Você vai usar para:
- Ler dados (CSV, Excel, SQL, etc.)
- Limpar, filtrar, transformar
- Agregar e descrever

In [None]:
import pandas as pd

# Vamos criar e salvar um CSV simples para o exemplo
df_exemplo = pd.DataFrame({
    "nome": ["Ana", "Bruno", "Carla", "Daniel", "Eva"],
    "idade": [21, 23, 22, None, 24],
    "nota": [8.0, 7.5, 9.0, 6.0, 8.5],
})
csv_path = "/mnt/data/exemplo.csv"
df_exemplo.to_csv(csv_path, index=False)

# Ler o CSV
dados = pd.read_csv(csv_path)
print("Primeiras linhas:")
display(dados.head())

print("\nInfo:")
dados.info()

print("\nResumo estatístico:")
display(dados.describe(include="all"))

# Filtrando e tratando ausentes
filtrado = dados[dados["nota"] >= 8.0].copy()
filtrado["idade"] = filtrado["idade"].fillna(filtrado["idade"].median())
print("\nFiltrado (nota >= 8) e 'idade' preenchida:")
display(filtrado)

---
# 4. Visualização com Matplotlib

Gráficos ajudam a entender os dados. Abaixo três exemplos simples:
- Linha (série temporal fictícia)
- Histograma
- Dispersão (scatter)

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Série temporal fictícia
valores = np.cumsum(np.random.randn(50))  # soma cumulativa
plt.figure()
plt.plot(valores)
plt.title("Série temporal fictícia")
plt.xlabel("Índice")
plt.ylabel("Valor")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Histograma
amostras = np.random.randn(500)
plt.figure()
plt.hist(amostras, bins=30)
plt.title("Histograma de amostras")
plt.xlabel("Valor")
plt.ylabel("Frequência")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Dispersão (scatter) de duas features sintéticas
x = np.random.randn(100)
y = 2.0 * x + np.random.randn(100) * 0.5
plt.figure()
plt.scatter(x, y)
plt.title("Dispersão (x vs y)")
plt.xlabel("x")
plt.ylabel("y")
plt.show()

---
# 5. Fundamentos de Machine Learning com scikit-learn

**Fluxo típico:**
1. Carregar/Preparar os dados
2. Dividir em treino e teste
3. Escolher um modelo
4. Treinar (fit)
5. Avaliar (predict + métricas)
6. (Opcional) Ajustar hiperparâmetros e validar

Você verá um exemplo de **classificação** (Iris) e outro de **regressão** (Diabetes).

## 5.1 Classificação (Iris) com K-Nearest Neighbors

- Dataset: **Iris** (flores, 3 classes) embutido no scikit-learn
- Modelo: **KNN**
- Boas práticas: `train_test_split`, `Pipeline`, `StandardScaler`

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 1) Carregar dados
iris = load_iris()
X, y = iris.data, iris.target
print("Formato X:", X.shape, "| Formato y:", y.shape)

# 2) Dividir
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 3) Pipeline (padronizar + KNN)
pipe_knn = Pipeline([
    ("scaler", StandardScaler()),
    ("knn", KNeighborsClassifier(n_neighbors=5))
])

# 4) Treinar
pipe_knn.fit(X_train, y_train)

# 5) Avaliar
y_pred = pipe_knn.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia:", round(acc, 4))
print("\nMatriz de confusão:\n", confusion_matrix(y_test, y_pred))
print("\nRelatório de classificação:\n", classification_report(y_test, y_pred, target_names=iris.target_names))

# 6) Validação cruzada rápida no treino
cv_scores = cross_val_score(pipe_knn, X_train, y_train, cv=5)
print("CV média (treino):", cv_scores.mean().round(4), "| desv:", cv_scores.std().round(4))

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Scatter de duas features para visualização (petal length vs petal width)
plt.figure()
plt.scatter(X[:, 2], X[:, 3], c=y)
plt.xlabel("petal length")
plt.ylabel("petal width")
plt.title("Iris — Scatter de duas features (cores = classes)")
plt.show()

## 5.2 Regressão (Diabetes) com Linear Regression

- Dataset: **Diabetes** embutido no scikit-learn (alvo numérico)
- Modelo: **Regressão Linear**
- Métricas: **MAE**, **MSE**, **R²**

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 1) Carregar
diab = load_diabetes()
X, y = diab.data, diab.target
print("Formato X:", X.shape, "| Formato y:", y.shape)

# 2) Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 3) Pipeline regressão
pipe_lr = Pipeline([
    ("scaler", StandardScaler()),
    ("lr", LinearRegression())
])

# 4) Treinar
pipe_lr.fit(X_train, y_train)

# 5) Avaliar
y_pred = pipe_lr.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2  = r2_score(y_test, y_pred)

print("MAE:", round(mae, 3))
print("MSE:", round(mse, 3))
print("R² :", round(r2 , 3))

In [None]:
import matplotlib.pyplot as plt

plt.figure()
plt.scatter(y_test, y_pred)
plt.xlabel("Real (y_test)")
plt.ylabel("Previsto (y_pred)")
plt.title("Regressão (Diabetes): Real vs Previsto")
plt.show()

---
# 6. Salvando e Carregando Modelos

> Você pode treinar localmente e salvar o modelo para reuso/produção.

In [None]:
import joblib, os

model_path = "/mnt/data/modelo_knn_iris.joblib"
joblib.dump(pipe_knn, model_path)
print("Modelo salvo em:", model_path)

# Carregar e testar rapidamente
modelo_carregado = joblib.load(model_path)
print("Predição (amostra X_test[0]):", modelo_carregado.predict([X_test[0]]))

---
# 7. Exercícios (Prática)

1. **pandas:** Carregue o arquivo CSV salvo (`/mnt/data/exemplo.csv`) e crie uma nova coluna `faixa_etaria` com base em faixas (<=21, 22-23, >=24). Conte quantos registros há por faixa.
2. **NumPy:** Gere 1.000 amostras de uma normal padrão e calcule média, desvio, percentis (5º, 50º, 95º). Plote um histograma.
3. **Matplotlib:** Com os dados do Iris, faça um `scatter` das features `sepal length` e `sepal width` colorindo por classe.
4. **Classificação:** No KNN, teste diferentes valores de `n_neighbors` (3, 5, 7, 9). Qual teve melhor acurácia média em validação cruzada?
5. **Regressão:** Troque `LinearRegression` por `Ridge` e `Lasso`. Compare o R² no conjunto de teste.
6. **Pipeline + GridSearch:** Faça `GridSearchCV` variando `n_neighbors` e (opcional) pesos (`uniform` vs `distance`). Reporte o melhor parâmetro e score.

---
# 8. Próximos Passos

- Entender melhor **feature engineering** (criação e seleção de variáveis)
- Balanceamento de classes, validação avançada, **regularização**
- **Pipelines** de pré-processamento mais ricos (OneHotEncoder, ColumnTransformer)
- Modelos adicionais: Árvores, Random Forest, Gradient Boosting, SVM, Regressão Logística
- **Deploy**: FastAPI/Streamlit, Docker, e CI/CD

Bom estudo! 🚀