# 01 — Numpy: arrays, broadcasting e boolean indexing

Objetivo: pensar em vetores/matrizes para acelerar cálculos e preparar terreno para ML.

Tempo: ~20–25 min

In [None]:
from pathlib import Path

def find_repo_root(start: Path | None = None) -> Path:
    """Sobe diretórios até encontrar uma 'marca' do repositório (README.md + pasta data)."""
    cur = (start or Path.cwd()).resolve()
    for _ in range(10):
        if (cur / "README.md").exists() and (cur / "data").exists():
            return cur
        cur = cur.parent
    # fallback: assume cwd
    return Path.cwd().resolve()

ROOT = find_repo_root()
DATA_DIR = ROOT / "data"
SAMPLE_DIR = DATA_DIR / "sample"

print("ROOT:", ROOT)
print("SAMPLE_DIR:", SAMPLE_DIR)

In [None]:
import pandas as pd

sales = pd.read_csv(SAMPLE_DIR / "sales.csv")
customers = pd.read_csv(SAMPLE_DIR / "customers.csv")

display(sales.head())
display(customers.head())

## 1) Do Pandas para Numpy

Pandas usa Numpy por baixo. Vamos pegar colunas como arrays e operar direto.

In [None]:
import numpy as np

revenue = sales["revenue"].to_numpy()
qty = sales["qty"].to_numpy()
unit_price = sales["unit_price"].to_numpy()

revenue[:5], revenue.dtype

## 2) Broadcasting

Exemplo: aplicar um desconto de 10% em todo mundo e comparar receita.

In [None]:
discount = 0.10

revenue_discounted = qty * unit_price * (1 - discount)

delta = revenue - revenue_discounted
delta[:5], delta.mean()

## 3) Boolean indexing

Filtrar arrays é extremamente comum (equivalente a filtros no Power BI).

In [None]:
mask = revenue > 300
high_revenue = revenue[mask]

high_revenue[:10], high_revenue.size

## 4) Agregações rápidas

Média, soma, percentis: base de EDA.

In [None]:
stats = {
    "count": int(revenue.size),
    "sum": float(revenue.sum()),
    "mean": float(revenue.mean()),
    "median": float(np.median(revenue)),
    "p90": float(np.percentile(revenue, 90)),
}

stats

## Exercícios

1- Calcule o `p95` de revenue.
2- Filtre vendas com `qty >= 4` e calcule a média de `unit_price`.
3- Crie um array `is_electronics` (0/1) a partir da coluna category (use `np.where`).

In [None]:
# Escreva suas respostas aqui
