# Otimização de Performance e Memória em Pandas

Este notebook demonstra **estratégias avançadas para melhorar a performance e reduzir o consumo de memória** em DataFrames grandes.

---

## 📌 Conteúdo

1. **Comparação Apply vs Vectorization**
   - Como funções aplicadas linha a linha (`apply`) podem ser lentas
   - Uso de operações vetorizadas para ganhar performance

2. **Tipos de dados e consumo de memória**
   - Conversão de `object` para `category`
   - Redução de `int64` e `float64` para tipos menores quando possível
   - Avaliação do uso de memória com `df.info(memory_usage='deep')`

3. **Filtragem e seleção eficiente**
   - Máscaras booleanas vs `query()`
   - Evitando cópias desnecessárias de DataFrames

4. **Otimizações práticas**
   - Uso de `assign()`, `pipe()`, `eval()` e `query()` para maior eficiência
   - Agrupamentos otimizados com `groupby()`

---

## ⚡ Objetivo

- Mostrar conhecimento em **boas práticas de performance em Pandas**  
- Demonstrar habilidade em **tratar datasets grandes** de forma eficiente  
- Preparar o fluxo de dados para **análise exploratória e modelagem**

---

## 🛠 Exemplos de técnicas

In [1]:
import pandas as pd
import numpy as np

# Criando DataFrame grande
df = pd.DataFrame({
    "categoria": np.random.choice(["A", "B", "C"], size=1_000_000),
    "valores": np.random.randn(1_000_000),
})

# Memory usage antes da otimização
print(df.info(memory_usage='deep'))

# Convertendo para category
df["categoria"] = df["categoria"].astype("category")

# Memory usage depois da otimização
print(df.info(memory_usage='deep'))

# Apply vs vectorization
# Apply lento
%timeit df["valores_squared_apply"] = df["valores"].apply(lambda x: x**2)

# Vetorizado rápido
%timeit df["valores_squared_vec"] = df["valores"] ** 2

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   categoria  1000000 non-null  object 
 1   valores    1000000 non-null  float64
dtypes: float64(1), object(1)
memory usage: 55.3 MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
 #   Column     Non-Null Count    Dtype   
---  ------     --------------    -----   
 0   categoria  1000000 non-null  category
 1   valores    1000000 non-null  float64 
dtypes: category(1), float64(1)
memory usage: 8.6 MB
None
562 ms ± 20.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
6.3 ms ± 266 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


💡 **Dica:** Sempre que possível, prefira **operações vetorizadas** e **tipos de dados otimizados**, principalmente em datasets grandes. Isso demonstra maturidade no uso de Pandas e capacidade de trabalhar com dados reais de forma eficiente.

