# Otimiza√ß√£o de Performance e Mem√≥ria em Pandas

Este notebook demonstra **estrat√©gias avan√ßadas para melhorar a performance e reduzir o consumo de mem√≥ria** em DataFrames grandes.

---

## üìå Conte√∫do

1. **Compara√ß√£o Apply vs Vectorization**
   - Como fun√ß√µes aplicadas linha a linha (`apply`) podem ser lentas
   - Uso de opera√ß√µes vetorizadas para ganhar performance

2. **Tipos de dados e consumo de mem√≥ria**
   - Convers√£o de `object` para `category`
   - Redu√ß√£o de `int64` e `float64` para tipos menores quando poss√≠vel
   - Avalia√ß√£o do uso de mem√≥ria com `df.info(memory_usage='deep')`

3. **Filtragem e sele√ß√£o eficiente**
   - M√°scaras booleanas vs `query()`
   - Evitando c√≥pias desnecess√°rias de DataFrames

4. **Otimiza√ß√µes pr√°ticas**
   - Uso de `assign()`, `pipe()`, `eval()` e `query()` para maior efici√™ncia
   - Agrupamentos otimizados com `groupby()`

---

## ‚ö° Objetivo

- Mostrar conhecimento em **boas pr√°ticas de performance em Pandas**  
- Demonstrar habilidade em **tratar datasets grandes** de forma eficiente  
- Preparar o fluxo de dados para **an√°lise explorat√≥ria e modelagem**

---

## üõ† Exemplos de t√©cnicas

In [1]:
import pandas as pd
import numpy as np

# Criando DataFrame grande
df = pd.DataFrame({
    "categoria": np.random.choice(["A", "B", "C"], size=1_000_000),
    "valores": np.random.randn(1_000_000),
})

# Memory usage antes da otimiza√ß√£o
print(df.info(memory_usage='deep'))

# Convertendo para category
df["categoria"] = df["categoria"].astype("category")

# Memory usage depois da otimiza√ß√£o
print(df.info(memory_usage='deep'))

# Apply vs vectorization
# Apply lento
%timeit df["valores_squared_apply"] = df["valores"].apply(lambda x: x**2)

# Vetorizado r√°pido
%timeit df["valores_squared_vec"] = df["valores"] ** 2

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   categoria  1000000 non-null  object 
 1   valores    1000000 non-null  float64
dtypes: float64(1), object(1)
memory usage: 55.3 MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 2 columns):
 #   Column     Non-Null Count    Dtype   
---  ------     --------------    -----   
 0   categoria  1000000 non-null  category
 1   valores    1000000 non-null  float64 
dtypes: category(1), float64(1)
memory usage: 8.6 MB
None
562 ms ¬± 20.1 ms per loop (mean ¬± std. dev. of 7 runs, 1 loop each)
6.3 ms ¬± 266 Œºs per loop (mean ¬± std. dev. of 7 runs, 100 loops each)


üí° **Dica:** Sempre que poss√≠vel, prefira **opera√ß√µes vetorizadas** e **tipos de dados otimizados**, principalmente em datasets grandes. Isso demonstra maturidade no uso de Pandas e capacidade de trabalhar com dados reais de forma eficiente.

