# Módulo 6: Técnicas Avançadas no Pandas


Este módulo aborda técnicas mais avançadas da biblioteca Pandas, ideais para quem já domina o básico e deseja analisar dados mais complexos e em maior volume. Abaixo, explicamos cada técnica usada, seguida de exemplos práticos.

## 1. Seleção de Colunas e Linhas com `loc` e `iloc`

- `loc`: seleção baseada em **rótulos** (nomes de linhas/colunas).
```python
df.loc[0:5, ['Data', 'Valor']]
```

- `iloc`: seleção baseada em **índices numéricos** (posição das linhas/colunas).
```python
df.iloc[0:5, [0, 2]]
```
Essas seleções são úteis para isolar partes do DataFrame para análise ou visualização específica.


## 2. Manipulação de DataFrames Grandes com `chunksize`

Ao lidar com arquivos grandes, é comum processá-los em pedaços (chunks). O parâmetro `chunksize` do `read_csv()` permite isso:
```python
for chunk in pd.read_csv("arquivo.csv", chunksize=100):
    # Processar cada pedaço separadamente
```
Essa técnica evita sobrecarregar a memória RAM e permite processar dados em lote.


## 3. Operações com Dados Temporais e `resample`

Pandas facilita a manipulação de datas, especialmente ao usar `resample()` para agrupar dados por períodos:
```python
df['Data'] = pd.to_datetime(df['Data'])
df.set_index('Data', inplace=True)
df['Valor'].resample('M').mean()
```
Essa abordagem permite calcular médias, somas e contagens por mês, semana ou ano.


## 4. Tabelas Dinâmicas: `pivot_table` e `crosstab`

- `pivot_table`: resume valores em uma tabela dinâmica com agregações.
```python
pd.pivot_table(df, values='Valor', index='Categoria', columns='Mês', aggfunc='mean')
```

- `crosstab`: calcula frequências entre categorias.
```python
pd.crosstab(df['Categoria'], df['Ano'])
```
Essas ferramentas são ideais para sumarização e análises comparativas.


## 5. Aplicação de Funções Personalizadas com `apply`

Com `apply`, podemos aplicar funções customizadas em colunas ou linhas:
```python
def classificar(x):
    if x >= 80:
        return 'Alto'
    elif x >= 50:
        return 'Médio'
    else:
        return 'Baixo'

df['Classificação'] = df['Valor'].apply(classificar)
```
Isso é útil para categorizar ou transformar dados de forma dinâmica.


---

✅ Agora que você entendeu os conceitos principais, vamos praticar com um exercício real.

Na próxima célula, você encontrará o enunciado de uma atividade que engloba tudo o que foi explicado até aqui.



## 🧠 Desafio Final: Explorando e Transformando Dados com Pandas

Neste desafio, você irá aplicar tudo o que aprendeu neste módulo: seleção com `loc` e `iloc`, manipulação de grandes volumes de dados, análise temporal com `resample`, tabelas dinâmicas com `pivot_table`, contagens com `crosstab` e funções personalizadas com `apply`.

---

### 📦 Etapa 1: Criando seu próprio DataFrame

Antes de começar, crie um DataFrame com os seguintes requisitos:

- Uma coluna `Data` com pelo menos 60 datas (pode usar `pd.date_range()`).
- Uma coluna `Categoria` com valores aleatórios entre `'A'`, `'B'`, `'C'`.
- Uma coluna `Valor` com números decimais (simulando valores monetários entre R$ 10,00 e R$ 100,00).
- (Opcional) Uma coluna `Grupo`, com valores como `'Online'` ou `'Loja Física'`.

Você pode usar `numpy.random` para gerar os dados aleatórios. Exemplo de criação de datas:

```python
pd.date_range(start="2023-01-01", periods=60, freq='D')


### 📝 Etapa 2: Tarefas do Desafio

Com seu DataFrame criado, realize as tarefas a seguir:

---

#### 1️⃣ Filtrar por categoria
Crie um novo DataFrame contendo apenas os dados da **Categoria B**.

---

#### 2️⃣ Classificação por faixa de valor
Adicione uma nova coluna chamada `FaixaValor`, de acordo com a regra:

- `"Baixo"` → se o valor for **menor que 40**
- `"Médio"` → se o valor estiver **entre 40 e 70**
- `"Alto"` → se o valor for **70 ou mais**

Você pode usar a função `apply()` com uma função personalizada.

---

#### 3️⃣ Média semanal com `resample()`
Utilize `resample()` para calcular a **média semanal** da coluna `Valor`.

> 💡 Certifique-se de que a coluna `Data` esteja no formato datetime e seja o índice do DataFrame.

---

#### 4️⃣ Tabela dinâmica (pivot table)
Crie uma `pivot_table` que mostre a **média do valor** para cada combinação entre:

- **Linha**: `FaixaValor`
- **Coluna**: semana (pode ser obtida com `.dt.isocalendar().week`)

---

#### 5️⃣ Tabela de frequência (crosstab)
Crie um `crosstab` com a **contagem de registros** de cada `FaixaValor` por **mês** (use `.dt.month`).

---

✅ Ao final, observe se há padrões ou tendências:
- Há mais registros "Altos" em algum mês?
- A média semanal varia muito?
- Alguma faixa de valor domina?

Explore e reflita sobre os dados!
