## 🎓 **Aula sobre: DataFrame — Criação e Fatiamento**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida            | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                  | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões             | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação               | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais   | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **DataFrame:** tabela 2D rotulada de linhas e colunas.  
> - **Criação básica:** `pd.DataFrame(dict)` a partir de dicionários ou listas.  
> - **Seleção de colunas:** `df['col']` ou `df.col`.  
> - **Fatiamento de linhas:** `df[start:stop]` (posicional).  
> - **`.loc[]` / `.iloc[]`:** rótulos vs posições.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Ao criar um DataFrame, o Pandas alinha colunas de mesmo comprimento em um bloco de memória. Fatiar com `[ ]` extrai colunas ou rows posicionalmente; `.loc[]` usa índices e nomes de colunas; `.iloc[]` recorta por posição. Internamente, cada coluna é uma *Series* NumPy view.

<br>

#### **🔗 Analogia de Data Science**  
Pense num fichário:
- As **colunas** são divisórias com etiquetas (nomes).  
- As **linhas** são fichas numeradas (index).  
- **`.loc`** é pegar fichas pelo número e divisória pelo nome.  
- **`.iloc`** é pegar fichas pela ordem e divisórias pela posição.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Criando e Selecionando Colunas**


In [None]:
import pandas as pd
# Cria DataFrame de vendas por loja
df = pd.DataFrame({
    'loja': ['A','B','C','A','B'],
    'vendas': [100,150,200,120,170],
    'mes': ['Jan','Jan','Jan','Fev','Fev']
})
print(df)
# Seleciona coluna 'vendas'
print(df['vendas'])


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas como pd.”  
  import pandas as pd

  # “Crie um DataFrame com colunas loja, vendas e mes.”  
  df = pd.DataFrame({…})

  # “Mostre o DataFrame completo.”  
  print(df)

  # “Extraia a coluna 'vendas'.”  
  print(df['vendas'])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão         | Saída                          | O que é?                    |
  |:-----:|:------------------|:-------------------------------|:----------------------------|
  | 1     | `df`              | 5×3 tabela                    | DataFrame criado           |
  | 2     | `df['vendas']`    | Series de 5 valores           | Coluna isolada             |
  | 3     | –                 | imprime                        | Saída final                |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Imagine uma tabela de vendas; ao chamar `df['vendas']`, você abre apenas a divisória “vendas” e vê só esses valores.

* **Cenário de Mercado:**  
  - **O que são “features” aqui?** As colunas representam *features* (atributos) de cada transação.  
  - **Por que extrair colunas?** Para treinar modelos, isolamos variáveis (colunas) de interesse, como vendas, em arrays NumPy ou Series.

* **Boas Práticas:**  
  - **Afirmação:** “Use sempre `df[['col1','col2']]` para múltiplas colunas.”  
    - **Porquê:** Mantém o objeto como DataFrame, não convertendo em Series.  
    - **Analogia:** É como pegar várias pastas ao mesmo tempo em vez de uma só.


#### **Nível Intermediário: Fatiamento de Linhas com `.loc` e `.iloc`**


In [None]:
import pandas as pd
# Usa o mesmo df anterior, define index
df.index = ['r1','r2','r3','r4','r5']
# .loc por label
print(df.loc['r2':'r4', ['loja','vendas']])
# .iloc por posição
print(df.iloc[1:4, 0:2])


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Defina índices r1–r5.”  
  df.index = ['r1','r2','r3','r4','r5']

  # “Selecione linhas r2 a r4 e colunas loja e vendas.”  
  print(df.loc['r2':'r4', ['loja','vendas']])

  # “Selecione pelas posições: linhas 1–3 e colunas 0–1.”  
  print(df.iloc[1:4, 0:2])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                 | Saída                 | O que faz?                       |
  |:---------------:|:--------------------------|:----------------------|:---------------------------------|
  | 1               | `df.loc['r2':'r4', …]`    | 3×2 sub-DataFrame     | Slice label-based               |
  | 2               | `df.iloc[1:4,0:2]`        | 3×2 sub-DataFrame     | Slice position-based            |
  | 3               | –                         | imprime               | Saída final                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `.loc` é como buscar páginas de ‘r2’ a ‘r4’ em um livro por nomes de capítulos; `.iloc` é folhear páginas pela ordem numérica.


#### **Nível Avançado: Máscaras Booleanas e `.isin()` / `.between()`**


In [None]:
import pandas as pd
# Filtra vendas > 120 e mes Jan
f1 = df[(df['vendas'] > 120) & (df['mes']=='Jan')]
# Filtra lojas A ou C
f2 = df[df['loja'].isin(['A','C'])]
# Filtra por faixa de vendas
f3 = df[df['vendas'].between(100, 170)]
print(f1, f2, f3)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Filtre linhas com vendas >120 em Jan.”  
  f1 = df[(df['vendas']>120)&(df['mes']=='Jan')]

  # “Filtre lojas A ou C.”  
  f2 = df[df['loja'].isin(['A','C'])]

  # “Filtre vendas entre 100 e 170.”  
  f3 = df[df['vendas'].between(100,170)]

  # “Mostre resultados.”  
  print(f1, f2, f3)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                         | Saída                 | O que faz?                        |
  |:-----:|:----------------------------------|:----------------------|:----------------------------------|
  | 1     | `f1`                              | subset 1×3            | Mask boolean Junção de condições |
  | 2     | `f2`                              | subset 3×3            | `.isin()` para múltiplos valores |
  | 3     | `f3`                              | subset 4×3            | `.between()` entre limites        |
  | 4     | –                                 | imprime               | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Máscaras booleanas são filtros múltiplos em cascata; `.isin()` é verificar lista de compras; `.between()` é faixa de preço numa prateleira.

* **Cenário de Mercado:**  
  - **Por que usar máscaras?** Em **segmentação de clientes**, filtramos compras acima de um valor e regiões específicas simultaneamente.  
  - **Exemplo real:** Selecionar transações de cartões de crédito entre datas e com valores suspeitos.

* **Boas Práticas:**  
  - **Afirmação:** “Combine condicionais dentro de `[]` com parênteses.”  
    - **Porquê:** Garante precedência correta de operadores.  
    - **Analogia:** É como agrupar itens em sacolas separadas antes de colocá-los em uma cesta.


#### **Nível DEUS (1/3): Slicing em MultiIndex**


In [None]:
import pandas as pd
arrays = [['A','A','B','B'], [1,2,1,2]]
idx = pd.MultiIndex.from_arrays(arrays, names=('grupo','sub'))
df2 = pd.DataFrame({'valor':[10,20,30,40]}, index=idx)
# Slica por nível de grupo
print(df2.loc['A'])
# Slica grupo B e sub 1
print(df2.loc[('B',1)])


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie MultiIndex de grupos e subs.”  
  idx = pd.MultiIndex.from_arrays(…)

  # “Monte DataFrame com esse índice.”  
  df2 = pd.DataFrame({…}, index=idx)

  # “Selecione todas as linhas do grupo 'A'.”  
  print(df2.loc['A'])

  # “Selecione subnível 1 do grupo 'B'.”  
  print(df2.loc[('B',1)])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão          | Saída          | O que faz?                      |
  |:-----:|:-------------------|:---------------|:--------------------------------|
  | 1     | `df2.loc['A']`     | 2×1 sub-DataFrame | Slice por nível primário     |
  | 2     | `df2.loc[('B',1)]` | 1×1 Series      | Slice por tupla de níveis      |
  | 3     | –                  | imprime         | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  MultiIndex é como arquivo de pastas e subpastas; `.loc` aceita tupla para navegar até o arquivo desejado.

* **Cenário de Mercado:**  
  Em **dados de sensores**, registramos leituras por (planta, máquina); MultiIndex permite slicing rápido por planta ou máquina.

* **Boas Práticas:**  
  - **Afirmação:** “Use nomes de níveis significativos.”  
    - **Porquê:** Facilita fatiamento e interpretação.  
    - **Analogia:** É como nomear pastas “Projetos” e “Relatórios”.


#### **Nível DEUS (2/3): Seleção Avançada com `pd.IndexSlice`**


In [None]:
import pandas as pd
idx = pd.IndexSlice
# Usando df2 do exemplo anterior
print(df2.loc[idx['A':'B', 1], :])


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe IndexSlice.”  
  idx = pd.IndexSlice

  # “Selecione grupos A a B e subnível 1.”  
  print(df2.loc[idx['A':'B',1], :])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                                  | Saída         | O que faz?                         |
  |:-----:|:-------------------------------------------|:--------------|:-----------------------------------|
  | 1     | `df2.loc[idx['A':'B',1],:]`                | 2×1 sub-DF    | Slice múltiplos níveis simultâneo  |
  | 2     | –                                          | imprime       | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `IndexSlice` é um atalho que permite cortar pastas e subpastas de uma vez com sintaxe enxuta.

* **Cenário de Mercado:**  
  Em **time series multivariada**, tabela cruzada (cidade, sensor) é fatia com IndexSlice para análises regionais.

* **Boas Práticas:**  
  - **Afirmação:** “Prefira IndexSlice em múltiplos níveis.”  
    - **Porquê:** Código mais legível e menos propenso a erros.  
    - **Analogia:** É como usar atalho de teclado para abrir várias pastas simultaneamente.


#### **Nível DEUS (3/3): Query, Eval e Atribuição em Linha**


In [None]:
import pandas as pd
# DataFrame simples
df3 = pd.DataFrame({
    'x': range(5),
    'y': [10,20,30,40,50]
})
# query para filtrar e atribuir coluna z = x*y
df3 = df3.query('x % 2 == 0').assign(z=lambda d: d.x*d.y)
print(df3)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com x e y.”  
  df3 = pd.DataFrame({…})

  # “Filtre linhas onde x é par e crie coluna z = x*y.”  
  df3 = df3.query('x % 2 == 0').assign(z=lambda d: d.x*d.y)

  # “Mostre resultado.”  
  print(df3)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                                            | Saída          | O que faz?                      |
  |:-----:|:-----------------------------------------------------|:---------------|:--------------------------------|
  | 1     | `df3.query('x%2==0')`                                | sub-DF         | Filtra x par                    |
  | 2     | `.assign(z=lambda d: d.x*d.y)`                       | adiciona coluna| Cria coluna z dinamicamente     |
  | 3     | –                                                    | imprime        | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `query` é um funil que deixa passar só registros desejados; `assign` é como pintar uma coluna nova em linha, sem copiar todo o DataFrame.

* **Cenário de Mercado:**  
  - **Por que usar `query` e `assign` juntos?** Em **ETL**, filtrar e enriquecer dados em uma única expressão mantém pipeline fluido.  
  - **Exemplo real:** Selecionar apenas vendas de fim de semana e calcular comissão `comissao = vendas * 0.1`.

* **Boas Práticas:**  
  - **Afirmação:** “Use `query` para expressões simples.”  
    - **Porquê:** Evita repetição de `df['col']` e melhora legibilidade.  
    - **Analogia:** É como falar “mostre só produtos em promoção” em vez de procurar cada etiqueta manualmente.


### 3. 🕸️ Profundezas e Conexões

<br>

DataFrames são o pilar de **pandas** e base para bibliotecas como **scikit-learn** (pré-processamento), **statsmodels** (modelagem) e **Matplotlib**/**Seaborn** (visualização). Compreender fatiamento robusto permite criar pipelines de dados reprodutíveis e eficientes.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Crie DataFrame de clientes (`id`,`idade`,`gasto`) e defina `id` como índice.  
2. Usando `.loc`, fatie clientes com id 2 a 4 e colunas `idade`,`gasto`.  
3. Filtre clientes com `gasto` entre 100 e 200 usando `.between()`.  
4. Monte MultiIndex (`cidade`,`loja`) e selecione um subnível.  
5. Aplique `query` para manter apenas clientes com `idade` par e crie coluna `bonus = gasto*0.05`.

<br>

#### **❓ Pergunta de Verificação**
Quando usar `.loc` vs máscara direta (`df[cond]`) e como isso afeta a cópia vs view?

<br>

---
<br>
