## 🎓 **Aula sobre: Pandas — Outras Operações**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                 | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões            | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação             | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **`head(n)` / `tail(n)`:** mostra primeiras/últimas *n* linhas.  
> - **`unique()`:** retorna array de valores únicos.  
> - **`value_counts()`:** conta ocorrências por valor.  
> - **`apply(func)`:** aplica função linha a linha ou por coluna.  
> - **`sort_values(by, ascending)`:** ordena por coluna(s).  
> - **Acesso:** `df.index` e `df.columns` expõem rótulos.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Funções como `head` e `tail` permitem inspeção rápida; `unique` e `value_counts` revelam diversidade e frequência; `apply` estende Pandas com lógica custom; acesso a `.index`/`.columns` permite introspecção; `sort_values` reordena conforme necessidade.

<br>

#### **🔗 Analogia de Data Science**  
É como ter um livro de registros:  
- `head`/`tail` folheiam capa e contracapa.  
- `unique` levantam todos os títulos distintos.  
- `value_counts` contam quantas vezes cada título aparece.  
- `apply` é mandar um assistente ler cada linha e anotar algo.  
- `sort_values` reorganiza páginas por critério, ex: ordem alfabética.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Inspeção e Frequências**


In [None]:
import pandas as pd
import seaborn as sns

# dataset real
tips = sns.load_dataset('tips')

# inspeção
print(tips.head(3))
print(tips.tail(2))

# valores únicos e contagens
dias_unicos = tips['day'].unique()
contagem_turn = tips['time'].value_counts()
print(dias_unicos)
print(contagem_turn)


In [6]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

tips.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [4]:
tips.tail(2)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [7]:
dias_unicos = tips['day'].unique()
dias_unicos

['Sun', 'Sat', 'Thur', 'Fri']
Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']

In [10]:
contagem_turn = tips['time'].value_counts()
contagem_turn

Unnamed: 0_level_0,count
time,Unnamed: 1_level_1
Dinner,176
Lunch,68


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e seaborn.”  
  import pandas as pd  
  import seaborn as sns  

  # “Carregue dataset de gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Mostre as 3 primeiras linhas.”  
  print(tips.head(3))  

  # “Mostre as 2 últimas linhas.”  
  print(tips.tail(2))  

  # “Liste dias sem repetição.”  
  dias_unicos = tips['day'].unique()  

  # “Conte quantas gorjetas de almoço vs jantar.”  
  contagem_turn = tips['time'].value_counts()  

  # “Exiba resultados.”  
  print(dias_unicos)  
  print(contagem_turn)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo      | Expressão                  | Saída                                     | O que faz?                        |
  |:----------:|:---------------------------|:------------------------------------------|:----------------------------------|
  | 1          | `tips.head(3)`             | 3 linhas iniciais                         | Inspeção inicial                  |
  | 2          | `tips.tail(2)`             | 2 linhas finais                           | Inspeção final                    |
  | 3          | `unique()`                 | array dos dias                            | Valores sem repetição             |
  | 4          | `value_counts()`           | série com counts de ‘Lunch’/‘Dinner’      | Frequência de cada turno          |
  | 5          | –                          | imprime                                   | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Imagine folhear um catálogo: `head` vê primeiras páginas, `tail` últimas; `unique` lista títulos sem repetição; `value_counts` conta quantas edições de cada título existem.

* **Cenário de Mercado:**  
  - Em **análise de comportamento**, ver primeiros e últimos registros ajuda a validar timestamps;  
  - `value_counts` identifica segmentos (ex: número de clientes no almoço vs jantar).

* **Boas Práticas:**  
  - **Afirmação:** “Use `head()` antes de grandes operações.”  
    - **Porquê:** Confirma estrutura de colunas e dados sem carregar tudo.  
    - **Analogia:** É como dar uma rápida olhada no prefácio antes de ler um livro.


#### **Nível Intermediário: Aplicando Funções com `apply()` e Acesso a Rótulos**


In [None]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

# aplica cálculo de gorjeta percentual
tips['tip_pct'] = tips.apply(
    lambda row: row['tip'] / row['total_bill'] * 100,
    axis=1
)

# acessa índices e colunas
idx = tips.index[:5]
cols = tips.columns[:3]
print("Índices:", idx)
print("Colunas:", cols)
print(tips.head(3))


In [11]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

tips['tip_pct'] = tips.apply(
    lambda row: row['tip'] / row['total_bill'] * 100,
    axis=1
)

In [17]:
tips.head(20)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,5.944673
1,10.34,1.66,Male,No,Sun,Dinner,3,16.054159
2,21.01,3.5,Male,No,Sun,Dinner,3,16.658734
3,23.68,3.31,Male,No,Sun,Dinner,2,13.978041
4,24.59,3.61,Female,No,Sun,Dinner,4,14.680765
5,25.29,4.71,Male,No,Sun,Dinner,4,18.623962
6,8.77,2.0,Male,No,Sun,Dinner,2,22.805017
7,26.88,3.12,Male,No,Sun,Dinner,4,11.607143
8,15.04,1.96,Male,No,Sun,Dinner,2,13.031915
9,14.78,3.23,Male,No,Sun,Dinner,2,21.853857


In [15]:
idx = tips.index[:5]
print("Índices:", idx)

Índices: RangeIndex(start=0, stop=5, step=1)


In [16]:
cols = tips.columns[:3]
print("Colunas:", cols)

Colunas: Index(['total_bill', 'tip', 'sex'], dtype='object')


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue dataset de gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Crie coluna tip_pct aplicando lambda em cada linha.”  
  tips['tip_pct'] = tips.apply(lambda row: row['tip']/row['total_bill']*100, axis=1)  

  # “Pegue os 5 primeiros índices e 3 primeiras colunas.”  
  idx = tips.index[:5]  
  cols = tips.columns[:3]  

  # “Mostre resultados iniciais.”  
  print("Índices:", idx)  
  print("Colunas:", cols)  
  print(tips.head(3))  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão         | Saída                                         | O que faz?                       |
  |:-----------:|:------------------|:----------------------------------------------|:---------------------------------|
  | 1           | `tips['tip_pct']` | nova coluna % de gorjeta                      | `apply` com lambda por linha     |
  | 2           | `tips.index[:5]`  | RangeIndex primeiros 5                        | Acesso a índice                  |
  | 3           | `tips.columns[:3]`| Primeiro três nomes de coluna                 | Acesso a colunas                 |
  | 4           | –                 | imprime                                       | Saída final                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `apply` é como pedir a cada recepcionista calcular a porcentagem de gorjeta; acessar `.index`/`.columns` é ver rótulos das prateleiras e nomes de seções.

* **Cenário de Mercado:**  
  - Em **engenharia de features**, `apply` gera métricas custom (ex: taxa de conversão) antes de modelagem.

* **Boas Práticas:**  
  - **Afirmação:** “Sempre especifique `axis` em `apply`.”  
    - **Porquê:** Evita aplicar por coluna quando a intenção é por linha.  
    - **Analogia:** É como indicar se o carteiro deve entregar casa a casa (axis=1) ou bloco a bloco (axis=0).


#### **Nível Avançado: Criando Coluna Condicional e Usando Lambda**


In [None]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
# Nova coluna: “grande” se total_bill>20, senão “pequeno”
tips['size_cat'] = tips['total_bill'].apply(
    lambda x: 'grande' if x > 20 else 'pequeno'
)
# ordena pelas categorias e valor da conta
sorted_df = tips.sort_values(
    by=['size_cat','total_bill'],
    ascending=[True, False]
).head(5)
print(sorted_df[['total_bill','size_cat']])


In [36]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

tips['size_cat'] = tips['total_bill'].apply(
    lambda x: 'Grande' if x > 20 else 'Pequeno'
)

sorted_df = tips.sort_values(
    by=['size_cat', 'total_bill'],
    ascending=[True, False]
).head()

In [37]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,size_cat
0,16.99,1.01,Female,No,Sun,Dinner,2,Pequeno
1,10.34,1.66,Male,No,Sun,Dinner,3,Pequeno
2,21.01,3.50,Male,No,Sun,Dinner,3,Grande
3,23.68,3.31,Male,No,Sun,Dinner,2,Grande
4,24.59,3.61,Female,No,Sun,Dinner,4,Grande
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,Grande
240,27.18,2.00,Female,Yes,Sat,Dinner,2,Grande
241,22.67,2.00,Male,Yes,Sat,Dinner,2,Grande
242,17.82,1.75,Male,No,Sat,Dinner,2,Pequeno


In [38]:
print(sorted_df[['total_bill', 'size_cat']])

     total_bill size_cat
170       50.81   Grande
212       48.33   Grande
59        48.27   Grande
156       48.17   Grande
182       45.35   Grande


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Crie size_cat categorizando total_bill.”  
  tips['size_cat'] = tips['total_bill'].apply(lambda x: 'grande' if x>20 else 'pequeno')  

  # “Ordene primeiro por size_cat (pequeno → grande), depois por total_bill decrescente.”  
  sorted_df = tips.sort_values(by=['size_cat','total_bill'], ascending=[True,False]).head(5)  

  # “Mostre conta e categoria.”  
  print(sorted_df[['total_bill','size_cat']])  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                        | Saída                         | O que faz?                             |
  |:---------------:|:---------------------------------|:------------------------------|:---------------------------------------|
  | 1               | `tips['size_cat']`               | coluna com ‘grande’/‘pequeno’ | Condicional via lambda                 |
  | 2               | `sort_values(...).head(5)`       | 5 linhas ordenadas            | Ordenação por múltiplas chaves         |
  | 3               | –                                | imprime                       | Saída final                            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como rotular itens grandes/pequenos em estoque e depois ordenar prateleiras: primeiro tipos, depois por tamanho interno.

* **Cenário de Mercado:**  
  - Em **segmentação de tickets**, categoriza transações em faixas de valor e prioriza maiores para análise.

* **Boas Práticas:**  
  - **Afirmação:** “Combine `apply` e `sort_values` para pipelines simples.”  
    - **Porquê:** Mantém código conciso sem criar várias variáveis temporárias.  
    - **Analogia:** É como etiquetar e organizar numa só passada.


#### **Nível DEUS (1/3): Encadeando Operações em Pipeline**


In [None]:
import pandas as pd
import seaborn as sns

result = (
    sns.load_dataset('tips')
    .assign(tip_pct=lambda df: df['tip']/df['total_bill']*100)
    .sort_values('tip_pct', ascending=False)
    .head(5)
)
print(result[['total_bill','tip_pct']])


In [42]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

result = (
    sns.load_dataset('tips')
    .assign(tip_pct=lambda df: df['tip']/df['total_bill']*100)
    .sort_values('tip_pct', ascending=False)
    .head()
)

result

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
172,7.25,5.15,Male,Yes,Sun,Dinner,2,71.034483
178,9.6,4.0,Female,Yes,Sun,Dinner,2,41.666667
67,3.07,1.0,Female,Yes,Sat,Dinner,1,32.57329
232,11.61,3.39,Male,No,Sat,Dinner,2,29.198966
183,23.17,6.5,Male,Yes,Sun,Dinner,4,28.053517


In [43]:
print(result[['total_bill','tip_pct']])

     total_bill    tip_pct
172        7.25  71.034483
178        9.60  41.666667
67         3.07  32.573290
232       11.61  29.198966
183       23.17  28.053517


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue gorjetas.”  
  df = sns.load_dataset('tips')  

  # “Adicione coluna tip_pct em uma só expressão.”  
  .assign(tip_pct=lambda df: df['tip']/df['total_bill']*100)  

  # “Ordene por tip_pct decrescente.”  
  .sort_values('tip_pct', ascending=False)  

  # “Pegue top 5.”  
  .head(5)  

  # “Mostre conta e tip_pct.”  
  print(...)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Operação                  | Saída               | O que faz?                       |
  |:--------:|:--------------------------|:--------------------|:---------------------------------|
  | 1        | `assign(...)`             | adiciona tip_pct    | Pipeline de feature engineering  |
  | 2        | `sort_values(...)`        | ordena df           | Pipeline de ranking              |
  | 3        | `head(5)`                 | primeiros 5         | Pipeline de seleção              |
  | 4        | –                         | imprime             | Saída final                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pipeline é linha de montagem: calcule, organize e selecione top itens sem dar passos fora da esteira.

* **Cenário de Mercado:**  
  - Em **relatórios executivos**, gerar um ranking dinâmico de maiores gorjetas em poucas linhas de código.

* **Boas Práticas:**  
  - **Afirmação:** “Use `assign` e encadeie métodos.”  
    - **Porquê:** Evita variáveis intermediárias e torna fluxo claro.  
    - **Analogia:** É como cozinhar receita completa em um único caldeirão.


#### **Nível DEUS (2/3): Uso Avançado de `value_counts()` e Normalização**


In [None]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
# normalized value_counts por day
freq = tips['day'].value_counts(normalize=True).to_frame('pct')
# ordena por porcentagem decrescente
freq_sorted = freq.sort_values('pct', ascending=False)
print(freq_sorted)


In [45]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')

freq = tips['day'].value_counts(normalize=True).to_frame('pct')
freq

Unnamed: 0_level_0,pct
day,Unnamed: 1_level_1
Sat,0.356557
Sun,0.311475
Thur,0.254098
Fri,0.077869


In [47]:
freq_sorted = freq.sort_values('pct', ascending=True)
print(freq_sorted)

           pct
day           
Fri   0.077869
Thur  0.254098
Sun   0.311475
Sat   0.356557


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Conte frequência de day normalizada.”  
  freq = tips['day'].value_counts(normalize=True).to_frame('pct')  

  # “Ordene desc por pct.”  
  freq_sorted = freq.sort_values('pct', ascending=False)  

  # “Mostre tabela.”  
  print(freq_sorted)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo         | Expressão                    | Saída                   | O que faz?                      |
  |:-------------:|:-----------------------------|:------------------------|:--------------------------------|
  | 1             | `value_counts(normalize)`    | Series de proporções    | Frequência relativa             |
  | 2             | `.to_frame('pct')`           | DataFrame com coluna pct| Converte para DataFrame         |
  | 3             | `sort_values('pct')`         | ordenação desc          | Ranking                         |
  | 4             | –                            | imprime                 | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como transformar contagem em porcentagem de mercado e depois ordenar participantes por fatia de mercado.

* **Cenário de Mercado:**  
  - Em **marketing**, entender participação relativa de cada segmento de clientes.

* **Boas Práticas:**  
  - **Afirmação:** “Normalize se quiser proporções.”  
    - **Porquê:** Permite comparar grupos de tamanhos diferentes.  
    - **Analogia:** É como transformar números absolutos em fatia de pizza.


#### **Nível DEUS (3/3): Reindexação e Renomeação Dinâmica**


In [None]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips').head(5)
# reindexa invertendo ordem das colunas e renomeia
df2 = (tips
       .reindex(columns=['time','day','total_bill','tip'])
       .rename(columns=lambda c: c.upper()))
print(df2)


In [49]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [48]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

df2 = (tips
       .reindex(columns=['time','day','total_bill','tip'])
       .rename(columns=lambda c: c.upper()))
print(df2)

       TIME   DAY  TOTAL_BILL   TIP
0    Dinner   Sun       16.99  1.01
1    Dinner   Sun       10.34  1.66
2    Dinner   Sun       21.01  3.50
3    Dinner   Sun       23.68  3.31
4    Dinner   Sun       24.59  3.61
..      ...   ...         ...   ...
239  Dinner   Sat       29.03  5.92
240  Dinner   Sat       27.18  2.00
241  Dinner   Sat       22.67  2.00
242  Dinner   Sat       17.82  1.75
243  Dinner  Thur       18.78  3.00

[244 rows x 4 columns]


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue 5 primeiros registros.”  
  tips = sns.load_dataset('tips').head(5)  

  # “Reordene colunas em nova ordem.”  
  .reindex(columns=['time','day','total_bill','tip'])  

  # “Renomeie todas colunas para maiúsculas.”  
  .rename(columns=lambda c: c.upper())  

  # “Mostre DataFrame resultante.”  
  print(df2)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo        | Expressão                            | Saída                  | O que faz?                       |
  |:------------:|:-------------------------------------|:-----------------------|:---------------------------------|
  | 1            | `reindex(columns=[...])`             | colunas reordenadas    | Ajusta sequência de colunas      |
  | 2            | `rename(columns=lambda c: c.upper())`| COLUNAS EM MAIÚSCULAS  | Renomeia dinamicamente           |
  | 3            | –                                    | imprime                | Saída final                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como reorganizar pastas em ordem de prioridades e recolocar etiquetas para fácil identificação.

* **Cenário de Mercado:**  
  - Em **exportação de relatórios**, garante colunas na ordem exigida pelo cliente e nomes padronizados.

* **Boas Práticas:**  
  - **Afirmação:** “Use `rename` com funções para padrões.”  
    - **Porquê:** Evita listar manualmente cada coluna.  
    - **Analogia:** É como usar uma máquina que carimba etiquetas em massa.


### 3. 🕸️ Profundezas e Conexões

<br>

Essas operações básicas de inspeção, transformação e ordenação são pilares em pipelines de **ETL**, **feature engineering** e preparação de dados para **modelagem** e **visualização**.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/mnt/data/exemplo.csv`, mostre `head(5)` e `tail(3)`.  
2. Encontre valores únicos de coluna `categoria` e conte frequências normalizadas.  
3. Use `apply` para criar coluna `valor_log = log(total_bill)`.  
4. Crie `high_tip = tip>3` e ordene por `high_tip` e `tip_pct` decrescente.  
5. Reindexe colunas para ordem `['high_tip','tip_pct','total_bill','tip']` e renomeie para minúsculas.

<br>

#### **❓ Pergunta de Verificação**
Quando usar `reindex` vs simplesmente selecionar colunas e por que renomear dinamicamente pode evitar erros em larga escala?

<br>

---
<br>


### **Resposta Rápida**

Use `reindex()` para **realinhar ou reorganizar o DataFrame com base em um novo índice ou ordem de colunas**, mesmo que isso insira `NaN`s. Selecionar colunas diretamente é mais rápido, mas **não segura contra colunas ausentes**. Renomear dinamicamente ajuda a manter consistência e **evita falhas em pipelines grandes**.

---

### **Analogia do Dia**

Imagine que você está organizando pastas com documentos (colunas):

* Usar `reindex()` é como criar uma **lista-padrão de seções** para todos os documentos — mesmo que algumas fiquem em branco (`NaN`)
* Selecionar colunas diretamente é só **pegar o que está disponível** — se algo faltar, dá erro
* Renomear dinamicamente é como **padronizar os nomes das seções** para evitar confusão entre “email” e “e-mail”, por exemplo

---

### **Análise Técnica Detalhada**

---

#### 🧱 1. `reindex()` → reorganizar com segurança

```python
df = df.reindex(columns=["nome", "idade", "salario"])
```

✅ Ideal para:

* **Garantir a ordem correta** das colunas
* **Padronizar** estruturas entre diferentes DataFrames
* **Preencher com NaN** se a coluna ainda não existir

💡 Também pode ser usado com índices:

```python
df.reindex(index=[2, 0, 1])
```

---

#### ✂️ 2. Seleção direta de colunas

```python
df = df[["nome", "idade", "salario"]]
```

✅ Mais conciso e rápido, mas:

* ❌ Vai gerar `KeyError` se **qualquer coluna estiver faltando**
* ❌ Não é robusto em pipelines com **múltiplas fontes de dados**

---

#### ✏️ 3. Renomear dinamicamente com `.rename()`

```python
df.rename(columns=lambda x: x.strip().lower().replace(" ", "_"), inplace=True)
```

✅ Útil quando:

* Os nomes das colunas **variam ligeiramente**
* Quer evitar bugs como `KeyError: 'Idade '` vs `'idade'`
* Você integra dados de diferentes fontes (CSV, Excel, API)

---

### **Nota de Rodapé para Novatos**

* **reindex()**: Reorganiza linhas ou colunas com base em uma nova ordem.
* **NaN**: Valor ausente em Pandas.
* **KeyError**: Erro quando se tenta acessar uma chave (coluna ou índice) que não existe.
* **`.rename()`**: Altera nomes de colunas ou índices.

---

### **Aplicação Prática e Boas Práticas**

✅ Em ciência de dados:

* `reindex()` é útil para padronizar colunas antes de **alimentar modelos ou unir DataFrames**
* Seleção direta é boa para scripts **simples e controlados**
* `.rename()` com `lambda` torna o código **à prova de variações de nomes** (ex: nomes com espaço, maiúsculas...)

📌 Exemplo seguro de pipeline:

```python
padrao_colunas = ["nome", "idade", "salario"]
df = df.rename(columns=lambda c: c.lower().strip())
df = df.reindex(columns=padrao_colunas)
```

---

### **Resumo da Lição**

Use `reindex()` quando quiser controle e tolerância a colunas ausentes; evite seleção direta em pipelines instáveis; e renomeie dinamicamente para **padronizar e prevenir erros em grande escala**.

---