## 🎓 **Aula sobre: DataFrame — Criação e Fatiamento**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida            | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                  | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões             | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação               | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais   | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **DataFrame:** tabela 2D rotulada de linhas e colunas.  
> - **Criação básica:** `pd.DataFrame(dict)` a partir de dicionários ou listas.  
> - **Seleção de colunas:** `df['col']` ou `df.col`.  
> - **Fatiamento de linhas:** `df[start:stop]` (posicional).  
> - **`.loc[]` / `.iloc[]`:** rótulos vs posições.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Ao criar um DataFrame, o Pandas alinha colunas de mesmo comprimento em um bloco de memória. Fatiar com `[ ]` extrai colunas ou rows posicionalmente; `.loc[]` usa índices e nomes de colunas; `.iloc[]` recorta por posição. Internamente, cada coluna é uma *Series* NumPy view.

<br>

#### **🔗 Analogia de Data Science**  
Pense num fichário:
- As **colunas** são divisórias com etiquetas (nomes).  
- As **linhas** são fichas numeradas (index).  
- **`.loc`** é pegar fichas pelo número e divisória pelo nome.  
- **`.iloc`** é pegar fichas pela ordem e divisórias pela posição.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Criando e Selecionando Colunas**


In [None]:
import pandas as pd
# Cria DataFrame de vendas por loja
df = pd.DataFrame({
    'loja': ['A','B','C','A','B'],
    'vendas': [100,150,200,120,170],
    'mes': ['Jan','Jan','Jan','Fev','Fev']
})
print(df)
# Seleciona coluna 'vendas'
print(df['vendas'])


In [2]:
# Pratique seu código aqui!

import pandas as pd

df = pd.DataFrame({
    'loja': ['A','B','C','A','B'],
    'vendas': [100,150,200,120,170],
    'mes': ['Jan','Jan','Jan','Fev','Fev']
})
print(df)
print("\n")
print(df['vendas'])


  loja  vendas  mes
0    A     100  Jan
1    B     150  Jan
2    C     200  Jan
3    A     120  Fev
4    B     170  Fev


0    100
1    150
2    200
3    120
4    170
Name: vendas, dtype: int64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas como pd.”  
  import pandas as pd

  # “Crie um DataFrame com colunas loja, vendas e mes.”  
  df = pd.DataFrame({…})

  # “Mostre o DataFrame completo.”  
  print(df)

  # “Extraia a coluna 'vendas'.”  
  print(df['vendas'])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão         | Saída                         | O que é?                    |
  |:-----:|:------------------|:------------------------------|:----------------------------|
  | 1     | `df`              | 5×3 tabela                    | DataFrame criado            |
  | 2     | `df['vendas']`    | Series de 5 valores           | Coluna isolada              |
  | 3     | –                 | imprime                       | Saída final                 |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Imagine uma tabela de vendas; ao chamar `df['vendas']`, você abre apenas a divisória “vendas” e vê só esses valores.

* **Cenário de Mercado:**  
  - **O que são “features” aqui?** As colunas representam *features* (atributos) de cada transação.  
  - **Por que extrair colunas?** Para treinar modelos, isolamos variáveis (colunas) de interesse, como vendas, em arrays NumPy ou Series.

* **Boas Práticas:**  
  - **Afirmação:** “Use sempre `df[['col1','col2']]` para múltiplas colunas.”  
    - **Porquê:** Mantém o objeto como DataFrame, não convertendo em Series.  
    - **Analogia:** É como pegar várias pastas ao mesmo tempo em vez de uma só.


#### **Nível Intermediário: Fatiamento de Linhas com `.loc` e `.iloc`**


In [None]:
import pandas as pd
# Usa o mesmo df anterior, define index
df.index = ['r1','r2','r3','r4','r5']
# .loc por label
print(df.loc['r2':'r4', ['loja','vendas']])
# .iloc por posição
print(df.iloc[1:4, 0:2])


In [7]:
# Pratique seu código aqui!

import pandas as pd

df.index = ['r1','r2','r3','r4','r5']

print(df)
print("\n")
print(df.loc['r2':'r4', ['loja','vendas']])
print("\n")
print(df.iloc[1:4, 0:2])



   loja  vendas  mes
r1    A     100  Jan
r2    B     150  Jan
r3    C     200  Jan
r4    A     120  Fev
r5    B     170  Fev


   loja  vendas
r2    B     150
r3    C     200
r4    A     120


   loja  vendas
r2    B     150
r3    C     200
r4    A     120


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Defina índices r1–r5.”  
  df.index = ['r1','r2','r3','r4','r5']

  # “Selecione linhas r2 a r4 e colunas loja e vendas.”  
  print(df.loc['r2':'r4', ['loja','vendas']])

  # “Selecione pelas posições: linhas 1–3 e colunas 0–1.”  
  print(df.iloc[1:4, 0:2])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                 | Saída                 | O que faz?                       |
  |:---------------:|:--------------------------|:----------------------|:---------------------------------|
  | 1               | `df.loc['r2':'r4', …]`    | 3×2 sub-DataFrame     | Slice label-based               |
  | 2               | `df.iloc[1:4,0:2]`        | 3×2 sub-DataFrame     | Slice position-based            |
  | 3               | –                         | imprime               | Saída final                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `.loc` é como buscar páginas de ‘r2’ a ‘r4’ em um livro por nomes de capítulos; `.iloc` é folhear páginas pela ordem numérica.


#### **Nível Avançado: Máscaras Booleanas e `.isin()` / `.between()`**


In [None]:
import pandas as pd
# Filtra vendas > 120 e mes Jan
f1 = df[(df['vendas'] > 120) & (df['mes']=='Jan')]
# Filtra lojas A ou C
f2 = df[df['loja'].isin(['A','C'])]
# Filtra por faixa de vendas
f3 = df[df['vendas'].between(100, 170)]
print(f1, f2, f3)


In [10]:
# Pratique seu código aqui!

import pandas as pd

print(df)
print("\n")

f1 = df[(df['vendas'] > 120) & (df['mes']=='Jan') ]
print(f1)
print('\n')

f2 = df[df['loja'].isin(['A','C'])]
print(f2)
print('\n')

f3 = df[df['vendas'].between(100,170)]
print(f3)

   loja  vendas  mes
r1    A     100  Jan
r2    B     150  Jan
r3    C     200  Jan
r4    A     120  Fev
r5    B     170  Fev


   loja  vendas  mes
r2    B     150  Jan
r3    C     200  Jan


   loja  vendas  mes
r1    A     100  Jan
r3    C     200  Jan
r4    A     120  Fev


   loja  vendas  mes
r1    A     100  Jan
r2    B     150  Jan
r4    A     120  Fev
r5    B     170  Fev


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Filtre linhas com vendas >120 em Jan.”  
  f1 = df[(df['vendas']>120)&(df['mes']=='Jan')]

  # “Filtre lojas A ou C.”  
  f2 = df[df['loja'].isin(['A','C'])]

  # “Filtre vendas entre 100 e 170.”  
  f3 = df[df['vendas'].between(100,170)]

  # “Mostre resultados.”  
  print(f1, f2, f3)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                         | Saída                 | O que faz?                        |
  |:-----:|:----------------------------------|:----------------------|:----------------------------------|
  | 1     | `f1`                              | subset 1×3            | Mask boolean Junção de condições |
  | 2     | `f2`                              | subset 3×3            | `.isin()` para múltiplos valores |
  | 3     | `f3`                              | subset 4×3            | `.between()` entre limites        |
  | 4     | –                                 | imprime               | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Máscaras booleanas são filtros múltiplos em cascata; `.isin()` é verificar lista de compras; `.between()` é faixa de preço numa prateleira.

* **Cenário de Mercado:**  
  - **Por que usar máscaras?** Em **segmentação de clientes**, filtramos compras acima de um valor e regiões específicas simultaneamente.  
  - **Exemplo real:** Selecionar transações de cartões de crédito entre datas e com valores suspeitos.

* **Boas Práticas:**  
  - **Afirmação:** “Combine condicionais dentro de `[]` com parênteses.”  
    - **Porquê:** Garante precedência correta de operadores.  
    - **Analogia:** É como agrupar itens em sacolas separadas antes de colocá-los em uma cesta.


#### **Nível DEUS (1/3): Slicing em MultiIndex**


In [None]:
import pandas as pd
arrays = [['A','A','B','B'], [1,2,1,2]]
idx = pd.MultiIndex.from_arrays(arrays, names=('grupo','sub'))
df2 = pd.DataFrame({'valor':[10,20,30,40]}, index=idx)
# Slica por nível de grupo
print(df2.loc['A'])
# Slica grupo B e sub 1
print(df2.loc[('B',1)])


In [14]:
# Pratique seu código aqui!

import pandas as pd

arrays = [['A','A','B','B'], [1,2,1,2]]
idx = pd.MultiIndex.from_arrays(arrays, names=('grupo', 'sub'))
print(idx)
print("\n")

df2 = pd.DataFrame({'valor': [10,20,30,40]}, index=idx)
print(df2)
print("\n")

print(df2.loc['A'])
print("\n")
print(df2.loc[('B',1)])


MultiIndex([('A', 1),
            ('A', 2),
            ('B', 1),
            ('B', 2)],
           names=['grupo', 'sub'])


           valor
grupo sub       
A     1       10
      2       20
B     1       30
      2       40


     valor
sub       
1       10
2       20


valor    30
Name: (B, 1), dtype: int64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie MultiIndex de grupos e subs.”  
  idx = pd.MultiIndex.from_arrays(…)

  # “Monte DataFrame com esse índice.”  
  df2 = pd.DataFrame({…}, index=idx)

  # “Selecione todas as linhas do grupo 'A'.”  
  print(df2.loc['A'])

  # “Selecione subnível 1 do grupo 'B'.”  
  print(df2.loc[('B',1)])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão          | Saída             | O que faz?                      |
  |:-----:|:-------------------|:------------------|:--------------------------------|
  | 1     | `df2.loc['A']`     | 2×1 sub-DataFrame | Slice por nível primário        |
  | 2     | `df2.loc[('B',1)]` | 1×1 Series        | Slice por tupla de níveis       |
  | 3     | –                  | imprime           | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  MultiIndex é como arquivo de pastas e subpastas; `.loc` aceita tupla para navegar até o arquivo desejado.

* **Cenário de Mercado:**  
  Em **dados de sensores**, registramos leituras por (planta, máquina); MultiIndex permite slicing rápido por planta ou máquina.

* **Boas Práticas:**  
  - **Afirmação:** “Use nomes de níveis significativos.”  
    - **Porquê:** Facilita fatiamento e interpretação.  
    - **Analogia:** É como nomear pastas “Projetos” e “Relatórios”.


#### **Nível DEUS (2/3): Seleção Avançada com `pd.IndexSlice`**


In [None]:
import pandas as pd
idx = pd.IndexSlice
# Usando df2 do exemplo anterior
print(df2.loc[idx['A':'B', 1], :])


In [15]:
# Pratique seu código aqui!

import pandas as pd

idx = pd.IndexSlice
print(idx)
print("\n")
print(df2.loc[idx['A':'B', 1], :])



<pandas.core.indexing._IndexSlice object at 0x7c3be824f490>


           valor
grupo sub       
A     1       10
B     1       30


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe IndexSlice.”  
  idx = pd.IndexSlice

  # “Selecione grupos A a B e subnível 1.”  
  print(df2.loc[idx['A':'B',1], :])
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                                  | Saída         | O que faz?                         |
  |:-----:|:-------------------------------------------|:--------------|:-----------------------------------|
  | 1     | `df2.loc[idx['A':'B',1],:]`                | 2×1 sub-DF    | Slice múltiplos níveis simultâneo  |
  | 2     | –                                          | imprime       | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `IndexSlice` é um atalho que permite cortar pastas e subpastas de uma vez com sintaxe enxuta.

* **Cenário de Mercado:**  
  Em **time series multivariada**, tabela cruzada (cidade, sensor) é fatia com IndexSlice para análises regionais.

* **Boas Práticas:**  
  - **Afirmação:** “Prefira IndexSlice em múltiplos níveis.”  
    - **Porquê:** Código mais legível e menos propenso a erros.  
    - **Analogia:** É como usar atalho de teclado para abrir várias pastas simultaneamente.


#### **Nível DEUS (3/3): Query, Eval e Atribuição em Linha**


In [None]:
import pandas as pd
# DataFrame simples
df3 = pd.DataFrame({
    'x': range(5),
    'y': [10,20,30,40,50]
})
# query para filtrar e atribuir coluna z = x*y
df3 = df3.query('x % 2 == 0').assign(z=lambda d: d.x*d.y)
print(df3)


In [18]:
# Pratique seu código aqui!

import pandas as pd
df3 = pd.DataFrame({
    'x': range(5),
    'y': [10,20,30,40,50]
})

print(df3)
print("\n")

df3 = df3.query('x % 2 == 0').assign(z=lambda d: d.x*d.y)
print(df3)


   x   y
0  0  10
1  1  20
2  2  30
3  3  40
4  4  50


   x   y    z
0  0  10    0
2  2  30   60
4  4  50  200


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com x e y.”  
  df3 = pd.DataFrame({…})

  # “Filtre linhas onde x é par e crie coluna z = x*y.”  
  df3 = df3.query('x % 2 == 0').assign(z=lambda d: d.x*d.y)

  # “Mostre resultado.”  
  print(df3)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                                            | Saída          | O que faz?                      |
  |:-----:|:-----------------------------------------------------|:---------------|:--------------------------------|
  | 1     | `df3.query('x%2==0')`                                | sub-DF         | Filtra x par                    |
  | 2     | `.assign(z=lambda d: d.x*d.y)`                       | adiciona coluna| Cria coluna z dinamicamente     |
  | 3     | –                                                    | imprime        | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `query` é um funil que deixa passar só registros desejados; `assign` é como pintar uma coluna nova em linha, sem copiar todo o DataFrame.

* **Cenário de Mercado:**  
  - **Por que usar `query` e `assign` juntos?** Em **ETL**, filtrar e enriquecer dados em uma única expressão mantém pipeline fluido.  
  - **Exemplo real:** Selecionar apenas vendas de fim de semana e calcular comissão `comissao = vendas * 0.1`.

* **Boas Práticas:**  
  - **Afirmação:** “Use `query` para expressões simples.”  
    - **Porquê:** Evita repetição de `df['col']` e melhora legibilidade.  
    - **Analogia:** É como falar “mostre só produtos em promoção” em vez de procurar cada etiqueta manualmente.


### 3. 🕸️ Profundezas e Conexões

<br>

DataFrames são o pilar de **pandas** e base para bibliotecas como **scikit-learn** (pré-processamento), **statsmodels** (modelagem) e **Matplotlib**/**Seaborn** (visualização). Compreender fatiamento robusto permite criar pipelines de dados reprodutíveis e eficientes.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Crie DataFrame de clientes (`id`,`idade`,`gasto`) e defina `id` como índice.  
2. Usando `.loc`, fatie clientes com id 2 a 4 e colunas `idade`,`gasto`.  
3. Filtre clientes com `gasto` entre 100 e 200 usando `.between()`.  
4. Monte MultiIndex (`cidade`,`loja`) e selecione um subnível.  
5. Aplique `query` para manter apenas clientes com `idade` par e crie coluna `bonus = gasto*0.05`.

<br>

#### **❓ Pergunta de Verificação**
Quando usar `.loc` vs máscara direta (`df[cond]`) e como isso afeta a cópia vs view?

<br>

---
<br>


### **Resposta Rápida**

Use `.loc[cond]` quando quiser **clareza, segurança e controle explícito** sobre **linhas e colunas**, além de garantir consistência ao modificar dados. Já `df[cond]` é mais conciso, mas **sempre retorna apenas linhas** e pode gerar **views ou cópias dependendo do contexto**, o que afeta modificações.

---

### **Analogia do Dia**

Pense em `.loc` como um **comando detalhado**: “pegue as linhas com condição **X** e as colunas **Y**”. Já `df[cond]` é como dizer: “pegue só as linhas com condição **X**”, sem mais especificações.
Se você quiser **editar os dados direto**, é melhor ser explícito — como quem mexe com bisturi em vez de tesoura ✂️🩺

---

### **Análise Técnica Detalhada**

---

#### 🧠 1. Seleção com `df[cond]`

```python
import pandas as pd

df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Clara"],
    "idade": [22, 35, 19]
})

adultos = df[df["idade"] >= 21]
```

✅ Rápido e prático, mas:

* Sempre retorna **linhas inteiras**
* Não permite selecionar colunas no mesmo comando
* **Retorno pode ser view ou copy**, o que causa ambiguidade ao editar!

---

#### 🧠 2. Seleção com `.loc[cond]`

```python
adultos = df.loc[df["idade"] >= 21, :]
```

✅ Muito mais **flexível**:

* Permite selecionar **linhas e colunas ao mesmo tempo**
* Mais **seguro ao atribuir valores**
* Usado em edições com `.at`, `.iloc`, `.loc`, etc.

🔁 Exemplo de atribuição segura:

```python
df.loc[df["idade"] < 21, "nome"] = "menor"
```

⚠️ Já com `df[cond]["col"] = valor`, você pode ver este alerta:

```
SettingWithCopyWarning
```

Isso indica que você está tentando modificar **uma cópia e não a base original** — pode não surtir efeito!

---

### **Nota de Rodapé para Novatos**

* **`.loc[]`**: Método do Pandas que permite acessar **linhas e colunas por rótulo** (nome).
* **Máscara booleana**: Expressão como `df["coluna"] > 10`, que retorna `True` ou `False` para cada linha.
* **View**: Referência leve aos dados originais.
* **Copy**: Nova estrutura de dados independente.
* **SettingWithCopyWarning**: Aviso de que você pode estar alterando uma cópia em vez do original.

---

### **Aplicação Prática e Boas Práticas**

✅ Use `.loc[]` quando:

* For modificar dados diretamente
* Quiser trabalhar com **linhas + colunas**
* Estiver tratando **subconjuntos grandes ou sensíveis**

✅ Use `df[cond]` quando:

* Só for **visualizar** ou fazer **filtros rápidos**
* Não precisar editar nada no resultado

💡 Boas práticas:

```python
# Evita ambiguidade e mantém controle total
df.loc[df["salario"] < 3000, "categoria"] = "baixo"
```

📈 Em ciência de dados:

* `.loc` é preferido em pipelines de limpeza e transformação de dados, pois permite modificar **com segurança e legibilidade**.

---

### **Resumo da Lição**

Use `.loc` para **precisão e edição segura** de dados; use `df[cond]` para **filtragens rápidas**. Saber a diferença entre **view e copy** é essencial para evitar bugs difíceis de detectar no Pandas.

---



Vamos explorar agora um **exemplo clássico de erro com `SettingWithCopyWarning`**, entender **por que ele acontece**, e aprender **como resolvê-lo com `.loc[]` da forma correta**.

---

### **💣 Exemplo que gera o `SettingWithCopyWarning`**

```python
import pandas as pd

df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Clara", "Danilo"],
    "idade": [22, 35, 19, 28],
    "salario": [3000, 5000, 1800, 2500]
})

# ⚠️ Filtrando para quem ganha menos de 3000
baixa_renda = df[df["salario"] < 3000]

# Tentando alterar a coluna "categoria"
baixa_renda["salario"] = "baixo"  # 🧨 aqui o aviso aparece!
```

🔎 **Aviso emitido:**

```
SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame.
```

---

### **😖 Por que isso acontece?**

Esse erro **não é sobre o valor em si**, mas sobre **onde você está tentando escrever**.
Ao fazer `df[cond]`, você **pode ou não estar lidando com uma view**. E se você tentar modificar isso, o Pandas **não pode garantir que a modificação será aplicada ao DataFrame original**.

---

### ✅ **Forma correta usando `.loc[]`**

```python
df.loc[df["salario"] < 3000, "categoria"] = "baixo"
```

💡 Aqui, o Pandas **sabe exatamente onde você quer escrever**:

* Quais **linhas** (`salario < 3000`)
* Qual **coluna** (`"categoria"`)
* E **modifica diretamente o `df` original**

---

### **🧠 Alternativas seguras**

Se você precisa trabalhar com uma **cópia isolada**, seja explícito:

```python
baixa_renda = df[df["salario"] < 3000].copy()
baixa_renda["categoria"] = "baixo"  # agora sem aviso
```

🔒 Isso resolve o aviso porque você **diz claramente que quer uma cópia**.

---

### ✅ Regra prática para evitar bugs

| Situação                           | Solução segura                    |
| ---------------------------------- | --------------------------------- |
| Modificar valor baseado em filtro  | Use `.loc[]`                      |
| Trabalhar com subconjunto separado | Use `.copy()` ao criar            |
| Recebeu o aviso?                   | Reescreva com `.loc[...] = valor` |

---

### **Resumo da Lição**

O aviso `SettingWithCopyWarning` é o Pandas dizendo:
🗣️ **“Você está modificando uma cópia, mas talvez quisesse alterar o original. Tem certeza disso?”**
Evite esse problema com `.loc[]` ou `.copy()`, e seu código será mais **confiável e robusto**.

---

In [24]:
import pandas as pd

df = pd.DataFrame({
    "nome": ["Ana", "Beto", "Clara", "Danilo"],
    "idade": [22, 35, 19, 28],
    "salario": [3000, 5000, 1800, 2500]
})

df

# ⚠️ Filtrando para quem ganha menos de 3000
baixa_renda = df[df["salario"] < 3000]

# Tentando alterar a coluna "categoria"
baixa_renda["categoria"] = "baixo"  # 🧨 aqui o aviso aparece!

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  baixa_renda["salario"] = "pagamento"  # 🧨 aqui o aviso aparece!


In [28]:
df.loc[df["salario"] < 3000, "categoria"] = "baixo"
df

Unnamed: 0,nome,idade,salario,categoria
0,Ana,22,3000,
1,Beto,35,5000,
2,Clara,19,1800,baixo
3,Danilo,28,2500,baixo


In [36]:
baixa_renda = df[df["salario"] < 3000].copy()
baixa_renda["categoria"] = "baixo"
print(baixa_renda)
print("\n")
print(df)

     nome  idade  salario categoria
2   Clara     19     1800     baixo
3  Danilo     28     2500     baixo


     nome  idade  salario categoria
0     Ana     22     3000       NaN
1    Beto     35     5000       NaN
2   Clara     19     1800     baixo
3  Danilo     28     2500     baixo
