# Aula 3 ‚Äì Sele√ß√£o, filtragem e manipula√ß√£o de dados

**üéØ Objetivo da Aula**

Aprender a selecionar, filtrar e modificar dados em um DataFrame, dominando as ferramentas que permitem trabalhar com subconjuntos de dados ‚Äî base de qualquer an√°lise.

**1. Teoria simples**

No pandas, √© essencial saber como acessar partes espec√≠ficas de um DataFrame.
Existem tr√™s principais formas:

| M√©todo    | Quando usar                                   | Exemplo                 |
| --------- | --------------------------------------------- | ----------------------- |
| `[]`      | sele√ß√£o simples de colunas                    | `df["coluna"]`          |
| `.loc[]`  | sele√ß√£o por **r√≥tulo** (nome de linha/coluna) | `df.loc["A1", "Pre√ßo"]` |
| `.iloc[]` | sele√ß√£o por **posi√ß√£o num√©rica**              | `df.iloc[0, 1]`         |


Esses m√©todos s√£o usados para:

* selecionar colunas ou linhas espec√≠ficas,

* aplicar filtros condicionais,

* reordenar ou excluir dados,

* criar novas colunas derivadas.

**2. Demonstra√ß√£o pr√°tica**

In [1]:
import pandas as pd

df = pd.DataFrame({
    "Produto": ["Notebook", "Mouse", "Teclado", "Monitor", "Headset"],
    "Pre√ßo": [2500, 45.90, 120, 899.99, 199.50],
    "Quantidade": [20, 13, 35, 50, 45],
    "Categoria": ["Eletr√¥nicos", "Acess√≥rios", "Acess√≥rios", "Eletr√¥nicos", "Acess√≥rios"]
})


**üîπ Selecionando colunas**

In [2]:
df["Produto"]
df[["Produto", "Pre√ßo"]]

Unnamed: 0,Produto,Pre√ßo
0,Notebook,2500.0
1,Mouse,45.9
2,Teclado,120.0
3,Monitor,899.99
4,Headset,199.5


**üîπ Selecionando linhas**

In [3]:
df.loc[0]           # Linha com √≠ndice 0
df.iloc[1]          # Linha posi√ß√£o 1

Produto            Mouse
Pre√ßo               45.9
Quantidade            13
Categoria     Acess√≥rios
Name: 1, dtype: object

**üîπ Sele√ß√£o de intervalo**

In [4]:
df.loc[1:3, ["Produto", "Pre√ßo"]]  # Linhas 1 a 3, colunas espec√≠ficas

Unnamed: 0,Produto,Pre√ßo
1,Mouse,45.9
2,Teclado,120.0
3,Monitor,899.99


**üîπ Filtragem condicional**

In [5]:
# Produtos com pre√ßo acima de 500
filtro_preco = df["Pre√ßo"] > 500
print(df[filtro_preco])

# Acess√≥rios com mais de 20 unidades
filtro_cat = (df["Categoria"] == "Acess√≥rios") & (df["Quantidade"] > 20)
print(df[filtro_cat])

    Produto    Pre√ßo  Quantidade    Categoria
0  Notebook  2500.00          20  Eletr√¥nicos
3   Monitor   899.99          50  Eletr√¥nicos
   Produto  Pre√ßo  Quantidade   Categoria
2  Teclado  120.0          35  Acess√≥rios
4  Headset  199.5          45  Acess√≥rios


**üîπ Ordena√ß√£o e exclus√£o**

In [6]:
# Ordenar por pre√ßo decrescente
df.sort_values(by="Pre√ßo", ascending=False)

# Remover coluna
df_sem_preco = df.drop(columns="Pre√ßo")

# Remover linha
df_sem_linha0 = df.drop(index=0)

**3. Exemplo do mundo real: an√°lise de produtos**

Imagine que voc√™ quer identificar:

1. Os produtos mais caros,

2. Quais acess√≥rios t√™m estoque alto,

3. E criar uma nova coluna com o valor total de estoque.

In [7]:
df["Valor_Total"] = df["Pre√ßo"] * df["Quantidade"]
top_preco = df.sort_values(by="Pre√ßo", ascending=False)
estoque_alto = df[df["Quantidade"] > 30]

print("Produtos mais caros:\n", top_preco[["Produto", "Pre√ßo"]])
print("\nProdutos com estoque alto:\n", estoque_alto[["Produto", "Quantidade"]])

Produtos mais caros:
     Produto    Pre√ßo
0  Notebook  2500.00
3   Monitor   899.99
4   Headset   199.50
2   Teclado   120.00
1     Mouse    45.90

Produtos com estoque alto:
    Produto  Quantidade
2  Teclado          35
3  Monitor          50
4  Headset          45


# Exerc√≠cios

**F√°cil**

Usando o DataFrame `df` acima:

Mostre apenas a coluna `Produto`.

Mostre as 3 primeiras linhas com `.loc[]`.

Selecione apenas as colunas `Produto` e `Pre√ßo`.

In [18]:
print(df)
print("\nProdutos:\n", df["Produto"])
print("\nTr√™s Primeira linhas:\n", df.loc[0:2])
print("\nProduto e Pre√ßo:\n", df[["Produto", "Pre√ßo"]])

    Produto    Pre√ßo  Quantidade    Categoria  Valor_Total
0  Notebook  2500.00          20  Eletr√¥nicos      50000.0
1     Mouse    45.90          13   Acess√≥rios        596.7
2   Teclado   120.00          35   Acess√≥rios       4200.0
3   Monitor   899.99          50  Eletr√¥nicos      44999.5
4   Headset   199.50          45   Acess√≥rios       8977.5

Produtos:
 0    Notebook
1       Mouse
2     Teclado
3     Monitor
4     Headset
Name: Produto, dtype: object

Tr√™s Primeira linhas:
     Produto   Pre√ßo  Quantidade    Categoria  Valor_Total
0  Notebook  2500.0          20  Eletr√¥nicos      50000.0
1     Mouse    45.9          13   Acess√≥rios        596.7
2   Teclado   120.0          35   Acess√≥rios       4200.0

Produto e Pre√ßo:
     Produto    Pre√ßo
0  Notebook  2500.00
1     Mouse    45.90
2   Teclado   120.00
3   Monitor   899.99
4   Headset   199.50


**Intermedi√°rio**

1. Crie um filtro para mostrar apenas produtos com pre√ßo acima de R$500.

2. Crie outro filtro para mostrar apenas produtos da categoria ‚ÄúAcess√≥rios‚Äù.

3. Combine os dois filtros para ver acess√≥rios caros.

In [None]:
filtro_acima_500 = df["Pre√ßo"] > 500
print(df[filtro_acima_500])

filtro_acessorios = df["Categoria"] == "Acess√≥rios"
print(df[filtro_acessorios])

filtro_combinado = filtro_acessorios & filtro_acima_500
print(df[filtro_combinado])

    Produto    Pre√ßo  Quantidade    Categoria  Valor_Total
0  Notebook  2500.00          20  Eletr√¥nicos      50000.0
3   Monitor   899.99          50  Eletr√¥nicos      44999.5
   Produto  Pre√ßo  Quantidade   Categoria  Valor_Total
1    Mouse   45.9          13  Acess√≥rios        596.7
2  Teclado  120.0          35  Acess√≥rios       4200.0
4  Headset  199.5          45  Acess√≥rios       8977.5
Empty DataFrame
Columns: [Produto, Pre√ßo, Quantidade, Categoria, Valor_Total]
Index: []


**Desafio (an√°lise real)**

Monte um DataFrame chamado estoque_loja com colunas:
Produto, Categoria, Pre√ßo, Estoque, Data_Entrada.

1. Mostre apenas produtos da categoria ‚ÄúEletr√¥nicos‚Äù com estoque acima de 30.

2. Ordene por pre√ßo em ordem decrescente.

3. Crie uma nova coluna Valor_Estoque = Pre√ßo * Estoque.

4. Mostre o produto com maior valor total em estoque.

üí° Dica: Use .sort_values() e .iloc[0] para pegar o primeiro ap√≥s ordenar.

In [43]:
estoque_loja = pd.DataFrame({
    "Produto" : ["Notebook Dell", "Mouse Gamer", "Teclado Mec√¢nico", "Monitor 24", "Headphone Bluetooth", "Tablet Samsung", "Cadeira Gamer", "SSD 1TB", "Webcam 1080p", "Impressora Laser"],
    "Categoria" : ["Eletr√¥nicos", "Perif√©ricos", "Perif√©ricos", "Eletr√¥nicos", "√Åudio", "Eletr√¥nicos", "M√≥veis", "Hardware", "Perif√©ricos", "Eletr√¥nicos"],
    "Pre√ßo" : [3200.00, 89.90, 249.00, 899.00, 199.50, 1150.00, 1299.00, 389.90, 159.00, 689.00],
    "Estoque" : [15, 42, 28, 36, 35, 32, 5, 50, 25, 10],
    "Data_Entrada" : ["15/01/2025", "22/01/2025", "05/02/2025", "18/02/2025", "01/03/2025", "10/03/2025", "25/02/2025", "12/01/2025", "08/03/2025", "20/02/2025"]
})

print(estoque_loja)
filtro_eletronicos_estoque_30 = (estoque_loja["Categoria"] == "Eletr√¥nicos") & (estoque_loja["Estoque"] > 30)
print("\nEletr√¥nicos:\n", estoque_loja[filtro_eletronicos_estoque_30])

preco_descrecente = estoque_loja.sort_values(by="Pre√ßo", ascending=False)
print(f"\n{preco_descrecente}")

estoque_loja["Valor_Estoque"] = estoque_loja["Pre√ßo"] * estoque_loja["Estoque"]
print(f"\n{estoque_loja}")

produto_maior_valor = estoque_loja.sort_values(by="Valor_Estoque", ascending=False).iloc[0]
print(f"\nProduto com maior valor de estoque:\n{produto_maior_valor}" )


               Produto    Categoria   Pre√ßo  Estoque Data_Entrada
0        Notebook Dell  Eletr√¥nicos  3200.0       15   15/01/2025
1          Mouse Gamer  Perif√©ricos    89.9       42   22/01/2025
2     Teclado Mec√¢nico  Perif√©ricos   249.0       28   05/02/2025
3           Monitor 24  Eletr√¥nicos   899.0       36   18/02/2025
4  Headphone Bluetooth        √Åudio   199.5       35   01/03/2025
5       Tablet Samsung  Eletr√¥nicos  1150.0       32   10/03/2025
6        Cadeira Gamer       M√≥veis  1299.0        5   25/02/2025
7              SSD 1TB     Hardware   389.9       50   12/01/2025
8         Webcam 1080p  Perif√©ricos   159.0       25   08/03/2025
9     Impressora Laser  Eletr√¥nicos   689.0       10   20/02/2025

Eletr√¥nicos:
           Produto    Categoria   Pre√ßo  Estoque Data_Entrada
3      Monitor 24  Eletr√¥nicos   899.0       36   18/02/2025
5  Tablet Samsung  Eletr√¥nicos  1150.0       32   10/03/2025

               Produto    Categoria   Pre√ßo  Estoque Data_E