
# 📘 UC22 – Aula 5 — Filtros Simples (Pandas)

![Python](https://img.shields.io/badge/Python-3.11+-blue?logo=python)
![Pandas](https://img.shields.io/badge/Pandas-Filtros-green?logo=pandas)
![Google Colab](https://img.shields.io/badge/Google%20Colab-Notebook-yellow?logo=googlecolab)
![Tempo](https://img.shields.io/badge/Dura%C3%A7%C3%A3o-90%20min-red)
![N%C3%ADvel](https://img.shields.io/badge/N%C3%ADvel-Iniciante%E2%9E%9CIntermedi%C3%A1rio-purple)

**Turma:** 3º Ano – Ensino Médio Técnico em Informática  
**Tema:** Filtros Simples em DataFrames Pandas  
**Ferramenta principal:** Google Colab

> “Filtrar dados é como procurar Pokémon raros: você precisa dos critérios certos para encontrá-los.” – IAra 🎯



## 🎯 Objetivos de Aprendizagem
- Aplicar **filtros simples** em DataFrames usando operadores de comparação (`==`, `!=`, `>`, `<`, `>=`, `<=`).  
- Diferenciar **condição booleana** do **resultado filtrado**.  
- Combinar **filtro de linhas** com **seleção de colunas**.  
- Praticar com o dataset **`pokemons_pokedex.csv`** (e, quando útil, com **`escolas_estaduais_censo_escolar_2023.csv`**).  
- Preparar-se para a **Aula 6 (filtros compostos)**.



## 📂 Preparação do Ambiente (Google Drive)
Usaremos os mesmos arquivos das aulas anteriores:

- `pokemons_pokedex.csv`  
- `escolas_estaduais_censo_escolar_2023.csv`

> **Importante:** mantenha os arquivos na pasta **`Meu Drive/UC22/`**.


In [None]:

# 📂 Montando o Google Drive
from google.colab import drive
drive.mount('/content/drive')

# 🐍 Importações essenciais
import pandas as pd

# 🗂️ Definição dos caminhos (ajuste conforme sua pasta)
caminho_poke = "/content/drive/MyDrive/UC22/pokemons_pokedex.csv"
caminho_escolas = "/content/drive/MyDrive/UC22/escolas_estaduais_censo_escolar_2023.csv"

# 📥 Leitura dos datasets com codificação apropriada
# Linha a linha:
# 1) Lemos o CSV de Pokémon com UTF-8 (padrão mais comum)
# 2) Lemos o CSV de Escolas com Latin-1 (evita problemas de acentuação)
df_poke = pd.read_csv(caminho_poke, encoding="utf-8")
df_escolas = pd.read_csv(caminho_escolas, encoding="latin-1", sep=",")

# 🧹 Padronização de nomes de colunas (minúsculas, sem espaços)
# Isso evita erros por diferença de maiúsculas/minúsculas e espaços
df_poke.columns    = df_poke.columns.str.strip().str.lower().str.replace(" ", "_", regex=False)
df_escolas.columns = df_escolas.columns.str.strip().str.lower().str.replace(" ", "_", regex=False)

# ✨ Ajuste de legibilidade: município em Title Case (se a coluna existir)
if "no_municipio" in df_escolas.columns:
    df_escolas["no_municipio"] = df_escolas["no_municipio"].astype(str).str.strip().str.upper()

print("✅ Pokémon:", df_poke.shape, " | colunas:", len(df_poke.columns))
print("✅ Escolas:", df_escolas.shape, " | colunas:", len(df_escolas.columns))



## 🧠 Revisão Rápida (Aula 4 → Aula 5)
- **Seleção de colunas**: `df['col']` (Series) e `df[['col1','col2']]` (DataFrame).  
- **Aula de hoje**: **filtrar linhas** com base em **condições**.



## 1) Conceito de Filtro Simples
Um **filtro simples** seleciona as linhas que **atendem a uma condição**.

Operadores principais:
- `==` (igual), `!=` (diferente)  
- `>` (maior que), `<` (menor que)  
- `>=` (maior/igual), `<=` (menor/igual)


In [None]:

# 🎯 Exemplo 1 — Filtrar Pokémon do tipo "Fire"
# Passo a passo:
# 1) `df_poke['type_1'] == 'Fire'` cria uma Série booleana (True/False) para cada linha.
# 2) Usamos essa Série booleana entre colchetes para retornar somente as linhas True.

# 🔎 Verifique o nome exato da coluna de tipo principal (ex.: 'type_1' ou 'tipo_1')
print("Colunas disponíveis no df_poke:", list(df_poke.columns)[:15])

# ✅ Filtro: todos os Pokémon com type_1 == 'Fire'
fogo = df_poke[df_poke['type_1'] == 'Fire']
print("Quantidade de Pokémon do tipo Fogo:", fogo.shape[0])
fogo[['name','type_1','attack','defense','speed']].head(10)


In [None]:

# 🎯 Exemplo 2 — Filtrar por atributo numérico (Attack > 100)
# 1) Criamos a condição booleana: df_poke['attack'] > 100
# 2) Aplicamos a condição ao DataFrame para retornar apenas as linhas que atendem

ataque_alto = df_poke[df_poke['attack'] > 100]
print("Quantidade com Attack > 100:", ataque_alto.shape[0])

# 🔍 Mostramos apenas colunas relevantes para análise inicial
ataque_alto[['name','type_1','attack','defense','speed']].head(10)


In [None]:

# 🎯 Exemplo 3 — Filtrar escolas por município
# Observação: padronizamos 'no_municipio' em UPPERCASE para consistência acima
# Então buscamos por 'SÃO PAULO' em maiúsculas

if "no_municipio" in df_escolas.columns:
    sp = df_escolas[df_escolas['no_municipio'] == 'SÃO PAULO']
    print("Escolas em SÃO PAULO:", sp.shape[0])
    sp[['no_entidade','no_municipio']].sample(5, random_state=42)
else:
    print("A coluna 'no_municipio' não está presente no df_escolas. Verifique df_escolas.columns")



## 2) Usando `.query()` como alternativa
`.query()` permite escrever condições em **string**, deixando o código mais limpo/legível, parecido com SQL.


In [None]:

# 🎯 Exemplo 4 — Usando query para filtrar Water
# 1) Escrevemos a condição como texto: "type_1 == 'Water'"
# 2) O Pandas interpreta a expressão e aplica o filtro

agua = df_poke.query("type_1 == 'Water'")
print("Pokémon do tipo Água:", agua.shape[0])
agua[['name','type_1','attack','defense','speed']].head(10)



## 3) Filtro + Seleção de Colunas
Geralmente filtramos e **mostramos apenas algumas colunas** relevantes para responder perguntas.


In [None]:

# 🎯 Exemplo 5 — Pokémon muito rápidos (Speed > 120)
# 1) Filtramos linhas com base em Speed
# 2) Selecionamos colunas-chave: name, type_1, speed

rapidos = df_poke[df_poke['speed'] > 120][['name','type_1','speed']]
print("Quantidade de Pokémon com Speed > 120:", rapidos.shape[0])
rapidos.head(10)



## ✅ Mini-Lab (entregar no Classroom)
**Arquivo:** `UC22_Aula05_Pratica_SeuNome.ipynb`

### Parte 1 — Pokémon
1. Quantos Pokémon são do tipo **Electric**?  
2. Mostre apenas `name`, `type_1`, `attack` dos Pokémon com **Attack > 120**.  
3. Quantos Pokémon possuem **HP < 50**?  

### Parte 2 — Escolas
1. Quantas escolas estão em **CAMPINAS**?  
2. Liste `no_entidade` e `no_municipio` das escolas de **SANTOS**.

> **Dica:** Lembre-se que padronizamos `no_municipio` para **maiúsculas**.



### 📝 Espaço para suas respostas (execute os blocos e comente seus achados)


In [None]:

# 🔧 Resposta Pokémon 1 — Contagem Electric
# PASSO A PASSO:
# 1) Criamos a condição booleana para type_1 == 'Electric'
# 2) Aplicamos ao DataFrame
# 3) Usamos .shape[0] para contar linhas
electric = df_poke[df_poke['type_1'] == 'Electric']
print("Total Electric:", electric.shape[0])
electric.head()


In [None]:

# 🔧 Resposta Pokémon 2 — Attack > 120 (mostrar colunas selecionadas)
ataque_120 = df_poke[df_poke['attack'] > 120][['name','type_1','attack']]
print("Total Attack > 120:", ataque_120.shape[0])
ataque_120.head(10)


In [None]:

# 🔧 Resposta Pokémon 3 — HP < 50 (apenas contagem)
hp_baixo = df_poke[df_poke['hp'] < 50]
print("Total HP < 50:", hp_baixo.shape[0])
hp_baixo[['name','type_1','hp']].head(10)


In [None]:

# 🔧 Resposta Escolas 1 — CAMPINAS (contagem)
if "no_municipio" in df_escolas.columns:
    campinas = df_escolas[df_escolas['no_municipio'] == 'CAMPINAS']
    print("Escolas em CAMPINAS:", campinas.shape[0])
else:
    print("Coluna 'no_municipio' ausente em df_escolas")


In [None]:

# 🔧 Resposta Escolas 2 — SANTOS (listar duas colunas)
if "no_municipio" in df_escolas.columns and "no_entidade" in df_escolas.columns:
    santos = df_escolas[df_escolas['no_municipio'] == 'SANTOS'][['no_entidade','no_municipio']]
    print("Escolas em SANTOS:", santos.shape[0])
    santos.head(10)
else:
    print("Verifique as colunas de df_escolas com df_escolas.columns")



## 🧯 Erros Comuns e Dicas
- **`KeyError`**: coluna não existe → confira `df.columns`.  
- **Sensibilidade a maiúsculas/minúsculas**: `'Fire'` ≠ `'fire'`.  
- **Filtro vazio**: às vezes nenhuma linha atende à condição. Isso **não é erro**.  
- **Tipos de dados**: números armazenados como texto podem atrapalhar comparações — use `pd.to_numeric()` se necessário.



## 📎 Conclusão
Hoje você praticou **filtros simples** para responder perguntas objetivas com Pandas.  
Na **Aula 6**, vamos **combinar condições** (E/OU) para pesquisas mais precisas (ex.: *Água* **E** `Speed > 70` **E** `Defense < 60`).



---
*Notebook gerado em: 2025-09-12 12:47:49*
