
# 📘 UC22 – Aula 4 — Seleção de Colunas (Pandas) — Versão Alunos

**Turma:** 3º Ano – Ensino Médio Técnico em Informática  
**Tema:** Seleção de colunas em DataFrames do Pandas  
**Ferramenta:** Google Colab  
**Duração:** 90 min

> Esta aula assume que os arquivos estão no seu **Google Drive → pasta `UC22`**.
> Datasets usados: `pokemons_pokedex.csv` (UTF-8) e `escolas_estaduais_censo_escolar_2023.csv` (Latin-1).


## 📂 Conectando o Google Drive

In [None]:

from google.colab import drive
drive.mount('/content/drive')

import pandas as pd
pd.options.display.max_columns = 60


## 📥 Carregando os datasets

In [None]:

# Ajuste os caminhos se necessário
caminho_poke = "/content/drive/MyDrive/UC22/pokemons_pokedex.csv"
caminho_escolas = "/content/drive/MyDrive/UC22/escolas_estaduais_censo_escolar_2023.csv"

df_poke = pd.read_csv(caminho_poke, encoding="utf-8")
df_escolas = pd.read_csv(caminho_escolas, encoding="latin-1", sep=",")

# Padronização básica dos nomes das colunas
df_poke.columns    = df_poke.columns.str.strip().str.lower().str.replace(" ", "_", regex=False)
df_escolas.columns = df_escolas.columns.str.strip().str.lower().str.replace(" ", "_", regex=False)

# Ajuste de leitura de municípios para visualização
if "no_municipio" in df_escolas.columns:
    df_escolas["no_municipio"] = df_escolas["no_municipio"].astype(str).str.strip().str.title()

print("✅ Pokémon:", df_poke.shape, " | colunas:", len(df_poke.columns))
print("✅ Escolas:", df_escolas.shape, " | colunas:", len(df_escolas.columns))



## 1) Seleção de colunas por **nome**
- `df['col']` → retorna **Series**
- `df[['col1', 'col2']]` → retorna **DataFrame**


In [None]:

print("Colunas Pokémon (exemplo):", list(df_poke.columns)[:10])

uma_coluna = df_poke.columns[0]
serie = df_poke[uma_coluna]
print("Coluna escolhida:", uma_coluna, "| Tipo:", type(serie))
display(serie.head())

varias = df_poke[list(df_poke.columns[:3])]
display(varias.head())



## 2) Seleção por **padrão** no nome da coluna
- `filter(like=...)` para "contém"
- `filter(regex=...)` com expressão regular
- `startswith` / `endswith`


In [None]:

hp_cols  = df_poke.filter(like="hp").columns.tolist()
atk_cols = df_poke.filter(like="atk").columns.tolist()
print("HP:", hp_cols, " | ATK:", atk_cols)
display(df_poke[hp_cols + atk_cols].head())


In [None]:

regex_cols = df_escolas.filter(regex=r"^(no_|co_)").columns.tolist()
print("Regex:", regex_cols)
display(df_escolas[regex_cols].head())


In [None]:

cols_tipo = [c for c in df_poke.columns if c.startswith("tipo")]
print("Começam com 'tipo':", cols_tipo)
display(df_poke[cols_tipo].head() if cols_tipo else "Nenhuma coluna começando com 'tipo'")



## 3) Seleção por **tipo de dado** (*dtypes*)
- Numéricas vs texto (object)


In [None]:

num_poke = df_poke.select_dtypes(include=["int64", "float64"])
obj_poke = df_poke.select_dtypes(include=["object"])

print("Numéricas Pokémon:", num_poke.columns.tolist()[:8])
print("Texto Pokémon:", obj_poke.columns.tolist()[:8])



## 4) Seleção por **posição** (índice da coluna) – `.iloc`


In [None]:

sub_pos = df_poke.iloc[:, [0,1,2]]
display(sub_pos.head())



## 5) Seleção **segura** com checagem de colunas
Evita erros quando algum nome não existe.


In [None]:

def selecionar_colunas_seguras(df, colunas):
    existentes = [c for c in colunas if c in df.columns]
    faltantes  = [c for c in colunas if c not in df.columns]
    if faltantes:
        print("⚠️ Colunas inexistentes ignoradas:", faltantes)
    return df[existentes]

cols_escolas = ["no_entidade", "no_municipio", "tp_dependencia"]
sub_escolas = selecionar_colunas_seguras(df_escolas, cols_escolas)
display(sub_escolas.head())



## 6) Renomear, reordenar e remover colunas


In [None]:

df_escolas_ren = df_escolas.rename(columns={
    "no_entidade": "nome_escola",
    "no_municipio": "municipio",
    "tp_dependencia": "dependencia"
})

preferencia = ["municipio", "nome_escola", "dependencia"]
nova_ordem = [c for c in preferencia if c in df_escolas_ren.columns] +              [c for c in df_escolas_ren.columns if c not in preferencia]

df_escolas_ord = df_escolas_ren[nova_ordem]

df_escolas_drop = df_escolas_ord.drop(columns=["coluna_inexistente"], errors="ignore")

display(df_escolas_ord.head())



---
# 🧪 Mini-Lab — Entrega no Classroom
**Arquivo:** `UC22_Aula04_Pratica_SeuNome.ipynb`

1. **Pokémon**
   - Liste todas as colunas (`df_poke.columns`).
   - Selecione `name` (ou `nome`, conforme o dataset) + 3 atributos de combate (ex.: `hp`, `attack`, `defense`).
   - Mostre as 10 primeiras linhas apenas dessas colunas.

2. **Escolas**
   - Liste todas as colunas (`df_escolas.columns`).
   - Selecione código(s), nome da escola e município.
   - Renomeie para `codigo`, `nome_escola`, `municipio`.
   - Reordene para que `municipio` venha primeiro.

3. **Extras**
   - Crie um DataFrame só com colunas **numéricas**.
   - Outro só com colunas **de texto**.
   - Selecione 3 colunas por **posição** com `.iloc`.



## 🧯 Erros comuns
- **KeyError**: coluna não existe → confira `df.columns`.
- **Tudo em uma coluna só**: verifique `sep` correto.
- **Acentos quebrados**: verifique `encoding` correto.
- **Warning ao editar subconjuntos**: use `.copy()` antes de modificar.



---
Gerado em: 2025-09-09
