## 🎓 **Aula sobre: Tratamento de Dados Ausentes com Pandas**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida            | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                  | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões             | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação               | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais   | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **NaN:** valor “Not a Number” que marca dados ausentes.  
> - **isna()/notna():** detecta ausentes (`True` para NaN).  
> - **dropna():** remove linhas/colunas com NaN.  
> - **fillna():** preenche NaN com valor ou método.  
> - **interpolate():** estima valores faltantes via interpolação.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Pandas armazena ausentes como `NaN` em colunas numéricas e `None`/`NaN` em objetos. Detectar com `isna()`, depois decidir: *remover* registros incompletos com `dropna()` ou *preencher* usando `fillna()` (valor fixo, média, método ‘ffill’/’bfill’) ou `interpolate()` (linear, time).

<br>

#### **🔗 Analogia de Data Science**  
Imagine uma planilha de vacinação onde faltam alguns registros de dose.  
- `dropna()` é jogar fora toda a ficha incompleta.  
- `fillna(média)` é supor que quem faltou tomou a média dos vizinhos.  
- `ffill` é assumir que o valor mais recente vale para hoje.  
- `interpolate()` é desenhar uma linha entre duas doses conhecidas para estimar a posição intermediária.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Detectando e Removendo NaN**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'A': [1, None, 3],
    'B': [4, 5, None]
})
# Detecta ausentes
print(df.isna())
# Remove linhas com qualquer NaN
clean = df.dropna()
print(clean)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com alguns None/NaN.”  
  df = pd.DataFrame({...})

  # “Verifique onde há NaN.”  
  print(df.isna())

  # “Elimine linhas que contenham NaN.”  
  clean = df.dropna()
  print(clean)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão      | Saída                     | O que faz?                |
  |:--------:|:---------------|:--------------------------|:--------------------------|
  | 1        | `df.isna()`    | DataFrame booleano        | Marca posições com NaN    |
  | 2        | `df.dropna()`  | Apenas a linha sem NaN    | Remove linhas incompletas |
  | 3        | –              | imprime                   | Saída final               |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense numa lista de presença: `isna()` marca quem não assinou; `dropna()` descarta toda a ficha do aluno que não assinou.

* **Cenário de Mercado:**  
  Em **limpeza de registros médicos**, eliminar pacientes sem todos os exames evita viés em análises, mas pode reduzir amostra.

* **Boas Práticas:**  
  - **Afirmação:** “Use `dropna(subset=...)` para focar em colunas críticas.”  
    - **Porquê:** Evita descartar dados por ausência em campos secundários.  
    - **Analogia:** É como descartar apenas formulários que faltam assinatura e não todo o documento.


#### **Nível Intermediário: Preenchendo com Média, Forward/Backward Fill**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'temp': [20, None, 22, None, 24]
})
# Preenche média
mean = df['temp'].mean()
filled_mean = df['temp'].fillna(mean)
# Preenche com último valor válido (ffill)
filled_ffill = df['temp'].fillna(method='ffill')
print(filled_mean, filled_ffill)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie Series de temperaturas com NaN.”  
  df = pd.DataFrame({...})

  # “Calcule a média das temperaturas.”  
  mean = df['temp'].mean()

  # “Preencha NaN com essa média.”  
  filled_mean = df['temp'].fillna(mean)

  # “Preencha NaN com último valor observado.”  
  filled_ffill = df['temp'].fillna(method='ffill')

  # “Mostre resultados.”  
  print(filled_mean, filled_ffill)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão               | Saída                        | O que faz?                               |
  |:---------------:|:------------------------|:-----------------------------|:-----------------------------------------|
  | 1               | `mean`                  | valor escalar                | Média ignorando NaN                      |
  | 2               | `fillna(mean)`          | Series sem NaN               | Preenche com valor estatístico           |
  | 3               | `fillna(method='ffill')`| Series com forward fill      | Propaga último valor válido              |
  | 4               | –                       | imprime                      | Saída final                              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Média é como substituir faltas por média da turma; forward fill é como copiar nota do último aluno presente.

* **Cenário de Mercado:**  
  Em **sensores IoT**, preencher gaps com média suaviza ruído; usar `ffill` assume que a última leitura persiste até nova medição.

* **Boas Práticas:**  
  - **Afirmação:** “Escolha método de fill baseado em padrão de dados.”  
    - **Porquê:** Média pode distorcer picos; `ffill` preserva tendências locais.  
    - **Analogia:** É como escolher entre receita média ou lembrar última receita conhecida.


#### **Nível Avançado: Interpolação e Substituição Condicional**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'time': pd.date_range('2021-01-01', periods=5, freq='D'),
    'value': [1, None, None, 4, 5]
}).set_index('time')
# Interpolação linear
interp = df['value'].interpolate()
# Substituição condicional (if<2 então 2)
cond = df['value'].fillna(0).where(lambda x: x>=2, 2)
print(interp, cond)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie Series temporal com NaN.”  
  df = pd.DataFrame({...}).set_index('time')

  # “Faça interpolação linear dos valores faltantes.”  
  interp = df['value'].interpolate()

  # “Preencha NaN com 0, depois force valores <2 a 2.”  
  cond = df['value'].fillna(0).where(lambda x: x>=2, 2)

  # “Mostre interpolação e condicional.”  
  print(interp, cond)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                 | Saída             | O que faz?                             |
  |:---------------:|:--------------------------|:------------------|:---------------------------------------|
  | 1               | `interpolate()`           | valores estimados | Suaviza gaps linearmente               |
  | 2               | `fillna(0).where(...)`    | valores ≥2        | Substitui valores abaixo de 2 por 2    |
  | 3               | –                         | imprime           | Saída final                            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Interpolação é desenhar linha entre pontos conhecidos; `where` é como forçar peça mínima em cada slot.

* **Cenário de Mercado:**  
  Em **análises financeiras**, interpolar cotações intradiárias e truncar valores abaixo de mínimo regulatório.

* **Boas Práticas:**  
  - **Afirmação:** “Use `interpolate()` com cuidado em séries não lineares.”  
    - **Porquê:** Pode criar valores irreais se padrão não for linear.  
    - **Analogia:** É como assumir estrada reta entre duas curvas.


#### **Nível DEUS (1/3): MultiIndex e Tratamento por Nível**


In [None]:
import pandas as pd
arrays = [['X','X','Y'], [1,2,1]]
idx = pd.MultiIndex.from_arrays(arrays, names=('grp','sub'))
df2 = pd.DataFrame({'val':[None,2,None]}, index=idx)
# Preenche por grupo
filled = df2.groupby(level='grp').transform(lambda x: x.fillna(x.mean()))
print(filled)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie MultiIndex de grupos X e Y.”  
  idx = pd.MultiIndex.from_arrays(...)

  # “Construa DataFrame com alguns NaN.”  
  df2 = pd.DataFrame({...}, index=idx)

  # “Agrupe por nível grp e preencha NaN com média do grupo.”  
  filled = df2.groupby(level='grp').transform(lambda x: x.fillna(x.mean()))

  # “Mostre resultado.”  
  print(filled)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão                   | Saída                | O que faz?                                 |
  |:-----------:|:----------------------------|:---------------------|:-------------------------------------------|
  | 1           | `groupby(level='grp')`      | GroupBy              | Agrupa registros por primeiro nível        |
  | 2           | `transform(...)`            | DataFrame preenchido | Aplica média do grupo a NaN                |
  | 3           | –                           | imprime              | Saída final                                |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  MultiIndex é como ficheiros por departamento; preencher por nível agrupa fichas de cada departamento e computa média interna.

* **Cenário de Mercado:**  
  Em **dados de vendas regionais**, preencher faltas com média local (cidade) em vez de global.

* **Boas Práticas:**  
  - **Afirmação:** “Use `transform` para manter índice original.”  
    - **Porquê:** `apply` retorna objeto reindexado; `transform` preserva shape.


#### **Nível DEUS (2/3): Uso de `fillna` com Dicionário por Coluna**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'A':[1,None,3],
    'B':[None,2,None]
})
filled = df.fillna({'A':0, 'B':99})
print(filled)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com NaN em A e B.”  
  df = pd.DataFrame({...})

  # “Preencha A com 0 e B com 99.”  
  filled = df.fillna({'A':0,'B':99})

  # “Mostre DataFrame.”  
  print(filled)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                      | Saída              | O que faz?                             |
  |:-----:|:-------------------------------|:-------------------|:---------------------------------------|
  | 1     | `fillna({...})`                | DataFrame sem NaN  | Preenche cada coluna com valor próprio |
  | 2     | –                              | imprime            | Saída final                            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como distribuir diferentes máscaras de proteção para cada setor de uma fábrica, conforme necessidade.

* **Cenário de Mercado:**  
  Em **ETL**, colunas categóricas recebem filler “Desconhecido” e numéricas recebem 0 antes de upload.

* **Boas Práticas:**  
  - **Afirmação:** “Use dicionário para controlar fill em cada coluna.”  
    - **Porquê:** Evita aplicar valor inadequado a colunas heterogêneas.


#### **Nível DEUS (3/3): Pipeline de Imputação com `pipe`**


In [None]:
import pandas as pd
def impute_mean(df):
    return df.fillna(df.mean())
def impute_ffill(df):
    return df.fillna(method='ffill')
df = pd.DataFrame({'X':[None,2,None], 'Y':[1,None,3]})
result = (df
          .pipe(impute_mean)
          .pipe(impute_ffill))
print(result)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Defina função impute_mean para preencher NaN com média.”  
  def impute_mean(df): return df.fillna(df.mean())

  # “Defina função impute_ffill para forward fill.”  
  def impute_ffill(df): return df.fillna(method='ffill')

  # “Crie DataFrame com NaN.”  
  df = pd.DataFrame({...})

  # “Aplique imputações em pipeline.”  
  result = (df.pipe(impute_mean).pipe(impute_ffill))

  # “Mostre resultado.”  
  print(result)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão             | Saída                 | O que faz?                          |
  |:--------:|:-----------------------|:---------------------|:------------------------------------|
  | 1        | `pipe(impute_mean)`   | média aplicada        | Preenche NaN com média da coluna    |
  | 2        | `pipe(impute_ffill)`  | forward fill aplicado | Propaga valores remanescentes       |
  | 3        | –                     | imprime               | Saída final                         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `pipe` é esteira de fábrica onde cada estação (função) aplica transformação sequencial.

* **Cenário de Mercado:**  
  Em **pipelines de ML**, usamos `pipe` para imputar e escalar dados automaticamente antes de modelagem.

* **Boas Práticas:**  
  - **Afirmação:** “Encadeie transformações com `pipe`.”  
    - **Porquê:** Mantém código modular e legível.  
    - **Analogia:** É como linha de montagem de carro, cada passo claro e independente.


### 3. 🕸️ Profundezas e Conexões

<br>

Tratamento de dados ausentes em Pandas conecta-se a **scikit-learn** (`SimpleImputer`), **statsmodels** (modelos robustos) e **SQL** (NULL vs NaN). Dominar imputação é chave para pipelines confiáveis.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/mnt/data/exemplo.csv` e conte NaN por coluna.  
2. Remova colunas com >50% de ausências.  
3. Preencha ausentes numéricos com mediana e categóricos com “Desconhecido”.  
4. Interpole coluna temporal entre registros faltantes.  
5. Crie pipeline de imputação com `pipe` e compare antes/depois.

<br>

#### **❓ Pergunta de Verificação**
Quando é melhor remover dados faltantes do que imputar, e quais os trade-offs?

<br>

---
<br>
