## üéì **Aula sobre: Tratamento de Dados Ausentes com Pandas**

<br>

### üß≠ Sum√°rio da Aula

| # | Sub-t√≥pico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revis√£o R√°pida            | ~1 min         | ‚≠ê           |
| 2 | Mergulho Profundo                  | ~15 min        | ‚≠ê‚≠ê‚≠ê‚≠ê       |
| 3 | Profundezas e Conex√µes             | ~3 min         | ‚≠ê‚≠ê         |
| 4 | üöÄ A√ß√£o e Verifica√ß√£o               | ~5 min         | ‚≠ê‚≠ê         |
| 5 | üåä Mergulhos Adicionais Opcionais   | Opcional       | ‚≠ê‚≠ê‚≠ê‚≠ê      |

<br>

---
<br>


### 1. üß† Ficha de Revis√£o R√°pida | (O Essencial)

<br>

> - **NaN:** valor ‚ÄúNot a Number‚Äù que marca dados ausentes.  
> - **isna()/notna():** detecta ausentes (`True` para NaN).  
> - **dropna():** remove linhas/colunas com NaN.  
> - **fillna():** preenche NaN com valor ou m√©todo.  
> - **interpolate():** estima valores faltantes via interpola√ß√£o.

<br>


### 2. üî¨ Mergulho Profundo | (Os Detalhes)

<br>

#### **üéØ O Conceito Central**  
Pandas armazena ausentes como `NaN` em colunas num√©ricas e `None`/`NaN` em objetos. Detectar com `isna()`, depois decidir: *remover* registros incompletos com `dropna()` ou *preencher* usando `fillna()` (valor fixo, m√©dia, m√©todo ‚Äòffill‚Äô/‚Äôbfill‚Äô) ou `interpolate()` (linear, time).

<br>

#### **üîó Analogia de Data Science**  
Imagine uma planilha de vacina√ß√£o onde faltam alguns registros de dose.  
- `dropna()` √© jogar fora toda a ficha incompleta.  
- `fillna(m√©dia)` √© supor que quem faltou tomou a m√©dia dos vizinhos.  
- `ffill` √© assumir que o valor mais recente vale para hoje.  
- `interpolate()` √© desenhar uma linha entre duas doses conhecidas para estimar a posi√ß√£o intermedi√°ria.

<br>

### **üíª Exemplos de Mercado (Abrangentes)**


#### **N√≠vel Simples: Detectando e Removendo NaN**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'A': [1, None, 3],
    'B': [4, 5, None]
})
# Detecta ausentes
print(df.isna())
# Remove linhas com qualquer NaN
clean = df.dropna()
print(clean)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie DataFrame com alguns None/NaN.‚Äù  
  df = pd.DataFrame({...})

  # ‚ÄúVerifique onde h√° NaN.‚Äù  
  print(df.isna())

  # ‚ÄúElimine linhas que contenham NaN.‚Äù  
  clean = df.dropna()
  print(clean)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo    | Express√£o      | Sa√≠da                     | O que faz?                |
  |:--------:|:---------------|:--------------------------|:--------------------------|
  | 1        | `df.isna()`    | DataFrame booleano        | Marca posi√ß√µes com NaN    |
  | 2        | `df.dropna()`  | Apenas a linha sem NaN    | Remove linhas incompletas |
  | 3        | ‚Äì              | imprime                   | Sa√≠da final               |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense numa lista de presen√ßa: `isna()` marca quem n√£o assinou; `dropna()` descarta toda a ficha do aluno que n√£o assinou.

* **Cen√°rio de Mercado:**  
  Em **limpeza de registros m√©dicos**, eliminar pacientes sem todos os exames evita vi√©s em an√°lises, mas pode reduzir amostra.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `dropna(subset=...)` para focar em colunas cr√≠ticas.‚Äù  
    - **Porqu√™:** Evita descartar dados por aus√™ncia em campos secund√°rios.  
    - **Analogia:** √â como descartar apenas formul√°rios que faltam assinatura e n√£o todo o documento.


#### **N√≠vel Intermedi√°rio: Preenchendo com M√©dia, Forward/Backward Fill**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'temp': [20, None, 22, None, 24]
})
# Preenche m√©dia
mean = df['temp'].mean()
filled_mean = df['temp'].fillna(mean)
# Preenche com √∫ltimo valor v√°lido (ffill)
filled_ffill = df['temp'].fillna(method='ffill')
print(filled_mean, filled_ffill)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie Series de temperaturas com NaN.‚Äù  
  df = pd.DataFrame({...})

  # ‚ÄúCalcule a m√©dia das temperaturas.‚Äù  
  mean = df['temp'].mean()

  # ‚ÄúPreencha NaN com essa m√©dia.‚Äù  
  filled_mean = df['temp'].fillna(mean)

  # ‚ÄúPreencha NaN com √∫ltimo valor observado.‚Äù  
  filled_ffill = df['temp'].fillna(method='ffill')

  # ‚ÄúMostre resultados.‚Äù  
  print(filled_mean, filled_ffill)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo           | Express√£o               | Sa√≠da                        | O que faz?                               |
  |:---------------:|:------------------------|:-----------------------------|:-----------------------------------------|
  | 1               | `mean`                  | valor escalar                | M√©dia ignorando NaN                      |
  | 2               | `fillna(mean)`          | Series sem NaN               | Preenche com valor estat√≠stico           |
  | 3               | `fillna(method='ffill')`| Series com forward fill      | Propaga √∫ltimo valor v√°lido              |
  | 4               | ‚Äì                       | imprime                      | Sa√≠da final                              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  M√©dia √© como substituir faltas por m√©dia da turma; forward fill √© como copiar nota do √∫ltimo aluno presente.

* **Cen√°rio de Mercado:**  
  Em **sensores IoT**, preencher gaps com m√©dia suaviza ru√≠do; usar `ffill` assume que a √∫ltima leitura persiste at√© nova medi√ß√£o.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúEscolha m√©todo de fill baseado em padr√£o de dados.‚Äù  
    - **Porqu√™:** M√©dia pode distorcer picos; `ffill` preserva tend√™ncias locais.  
    - **Analogia:** √â como escolher entre receita m√©dia ou lembrar √∫ltima receita conhecida.


#### **N√≠vel Avan√ßado: Interpola√ß√£o e Substitui√ß√£o Condicional**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'time': pd.date_range('2021-01-01', periods=5, freq='D'),
    'value': [1, None, None, 4, 5]
}).set_index('time')
# Interpola√ß√£o linear
interp = df['value'].interpolate()
# Substitui√ß√£o condicional (if<2 ent√£o 2)
cond = df['value'].fillna(0).where(lambda x: x>=2, 2)
print(interp, cond)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie Series temporal com NaN.‚Äù  
  df = pd.DataFrame({...}).set_index('time')

  # ‚ÄúFa√ßa interpola√ß√£o linear dos valores faltantes.‚Äù  
  interp = df['value'].interpolate()

  # ‚ÄúPreencha NaN com 0, depois force valores <2 a 2.‚Äù  
  cond = df['value'].fillna(0).where(lambda x: x>=2, 2)

  # ‚ÄúMostre interpola√ß√£o e condicional.‚Äù  
  print(interp, cond)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo           | Express√£o                 | Sa√≠da             | O que faz?                             |
  |:---------------:|:--------------------------|:------------------|:---------------------------------------|
  | 1               | `interpolate()`           | valores estimados | Suaviza gaps linearmente               |
  | 2               | `fillna(0).where(...)`    | valores ‚â•2        | Substitui valores abaixo de 2 por 2    |
  | 3               | ‚Äì                         | imprime           | Sa√≠da final                            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Interpola√ß√£o √© desenhar linha entre pontos conhecidos; `where` √© como for√ßar pe√ßa m√≠nima em cada slot.

* **Cen√°rio de Mercado:**  
  Em **an√°lises financeiras**, interpolar cota√ß√µes intradi√°rias e truncar valores abaixo de m√≠nimo regulat√≥rio.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `interpolate()` com cuidado em s√©ries n√£o lineares.‚Äù  
    - **Porqu√™:** Pode criar valores irreais se padr√£o n√£o for linear.  
    - **Analogia:** √â como assumir estrada reta entre duas curvas.


#### **N√≠vel DEUS (1/3): MultiIndex e Tratamento por N√≠vel**


In [None]:
import pandas as pd
arrays = [['X','X','Y'], [1,2,1]]
idx = pd.MultiIndex.from_arrays(arrays, names=('grp','sub'))
df2 = pd.DataFrame({'val':[None,2,None]}, index=idx)
# Preenche por grupo
filled = df2.groupby(level='grp').transform(lambda x: x.fillna(x.mean()))
print(filled)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie MultiIndex de grupos X e Y.‚Äù  
  idx = pd.MultiIndex.from_arrays(...)

  # ‚ÄúConstrua DataFrame com alguns NaN.‚Äù  
  df2 = pd.DataFrame({...}, index=idx)

  # ‚ÄúAgrupe por n√≠vel grp e preencha NaN com m√©dia do grupo.‚Äù  
  filled = df2.groupby(level='grp').transform(lambda x: x.fillna(x.mean()))

  # ‚ÄúMostre resultado.‚Äù  
  print(filled)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo       | Express√£o                   | Sa√≠da                | O que faz?                                 |
  |:-----------:|:----------------------------|:---------------------|:-------------------------------------------|
  | 1           | `groupby(level='grp')`      | GroupBy              | Agrupa registros por primeiro n√≠vel        |
  | 2           | `transform(...)`            | DataFrame preenchido | Aplica m√©dia do grupo a NaN                |
  | 3           | ‚Äì                           | imprime              | Sa√≠da final                                |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  MultiIndex √© como ficheiros por departamento; preencher por n√≠vel agrupa fichas de cada departamento e computa m√©dia interna.

* **Cen√°rio de Mercado:**  
  Em **dados de vendas regionais**, preencher faltas com m√©dia local (cidade) em vez de global.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `transform` para manter √≠ndice original.‚Äù  
    - **Porqu√™:** `apply` retorna objeto reindexado; `transform` preserva shape.


#### **N√≠vel DEUS (2/3): Uso de `fillna` com Dicion√°rio por Coluna**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'A':[1,None,3],
    'B':[None,2,None]
})
filled = df.fillna({'A':0, 'B':99})
print(filled)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie DataFrame com NaN em A e B.‚Äù  
  df = pd.DataFrame({...})

  # ‚ÄúPreencha A com 0 e B com 99.‚Äù  
  filled = df.fillna({'A':0,'B':99})

  # ‚ÄúMostre DataFrame.‚Äù  
  print(filled)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo | Express√£o                      | Sa√≠da              | O que faz?                             |
  |:-----:|:-------------------------------|:-------------------|:---------------------------------------|
  | 1     | `fillna({...})`                | DataFrame sem NaN  | Preenche cada coluna com valor pr√≥prio |
  | 2     | ‚Äì                              | imprime            | Sa√≠da final                            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  √â como distribuir diferentes m√°scaras de prote√ß√£o para cada setor de uma f√°brica, conforme necessidade.

* **Cen√°rio de Mercado:**  
  Em **ETL**, colunas categ√≥ricas recebem filler ‚ÄúDesconhecido‚Äù e num√©ricas recebem 0 antes de upload.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse dicion√°rio para controlar fill em cada coluna.‚Äù  
    - **Porqu√™:** Evita aplicar valor inadequado a colunas heterog√™neas.


#### **N√≠vel DEUS (3/3): Pipeline de Imputa√ß√£o com `pipe`**


In [None]:
import pandas as pd
def impute_mean(df):
    return df.fillna(df.mean())
def impute_ffill(df):
    return df.fillna(method='ffill')
df = pd.DataFrame({'X':[None,2,None], 'Y':[1,None,3]})
result = (df
          .pipe(impute_mean)
          .pipe(impute_ffill))
print(result)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúDefina fun√ß√£o impute_mean para preencher NaN com m√©dia.‚Äù  
  def impute_mean(df): return df.fillna(df.mean())

  # ‚ÄúDefina fun√ß√£o impute_ffill para forward fill.‚Äù  
  def impute_ffill(df): return df.fillna(method='ffill')

  # ‚ÄúCrie DataFrame com NaN.‚Äù  
  df = pd.DataFrame({...})

  # ‚ÄúAplique imputa√ß√µes em pipeline.‚Äù  
  result = (df.pipe(impute_mean).pipe(impute_ffill))

  # ‚ÄúMostre resultado.‚Äù  
  print(result)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo    | Express√£o             | Sa√≠da                 | O que faz?                          |
  |:--------:|:-----------------------|:---------------------|:------------------------------------|
  | 1        | `pipe(impute_mean)`   | m√©dia aplicada        | Preenche NaN com m√©dia da coluna    |
  | 2        | `pipe(impute_ffill)`  | forward fill aplicado | Propaga valores remanescentes       |
  | 3        | ‚Äì                     | imprime               | Sa√≠da final                         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  `pipe` √© esteira de f√°brica onde cada esta√ß√£o (fun√ß√£o) aplica transforma√ß√£o sequencial.

* **Cen√°rio de Mercado:**  
  Em **pipelines de ML**, usamos `pipe` para imputar e escalar dados automaticamente antes de modelagem.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúEncadeie transforma√ß√µes com `pipe`.‚Äù  
    - **Porqu√™:** Mant√©m c√≥digo modular e leg√≠vel.  
    - **Analogia:** √â como linha de montagem de carro, cada passo claro e independente.


### 3. üï∏Ô∏è Profundezas e Conex√µes

<br>

Tratamento de dados ausentes em Pandas conecta-se a **scikit-learn** (`SimpleImputer`), **statsmodels** (modelos robustos) e **SQL** (NULL vs NaN). Dominar imputa√ß√£o √© chave para pipelines confi√°veis.

<br>

---
<br>


### 4. üöÄ A√ß√£o e Verifica√ß√£o

<br>

#### **ü§î Desafio Pr√°tico**
1. Carregue `/mnt/data/exemplo.csv` e conte NaN por coluna.  
2. Remova colunas com >50% de aus√™ncias.  
3. Preencha ausentes num√©ricos com mediana e categ√≥ricos com ‚ÄúDesconhecido‚Äù.  
4. Interpole coluna temporal entre registros faltantes.  
5. Crie pipeline de imputa√ß√£o com `pipe` e compare antes/depois.

<br>

#### **‚ùì Pergunta de Verifica√ß√£o**
Quando √© melhor remover dados faltantes do que imputar, e quais os trade-offs?

<br>

---
<br>
