In [1]:
import numpy as np
import pandas as pd

# O Que São Dados Ausentes?
Dados ausentes são valores que estão faltando em uma base de dados. Eles podem ser identificados pelo uso de placeholders como NaN (Not a Number), Na ou NULL, dependendo do contexto e da ferramenta utilizada. Por exemplo, em um conjunto de dados que inclui informações sobre idade, gênero e renda, se a renda de algumas pessoas não foi registrada, esses valores serão considerados ausentes.

# Por Que os Dados Ausentes São Importantes?
Os dados ausentes podem afetar significativamente a qualidade e a precisão de uma análise. Aqui estão alguns motivos pelos quais eles merecem atenção:

Viés nos Resultados: Dados ausentes podem levar a conclusões enviesadas, especialmente em cálculos estatísticos. Por exemplo, se uma variável importante tem muitos valores ausentes, a média calculada pode não representar a população real.
Impacto em Algoritmos de Machine Learning: Muitos algoritmos de aprendizado de máquina não funcionam bem com dados ausentes. Ignorar esse problema pode resultar em modelos treinados inadequadamente, levando a previsões imprecisas.
Perda de Informação: Dados ausentes podem significar a perda de informações valiosas, tornando mais difícil identificar padrões ou relações importantes nos dados.

In [22]:
dados =  {"A": [1, 2, np.nan], "B": [5, np.nan, np.nan], "C": [1, 2, 3]}

In [23]:
dados

{'A': [1, 2, nan], 'B': [5, nan, nan], 'C': [1, 2, 3]}

In [24]:
df = pd.DataFrame(dados)

In [7]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [8]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [9]:
df.dropna(thresh = 2)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [10]:
df.dropna(axis = 1)

Unnamed: 0,C
0,1
1,2
2,3


In [11]:
df.dropna(thresh = 2, axis = 1)

Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [13]:
df.isna().sum()

A    1
B    2
C    0
dtype: int64

In [15]:
df.fillna(value = "Ta faltando")

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Ta faltando,2
2,Ta faltando,Ta faltando,3


In [17]:
df["A"] = df ["A"].fillna(value = "Ta faltando")

In [18]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,Ta faltando,,3


In [19]:
df.fillna({"B": "Ta faltando"})

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Ta faltando,2
2,Ta faltando,Ta faltando,3


In [25]:
df.fillna({"A": df["A"].mean(), "B": "Ta faltando"})

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,Ta faltando,2
2,1.5,Ta faltando,3
