## Preenchendo Valores Ausentes em DataFrames do Pandas

A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (por exemplo, média) ou o valor anterior ou seguinte.

Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variável.

In [1]:
import pandas as pd
# Primeiro importamos um dataset
dsa_df = pd.read_csv("dataset.csv")

In [3]:
# Visualizando os 15 Registros do Dataframe
dsa_df.head(15)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
6,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AR-10002833,Office Supplies,Newell 322,7.28,4.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
8,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-BI-10003910,Office Supplies,DXL Angle-View Binders with Locking Rings by S...,18.504,3.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0


In [4]:
#Identificando a quantidade de nulos e realizado a soma pra identificar o total de nulos de cada coluna do dataframe
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [5]:
# Extraímos a moda da coluna Quantity
moda = dsa_df['Quantidade'].value_counts().index[0]

A moda em Estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados. 

A moda é especialmente útil quando queremos saber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição bimodal (com duas modas).

No entanto, a moda pode não ser tão representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos. Por essa razão, é importante analisar diferentes medidas de tendência central e usar a que melhor se adequa aos objetivos da análise estatística.

In [7]:
# Imprimindo o valor da moda que foi identificado
print(moda)

3.0


In [8]:
# E por fim preenchemos os valores NA com a moda
dsa_df['Quantidade'].fillna(value = moda, inplace = True)

In [9]:
# Verificando se não temos mais dados nulos
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64