## Substituir valores nulos (fillna)

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({ 'produto':['boneca', 'carrinho', 'bola'],
                   'vendas_jan' :[2,4,3],
                   'vendas_fev' :[1,None,2],
                   'preço' :[15.5, 12.4, 10.2]})
df

Unnamed: 0,produto,vendas_jan,vendas_fev,preço
0,boneca,2,1.0,15.5
1,carrinho,4,,12.4
2,bola,3,2.0,10.2


In [4]:
# preenchendo nulos do dataframe todo
df.fillna(value =0)

Unnamed: 0,produto,vendas_jan,vendas_fev,preço
0,boneca,2,1.0,15.5
1,carrinho,4,0.0,12.4
2,bola,3,2.0,10.2


In [6]:
# preenchendo nulos de uma coluna específica
df['vendas_fev'] = df['vendas_fev'].fillna(value = 0)
df

Unnamed: 0,produto,vendas_jan,vendas_fev,preço
0,boneca,2,1.0,15.5
1,carrinho,4,0.0,12.4
2,bola,3,2.0,10.2


### Carregar novo df para outros exemplos

In [9]:
df = pd.DataFrame({ 'nome':['maria', 'bruno', 'carol', np.nan, 'fabiana'],
                   'sexo' : ['F','M','F',None,'F'],
                   'altura' :[1.68, None,1.60, 1.80, 1.55],
                   'peso' :[60, None, None, 84, 75] })
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,,
2,carol,F,1.6,
3,,,1.8,84.0
4,fabiana,F,1.55,75.0


In [8]:
df.isna().sum()

nome      1
sexo      1
altura    1
peso      2
dtype: int64

In [10]:
# nesse novo df não faz sentido preencher todos os nulos da tabela com um mesmo valor
df.fillna(0)

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,0.0,0.0
2,carol,F,1.6,0.0
3,0,0,1.8,84.0
4,fabiana,F,1.55,75.0


#### Preencher valor nulo da coluna nome

In [11]:
# para os nulos da coluna nome, vamos substituir por "anônimo"
df['nome'] = df['nome'].fillna("anônimo")
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,,
2,carol,F,1.6,
3,anônimo,,1.8,84.0
4,fabiana,F,1.55,75.0


#### Preencher valor nulo da coluna altura

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mean.html

In [12]:
# para os nulos da coluna altura, vamos substituir pela média das alturas da coluna
df['altura'].fillna(value = df['altura'].mean())

0    1.6800
1    1.6575
2    1.6000
3    1.8000
4    1.5500
Name: altura, dtype: float64

In [13]:
df['altura'].mean()

1.6575

In [14]:
round(df['altura'].mean(),2)

1.66

In [15]:
df['altura'].fillna(round(df['altura'].mean(),2))

0    1.68
1    1.66
2    1.60
3    1.80
4    1.55
Name: altura, dtype: float64

In [16]:
df['altura'] = df['altura'].fillna(round(df['altura'].mean(),2))
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,1.66,
2,carol,F,1.6,
3,anônimo,,1.8,84.0
4,fabiana,F,1.55,75.0


#### Preencher valor nulo da coluna sexo

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.mode.html

In [None]:
# vamos preencher o nulo da coluna sexo com o valor da moda (ou primeiro valor da moda)

In [17]:
moda = pd.Series(['amarelo','azul','amarelo','vermelho','amarelo','azul','azul','preto','preto',
                        'verde'], name = 'cor do vestido')
moda

0     amarelo
1        azul
2     amarelo
3    vermelho
4     amarelo
5        azul
6        azul
7       preto
8       preto
9       verde
Name: cor do vestido, dtype: object

In [18]:
# ao pedir o moda de uma coluna, o retorno é uma series (coluna)
moda.mode()

0    amarelo
1       azul
Name: cor do vestido, dtype: object

In [19]:
# para selecionar uma linha específica da coluna, passamos a posição da linha
moda.mode()[0]

'amarelo'

#### voltando para nosso df, vamos ver a moda da coluna sexo

In [20]:
df['sexo'].mode()

0    F
Name: sexo, dtype: object

In [21]:
df['sexo'].mode()[0]

'F'

In [23]:
# vamos substituir o nulo da coluna sexo pelo primeiro valor da moda da coluna
df['sexo'].fillna(df['sexo'].mode()[0])

0    F
1    M
2    F
3    F
4    F
Name: sexo, dtype: object

In [24]:
df['sexo'] = df['sexo'].fillna(df['sexo'].mode()[0])
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,1.66,
2,carol,F,1.6,
3,anônimo,F,1.8,84.0
4,fabiana,F,1.55,75.0


#### Preencher valores nulos da coluna peso

‘pad’ or ‘ffill’ (forward fill), ‘bfill’ or ‘backfill’ (backward fill)

In [25]:
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,1.66,
2,carol,F,1.6,
3,anônimo,F,1.8,84.0
4,fabiana,F,1.55,75.0


In [26]:
# preencher valures nulos da coluna peso com o último valor não nulo antes dos nulos
df['peso'].fillna(method = 'ffill')

0    60.0
1    60.0
2    60.0
3    84.0
4    75.0
Name: peso, dtype: float64

In [27]:
df['peso']

0    60.0
1     NaN
2     NaN
3    84.0
4    75.0
Name: peso, dtype: float64

In [28]:
# preencher valures nulos da coluna peso com o próximo valor não nulo depois dos nulos
df['peso'].fillna(method = 'bfill')

0    60.0
1    84.0
2    84.0
3    84.0
4    75.0
Name: peso, dtype: float64

In [29]:
df['peso'].fillna(method = 'ffill', limit =1)

0    60.0
1    60.0
2     NaN
3    84.0
4    75.0
Name: peso, dtype: float64

In [30]:
df['peso'].fillna(method = 'bfill', limit =1)

0    60.0
1     NaN
2    84.0
3    84.0
4    75.0
Name: peso, dtype: float64

In [32]:
df['peso'].fillna(method = 'ffill', limit =1).fillna(method = 'bfill', limit =1)

0    60.0
1    60.0
2    84.0
3    84.0
4    75.0
Name: peso, dtype: float64

In [33]:
df['peso'] = df['peso'].fillna(method = 'ffill', limit =1).fillna(method = 'bfill', limit =1)
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,1.66,60.0
2,carol,F,1.6,84.0
3,anônimo,F,1.8,84.0
4,fabiana,F,1.55,75.0


### Fazer todas essas alterações de uma vez, usando o fillna para o dataframe

In [34]:
df = pd.DataFrame({ 'nome':['maria', 'bruno', 'carol', None, 'fabiana'],
                   'sexo' : ['F','M','F',None,'F'],
                   'altura' :[1.68, None,1.60, 1.80, 1.55],
                   'peso' :[60, None, None, 84, 75] })
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,,
2,carol,F,1.6,
3,,,1.8,84.0
4,fabiana,F,1.55,75.0


In [36]:
df = df.fillna(value = {
    'nome' : df['nome'].fillna("anônimo"), # valor único
    'sexo' : df['sexo'].mode()[0], # moda dos valores da coluna (primeiro valor)
    'altura' : df['altura'].mean(), # média dos valores da coluna
    'peso' : df['peso'].fillna(method = 'ffill', limit =1).fillna(method = 'bfill', limit =1) # valores anteriores e posteriores
    
})
df

Unnamed: 0,nome,sexo,altura,peso
0,maria,F,1.68,60.0
1,bruno,M,1.6575,60.0
2,carol,F,1.6,84.0
3,anônimo,F,1.8,84.0
4,fabiana,F,1.55,75.0


### Mais um dataframe de exemplo

In [37]:
# abrir arquivo excel para mostrar outro exemplo do uso do forward fill

ex = pd.read_excel('fillna.xlsx')
ex

Unnamed: 0,sexo,nome,altura,peso,idade
0,Feminino,Luana,1.67,85.0,73
1,,MARIA,1.54,55.5,50
2,,Zuleide,1.54,63.0,31
3,,Ana Cristina,1.64,78.6,35
4,,aurora,1.76,65.0,19
5,,Catarina,1.62,78.4,20
6,,Vitória,1.72,60.0,60
7,,Gabriela,1.73,50.0,35
8,,Catarina,1.62,85.0,48
9,,Cecília,1.66,79.4,44


In [38]:
ex['sexo'].fillna(method = 'ffill')

0      Feminino
1      Feminino
2      Feminino
3      Feminino
4      Feminino
5      Feminino
6      Feminino
7      Feminino
8      Feminino
9      Feminino
10    Masculino
11    Masculino
12    Masculino
13    Masculino
14    Masculino
15    Masculino
16    Masculino
Name: sexo, dtype: object

In [39]:
ex['sexo'] = ex['sexo'].fillna(method = 'ffill')
ex

Unnamed: 0,sexo,nome,altura,peso,idade
0,Feminino,Luana,1.67,85.0,73
1,Feminino,MARIA,1.54,55.5,50
2,Feminino,Zuleide,1.54,63.0,31
3,Feminino,Ana Cristina,1.64,78.6,35
4,Feminino,aurora,1.76,65.0,19
5,Feminino,Catarina,1.62,78.4,20
6,Feminino,Vitória,1.72,60.0,60
7,Feminino,Gabriela,1.73,50.0,35
8,Feminino,Catarina,1.62,85.0,48
9,Feminino,Cecília,1.66,79.4,44


### preencher nulos ao longo das linhas

In [42]:
vendas = pd.DataFrame({ 'produto':['boneca', 'carrinho', 'bola'],
                   'vendas_jan' :[12,7,300],
                   'vendas_fev' :[24,None,None],
                   'vendas_mar' :[36,5,None],   
                   'vendas_abr' :[None,3,405], 
                   'preço' :[15.5, 12.4, 10.2]})
vendas

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12,24.0,36.0,,15.5
1,carrinho,7,,5.0,3.0,12.4
2,bola,300,,,405.0,10.2


In [43]:
vendas.fillna(method ='ffill', axis =1)

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12,24.0,36.0,36.0,15.5
1,carrinho,7,7.0,5.0,3.0,12.4
2,bola,300,300.0,300.0,405.0,10.2


In [44]:
# colocando o bfill acontece algo incorreto nesse caso
vendas.fillna(method ='bfill', axis =1)

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12,24.0,36.0,15.5,15.5
1,carrinho,7,5.0,5.0,3.0,12.4
2,bola,300,405.0,405.0,405.0,10.2


In [45]:
# devemos então selecionar apenas as colunas corretas
vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']].fillna(method ='bfill', axis =1)

Unnamed: 0,vendas_jan,vendas_fev,vendas_mar,vendas_abr
0,12.0,24.0,36.0,
1,7.0,5.0,5.0,3.0
2,300.0,405.0,405.0,405.0


In [46]:
(
 vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']]
 .fillna(method ='bfill', axis =1) # usou o próximo valor não nulo
 .fillna(method = 'ffill', axis = 1) # usou o valor anterior não nulo
)

Unnamed: 0,vendas_jan,vendas_fev,vendas_mar,vendas_abr
0,12.0,24.0,36.0,36.0
1,7.0,5.0,5.0,3.0
2,300.0,405.0,405.0,405.0


In [47]:
vendas

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12,24.0,36.0,,15.5
1,carrinho,7,,5.0,3.0,12.4
2,bola,300,,,405.0,10.2


### exemplo com média da linha

In [48]:
vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']].mean(axis = 1)

0     24.0
1      5.0
2    352.5
dtype: float64

In [49]:
vendas['vendas_fev'].fillna(vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']].mean(axis = 1))

0     24.0
1      5.0
2    352.5
Name: vendas_fev, dtype: float64

In [50]:
# vamos usar o método bfill para as colunas de jan/fev/mar e para a de abril usar a média
vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']] = vendas[['vendas_jan', 'vendas_fev', 'vendas_mar', 'vendas_abr']].fillna(method ='bfill', axis =1)
vendas

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12.0,24.0,36.0,,15.5
1,carrinho,7.0,5.0,5.0,3.0,12.4
2,bola,300.0,405.0,405.0,405.0,10.2


In [51]:
vendas['vendas_abr'] =vendas['vendas_abr'].fillna(vendas[['vendas_jan', 'vendas_fev', 'vendas_mar']].mean(axis = 1))
vendas

Unnamed: 0,produto,vendas_jan,vendas_fev,vendas_mar,vendas_abr,preço
0,boneca,12.0,24.0,36.0,24.0,15.5
1,carrinho,7.0,5.0,5.0,3.0,12.4
2,bola,300.0,405.0,405.0,405.0,10.2
