In [1]:
import pandas as pd

In [2]:
data = [0.5, None, None, 0.52, 0.54, None, None, 0.59, 0.6, None, 0.7]
s = pd.Series(data)

In [3]:
s

0     0.50
1      NaN
2      NaN
3     0.52
4     0.54
5      NaN
6      NaN
7     0.59
8     0.60
9      NaN
10    0.70
dtype: float64

### Atribuir valores aos valores nulos

In [7]:
# s.fillna(0)
# 0     0.50
# 1     0.00
# 2     0.00
# 3     0.52
# 4     0.54
# 5     0.00
# 6     0.00
# 7     0.59
# 8     0.60
# 9     0.00
# 10    0.70
# dtype: float64

In [8]:
s.fillna(method = 'ffill') 

0     0.50
1     0.50
2     0.50
3     0.52
4     0.54
5     0.54
6     0.54
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

#### Esses métodos são muito válidos quanto estamos trabalhando com uma série de tempo, em que podemos encontrar dados nulos que podem ser preenchidos de forma rápida, tornando seu modelo executável.

In [9]:
s.fillna(method = 'bfill')

0     0.50
1     0.52
2     0.52
3     0.52
4     0.54
5     0.59
6     0.59
7     0.59
8     0.60
9     0.70
10    0.70
dtype: float64

#### Realiza a mesma análise das assinaturas em uma Series, mas dessa vez de baixo para cima, isto é, do último elemento da Series ao primeiro.

####  Por meio de fillna(), coletaremos a média de todos os valores não-nulos e a usaremos como preenchimento. Para tanto, basta escrever s.mean().

In [10]:
s.fillna(s.mean())

0     0.500
1     0.575
2     0.575
3     0.520
4     0.540
5     0.575
6     0.575
7     0.590
8     0.600
9     0.575
10    0.700
dtype: float64

In [11]:
s.fillna(method = 'ffill', limit = 1)
# Como resultado, veremos que a linha 1, originalmente nula, foi preenchida com o valor de 0, a linha acima. 
# Em 2, o resultado permaneceu nulo, afinal colocamos um limite de interpolação de 1.

0     0.50
1     0.50
2      NaN
3     0.52
4     0.54
5     0.54
6      NaN
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

#### Podemos, ainda, preencher as assinaturas nulas usando ora o valor da linha acima ora o valor da linha abaixo. Armazenaremos nossa Series em s1

In [14]:
s1 = s.fillna(method = 'ffill', limit = 1)
s1

0     0.50
1     0.50
2      NaN
3     0.52
4     0.54
5     0.54
6      NaN
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

In [15]:
s2 = s1.fillna(method = 'bfill', limit = 1)

In [17]:
s2

0     0.50
1     0.50
2     0.52
3     0.52
4     0.54
5     0.54
6     0.59
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

In [18]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [23]:
atletas.fillna(atletas['Melhor Tempo'].mean(), inplace=True)

In [24]:
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.692
2,João,9.69
3,Beto,9.72
4,Sandro,9.692
5,Denis,9.69
6,Ary,9.692
7,Carlos,9.74
