In [5]:
import pandas as pd
data = [0.5, None, None, 0.52, 0.54, None, None, 0.59, 0.6, None, 0.7]
s = pd.Series(data)
s

0     0.50
1      NaN
2      NaN
3     0.52
4     0.54
5      NaN
6      NaN
7     0.59
8     0.60
9      NaN
10    0.70
dtype: float64

In [6]:
s.fillna(0) #Usaremos o método fillna() para atribuir valores aos campos nulos. Neste caso, o valor que distribuiremos será 0.

0     0.50
1     0.00
2     0.00
3     0.52
4     0.54
5     0.00
6     0.00
7     0.59
8     0.60
9     0.00
10    0.70
dtype: float64

Existem outros métodos para realizarmos a interpolação, um deles é o ffill(). Esse método, analisa a Series do primeiro elemento ao último, e uma vez que for encontrada um valor nulo, ele coletará o valor da última assinatura válida. Vamos entender melhor como isso se dá, escreveremos: 

In [4]:
s.fillna(method = 'ffill')

0     0.50
1     0.50
2     0.50
3     0.52
4     0.54
5     0.54
6     0.54
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

Como resultado, teremos a Series com as assinaturas nulas preenchidas com o os valores do elemento anterior. Então se a linha 1, era nula, agora ela utiliza o valor da linha 0. Esses métodos são muito válidos quanto estamos trabalhando com uma série de tempo, em que podemos encontrar dados nulos que podem ser preenchidos de forma rápida, tornando seu modelo executável. 

Outro método que conheceremos é o bfill(), que por sua vez realiza a mesma análise das assinaturas em uma Series, mas dessa vez de baixo para cima, isto é, do último elemento da Series ao primeiro. Vamos aplicá-lo: 

In [7]:
s.fillna(method = 'bfill')

0     0.50
1     0.52
2     0.52
3     0.52
4     0.54
5     0.59
6     0.59
7     0.59
8     0.60
9     0.70
10    0.70
dtype: float64

Podemos, inclusive, não utilizar método algum para realizar uma interpolação. Por meio de fillna(), coletaremos a média de todos os valores não-nulos e a usaremos como preenchimento. Para tanto, basta escrever s.mean().

In [8]:
s.fillna(s.mean())

0     0.500
1     0.575
2     0.575
3     0.520
4     0.540
5     0.575
6     0.575
7     0.590
8     0.600
9     0.575
10    0.700
dtype: float64

# MUITO IMPORTANTE - USO DE SÉRIES TEMPORAIS
Imagine que tenhamos 5 linha sucessivas com valor nulo, caso utilizemos algum método de interpolação, esse valor será repetido e teremos um resultado ruim. Dessa maneira, recorrer ao uso de recursos outros.

Existe outro parâmetro que pode nos ajudar a não cometer esse tipo de erro no banco de dados. Primeiramente chamaremos nossa Series s, em seguida adicionaremos o método ffill, seguido do parâmetro limit, que receberá como valor 1.

In [9]:
s.fillna(method = 'ffill', limit = 1)

0     0.50
1     0.50
2      NaN
3     0.52
4     0.54
5     0.54
6      NaN
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

In [22]:
s1 = s.fillna(method = 'ffill', limit = 1)
s1

0     0.50
1     0.50
2      NaN
3     0.52
4     0.54
5     0.54
6      NaN
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

In [23]:
s1.fillna(method = 'bfill', limit = 1)

0     0.50
1     0.50
2     0.52
3     0.52
4     0.54
5     0.54
6     0.59
7     0.59
8     0.60
9     0.60
10    0.70
dtype: float64

# Exemplo


In [24]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


Note que o tempo de alguns atletas não foi registrado por algum erro no processo de medição. Observando os dados e tendo um conhecimento prévio do desempenho de cada atleta, você, como cientista de dados, resolve que é razoável para este caso específico atribuir o tempo médio de todos os atletas aos dados faltantes. Como você corrigiria isso?

In [27]:
atletas.fillna(atletas["Melhor Tempo"].mean(), inplace = True)
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.692
2,João,9.69
3,Beto,9.72
4,Sandro,9.692
5,Denis,9.69
6,Ary,9.692
7,Carlos,9.74
