"Missing values" são muito comuns, e podem aparecer por qualquer razão.

Por exemplo, se estamos fazendo uma pesquisa e a pessoa não responde uma pergunta, então o 'missing value' é uma omissão.

Se existe outra variáveis que podem ser utilizada para prever o valor que está faltando, então chamamos de **Missing at Random**.
Se não existe nenhuma relação com outra variáveis, então chamamos de **Missing Completely at Random(MCAR).**

Esses são apenas 2 valores, mas existem muito mais. Por exemplo, dados podem estar faltando porque não foram coletados ou porque não faz sentido coletar.

In [2]:
import pandas as pd

In [4]:
# Pandas é ótimo para detectar 'missing values'.
# Embora muitos 'missing values' são frequentemente formatados como NaN,NULL, None ou N/A, as vezes 'missing values'
# não são nomeados tão claramente.
# A função read_csv() tem um parâmetro chamado 'na_values' que nos deixa especificar o formato dos 'missing values'. Permite escalar
# string, lista,ou dicionários.

df=pd.read_csv('datasets/class_grades.csv',na_values=8)
df.head(10)



Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5.0,57.14,34.09,64.38,51.48,52.5
1,,95.05,105.49,67.5,99.07,68.33
2,,83.7,83.17,,63.15,48.89
3,7.0,,,49.38,105.93,80.56
4,,91.32,93.64,95.0,107.41,73.89
5,7.0,95.0,92.58,93.12,97.78,68.06
6,,95.05,102.99,56.25,99.07,50.0
7,7.0,72.85,86.85,60.0,,56.11
8,,84.26,93.1,47.5,18.52,50.83
9,7.0,90.1,97.55,51.25,88.89,63.61


In [5]:
df=pd.read_csv('datasets/class_grades.csv')
df.head()

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,,63.15,48.89
3,7,,,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89


In [48]:
# Podemos utilizar a função isnull() para criar uma máscara booleana de todo o dataframe
mask=df.isnull()
mask.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,True,False,False
3,False,True,True,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,True,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [49]:
# Outra operação importante é a função dropna() que exclui todas as linhas que possuem 'missing values'.
df.dropna().head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61
10,7,80.44,90.2,75.0,91.48,39.72
12,8,97.16,103.71,72.5,93.52,63.33
13,7,91.28,83.53,81.25,99.81,92.22


In [6]:
df

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.50
1,8,95.05,105.49,67.50,99.07,68.33
2,8,83.70,83.17,,63.15,48.89
3,7,,,49.38,105.93,80.56
4,8,91.32,93.64,95.00,107.41,73.89
...,...,...,...,...,...,...
94,8,,103.71,45.00,93.52,61.94
95,7,,80.54,41.25,93.70,39.72
96,8,89.94,102.77,87.50,90.74,87.78
97,7,95.60,76.13,66.25,99.81,85.56


In [50]:
# Podemos notar que as linhas de indices 2,3,7 e 11 sumiram, por exemplo.
# Uma das funções úteis que o Pandas possui que trata de 'missing values' é a função fillna().
# Essa função recebe um número ou parâmetros.

df.fillna('valor faltante')

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,valor faltante,63.15,48.89
3,7,valor faltante,valor faltante,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
...,...,...,...,...,...,...
94,8,valor faltante,103.71,45.0,93.52,61.94
95,7,valor faltante,80.54,41.25,93.7,39.72
96,8,89.94,102.77,87.5,90.74,87.78
97,7,95.6,76.13,66.25,99.81,85.56


In [51]:
df.fillna(0,inplace=True)
df

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.50
1,8,95.05,105.49,67.50,99.07,68.33
2,8,83.70,83.17,0.00,63.15,48.89
3,7,0.00,0.00,49.38,105.93,80.56
4,8,91.32,93.64,95.00,107.41,73.89
...,...,...,...,...,...,...
94,8,0.00,103.71,45.00,93.52,61.94
95,7,0.00,80.54,41.25,93.70,39.72
96,8,89.94,102.77,87.50,90.74,87.78
97,7,95.60,76.13,66.25,99.81,85.56


In [52]:
# As vezes é útil considerar 'missing values' que tem alguma informação.

df=pd.read_csv('datasets/log.csv')
df.head(20)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [53]:
# A primeira coluna é o 'timestamp in the Unix epoch format'. A próxima coluna é o nome do usuário seguido pela página
# da web que eles estão visitando e o vídeo que está sendo reproduzido. Cada linha do dataFrame tem uma 'playback position'.
# E nós podemos ver que a 'playback position' é de 1 em 1, e o 'timestamp' é de 30 em 30 segundos.

# Exceto pelo usuário 'Bob'. Acontece que o usuário 'Bob' pausou sua reprodução, então o tempo aumentou e
# posição da reprodução não mudou.

# Tem muitos 'missing values' nas colunas 'paused' e 'volume'.

In [54]:
# ffil e bfill
# ffill significa 'foward filling' e edita um valor 'na' para uma célula específica com o valor da linha anterior
# bfill signifca 'backward filling' que é o oposto da ffill

# Ambas preenchem os 'missing values' com um valor próximo válido.
# É importante nota que os dados precisam estar em ordem para isso ter o efeito que queremos.

# Em Pandas, podemos ordenar por index ou valor
# Aqui vamos setar o 'time' como index e ordena-lo

df=df.set_index('time')
df=df.sort_index()
df.head(20)

Unnamed: 0_level_0,user,video,playback position,paused,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [55]:
# Podemos ver que os valores do 'time' não são valores únicos. Dois usuários podem utilizar o sistema no mesmo instante.
# Então vamos resetar o index e usar o 'multi-level indexing'.

df=df.reset_index()
df=df.set_index(['time','user'])
df.head(100)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [56]:
# Agora que temos os dados em ordem e indexado apropriadamente, podemos preencher os valores faltantes.

df=df.fillna(method='ffill')
df.head(100)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0
1469974514,cheryl,intro.html,8,False,10.0
1469974524,sue,advanced.html,25,False,10.0
1469974544,cheryl,intro.html,9,False,10.0
1469974554,sue,advanced.html,26,False,10.0
1469974574,cheryl,intro.html,10,False,10.0


### Exemplo genérico

In [57]:
# Podemos também utilizar a função replace()
# Ela nos permite fazer uma substituição por qualquer abordagem: valor-valor,lista,dicionário,regex.
df = pd.DataFrame({'A': [1, 1, 2, 3, 4],
                   'B': [3, 6, 3, 8, 9],
                   'C': ['a', 'b', 'c', 'd', 'e']})
df


Unnamed: 0,A,B,C
0,1,3,a
1,1,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [60]:
# Podemos substituir 1 por 100
df.replace(1,100) #Cópia do DF


Unnamed: 0,A,B,C
0,100,3,a
1,100,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [61]:
# Podemos substituir 1 por 100 e 3 por 300
df.replace([1,3],[100,300])

Unnamed: 0,A,B,C
0,100,300,a
1,100,6,b
2,2,300,c
3,300,8,d
4,4,9,e


In [62]:
# Podemos utilizar regex também
df = pd.read_csv("datasets/log.csv")
df.head(20)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [63]:
# Para substituir usando regex: o primeiro parâmetro é o 'to_replace' que é o padrão que queremos substiuir,
# o segundo é o 'value' que é o que queremos colocar no lugar e precisamos colocar um terceiro parâmetro "regex=True"

#Queremos detectar todas as  paginas html e substituir por 'webpage'
df.replace(to_replace=".*.html$",value="webpage",regex=True)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,webpage,5,False,10.0
1,1469974454,cheryl,webpage,6,,
2,1469974544,cheryl,webpage,9,,
3,1469974574,cheryl,webpage,10,,
4,1469977514,bob,webpage,1,,
5,1469977544,bob,webpage,1,,
6,1469977574,bob,webpage,1,,
7,1469977604,bob,webpage,1,,
8,1469974604,cheryl,webpage,11,,
9,1469974694,cheryl,webpage,14,,
