In [2]:
import numpy as np
import pandas as pd

#### Missing Data

<a href = 'https://pandas.pydata.org/docs/user_guide/missing_data.html'>Doc Missing Data</a>

<a href = 'https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/22972338#content'>Aula Introdutoria</a>

Os conjuntos de dados no mundo real geralmente terao dados ausentes, por uma ampla variedade de razoes. Alguns modelos de aprendizados de máquina e métodos estatísticos não podem funcionar sem um dado, ou seja, algum número deve estar lá. 
Por isso aprenderemos agora como lidar com dados ausentes.

Lidar com dados ausentes, não estamos falando em substituir como um valor NaN padrão, mas falamos de substitui-lo como um pandas especializado e uma valor para apenas mostrar o fato de que conhecemos esse dado desaparecido.

Quando lidamos com dados ausentes, devemos nos preocupar com 3 coisas, 3 chamadas de métodos:

- Manter dados;
- Remover os dados;
- Substituir os dados.

Veremos cada um dos métodos usados em Pandas que atendem as preocupações.

In [38]:
df = pd.read_csv('/Users/rosaliolivei/Downloads/UNZIP_FOR_NOTEBOOKS_FINAL/03-Pandas/movie_scores.csv')
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [11]:
#Como verificar e identificar dados ausentes?
#Algumas opções

df.isnull() #retornar True para dados nulos.
df.notnull() #retorna True para dados não nulos.

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,True,True,True,True,True,True
1,False,False,False,False,False,False
2,True,True,True,True,False,False
3,True,True,True,True,True,True
4,True,True,True,True,True,True


In [14]:
#Agora vamos verificar por coluna. E também mais de uma condição. 

df['pre_movie_score'].notnull()

df[df['pre_movie_score'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [15]:
df[(df['pre_movie_score'].isnull()) & (df['first_name'].notnull())]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
2,Hugh,Jackman,51.0,m,,


##### Missing Data Operations

<a href = 'https://meli.udemy.com/course/python-for-machine-learning-data-science-masterclass/learn/lecture/22972340#content'>Aula Missing Operations</a>


##### Método Dropna

<a href = 'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html'> Doc Dropna</a>

Remove qualquer linha que tenha qualquer de seus valores ausentes.
Dica: argumentos thresh, axis(usar = 0 - linhas), subset, etc. 

##### Método Fillna

<a href = 'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html'> Doc Fillna</a>

Preenche os valores NA/NaN usando métodos e valores especificados.
Dica: argumentos thresh, axis(usar = 0 - linhas), subset, etc. 

<b>Pontos de Atenção!!!</b>
Observe a assinatura de cada método para entender todas as nuances do método e do que ele é capaz.

In [24]:
#serao excluidas todos os dados em que possuem qualquer ocorrencia NaN.

df.dropna()

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [17]:
#define o numero de campos que devem possuir valores não nulos, para que sejam apresentados.

df.dropna(thresh = 4)

#Note que Hugh Jackman ainda aparece pois ele possui 4 campos com valores.
#tente executar com thresh = 5

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [18]:
#axis quando escolhido por coluna, ou seja, = 1, eliminara todas as colunas que possuem alguma ocorrencia nula.

df.dropna(axis = 1) #recomendado usar sempre para linhas, = 0.

0
1
2
3
4


In [20]:
#podemos especificar a coluna(subconjunto de valores) que queremos que seja feita a verificação, e somente nela será verificado.

df.dropna(subset=['last_name'])

#teste alterando subset para ['pre_movie_score']

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [28]:
#serao preenchidos todos os valores ausentes pelo especificado.

df.fillna('New Value')

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,New Value,New Value,New Value,New Value,New Value,New Value
2,Hugh,Jackman,51.0,m,New Value,New Value
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0
