### Detectando valores ausentes

Uma vez que cada conjunto de dados terá seus próprios problemas que precisam ser resolvidos. Estaremos usando conjuntos de dados diferentes para explicar os diferentes conceitos por trás da limpeza de dados. Como cientista de dados, 80% do seu tempo será gasto na limpeza de dados, o que às vezes pode ser muito frustrante. É também o processo que será diferente a cada vez que você fizer isso.

A primeira etapa para qualquer limpeza de dados é encontrar e lidar com quaisquer valores ausentes. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('property_data.csv')

df.head(10)

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3,1,1000
1,100002000.0,197.0,LEXINGTON,N,3,1.5,--
2,100003000.0,,LEXINGTON,N,,1,850
3,100004000.0,201.0,BERKELEY,12,1,,700
4,,203.0,BERKELEY,Y,3,2,1600
5,100006000.0,207.0,BERKELEY,Y,,1,800
6,100007000.0,,WASHINGTON,,2,HURLEY,950
7,100008000.0,213.0,TREMONT,Y,1,1,
8,100009000.0,215.0,TREMONT,Y,na,2,1800


Este é um conjunto de dados bastante pequeno com o qual estamos começando, mas você já pode ver que tem alguns problemas. A primeira etapa é tentar descobrir o que cada coluna significa e o que você deve esperar que as colunas sejam.

     ST_NUM: soa como o número da rua e deve ser um tipo de dado numérico
     ST_NAME: nome da rua? Deve ser uma string
     OWN_OCCUPIED: A residência está ocupada ou não? Deve ser algum tipo de valor booleano
     NUM_BEDROOMS: o número de quartos. Este também deve ser um tipo de dado numérico

Você pode fazer isso para todas as colunas. Às vezes, o conjunto de dados pode ser muito grande e você pode não ser capaz de olhar para cada coluna, então você precisa agrupar algumas colunas e analisá-las lentamente. Independentemente disso, você deve saber o que cada coluna em seu conjunto de dados representa e qual deve ser o tipo de dados 

## Valores padrão ausentes 

Você notará que existem alguns valores no DataFrame que são NaN. Isso ocorre porque se houver um valor ausente no arquivo CSV, ou se o valor for NA, o Pandas automaticamente infere que é um valor ausente e o preenche com NaN. NaN significa não um número. Vejamos a soma de todos os valores ausentes em cada coluna usando a seguinte função 

#### 1. Cheque quantos valores nuloes existem em cada coluna

In [3]:
#coloque aqui o resultado
df.isnull().sum()

PID             1
ST_NUM          2
ST_NAME         0
OWN_OCCUPIED    1
NUM_BEDROOMS    2
NUM_BATH        1
SQ_FT           1
dtype: int64

Se você olhar de perto, verá que há mais problemas aqui. Vamos tentar mergulhar um pouco mais fundo em alguns deles. A melhor maneira de começar a explorar os diferentes problemas é tentar descobrir quais são os diferentes valores em cada coluna. Uma boa maneira de fazer isso é usar a função `.value_counts()` para descobrir quais valores únicos estão em cada coluna. O parâmetro dropna controla se irá descartar os valores NaN ou não. Já que queremos vê-los, vamos torná-lo falso 

#### 2. Use a função `value_counts()` em cada coluna do dataframe

In [4]:
#coloque aqui o resultado

In [5]:
#exemplo de resposta abaixo:
df['ST_NUM'].value_counts(dropna=False)

NaN      2
215.0    1
213.0    1
207.0    1
203.0    1
201.0    1
197.0    1
104.0    1
Name: ST_NUM, dtype: int64

Você deve ter encontrado outros três problemas. Embora o Pandas tenha captado dois valores NaN, há outro valor "na", que deveria ter captado como um valor NaN, mas não foi. Este é o problema número 2 que precisamos consertar. O problema três é o fato do número de banheiros ser "HURLEY". E o último problema é encontrado, há um valor - que também deve ser considerado um valor NaN. 

#### 3. Transforme todos os valores "errados" ou sem sentido em `NaN`

O objetivo aqui é ter certeza de que todos os valores que deveriam ser NaN, são realmente NaN, podemos fazer isso pela seguinte célula de código. 

In [6]:
# Defina uma lista de maneiras extras de escrever valores ausentes 
missing_values = ["na", "--"]

# Use o parâmetro na_values para dizer aos Pandas quais são os valores perdidos extras 
df = pd.read_csv('property_data.csv', na_values = missing_values)

#### 4. Jogue fora todos os valores ausentes e cheque se isso faz sentido

In [7]:
df_nan_dropped = df.dropna()
df_nan_dropped

Unnamed: 0,PID,ST_NUM,ST_NAME,OWN_OCCUPIED,NUM_BEDROOMS,NUM_BATH,SQ_FT
0,100001000.0,104.0,PUTNAM,Y,3.0,1,1000.0
