<a href="https://colab.research.google.com/github/jonhsel/Data-Science/blob/master/Valores_Ausentes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#VALORES AUSENTES

Ao se trabalhar com Datasets conseguidos de órgãos públicos, governos e empresas, tenha em mente que raramente esses conjuntos de dados virão perfeitos. 

Algumas vezes podem ocorrer valores faltantes, a representação de nulo (0) poderá vir das mais diversas formas, uma coluna que não existia no começo, quando os dados começaram a serem colecionados, apareceu depois da troca de gestores (estes resolveram colocá-la) e muitas outras situações. Pois bem, isso acontece e acontece muito,  gerando a necessidade de adequação desses dados.

Para resolver o problema, utilizamos diversas técnicas, como será apresentado nas próximas seções.

#DADOS UTILIZADOS

Utilizaremos o dataset do projeto BIKE, disponível na URL abaixo.

In [2]:
DATA_PATH = "http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv"

#importando as bibliotecas
import pandas as pd

#Criando o DF (data frame) a partir do csv
df = pd.read_csv(DATA_PATH)

#verificando os dados
df.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


Notamos, de cara, a  existência de valore ausentes na coluna `user_residence`, os valores `NaN`.

Vamos analisar a existência a existência ou inexistência de mais dados.

No primeiro momento, vamos utilizar o método `isnull()` que nos retornará como:
* `True` os valore ausentes;
* `False` os valores não nulos.



In [3]:
#verificando os valores ausentes
df.isnull()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,False,False,True,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False
3,False,False,True,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...
287317,False,False,False,False,False,False,False,False,False,False
287318,False,False,True,False,False,False,False,False,False,False
287319,False,False,False,False,False,False,False,False,False,False
287320,False,False,True,False,False,False,False,False,False,False


Constatamos a existência de mais valores ausentes, porém a visualização se mostra um pouco confusa.

Como os dados faltantes são retornados como True, o interpretador o entende como 1, assim, uma solução é realizar uma agregação, um somatório. 

In [4]:
#somando os valores ausentes
df.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

Percebe-se que existem muitos valores ausentes. Veremos alguns:
* `user_gender` - Faltam 396 campos;
* `user_residence` - Faltam 179905 campos;

Outra prática é realizar o cálculo percentual, dividindo os valores obtidos pelo total de dados.

In [5]:
df.isnull().sum() / df.shape[0] * 100

user_gender        0.137824
user_birthdate     0.000348
user_residence    62.614419
ride_date          0.000000
time_start         0.000000
time_end          15.064979
station_start      0.000000
station_end        0.000000
ride_duration     25.467594
ride_late         25.467594
dtype: float64

#EXCLUSÃO DE VALORES

Umas das alternativas é a exclusão dos valores ausentes do DataFrame.

O método `dropna()` remove valores faltantes. Ele aceita como parâmetros:
* `axis=0 ` - para eliminar os valores nas linhas;
* `axis=1`  - para eliminar colunas.

In [6]:
#eliminando os valores ausentes
df_clean = df.dropna(subset=['user_gender'], axis=0)

#comparar resultados
print("Antes:\t{}".format(df.shape[0]))
print("Depois:\t{}".format(df_clean.shape[0]))

Antes:	287322
Depois:	286926


#PREENCHIMENTO DE VALORES

Outra solução é o preenchimento de valores com um valor unitário ou com uma média, mediana...

In [7]:
#Visualização dos dados ausentes

df_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration      73064
ride_late          73064
dtype: int64

In [0]:
#criar vaiavel re-median para receber a mediana
rd_median = df_clean.ride_duration.median()

#subitituir a variavel pelos valores da mediana
df_clean = df_clean.fillna({'ride_duration': rd_median})

Verificando novamente,notamos que os valores foram preenchidos.

In [11]:
df_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration          0
ride_late          73064
dtype: int64