<a href="https://colab.research.google.com/github/medeirosleandro/portifolio_data_science/blob/main/Tratando_dados_Ausentes_no_DataFrame.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
DATA_PATH = 'http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv'

In [2]:
#importando Pandas
import pandas as pd

In [3]:
#importar o dataset
arquivo = pd.read_csv(DATA_PATH)

In [4]:
#Checando as 5 primeiras entradas
arquivo.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


**OBS:** Note que a coluna **user_residence** possui valores **NaN** em algumas células, não necessáriamente estão vazios, podem ser valores corrompidos ou preenchidos fora do padrão da coluna.

###Abaixo podemos verificar através de Operadores Booleanos os campos **NaN**, onde **TRUE** informa que o campo é NaN, usando o método **.isnull()** 

In [6]:
arquivo.isnull().head()
#Para 5 primeiras entradas para facilitar a visualização, neste caso.

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,False,False,True,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False
2,False,False,True,False,False,False,False,False,False,False
3,False,False,True,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False


In [9]:
#Obtendo a quantidade de valores ausentes em cada coluna do DataFrame
arquivo.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

In [16]:
#Quantidade dos valores ausentes em porcentagem
#Dividindo a quantidade de valores NaN pelo total de linhas do DataFrame.
arquivo.isnull().sum() / arquivo.shape[0]

user_gender       0.001378
user_birthdate    0.000003
user_residence    0.626144
ride_date         0.000000
time_start        0.000000
time_end          0.150650
station_start     0.000000
station_end       0.000000
ride_duration     0.254676
ride_late         0.254676
dtype: float64

##O que fazer com os campos **NaN**?

####**Excluir** tende não ser a opção ideal, já que excluindo uma célula, os dados de outras colunas também são eliminados. Essa opção dever ser muito bem avaliada, com base nos impactos no DataFrame.Para que o Pandas saiba se a sua inteção é de eliminar linhas (axis=0) ou colunas (axis=1), você deve informar dentro do método **dropna()**.

####**Preencher** é uma boa alternativa, pois permite manter os dados exsitentes em outras células. Mas a pergunta de um milhão de dólares é **"Preencho com qual valor?"** E a resposta é: **"DEPENDE"** rs. Exisem algumas técnicas para preenchimento, como: Valor mais frequente, media, mediana e até tecnicas mais avançadas usando Machine Learning.

#**Excluir**

In [17]:
#Excluir todas as entradas onde existam valore NaN na coluna user_gender
arquivo_clean = arquivo.dropna(subset=['user_gender'],axis=0)

#Comparar ANTES e DEPOIS
print("ANTES:\t{}".format(arquivo.shape))
print("DEPOIS:\t{}".format(arquivo_clean.shape))

ANTES:	(287322, 10)
DEPOIS:	(286926, 10)


In [22]:
#Antes user_gender possuia 396 entradas NaN
arquivo.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

In [23]:
#Depois user_gender com 0 entradas NaN
arquivo_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration      73064
ride_late          73064
dtype: int64

#**Preencher**
Preenchendo os campos NaN da coluna **ride_duration**, usando a função **fillna()**

In [24]:
#ANTES
arquivo_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration      73064
ride_late          73064
dtype: int64

In [30]:
#Preencher os valores ausentes na coluna ride_duration com a mediana
ride_duration_median = arquivo_clean.ride_duration.median()
arquivo_clean = arquivo_clean.fillna({'ride_duration':ride_duration_median})

#DEPOIS
arquivo_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration          0
ride_late          73064
dtype: int64

###Na coluna **user_gender** temos uma [variável categórica](https://pt.wikipedia.org/wiki/Vari%C3%A1vel_categ%C3%B3rica), vamos usar o valor mais frequente para o preenchimento dos campos ausentes.

In [32]:
#Fazer uma copia do DataFrame original para este teste
arquivo_clean = arquivo.copy()

In [37]:
#Valores mais frenquente
arquivo_clean.user_gender.value_counts()

M    212608
F     74318
Name: user_gender, dtype: int64

In [38]:
#Preencher os valores ausentes em user_gender com a opção M
arquivo_clean = arquivo_clean.fillna({'user_gender':'M'})

In [41]:
#Verificar valores ausente após o preenchimento
arquivo_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

##Conclusão:
Ao lidar com base de dados, podemos nos deparar com dados ausentes nas células, cabe ao Cientista de Dados, avaliar a melhor tratativa e seus impactos. Acima foram realizadas ações de **Exclusão** da Entrada **NaN** no DataFrame, procedimento bem delicado, pois envolve a perda de informações em outras colunas, o que pode ou não comprometer a Análise, dependendo do contexto. Foi feito também o **Preenchimento** com base em Mediana e Valores Frequentes.
