# Valores ausentes

- No mundo real muitas vezes nos deparamos com dados ausentes ou faltantes ou ausents em nosso dataset, neste notebook iremos ter uma ideia introdutória do que é dados faltantes, e como resolve-los ou ameniza-los, para isso iremos estar utilizando duas técnicas principais.

In [2]:
# Importando a biblioteca

import pandas as pd

In [3]:
data_path = "http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv"

#Importando os dados 

df = pd.read_csv(data_path)
df.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


## Identificando valores ausentes

- Aqui vamos identificar a quantidade de valores ausents ou os famosos `NaN`.

In [4]:
#verificando a quantidade de valores ausentes

df.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

In [5]:
#Verificando a porcetagem de dados ausentes


df.isnull().sum() / df.shape[0]

user_gender       0.001378
user_birthdate    0.000003
user_residence    0.626144
ride_date         0.000000
time_start        0.000000
time_end          0.150650
station_start     0.000000
station_end       0.000000
ride_duration     0.254676
ride_late         0.254676
dtype: float64

## Excluir valores ausentes

- Está é uma primeira opção quando estamos lidando com avalores nulos do tipo `NaN`, no seu DataFrame.

- Entretanto, é importyante sabermos que ela geralmente não é a ideal, pois devido ao valor de uma única célula, iremos eliminar os dados existentes em outras colunas. Esta opção dever ser cosiderado no caso em que a quantidade de dados nulos serem pequenos a ponto de não ter uma representatividade significativa no dataset.

- Agora vamos analisar algumas formas de excluir valores ausentes, vejamos a abaixo:

In [6]:
#Eliminando todos os valores ausentes na coluna user_gender

df_clean = df.dropna(subset=['user_gender'], axis=0)

#Comparando

print(f"Antes: {df.shape}")
print(f"Depois: {df_clean.shape}")

Antes: (287322, 10)
Depois: (286926, 10)


## Preencher valore

- Está geralmente é a oção mais utilizada, pois nos permite que tenhamos dados existente em outras células.

- Entretantanto é comum surgir a seguinte duvida "Qual valor irá substituir o valor ausente". A resposta é que depende.

- Buscando resolver tal problema se desevolveram algumas técnicas uma delas é a utilização de valores mais frquentes, media mediana, e também existem técnicas mais complexas que envolvem até o emprego de algoritmos de Machine Learning cuja a funçãi é dizer qual valor deve usar esse campo.

- Abaixo iremos ver a utilização da mediana para o preenchimento de de campos ausentes da coluna `ride_duration`, utilizando a função `fillna`

In [7]:
# Antes de preenchermos a coluna

df_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration      73064
ride_late          73064
dtype: int64

In [10]:
#Preenchendo os valores ausentes em ride_duration

rd_median = df_clean.ride_duration.median()
df_clean = df_clean.fillna({"ride_duration": rd_median})


#Verificando valores ausentes

df_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration          0
ride_late          73064
dtype: int64

## Importante

- No caso da coluna `user_gender`, temos uma variável categórica. O ideal aqui é utilizarmos o valor mais frequente para o preenchimento dos valores.

In [11]:
#Copiando novamente 
df_clean = df.copy()

df.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

In [12]:
#Verficando o valor mais frequente

df_clean.user_gender.value_counts()

M    212608
F     74318
Name: user_gender, dtype: int64

In [13]:
#Após verificar quais são os valores com maior frquência iremos prencher, neste caso vamos prencher os VF de user_gender com 'M'

df_clean = df_clean.fillna({"user_gender": 'M'})

#Verficando a quantidade de valores ausentes
df_clean.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64