<a href="https://colab.research.google.com/github/Nathan-oc/Estudos-DSNP/blob/main/Valores_Ausentes_R%C3%89PLICA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Considerações

Esse notebook é uma réplica do notebook disponibilizado pelo professor Carlos Melo. 

# Valores Ausentes

Em problemas do mundo real é bem comum o trabalhar com dados incompletos ou valores ausentes. 

Muitas vezes esses dados são preenchidos por pessoas manualmente. Ou há casos em que tinha uma série histórica de dados e em determinado momento alguém resolveu adicionar um novo atributo. 

E saber o que fazer com esses dados é de extrema importância para o analista ou cientista de dados. Há diversas técnicas para lidar com esses dados e aqui vou mostrar as duas principais e mais básicas abordagens.

Vou primeiro importar a biblioteca e a base de dados.

In [22]:
import pandas as pd

df = pd.read_csv("http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv")

df.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


## Identificando valores ausentes

É indispensável identificar a quantidade de valores ausentes e sua representatividade frente ao total de entradas.

In [2]:
df.isnull().sum()

user_gender          396
user_birthdate         1
user_residence    179905
ride_date              0
time_start             0
time_end           43285
station_start          0
station_end            0
ride_duration      73174
ride_late          73174
dtype: int64

In [4]:
df.isnull().sum() / df.shape[0]

user_gender       0.001378
user_birthdate    0.000003
user_residence    0.626144
ride_date         0.000000
time_start        0.000000
time_end          0.150650
station_start     0.000000
station_end       0.000000
ride_duration     0.254676
ride_late         0.254676
dtype: float64

## Excluir valores ausentes

É a primeira opção para lidar com dados incompletos.

Apesar de ser a primeira, não é a opção ideal pois é perdido diversos dados apenas por uma única célula e só deve ser considerada quando o número de entradas ausentes é irrelevante em relação ao total de entradas.

Pode ser excluído tanto as observações (linhas) que possuam valores faltantes quanto os atributos (colunas) com valores ausentes.

In [5]:
# eliminar linhas que possuam valores ausentes em 'user_gender'
df_rows_drop = df.dropna(subset=['user_gender'], axis = 0)

df_rows_drop.isnull().sum()

user_gender            0
user_birthdate         1
user_residence    179818
ride_date              0
time_start             0
time_end           43212
station_start          0
station_end            0
ride_duration      73064
ride_late          73064
dtype: int64

In [6]:
# eliminar todas as colunas que possuam valores ausentes
df_col_drop = df.dropna(axis=1)

df_col_drop.isnull().sum()

ride_date        0
time_start       0
station_start    0
station_end      0
dtype: int64

## Preencher valores 

Essa é normalmente a melhor opção e mais utiizada, pois permite que mantenha dados existentes em outras células. 

Existem técnicas que substituem os valores ausentes pela mediana, média ou moda. Há também o uso de interpolação. E algumas técnicas mais complexas envolvem o uso de modelos de Machine Learning para descobrir qual é o melhor valor para usar nesses campos.

Vou preencher o campo `ride_duration` pela mediana da coluna.





In [7]:
rd_mediana = df.ride_duration.median()
df.ride_duration.fillna(rd_mediana, inplace=True)

df.ride_duration.isnull().sum()

0

No caso de `user_gender` a variável é categórica, então uma técnica bem utilizada é tomar a moda da coluna. 

In [39]:
ug_moda = df.user_gender.value_counts(ascending=False).index[0]
df.user_gender.fillna(ug_moda, inplace = True)
df.user_gender.isnull().sum()

0

In [42]:
ug2_moda = df.user_gender.mode()[0]
ug_moda == ug2_moda

True