<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Lidando com Dados Ausentes

Ao analisar nossos dados, é comum nos depararmos com dados ausentes. Por mais bem elaborado e executado que o plano de aquisição de dados seja, sempre vai estar sujeito ao erro humano, ou falhas de armazenamento, ou qualquer outro tipo de acontecimento que comprometa a qualidade dos dados.

<center><img width="45%" src="https://image.freepik.com/free-photo/hand-connecting-puzzle-pieces-table-background_1150-17552.jpg"></center>

Devido à sua recorrência, é necessário que saibamos como agir, e estejamos preparados para lidar com esse tipo de problema com bastante cautela.

É extremamente importante se atentar que qualquer tipo de mudança realizada por nós sobre os dados pode acarretar efeitos diversos sobre a qualidade dos dados, desde a melhora deles, como fizemos em aulas anteriores, mas aqui, ao lidar com dados ausentes, uma das opções é o preenchimento dessas entradas nulas com valores estatísticamente relevantes.

Qualquer mudança realizada sobre os dados cria um viés sobre os mesmos, o que pode ser prejudicial ao projeto, caso não seja feito de forma correta. Por isso atenção e cuidado.

## Os Dados

Utilizaremos mais de um conjunto de dados nesse projeto, mas o primeiro deles será sobre dados da violência no Rio De Janeiro.


<p align="center"><img src="https://image.freepik.com/free-vector/brazilian-carnival-concept-with-dancing-people-nature_1284-27444.jpg", width="50%"></p>


Esse conjunto de dados é interessante pois está organizado em números de crimes por mês, desde janeiro de 1991, mas alguns dos crimes só começaram a ser registrados algum tempo depois, como veremos abaixo.

In [59]:
# importando pandas
import pandas as pd

# importando os dados
df = pd.read_csv('https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/violencia_rio.csv', sep=',')

# verificando as primeiras entradas
df.head()


Unnamed: 0,vano,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
0,1991,1,657,,15,,162,3051,,,...,,217,,,,672,1348,1174,,3
1,1991,2,732,,17,,175,3421,,,...,,209,,,,749,1395,1097,,3
2,1991,3,713,,25,,216,3613,,,...,,188,,,,738,1385,1265,,3
3,1991,4,634,,20,,200,3211,,,...,,140,,,,654,1540,1415,,3
4,1991,5,650,,20,,146,3051,,,...,,78,,,,670,1266,1449,,3


In [60]:
# verificando o final do dataset
df.tail()

Unnamed: 0,vano,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
339,2019,4,360,1.0,11,124.0,466,5573,483.0,172.0,...,408.0,22,3.0,1.0,0.0,496,11040,3755,67797.0,3
340,2019,5,345,2.0,15,172.0,478,4958,465.0,145.0,...,390.0,20,1.0,0.0,0.0,534,11384,3649,68336.0,3
341,2019,6,332,3.0,8,153.0,436,4769,414.0,152.0,...,403.0,20,1.0,3.0,0.0,496,9551,3115,61202.0,3
342,2019,7,309,5.0,10,194.0,399,4740,402.0,140.0,...,400.0,32,7.0,0.0,0.0,518,10071,3198,65817.0,2
343,2019,8,318,1.0,6,170.0,457,4760,460.0,156.0,...,367.0,27,8.0,2.0,0.0,495,9912,3181,65285.0,2


## Como lidar com Dados Ausentes

A resposta é: **Depende!**

Que tipo de dado está ausente? Em qual proporção? De forma aleatória? Todos esses são aspectos que precisamos levar em consideração ao tratar dados ausentes.

Tomando os dados do RJ como exemplo, vemos que temos algumas colunas com quase todos os dados ausentes, mas qual o motivo disso? De onde esses dados são extraídos e qual o processo de coleta deles? Dados ausentes implicam algum significado?

Nesse caso, nossa teoria mais predominante é que os dados não começaram a ser registrados até uma determinada data, e após isso, a coleta foi feita de forma efetiva.

In [61]:
# verificando número de linhas
df.shape[0]

344

In [62]:
# verificando soma de valores ausentes no dataset
df.isnull().sum()

vano                            0
mes                             0
hom_doloso                      0
lesao_corp_morte               96
latrocinio                      0
hom_por_interv_policial        84
tentat_hom                      0
lesao_corp_dolosa               0
estupro                       144
hom_culposo                    84
lesao_corp_culposa             96
roubo_comercio                  0
roubo_residencia                0
roubo_veiculo                   0
roubo_carga                     0
roubo_transeunte                0
roubo_em_coletivo               0
roubo_banco                     0
roubo_cx_eletronico           144
roubo_celular                 108
roubo_conducao_saque          144
roubo_apos_saque              144
roubo_bicicleta               276
outros_roubos                   0
total_roubos                    0
furto_veiculos                  0
furto_transeunte                0
furto_coletivo                144
furto_celular                 144
furto_biciclet

In [63]:
# verificando o index do dataset
df.head()

Unnamed: 0,vano,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
0,1991,1,657,,15,,162,3051,,,...,,217,,,,672,1348,1174,,3
1,1991,2,732,,17,,175,3421,,,...,,209,,,,749,1395,1097,,3
2,1991,3,713,,25,,216,3613,,,...,,188,,,,738,1385,1265,,3
3,1991,4,634,,20,,200,3211,,,...,,140,,,,654,1540,1415,,3
4,1991,5,650,,20,,146,3051,,,...,,78,,,,670,1266,1449,,3


In [64]:
# agrupado por ano os dados faltantes do dataset
df.set_index('vano').isnull().sum(level=0)

  


Unnamed: 0_level_0,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,lesao_corp_culposa,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
vano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1991,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1992,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1993,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1994,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1995,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1996,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1997,0,0,12,0,12,0,0,12,12,12,...,12,0,12,12,12,0,0,0,12,0
1998,0,0,12,0,0,0,0,12,0,12,...,12,0,12,12,12,0,0,0,12,0
1999,0,0,0,0,0,0,0,12,0,0,...,12,0,12,12,12,0,0,0,0,0
2000,0,0,0,0,0,0,0,12,0,0,...,12,0,12,12,12,0,0,0,0,0


## Tratando os Dados

No caso desse conjunto de dados específico, o ideal é analisar os dados apenas do período em que se tem dados. Especialmente em algumas variáveis onde o volume é muito grande, qualquer tipo de preenchimento poderia enviesar os dados de forma que a análise deixasse de ser relevante.

Para outros casos, podemos considerar as seguintes hipóteses:

* Excluir
  * Se os dados ausentes estão em pequeno número,ocorrem aleatoriamente, e a ausência não carrega significado, é melhor excluir a linha. No caso da coluna, se ainda for possível analisar alguma parte dela, use-a, como é o caso aqui. Mas para algumas situações, o ideal é excluir a coluna.

* Preencher
  * Preencher as entradas com dados ausentes com valores estatísticos como a média, mediana, moda ou zeros.
  * A média é mais útil quando a distribuição dos dados é normal. Em dados com distribuição mais enviesada (*skewed*), a mediana é uma solução mais robusta, pois ela é menos sensível a outliers.
  * Indetificar a entrada ausente com algum valor que indique isso pode ser mais informativo, quando a ausência representa valor. Por exemplo, em dados numéricos preencher com zero, e em categóricos criar uma categoria "Desconhecido". Atenção, pois os zeros não podem ser levados em consideração em análises estatísticas.

## Exemplo 2

No nosso segundo exemplo, faremos o tratamento dos dados ausentes retirados do portal Inside Airbnb referentes à cidade de Nova Iorque.

<center><img alt="New York City" width="50%" src="https://image.freepik.com/free-vector/future-metropolis-downtown-modern-city-business-center-cartoon-background_33099-1466.jpg"></center>

Esse conjunto de dados é bem completo, e possui apenas algumas linhas e colunas com dados ausentes, mas que são suficientes para nos ajudar em nossa análise.

In [45]:
# importando os dados
df_nyc = pd.read_csv('https://raw.githubusercontent.com/rafaelnduarte/eds_outliers/master/nyc.csv', index_col=0)

# verificando as dimensões
print('Dimensões do Dataset',
    '\nVariáveis: ',df_nyc.shape[1], "\n"
      'Entradas: ', df_nyc.shape[0])

# verificando as primeiras entradas
df_nyc.head()

Dimensões do Dataset 
Variáveis:  16 
Entradas:  49530


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2060,Modern NYC,2259,Jenny,Manhattan,Washington Heights,40.85722,-73.9379,Private room,100,1,1,2008-09-22,0.01,1,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,3,48,2019-11-04,0.37,2,335
2,3831,"Whole flr w/private bdrm, bath & kitchen(pls r...",4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,322,2020-06-07,4.64,1,276
3,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,78,2019-10-13,0.58,1,0
4,5121,BlissArtsSpace!,7356,Garon,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,Private room,60,29,50,2019-12-02,0.37,1,365


In [46]:
# verificando dados ausentes usando sort_values
df_nyc.isnull().sum().sort_values(ascending=False)

last_review                       11319
reviews_per_month                 11319
name                                 18
host_name                             6
id                                    0
host_id                               0
neighbourhood_group                   0
neighbourhood                         0
latitude                              0
longitude                             0
room_type                             0
price                                 0
minimum_nights                        0
number_of_reviews                     0
calculated_host_listings_count        0
availability_365                      0
dtype: int64

Seguindo o que falamos anteriormente, colunas com grande quantidade de dados faltantes, caso não possuam informação extremamente relevante podem ser excluídas.

Em relação às outras entradas, estão em pouca quantidade, não parecem ter algum tipo de relação entre elas, e não parecem ter grande poder preditivo opu relevância para a análise. Mais uma vez, vamos fazer a exclusão. Porém, aqui vamos excluir as entradas.

In [47]:
# excluindo colunas com dados faltantes
df_nyc = df_nyc.drop(columns=['last_review', 'reviews_per_month'])
# verificando dados ausentes usando sort_values
df_nyc.isnull().sum().sort_values(ascending=False)

name                              18
host_name                          6
id                                 0
host_id                            0
neighbourhood_group                0
neighbourhood                      0
latitude                           0
longitude                          0
room_type                          0
price                              0
minimum_nights                     0
number_of_reviews                  0
calculated_host_listings_count     0
availability_365                   0
dtype: int64

In [48]:
# excluindo entradas com dados faltantes
df_nyc = df_nyc.dropna(axis=0)
# verificando dados ausentes usando sort_values
df_nyc.isnull().sum().sort_values(ascending=False)

id                                0
name                              0
host_id                           0
host_name                         0
neighbourhood_group               0
neighbourhood                     0
latitude                          0
longitude                         0
room_type                         0
price                             0
minimum_nights                    0
number_of_reviews                 0
calculated_host_listings_count    0
availability_365                  0
dtype: int64

Também seria possível, caso fosse nosso desejo, preencher esses valores ausentes como mencionamos acima. A forma mais simples e direta de fazer isso seria com o método `fillna`.



```
# substituindo valores ausentes por zeros
df.fillna(0, inplace=True)

# substituindo valores ausentes com a média
df['coluna'] = df.fillna(df['coluna'].mean(), inplace=True)
```
Sempre importante estar atento aos tipos de dados com os quais estamos lidando, e escolher métodos que sejam condizentes com esse tipo. Por exemplo, não podemos usar a média para preencher strings.


In [53]:
# substituindo valores ausentes por zeros
df_nyc = df_nyc.fillna(0)
df_nyc.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,calculated_host_listings_count,availability_365
0,2060,Modern NYC,2259,Jenny,Manhattan,Washington Heights,40.85722,-73.9379,Private room,100,1,1,1,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,3,48,2,335
2,3831,"Whole flr w/private bdrm, bath & kitchen(pls r...",4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,322,1,276
3,5099,Large Cozy 1 BR Apartment In Midtown East,7322,Chris,Manhattan,Murray Hill,40.74767,-73.975,Entire home/apt,200,3,78,1,0
4,5121,BlissArtsSpace!,7356,Garon,Brooklyn,Bedford-Stuyvesant,40.68688,-73.95596,Private room,60,29,50,1,365


In [54]:
# ver valores ausentes
df_nyc.isnull().sum()

id                                0
name                              0
host_id                           0
host_name                         0
neighbourhood_group               0
neighbourhood                     0
latitude                          0
longitude                         0
room_type                         0
price                             0
minimum_nights                    0
number_of_reviews                 0
calculated_host_listings_count    0
availability_365                  0
dtype: int64

Voltando ao exemplo dos dados de segurança pública...

In [65]:
# ver valores ausentes
df.isnull().sum().sort_values(ascending=False)

furto_bicicleta               276
roubo_bicicleta               276
cmba                          180
posse_drogas                  180
trafico_drogas                180
apreensao_drogas_sem_autor    180
apf                           180
aaapai                        180
cmp                           180
furto_celular                 144
sequestro_relampago           144
extorsao                      144
furto_coletivo                144
roubo_apos_saque              144
roubo_conducao_saque          144
roubo_cx_eletronico           144
estelionato                   144
pol_militares_mortos_serv     144
pol_civis_mortos_serv         144
estupro                       144
pessoas_desaparecidas         132
encontro_ossada               132
roubo_celular                 108
registro_ocorrencias           96
lesao_corp_morte               96
sequestro                      96
ameaca                         96
lesao_corp_culposa             96
hom_culposo                    84
hom_por_interv

In [66]:
# verificando dados da coluna roubo de celular
df['roubo_celular']

0         NaN
1         NaN
2         NaN
3         NaN
4         NaN
        ...  
339    2424.0
340    2427.0
341    2187.0
342    2226.0
343    2245.0
Name: roubo_celular, Length: 344, dtype: float64

In [69]:
# cálculando a média dos roubos de celular
media_roubo = df['roubo_celular'].mean()

# substituindo valores ausentes com a média
df['roubo_celular'] = df['roubo_celular'].fillna(media_roubo)
df['roubo_celular']

0       957.974576
1       957.974576
2       957.974576
3       957.974576
4       957.974576
          ...     
339    2424.000000
340    2427.000000
341    2187.000000
342    2226.000000
343    2245.000000
Name: roubo_celular, Length: 344, dtype: float64