# Limpeza de Dados

Os processos de limpeza e preparação de dados são muito importantes. Dados limpos, completos e organizados tornam as análises mais fáceis e confiáveis. Abaixo descrevemos alguns dos principais mecanismos para tratar dados que tenham algum problema.

Execute cada célula de código abaixo para ver o resultado.

## Leitura e análise inicial dos dados


In [97]:
#importação de bibliotecas
import pandas as pd

%matplotlib inline

In [98]:
# lê o arquivo CSV

df = pd.read_excel('C:/Users/lucas.soares/Documents/Nova Pasta/SegurançaBrasil.xlsx')

O primeiro passo ao se analisar dados desconhecidos é visualizar algumas linhas de dados:

In [99]:
df.head(15)

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ano da ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,...,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime,Cód_IBGE,Município,Sigla UF,Região,Mês/Ano,Vítimas
0,Acre,Estupro,2022.0,31,Acre,Estupro,2022.0,31.0,Acre,Roubo a instituição financeira,...,Homicídio doloso,2022.0,Feminino,2.0,4100103.0,Abatiá,PR,SUL,2018-01-01,0.0
1,Acre,Furto de veículo,2022.0,50,Acre,Furto de veículo,2022.0,50.0,Acre,Roubo de carga,...,Homicídio doloso,2022.0,Masculino,8.0,4100202.0,Adrianópolis,PR,SUL,2018-01-01,1.0
2,Acre,Homicídio doloso,2022.0,10,Acre,Homicídio doloso,2022.0,10.0,Acre,Roubo de veículo,...,Homicídio doloso,2022.0,Sexo NI,0.0,4100301.0,Agudos Do Sul,PR,SUL,2018-01-01,0.0
3,Acre,Lesão corporal seguida de morte,2022.0,0,Acre,Lesão corporal seguida de morte,2022.0,0.0,Acre,Roubo seguido de morte (latrocínio),...,Homicídio doloso,2022.0,Feminino,0.0,4100400.0,Almirante Tamandaré,PR,SUL,2018-01-01,6.0
4,Acre,Roubo a instituição financeira,2022.0,0,Acre,Roubo a instituição financeira,2022.0,0.0,Acre,Tentativa de homicídio,...,Homicídio doloso,2022.0,Masculino,10.0,4100459.0,Altamira Do Paraná,PR,SUL,2018-01-01,0.0
5,Acre,Roubo de carga,2022.0,0,Acre,Roubo de carga,2022.0,0.0,Acre,Estupro,...,Homicídio doloso,2022.0,Sexo NI,0.0,4128625.0,Alto Paraíso,PR,SUL,2018-01-01,0.0
6,Acre,Roubo de veículo,2022.0,72,Acre,Roubo de veículo,2022.0,72.0,Acre,Furto de veículo,...,Homicídio doloso,2022.0,Feminino,2.0,4100608.0,Alto Paraná,PR,SUL,2018-01-01,0.0
7,Acre,Roubo seguido de morte (latrocínio),2022.0,0,Acre,Roubo seguido de morte (latrocínio),2022.0,0.0,Acre,Homicídio doloso,...,Homicídio doloso,2022.0,Masculino,19.0,4100707.0,Alto Piquiri,PR,SUL,2018-01-01,0.0
8,Acre,Tentativa de homicídio,2022.0,22,Acre,Tentativa de homicídio,2022.0,22.0,Acre,Lesão corporal seguida de morte,...,Homicídio doloso,2022.0,Sexo NI,0.0,4100509.0,Altônia,PR,SUL,2018-01-01,3.0
9,Acre,Estupro,2022.0,34,Acre,Estupro,2022.0,34.0,Acre,Roubo a instituição financeira,...,Homicídio doloso,2022.0,Feminino,2.0,4100806.0,Alvorada Do Sul,PR,SUL,2018-01-01,0.0


O método `info` é útil para vermos quais colunas do DataFrame tiveram seus tipos de dados corretamente identificados pelo Pandas. No caso abaixo já é possível identificar alguns problemas. As colunas *quartos, suite, area, aluguel e condomínio* foram interpretadas como objetos genéricos enquanto deveriam ser numéricas. A coluna *data* deveria ser do tipo `datetype`.

O método `info` também nos informa quantos valores cada coluna tem. Veja abaixo que a coluna *endereço* tem apenas 19 valores.

In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21418 entries, 0 to 21417
Data columns (total 27 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   UF da ocorrências 2015 - 2022       21418 non-null  object        
 1   Tipo Crime ocorrências 2015 - 2022  21418 non-null  object        
 2   Ano da ocorrências 2015 - 2022      21417 non-null  float64       
 3   Ocorrências 2015 - 2022             21418 non-null  int64         
 4   UF da ocorrências 2022              1184 non-null   object        
 5   Tipo Crime ocorrências 2022         1184 non-null   object        
 6   Ano da ocorrências 2022             1184 non-null   float64       
 7   Ocorrências 2022                    1184 non-null   float64       
 8   UF da ocorrências 2021              2864 non-null   object        
 9   Tipo Crime ocorrências 2021         2864 non-null   object        
 10  Ano da ocorrências 202

## Localizando e tratando valores inválidos

Uma forma prática de identificar potenciais problemas é exibir todas as linhas com valores em branco (*NaN*). Abaixo podemos verificar que uma das linhas não tem o valor para a coluna *endereco*.

In [71]:
df[df.isna().any(axis=1)]

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ano da ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,...,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime,Cód_IBGE,Município,Sigla UF,Região,Mês/Ano,Vítimas
1184,Acre,Estupro,2021.0,39,,,,,Mato Grosso do Sul,Estupro,...,Lesão corporal seguida de morte,2021.0,Masculino,0.0,4127965.0,Turvo,PR,SUL,2018-03-01,0.0
1185,Acre,Furto de veículo,2021.0,55,,,,,Mato Grosso do Sul,Furto de veículo,...,Lesão corporal seguida de morte,2021.0,Sexo NI,0.0,4128005.0,Ubiratã,PR,SUL,2018-03-01,0.0
1186,Acre,Homicídio doloso,2021.0,13,,,,,Mato Grosso do Sul,Homicídio doloso,...,Lesão corporal seguida de morte,2021.0,Feminino,0.0,4128104.0,Umuarama,PR,SUL,2018-03-01,2.0
1187,Acre,Lesão corporal seguida de morte,2021.0,0,,,,,Mato Grosso do Sul,Lesão corporal seguida de morte,...,Lesão corporal seguida de morte,2021.0,Masculino,1.0,4128203.0,União Da Vitória,PR,SUL,2018-03-01,1.0
1188,Acre,Roubo a instituição financeira,2021.0,0,,,,,Mato Grosso do Sul,Roubo a instituição financeira,...,Lesão corporal seguida de morte,2021.0,Sexo NI,0.0,4128302.0,Uniflor,PR,SUL,2018-03-01,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21413,Tocantins,Roubo a instituição financeira,2015.0,6,,,,,,,...,,,,,,,,,NaT,
21414,Tocantins,Roubo de carga,2015.0,1,,,,,,,...,,,,,,,,,NaT,
21415,Tocantins,Roubo de veículo,2015.0,55,,,,,,,...,,,,,,,,,NaT,
21416,Tocantins,Roubo seguido de morte (latrocínio),2015.0,2,,,,,,,...,,,,,,,,,NaT,


Podemos usar o método `fillna` para substituir os valores em branco por um valor definido, neste caso a *String* "Desconhecido". Após a substituição não há mais linhas com valores em branco.

In [74]:
df['Ocorrências 2022'] = df['Ocorrências 2022'].fillna("Desconhecido")

df[df.isna().any(axis=1)]

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ano da ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,...,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime,Cód_IBGE,Município,Sigla UF,Região,Mês/Ano,Vítimas
1184,Acre,Estupro,2021.0,39,,,,Desconhecido,Mato Grosso do Sul,Estupro,...,Lesão corporal seguida de morte,2021.0,Masculino,0.0,4127965.0,Turvo,PR,SUL,2018-03-01,0.0
1185,Acre,Furto de veículo,2021.0,55,,,,Desconhecido,Mato Grosso do Sul,Furto de veículo,...,Lesão corporal seguida de morte,2021.0,Sexo NI,0.0,4128005.0,Ubiratã,PR,SUL,2018-03-01,0.0
1186,Acre,Homicídio doloso,2021.0,13,,,,Desconhecido,Mato Grosso do Sul,Homicídio doloso,...,Lesão corporal seguida de morte,2021.0,Feminino,0.0,4128104.0,Umuarama,PR,SUL,2018-03-01,2.0
1187,Acre,Lesão corporal seguida de morte,2021.0,0,,,,Desconhecido,Mato Grosso do Sul,Lesão corporal seguida de morte,...,Lesão corporal seguida de morte,2021.0,Masculino,1.0,4128203.0,União Da Vitória,PR,SUL,2018-03-01,1.0
1188,Acre,Roubo a instituição financeira,2021.0,0,,,,Desconhecido,Mato Grosso do Sul,Roubo a instituição financeira,...,Lesão corporal seguida de morte,2021.0,Sexo NI,0.0,4128302.0,Uniflor,PR,SUL,2018-03-01,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21413,Tocantins,Roubo a instituição financeira,2015.0,6,,,,Desconhecido,,,...,,,,,,,,,NaT,
21414,Tocantins,Roubo de carga,2015.0,1,,,,Desconhecido,,,...,,,,,,,,,NaT,
21415,Tocantins,Roubo de veículo,2015.0,55,,,,Desconhecido,,,...,,,,,,,,,NaT,
21416,Tocantins,Roubo seguido de morte (latrocínio),2015.0,2,,,,Desconhecido,,,...,,,,,,,,,NaT,


In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21418 entries, 0 to 21417
Data columns (total 27 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   UF da ocorrências 2015 - 2022       21418 non-null  object        
 1   Tipo Crime ocorrências 2015 - 2022  21418 non-null  object        
 2   Ano da ocorrências 2015 - 2022      21417 non-null  float64       
 3   Ocorrências 2015 - 2022             21418 non-null  int64         
 4   UF da ocorrências 2022              1184 non-null   object        
 5   Tipo Crime ocorrências 2022         1184 non-null   object        
 6   Ano da ocorrências 2022             1184 non-null   float64       
 7   Ocorrências 2022                    1184 non-null   float64       
 8   UF da ocorrências 2021              2864 non-null   object        
 9   Tipo Crime ocorrências 2021         2864 non-null   object        
 10  Ano da ocorrências 202

In [75]:
df['Tipo Crime ocorrências 2015 - 2022'].unique()

array(['Estupro', 'Furto de veículo', 'Homicídio doloso',
       'Lesão corporal seguida de morte',
       'Roubo a instituição financeira', 'Roubo de carga',
       'Roubo de veículo', 'Roubo seguido de morte (latrocínio)',
       'Tentativa de homicídio'], dtype=object)

Como a linha identificada acima tem muitos valores inválidos, podemos decidir retirá-la do DataFrame. Para isso, usamos o método `drop`. Perceba que a linha não aparece mais no DataFrame.

In [76]:
# para deleção da linha basta passar o índice
#df = df.drop(19)

#df.dropna()
#df.dropna(subset=['name', 'toy'])
#df.dropna(inplace=True)
df.drop(21414, inplace=True)
df.drop(21413, inplace=True)

df

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ano da ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,...,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime,Cód_IBGE,Município,Sigla UF,Região,Mês/Ano,Vítimas
0,Acre,Estupro,2022.0,31,Acre,Estupro,2022.0,31.0,Acre,Roubo a instituição financeira,...,Homicídio doloso,2022.0,Feminino,2.0,4100103.0,Abatiá,PR,SUL,2018-01-01,0.0
1,Acre,Furto de veículo,2022.0,50,Acre,Furto de veículo,2022.0,50.0,Acre,Roubo de carga,...,Homicídio doloso,2022.0,Masculino,8.0,4100202.0,Adrianópolis,PR,SUL,2018-01-01,1.0
2,Acre,Homicídio doloso,2022.0,10,Acre,Homicídio doloso,2022.0,10.0,Acre,Roubo de veículo,...,Homicídio doloso,2022.0,Sexo NI,0.0,4100301.0,Agudos Do Sul,PR,SUL,2018-01-01,0.0
3,Acre,Lesão corporal seguida de morte,2022.0,0,Acre,Lesão corporal seguida de morte,2022.0,0.0,Acre,Roubo seguido de morte (latrocínio),...,Homicídio doloso,2022.0,Feminino,0.0,4100400.0,Almirante Tamandaré,PR,SUL,2018-01-01,6.0
4,Acre,Roubo a instituição financeira,2022.0,0,Acre,Roubo a instituição financeira,2022.0,0.0,Acre,Tentativa de homicídio,...,Homicídio doloso,2022.0,Masculino,10.0,4100459.0,Altamira Do Paraná,PR,SUL,2018-01-01,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21411,Tocantins,Homicídio doloso,2015.0,50,,,,Desconhecido,,,...,,,,,,,,,NaT,
21412,Tocantins,Lesão corporal seguida de morte,2015.0,0,,,,Desconhecido,,,...,,,,,,,,,NaT,
21415,Tocantins,Roubo de veículo,2015.0,55,,,,Desconhecido,,,...,,,,,,,,,NaT,
21416,Tocantins,Roubo seguido de morte (latrocínio),2015.0,2,,,,Desconhecido,,,...,,,,,,,,,NaT,


Também podemos remover uma coluna inteira com o comando (tips.drop), com isso vamos remover colunas com muitos valores "Desconhecidos".

In [103]:


#df = df.drop(columns=['Cód_IBGE'])
#df = df.drop(columns=['Município'])
#df = df.drop(columns=['Região'])
#df = df.drop(columns=['Sigla UF'])
#df = df.drop(columns=['Mês/Ano'])
#df = df.drop(columns=['Ano da ocorrências 2020'])
#df = df.drop(columns=['Ano da ocorrências 2021'])
#df = df.drop(columns=['Ano da ocorrências 2022'])
df = df.drop(columns=['Vítimas'])





df.head()

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,Ocorrências 2021,UF da ocorrências 2020,Tipo Crime ocorrências 2020,Ocorrências 2020,UF crime,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime
0,Acre,Estupro,2022.0,31,Acre,Estupro,31.0,Acre,Roubo a instituição financeira,1.0,Acre,Estupro,18.0,Acre,Homicídio doloso,2022.0,Feminino,2.0
1,Acre,Furto de veículo,2022.0,50,Acre,Furto de veículo,50.0,Acre,Roubo de carga,0.0,Acre,Furto de veículo,23.0,Acre,Homicídio doloso,2022.0,Masculino,8.0
2,Acre,Homicídio doloso,2022.0,10,Acre,Homicídio doloso,10.0,Acre,Roubo de veículo,91.0,Acre,Homicídio doloso,46.0,Acre,Homicídio doloso,2022.0,Sexo NI,0.0
3,Acre,Lesão corporal seguida de morte,2022.0,0,Acre,Lesão corporal seguida de morte,0.0,Acre,Roubo seguido de morte (latrocínio),0.0,Acre,Lesão corporal seguida de morte,0.0,Acre,Homicídio doloso,2022.0,Feminino,0.0
4,Acre,Roubo a instituição financeira,2022.0,0,Acre,Roubo a instituição financeira,0.0,Acre,Tentativa de homicídio,11.0,Acre,Roubo a instituição financeira,0.0,Acre,Homicídio doloso,2022.0,Masculino,10.0


## Conversão de tipos

Para converter as colunas para os tipos adequados, usamos o método `astype`. Podemos tanto aplicar a uma coluna por vez ou em várias colunas representadas por um dicionário. O código abaixo exemplifica as duas abordagens:

In [127]:

df = df.astype({'Vitima do crime': float, 'Ano do crime': float, 'Ocorrências 2020': object, 'Ocorrências 2021': object,'Ocorrências 2022': float,'Ano da ocorrências 2015 - 2022': float})

In [None]:
Os dados nulos não foram retirados, pois a coluna de 2015 - 2022 é maior que as outras, tratando de um total

In [128]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21418 entries, 0 to 21417
Data columns (total 18 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   UF da ocorrências 2015 - 2022       21418 non-null  object 
 1   Tipo Crime ocorrências 2015 - 2022  21418 non-null  object 
 2   Ano da ocorrências 2015 - 2022      21417 non-null  float64
 3   Ocorrências 2015 - 2022             21418 non-null  int64  
 4   UF da ocorrências 2022              1184 non-null   object 
 5   Tipo Crime ocorrências 2022         1184 non-null   object 
 6   Ocorrências 2022                    1184 non-null   float64
 7   UF da ocorrências 2021              2864 non-null   object 
 8   Tipo Crime ocorrências 2021         2864 non-null   object 
 9   Ocorrências 2021                    2864 non-null   object 
 10  UF da ocorrências 2020              2880 non-null   object 
 11  Tipo Crime ocorrências 2020         2880 

Com todos os tipos convertidos corretamente, podemos aplicar funções estatísticas e exibir corretamente os valores em gráficos como mostrado abaixo:

In [121]:
df

Unnamed: 0,UF da ocorrências 2015 - 2022,Tipo Crime ocorrências 2015 - 2022,Ano da ocorrências 2015 - 2022,Ocorrências 2015 - 2022,UF da ocorrências 2022,Tipo Crime ocorrências 2022,Ocorrências 2022,UF da ocorrências 2021,Tipo Crime ocorrências 2021,Ocorrências 2021,UF da ocorrências 2020,Tipo Crime ocorrências 2020,Ocorrências 2020,UF crime,Tipo Crime,Ano do crime,Sexo da Vítima,Vitima do crime
0,Acre,Estupro,2022.0,31,Acre,Estupro,31.0,Acre,Roubo a instituição financeira,1.0,Acre,Estupro,18.0,Acre,Homicídio doloso,2022.0,Feminino,2.0
1,Acre,Furto de veículo,2022.0,50,Acre,Furto de veículo,50.0,Acre,Roubo de carga,0.0,Acre,Furto de veículo,23.0,Acre,Homicídio doloso,2022.0,Masculino,8.0
2,Acre,Homicídio doloso,2022.0,10,Acre,Homicídio doloso,10.0,Acre,Roubo de veículo,91.0,Acre,Homicídio doloso,46.0,Acre,Homicídio doloso,2022.0,Sexo NI,0.0
3,Acre,Lesão corporal seguida de morte,2022.0,0,Acre,Lesão corporal seguida de morte,0.0,Acre,Roubo seguido de morte (latrocínio),0.0,Acre,Lesão corporal seguida de morte,0.0,Acre,Homicídio doloso,2022.0,Feminino,0.0
4,Acre,Roubo a instituição financeira,2022.0,0,Acre,Roubo a instituição financeira,0.0,Acre,Tentativa de homicídio,11.0,Acre,Roubo a instituição financeira,0.0,Acre,Homicídio doloso,2022.0,Masculino,10.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21413,Tocantins,Roubo a instituição financeira,2015.0,6,,,,,,,,,,,,,,
21414,Tocantins,Roubo de carga,2015.0,1,,,,,,,,,,,,,,
21415,Tocantins,Roubo de veículo,2015.0,55,,,,,,,,,,,,,,
21416,Tocantins,Roubo seguido de morte (latrocínio),2015.0,2,,,,,,,,,,,,,,


## Escrevendo os dados limpos no disco

Para salvar os dados limpos em um arquivo, usamos o método `to_xlsx`, como no exemplo abaixo:

In [129]:
df.to_excel('C:/Users/lucas.soares/Documents/Nova Pasta/SegurançaBrasilLimpo.xlsx', index=False)