# Limpeza dos Dados

Após fazer a coleta dos dados do site da Secretaria de Segurança Publica - SP, agora é necessário concatenar todos os arquivos em um só, com o mesmo padrão de informações

## Importar as bibliotecas que serão utilizadas

**Pandas** - Para manipulação de tabelas

**os** - Para manipulação e leitura de arquivos

In [3]:
import pandas as pd
import os

## Selecão das colunas

Selecionar as colunas que serão utilizadas, no total 54 colunas, os arquivos mais antigos possuiam 57 colunas as quais os dados foram apagados e nos arquivos mais recentes por um questão de privacidade. Essas colunas eram:

* `NOME_PESSOA`
* `RG`
* `RG_UF`

Com isso, será compiladas as seguintes colunas:
 * `ANO_BO` - Ano do BO 
 * `NUM_BO` - Número do BO
 * `NUMERO_BOLETIM` -
 * `BO_INICIADO` -
 * `BO_EMITIDO` -
 * `DATAOCORRENCIA` -
 * `HORAOCORRENCIA` -
 * `PERIDOOCORRENCIA` -
 * `DATACOMUNICACAO` -
 * `DATAELABORACAO` -
 * `BO_AUTORIA` -
 * `FLAGRANTE` -
 * `NUMERO_BOLETIM_PRINCIPAL` -
 * `LOGRADOURO` - Logradouro
 * `NUMERO` - Número da rua
 * `BAIRRO` - Bairro
 * `CIDADE` - Cidade
 * `UF` - Unidade Federativa
 * `LATITUDE` - Posição geográfica (Latitude)
 * `LONGITUDE` - Posição geográfica (Longitude)
 * `DESCRICAOLOCAL` -
 * `EXAME` -
 * `SOLUCAO` -
 * `DELEGACIA_NOME` - Nome da Delegacia
 * `DELEGACIA_CIRCUNSCRICAO` -
 * `ESPECIE` -
 * `RUBRICA` -
 * `DESDOBRAMENTO` -
 * `STATUS` -
 * `TIPOPESSOA` -
 * `VITIMAFATAL` -
 * `NATURALIDADE` -
 * `NACIONALIDADE` -
 * `SEXO` - 
 * `DATANASCIMENTO` -
 * `IDADE` -
 * `ESTADOCIVIL` -
 * `PROFISSAO` -
 * `GRAUINSTRUCAO` -
 * `CORCUTIS` -
 * `NATUREZAVINCULADA` -
 * `TIPOVINCULO` -
 * `RELACIONAMENTO` -
 * `PARENTESCO` -
 * `PLACA_VEICULO` -
 * `UF_VEICULO` -
 * `CIDADE_VEICULO` -
 * `DESCR_COR_VEICULO` -
 * `DESCR_MARCA_VEICULO` -
 * `ANO_FABRICACAO` -
 * `ANO_MODELO` -
 * `DESCR_TIPO_VEICULO` -
 * `QUANT_CELULAR` -
 * `MARCA_CELULAR` -


In [10]:
# Selecionar as colunas desejadas
cols = ['ANO_BO', 'NUM_BO', 'NUMERO_BOLETIM', 'BO_INICIADO', 'BO_EMITIDO',
       'DATAOCORRENCIA', 'HORAOCORRENCIA', 'PERIDOOCORRENCIA',
       'DATACOMUNICACAO', 'DATAELABORACAO', 'BO_AUTORIA', 'FLAGRANTE',
       'NUMERO_BOLETIM_PRINCIPAL', 'LOGRADOURO', 'NUMERO', 'BAIRRO', 'CIDADE',
       'UF', 'LATITUDE', 'LONGITUDE', 'DESCRICAOLOCAL', 'EXAME', 'SOLUCAO',
       'DELEGACIA_NOME', 'DELEGACIA_CIRCUNSCRICAO', 'ESPECIE', 'RUBRICA',
       'DESDOBRAMENTO', 'STATUS', 'TIPOPESSOA', 'VITIMAFATAL', 'NATURALIDADE',
       'NACIONALIDADE', 'SEXO', 'DATANASCIMENTO', 'IDADE', 'ESTADOCIVIL',
       'PROFISSAO', 'GRAUINSTRUCAO', 'CORCUTIS', 'NATUREZAVINCULADA',
       'TIPOVINCULO', 'RELACIONAMENTO', 'PARENTESCO', 'PLACA_VEICULO',
       'UF_VEICULO', 'CIDADE_VEICULO', 'DESCR_COR_VEICULO',
       'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO',
       'DESCR_TIPO_VEICULO', 'QUANT_CELULAR', 'MARCA_CELULAR']

## Leitura das planilhas e junção em único arquivo

Se faz necessário fazer uma varredura para todos os arquivos **`.xls`** na pasta __*data/*__ e então fazer a junção de todos estes arquivos

In [65]:
directory = os.path.join('data/') # Diretório onde estão salvos os arquivos .xls
i=0 # Marcador criado para definir se é o primeiro arquivo ou não
counter=0 #Contador de arquivos lidos


for root,dirs,files in os.walk(directory): # root - Caminho lido | dirs - diretórios existentes dentro do caminho lido | files - arquivos existentes no caminho lido
    
    #Percorrer todos os arquivos um a um, e ler somente os arquivos com extensão .xls
    for file in files:
        if file.endswith(".xls"):
            dftemp = pd.read_csv('data/'+file, sep='\t', encoding='UTF-16LE', usecols=cols, low_memory=False) # leitura do arquivo .xls ("corrompido")
            
            if i==0: # Condição IF para determinar se é a primeira leitura e copiar o dataset para a variável "df"
                df = dftemp.copy()
                i = 1
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            else: # Para os demais arquivos realizar a junção com o primeiro arquivo
                df = df.append(dftemp, ignore_index=True)
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            linhas = df.shape[0]
            counter = counter + 1
            
print("Linhas totais: ", linhas)
print('\nTotal de arquivos concatenados:', counter)
print('\nDimensões do dataset: \n\t- {} Linhas\n\t- {} Colunas'.format(df.shape[0],df.shape[1]))
            

Linhas totais:  2165230
Total de arquivos concatenados: 105
Dimensões do dataset: 
-2165230 Linhas
-54 Colunas


## Salvar para arquivo CSV

Após o processo finalizado, o arquivo será salvo na pasta **`data_cleaned`**

In [66]:
df.to_csv('data_cleaned/roubo_celular2010_2020.csv', index=False)
