# Introdução à Ciência dos Dados &mdash; Projeto Final

Alunos: Artur Franco (anf), Lucas Glasner (lgr3)

## 1 &mdash; Coleta e pré-processamento dos dados

Os dados foram coletados a partir do [portal de dados abertos da Prefeitura do Recife](http://dados.recife.pe.gov.br). Neste projeto, serão utilizados dados sobre acidentes de trânsito, com e sem vítimas, ocorridos nos anos de 2015 e 2016; e dados dos registros de todas as infrações de trânsito realizadas pela CTTU, também nos anos de 2015 e 2016. Os conjuntos de dados podem ser obtidos através dos links:

- [Acidentes de Trânsito (2015)](http://dados.recife.pe.gov.br/dataset/44087d2d-73b5-4ab3-9bd8-78da7436eed1/resource/db610fdc-18fa-41a1-9b26-72038c56ffc8/download/acidentes-transito-2015.csv)
- [Acidentes de Trânsito (2016)](http://dados.recife.pe.gov.br/dataset/44087d2d-73b5-4ab3-9bd8-78da7436eed1/resource/61ca6a8b-1648-44a5-87db-431777b33144/download/acidentes-transito-2016.csv)
- [Registro das Infrações de Trânsito (2015)](http://dados.recife.pe.gov.br/dataset/6399f689-f1a7-453b-b839-413bd665c355/resource/bcc8d322-efd2-44ed-84c2-4fa13d667498/download/relatorio-de-multas-implantadas-em-2015.csv)
- [Registro das Infrações de Trânsito (2016)](http://dados.recife.pe.gov.br/dataset/6399f689-f1a7-453b-b839-413bd665c355/resource/0bce01ee-73f4-49ec-b9b4-9b3dcde38009/download/relatorio-de-multas-implantadas-em-2016.csv)

O pré-processamento dos dados coletados foram feitos utilizando principalmente a biblioteca `Pandas` disponível para `Python`, a qual fornece diversas ferramentas para tratar e manipular conjuntos de dados. Ao realizar a coleta dos dados, obtemos os `datasets` brutos e após realizar o pré-processamento desses conjuntos de dados nós temos os `datasets` tratados, ou seja, sem valores ausentes, com os tipos dos atributos já ajustados para a nossa necessidade e deixando apenas as colunas que consideramos relevantes para o desenvolvimento do projeto.

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
from IPython.display import display

### 1.1 &mdash; Pré-processamento dos dados sobre acidentes de trânsito

In [2]:
# Lendo datasets
acidentes2016 = pd.read_csv('raw-datasets/acidentes-geral-2016.csv', sep=';')
acidentes2015 = pd.read_csv('raw-datasets/acidentes-geral-2015.csv', sep=';')

print('DATASET BRUTO - ACIDENTES DE TRÂNSITO EM RECIFE/2016')
display(acidentes2016.head())
print(' ')
print('DATASET BRUTO - ACIDENTES DE TRÂNSITO EM RECIFE/2015')
display(acidentes2015.head())

DATASET BRUTO - ACIDENTES DE TRÂNSITO EM RECIFE/2016


Unnamed: 0,tipo,situacao,data,hora,bairro,endereco,numero,complemento,natureza,descricao,auto,moto,ciclom,ciclista,pedestre,onibus,caminhao,viatura,outros,vitimas
0,SEM VÍTIMA,FINALIZADA,2016-01-01,00:58:00,IPUTINGA,AV JORNALISTA POSSIDONIO CAVALCANTI BASTOS,,PROX A PONTE DA SALVAÇAO,COLISÃO,COLISAO ENTRE UMA VIATUA E UM CAMINHAO S/V,1.0,,,,,,1.0,,,0.0
1,SEM VÍTIMA,FINALIZADA,2016-01-01,01:23:00,BOA VIAGEM,AV ENGENHEIRO DOMINGOS FERREIRA,,"EM FRENTE AO SUPERMERCADO EXTRA,NO SEMAFORO 380",COLISÃO,COLISAO ENTRE DOIS AUTO S/V,2.0,,,,,,,,,0.0
2,SEM VÍTIMA,CANCELADA,2016-01-01,01:42:00,JORDÃO,RUA DR ALVARO FERRAZ,20.0,PROX A PRAÇA DO JORDAO DE BAIXO,COLISÃO,COLISAO ENTRE DOIS AUTO S/V,2.0,,,,,,,,,0.0
3,SEM VÍTIMA,FINALIZADA,2016-01-01,03:08:00,IBURA,AV JORNALISTA COSTA PORTO,1080.0,"PROX A ASSEMBLEIA DE DEUS, SENTIDO ALTO DOIS C...",COLISÃO,COLISAO ENTRE DOIS CARROS S/V,2.0,,,,,,,,,0.0
4,COM VÍTIMA,CANCELADA,2016-01-01,05:34:00,PAISSANDU,AV GOVERNADOR AGAMENON MAGALHAES,,"EM FRENTE AO EDFICIO EMPRESARIAL ISACK NILTON,...",CHOQUE,"MOTO CHOCOU-SE CONTRA A CALÇADA, COM VITIMA",,1.0,,,,,,,,1.0


 
DATASET BRUTO - ACIDENTES DE TRÂNSITO EM RECIFE/2015


Unnamed: 0,tipo,situacao,data,hora,bairro,endereco,numero,complemento,natureza,descricao,auto,moto,ciclom,ciclista,pedestre,onibus,caminhao,viatura,outros,vitimas
0,SEM VÍTIMA,CANCELADA,2015-12-03,11:36:00.000,CASA AMARELA,AV NORTE,,SENTIDO SUBURBIO E/F AO SESC,COLISÃO,COLISÃO SEM VITIMAS,,,,,,,,,,0.0
1,SEM VÍTIMA,FINALIZADA,2015-06-01,06:35:00.000,ENCRUZILHADA,EST DE BELEM,,IGREJA BATISTA MEMORIAL DE BELÉM,COLISÃO,SEM VÍTIMAS.,,2.0,,,,,,,,0.0
2,SEM VÍTIMA,FINALIZADA,2015-06-01,08:04:00.000,BOA VIAGEM,RUA ERNESTO DE PAULA SANTOS,,SEMAFORO Nº217,COLISÃO,SEM VITIMA,1.0,,,,,,1.0,,,0.0
3,SEM VÍTIMA,FINALIZADA,2015-06-01,08:06:00.000,AFOGADOS,AV SUL,,AO LADO DA ESTAÇAO LARGO DA PAZ,COLISÃO,COLISAO S/V,1.0,,,,,,1.0,,,0.0
4,SEM VÍTIMA,CANCELADA,2015-06-01,08:13:00.000,MADALENA,RUA BENFICA,,EM FRENTE AO CLUBE INTERNACIONAL,COLISÃO,GM RIBEIRO JA NO LOCAL VT 05,2.0,,,,,,,,,0.0


In [3]:
# Excluindo colunas irrelevantes para o projeto
acidentes2016.drop(['numero','complemento','descricao','situacao','vitimas'], axis=1, inplace=True)
acidentes2016.drop(['auto','moto','ciclom','ciclista','pedestre','onibus', 'caminhao','viatura','outros'], 
                   axis=1, inplace=True)

acidentes2015.drop(['numero','complemento','descricao','situacao','vitimas'], axis=1, inplace=True)
acidentes2015.drop(['auto','moto','ciclom','ciclista','pedestre','onibus', 'caminhao','viatura','outros'], 
                   axis=1, inplace=True)

# Reorganizando colunas
acidentes2016 = acidentes2016[['data','hora','endereco','bairro','natureza','tipo']]
acidentes2015 = acidentes2015[['data','hora','endereco','bairro','natureza','tipo']]

print('DATASET LIMPO - ACIDENTES DE TRÂNSITO EM RECIFE/2016')
display(acidentes2016.head())
print(' ')
print('DATASET LIMPO - ACIDENTES DE TRÂNSITO EM RECIFE/2015')
display(acidentes2015.head())

DATASET LIMPO - ACIDENTES DE TRÂNSITO EM RECIFE/2016


Unnamed: 0,data,hora,endereco,bairro,natureza,tipo
0,2016-01-01,00:58:00,AV JORNALISTA POSSIDONIO CAVALCANTI BASTOS,IPUTINGA,COLISÃO,SEM VÍTIMA
1,2016-01-01,01:23:00,AV ENGENHEIRO DOMINGOS FERREIRA,BOA VIAGEM,COLISÃO,SEM VÍTIMA
2,2016-01-01,01:42:00,RUA DR ALVARO FERRAZ,JORDÃO,COLISÃO,SEM VÍTIMA
3,2016-01-01,03:08:00,AV JORNALISTA COSTA PORTO,IBURA,COLISÃO,SEM VÍTIMA
4,2016-01-01,05:34:00,AV GOVERNADOR AGAMENON MAGALHAES,PAISSANDU,CHOQUE,COM VÍTIMA


 
DATASET LIMPO - ACIDENTES DE TRÂNSITO EM RECIFE/2015


Unnamed: 0,data,hora,endereco,bairro,natureza,tipo
0,2015-12-03,11:36:00.000,AV NORTE,CASA AMARELA,COLISÃO,SEM VÍTIMA
1,2015-06-01,06:35:00.000,EST DE BELEM,ENCRUZILHADA,COLISÃO,SEM VÍTIMA
2,2015-06-01,08:04:00.000,RUA ERNESTO DE PAULA SANTOS,BOA VIAGEM,COLISÃO,SEM VÍTIMA
3,2015-06-01,08:06:00.000,AV SUL,AFOGADOS,COLISÃO,SEM VÍTIMA
4,2015-06-01,08:13:00.000,RUA BENFICA,MADALENA,COLISÃO,SEM VÍTIMA


OBS: Como os `datasets` um grande número de linhas quando comparado ao número de linhas com valores ausentes, nós tratamos essas linhas com valores ausentes apenas deletando-as dos `datasets`.

In [4]:
# Tratamento de valores ausentes

# Acidentes 2016
print('---PRÉ-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2016)---')
print(acidentes2016.isnull().sum())

acidentes2016.dropna(axis=0, inplace=True)

print('---PÓS-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2016)---')
print(acidentes2016.isnull().sum())

print(' ')

# Acidentes 2015
print('---PRÉ-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2015)---')
print(acidentes2015.isnull().sum())

acidentes2015.dropna(axis=0, inplace=True)

print('---PÓS-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2015)---')
print(acidentes2015.isnull().sum())

---PRÉ-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2016)---
data         0
hora         0
endereco    70
bairro      61
natureza    73
tipo         0
dtype: int64
---PÓS-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2016)---
data        0
hora        0
endereco    0
bairro      0
natureza    0
tipo        0
dtype: int64
 
---PRÉ-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2015)---
data         0
hora         0
endereco    70
bairro      50
natureza    56
tipo         0
dtype: int64
---PÓS-TRATAMENTO DE VALORES AUSENTES (ACIDENTES 2015)---
data        0
hora        0
endereco    0
bairro      0
natureza    0
tipo        0
dtype: int64


In [5]:
# Convertendo coluna data para o tipo datetime
acidentes2016.data = pd.to_datetime(acidentes2016.data, format="%Y-%m-%d")
acidentes2015.data = pd.to_datetime(acidentes2015.data, format="%Y-%m-%d")

# Colocando coluna hora no mesmo padrão (hh:mm)
acidentes2016['hora'] = acidentes2016['hora'].apply(lambda x: x[0:5])
acidentes2015['hora'] = acidentes2015['hora'].apply(lambda x: x[0:5])

# Ajustando letras minúsculas/maiúsculas em bairro e endereço
acidentes2016.bairro = acidentes2016.bairro.apply(lambda x: x.title())
acidentes2016.endereco = acidentes2016.endereco.apply(lambda x: x.title())
acidentes2015.bairro = acidentes2015.bairro.apply(lambda x: x.title())
acidentes2015.endereco = acidentes2015.endereco.apply(lambda x: x.title())

print('---TIPOS DOS DADOS (ACIDENTES 2016)---')
print(acidentes2016.dtypes)
display(acidentes2016.head())
print(' ')
print('---TIPOS DOS DADOS (ACIDENTES 2015)---')
print(acidentes2015.dtypes)
display(acidentes2015.head())

---TIPOS DOS DADOS (ACIDENTES 2016)---
data        datetime64[ns]
hora                object
endereco            object
bairro              object
natureza            object
tipo                object
dtype: object


Unnamed: 0,data,hora,endereco,bairro,natureza,tipo
0,2016-01-01,00:58,Av Jornalista Possidonio Cavalcanti Bastos,Iputinga,COLISÃO,SEM VÍTIMA
1,2016-01-01,01:23,Av Engenheiro Domingos Ferreira,Boa Viagem,COLISÃO,SEM VÍTIMA
2,2016-01-01,01:42,Rua Dr Alvaro Ferraz,Jordão,COLISÃO,SEM VÍTIMA
3,2016-01-01,03:08,Av Jornalista Costa Porto,Ibura,COLISÃO,SEM VÍTIMA
4,2016-01-01,05:34,Av Governador Agamenon Magalhaes,Paissandu,CHOQUE,COM VÍTIMA


 
---TIPOS DOS DADOS (ACIDENTES 2015)---
data        datetime64[ns]
hora                object
endereco            object
bairro              object
natureza            object
tipo                object
dtype: object


Unnamed: 0,data,hora,endereco,bairro,natureza,tipo
0,2015-12-03,11:36,Av Norte,Casa Amarela,COLISÃO,SEM VÍTIMA
1,2015-06-01,06:35,Est De Belem,Encruzilhada,COLISÃO,SEM VÍTIMA
2,2015-06-01,08:04,Rua Ernesto De Paula Santos,Boa Viagem,COLISÃO,SEM VÍTIMA
3,2015-06-01,08:06,Av Sul,Afogados,COLISÃO,SEM VÍTIMA
4,2015-06-01,08:13,Rua Benfica,Madalena,COLISÃO,SEM VÍTIMA


In [6]:
# Reajustando indices
acidentes2016.reset_index(drop=True, inplace=True)
acidentes2015.reset_index(drop=True, inplace=True)

# Salvando datasets tratados
acidentes2016.to_csv('treated-datasets/acidentes-2016.csv')
acidentes2015.to_csv('treated-datasets/acidentes-2015.csv')

### 1.2 &mdash; Pré-processamento dos dados sobre infrações de trânsito

In [7]:
# Lendo datasets
multas2016 = pd.read_csv('raw-datasets/infracoes-transito-2016.csv', sep=';')
multas2015 = pd.read_csv('raw-datasets/infracoes-transito-2015.csv', sep=';')

print('DATASET BRUTO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2016')
display(multas2016.head())
print(' ')
print('DATASET BRUTO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2015')
display(multas2015.head())

DATASET BRUTO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2016


Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento,Unnamed: 8
0,30/12/2015,11:10:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL,7366,Dirigir o veículo utilizando-se de telefone ce...,AV BOA VIAGEM EM FRENTE AO N 3196,"Art. 252, Inc. VI",
1,20/12/2015,08:20:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL,6599,Conduzir o veículo registrado que não esteja d...,AV DANTAS BARRETO EM FRENTE AO N 1048 SENT SUB...,"Art. 230, Inc. V",
2,24/12/2015,20:15:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL,5452,Estacionar o veículo no passeio.,RUA FRANCISCO BARROS BARRETO AO LADO OPOSTO 198,"Art. 181, Inc. VIII",
3,28/12/2015,13:50:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL,5452,Estacionar o veículo no passeio.,AV CONS AGUIAR EM FRENTE AO BOMPRECO,"Art. 181, Inc. VIII",
4,28/12/2015,13:55:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL,5452,Estacionar o veículo no passeio.,AV CONS AGUIAR EM FRENTE AO LADO OPOSTO 4777,"Art. 181, Inc. VIII",


 
DATASET BRUTO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2015


Unnamed: 0,datainfracao,horainfracao,dataimplantacao,agenteequipamento,infracao,descricaoinfracao,amparolegal,localcometimento
0,2015/10/26 00:00:00.000,08:42:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII",AV PORTUGAL EM FRENTE AO IMOVEL N 89
1,2015/10/26 00:00:00.000,08:45:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL,5541,Estacionar o veículo em desacordo com as condi...,"Art. 181, Inc. XVII",AV PORTUGAL EM FRENTE AO IMOVEL N 89
2,2015/10/26 00:00:00.000,08:48:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL,5525,Estacionar o veículo na contramão de direção.,"Art. 181, Inc. XV",AV PORTUGAL EM FRENTE AO IMOVEL N 101
3,2015/10/26 00:00:00.000,08:55:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL,5550,Estacionar o veículo em locais e horários proi...,"Art. 181, Inc. XVIII",RUA PACIFICO DOS SANTOS EM FRENTE AO IMOVEL N 124
4,2015/10/26 00:00:00.000,09:10:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL,7366,Dirigir o veículo utilizando-se de telefone ce...,"Art. 252, Inc. VI",AV GOV AGAMENON MAGALHAES EM FRENTE AO SEMAFOR...


In [8]:
# Excluindo colunas irrelevantes para o projeto
multas2016.drop(['infracao','descricaoinfracao','amparolegal','localcometimento','Unnamed: 8'], 
                axis=1, inplace=True)
multas2016.columns = ['data_infracao','hora_infracao','data_implantacao','agente_equipamento']

multas2015.drop(['infracao','descricaoinfracao','amparolegal','localcometimento'], 
                axis=1, inplace=True)
multas2015.columns = ['data_infracao','hora_infracao','data_implantacao','agente_equipamento']

print('DATASET LIMPO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2016')
display(multas2016.head())
print(' ')
print('DATASET LIMPO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2015')
display(multas2015.head())

DATASET LIMPO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2016


Unnamed: 0,data_infracao,hora_infracao,data_implantacao,agente_equipamento
0,30/12/2015,11:10:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL
1,20/12/2015,08:20:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL
2,24/12/2015,20:15:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL
3,28/12/2015,13:50:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL
4,28/12/2015,13:55:00,04/01/2016,Código 6 - AUTOS NO TALÃO MANUAL


 
DATASET LIMPO - INFRAÇÕES DE TRÂNSITO EM RECIFE/2015


Unnamed: 0,data_infracao,hora_infracao,data_implantacao,agente_equipamento
0,2015/10/26 00:00:00.000,08:42:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL
1,2015/10/26 00:00:00.000,08:45:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL
2,2015/10/26 00:00:00.000,08:48:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL
3,2015/10/26 00:00:00.000,08:55:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL
4,2015/10/26 00:00:00.000,09:10:00,2015/11/03 00:00:00.000,Código 6 - AUTOS NO TALÃO MANUAL


In [9]:
# Convertendo colunas data_infracao e data_implantacao para o tipo datetime
multas2016['data_infracao'] = pd.to_datetime(multas2016['data_infracao'], format="%d/%m/%Y")
multas2016['data_implantacao'] = pd.to_datetime(multas2016['data_implantacao'], format="%d/%m/%Y")
multas2015['data_infracao'] = multas2015['data_infracao'].apply(lambda x: x.split(' ')[0])
multas2015['data_infracao'] = pd.to_datetime(multas2015['data_infracao'], format="%Y/%m/%d")
multas2015['data_implantacao'] = multas2015['data_implantacao'].apply(lambda x: x.split(' ')[0])
multas2015['data_implantacao'] = pd.to_datetime(multas2015['data_implantacao'], format="%Y/%m/%d")

# Ajustando padrão na coluna hora_infracao (hh:mm)
multas2016['hora_infracao'] = multas2016['hora_infracao'].apply(lambda x: x[0:5])
multas2015['hora_infracao'] = multas2015['hora_infracao'].apply(lambda x: x[0:5])

print('---TIPOS DOS DADOS (MULTAS 2016)---')
print(multas2016.dtypes)
display(multas2016.head())
print(' ')
print('---TIPOS DOS DADOS (MULTAS 2015)---')
print(multas2015.dtypes)
display(multas2016.head())

---TIPOS DOS DADOS (MULTAS 2016)---
data_infracao         datetime64[ns]
hora_infracao                 object
data_implantacao      datetime64[ns]
agente_equipamento            object
dtype: object


Unnamed: 0,data_infracao,hora_infracao,data_implantacao,agente_equipamento
0,2015-12-30,11:10,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
1,2015-12-20,08:20,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
2,2015-12-24,20:15,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
3,2015-12-28,13:50,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
4,2015-12-28,13:55,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL


 
---TIPOS DOS DADOS (MULTAS 2015)---
data_infracao         datetime64[ns]
hora_infracao                 object
data_implantacao      datetime64[ns]
agente_equipamento            object
dtype: object


Unnamed: 0,data_infracao,hora_infracao,data_implantacao,agente_equipamento
0,2015-12-30,11:10,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
1,2015-12-20,08:20,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
2,2015-12-24,20:15,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
3,2015-12-28,13:50,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL
4,2015-12-28,13:55,2016-01-04,Código 6 - AUTOS NO TALÃO MANUAL


In [10]:
# Reajustando indices
multas2015.reset_index(drop=True, inplace=True)
multas2016.reset_index(drop=True, inplace=True)

# Salvando os datasets tratados
multas2015.to_csv('treated-datasets/infracoes-transito-2015.csv')
multas2016.to_csv('treated-datasets/infracoes-transito-2016.csv')