# SCC0630 - Inteligência Artificial
## Trabalho Prático 2 - Mineração de Dados

### Tema: Acidentes de trânsito no Reino Unido

#### Alunos
* Alexandre Batistella Bellas&emsp;&emsp;&emsp;&emsp;9763168
* Guilherme dos Reis Meneguello&emsp;&ensp;9313707
* Guilherme Lima Blatt&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&ensp;9771470
* Igor Guedes Rodrigues&emsp;&emsp;&emsp;&emsp;&emsp;&ensp;9771654
* Murilo Luz Stucki&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&nbsp;9360902
* Thiago Músico&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&ensp;9771567
* Tiago Lemes Daneluzzi&emsp;&emsp;&emsp;&emsp;&emsp;&ensp;8531320

## Escolha da base de dados

<div style="text-align: justify">
Para este trabalho prático, foram pesquisadas diversas bases de dados dentro do site Kaggle, a principal comunidade de cientistas de dados do mundo. Diante dos mais variados temas, escolhemos a base de dados <i>1.6 million UK traffic accidents</i>, disponível para download <a href="https://www.kaggle.com/daveianhickey/2000-16-traffic-flow-england-scotland-wales">neste link</a>. Sobre a base de dados, a descrição, seus atributos e conhecimentos retirados serão detalhados posteriormente e no relatório anexado a esse <i>notebook</i>.
</div>

## Proposta de trabalho e detalhamento da mineração

<div style="text-align: justify">
    Para a mineração de dados, devemos, primeiramente, aplicar o pré-processamento na base de dados. Para isso, leremos a base de dados, removeremos todos os dados faltantes (NaN, "?", vazios, ...), separaremos os nomes dos atributos em uma lista para posterior consulta, investigaremos os dados únicos de possíveis atributos-classe e outras características interessantes como quantidade de linhas, intervalo de valores, entre outros.<br><br>
    Posteriormente, aplicaremos uma análise de agrupamento na base de dados, verificando os dados mais próximos entre si, podendo perceber um padrão nas causas dos acidentes registrados, ou mesmo algum tipo de análise profunda dos principais porquês da ocorrência dos acidentes e suas consequências. Utilizando algoritmos de agrupamento como o <i>K-Means</i> e o <i>Linkage</i>, alcançaremos uma análise primária das tendências sobre os incidentes.<br><br>
    Em seguida, com algoritmos de regras de associação como o <i>Apriori</i>, podemos ver pontualmente como os valores de determinados atributos se associam, e se há uma regra de acontecimento de um acidente a partir de dada situação. Assim, se torna um complemento do estudo prévio feito.<br><br>
    Por fim, podemos treinar nossa base de dados com modelos preditivos, como <i>K-Nearest Neighbors</i>, <i>Decision Tree</i>, <i>Naive Bayes</i>, entre outros, para que se possa adquirir uma forma de predizer se uma dada situação resultará em um acidente de alta gravidade. Dessa forma, pensando como polícia local, pode-se priorizar solucionar as situações que apresentam maior risco à população, além de conseguir mensurar o quão perigoso seria, para o suposto motorista, estar na situação imaginada.
</div>

## Aplicação da mineração de dados e análise dos resultados obtidos

### Pré-processamento dos dados

In [1]:
# Bibliotecas necessárias para o pré-processamento
import numpy as np
import pandas as pd

In [8]:
# Lendo os dados do dataset
df = pd.read_csv("data/accidents_2012_to_2014.csv")
df.head(10)

Unnamed: 0,Accident_Index,Location_Easting_OSGR,Location_Northing_OSGR,Longitude,Latitude,Police_Force,Accident_Severity,Number_of_Vehicles,Number_of_Casualties,Date,...,Pedestrian_Crossing-Physical_Facilities,Light_Conditions,Weather_Conditions,Road_Surface_Conditions,Special_Conditions_at_Site,Carriageway_Hazards,Urban_or_Rural_Area,Did_Police_Officer_Attend_Scene_of_Accident,LSOA_of_Accident_Location,Year
0,201201BS70001,527200,178760,-0.169101,51.493429,1,3,2,1,19/01/2012,...,Pedestrian phase at traffic signal junction,Darkness: Street lights present and lit,Fine without high winds,Dry,,,1,Yes,E01002821,2012
1,201201BS70002,524930,181430,-0.200838,51.517931,1,3,2,1,04/01/2012,...,No physical crossing within 50 meters,Darkness: Street lights present and lit,Fine without high winds,Dry,,,1,Yes,E01004760,2012
2,201201BS70003,525860,178080,-0.188636,51.487618,1,3,2,1,10/01/2012,...,non-junction pedestrian crossing,Daylight: Street light present,Fine without high winds,Dry,,,1,Yes,E01002893,2012
3,201201BS70004,524980,181030,-0.200259,51.514325,1,3,1,1,18/01/2012,...,No physical crossing within 50 meters,Daylight: Street light present,Fine without high winds,Dry,,,1,Yes,E01002886,2012
4,201201BS70005,526170,179200,-0.183773,51.497614,1,3,1,1,17/01/2012,...,No physical crossing within 50 meters,Darkness: Street lights present and lit,Fine without high winds,Dry,,,1,Yes,E01002890,2012
5,201201BS70006,526090,177600,-0.185496,51.483253,1,3,2,1,19/01/2012,...,Pedestrian phase at traffic signal junction,Darkness: Street lights present and lit,Raining without high winds,Wet/Damp,,,1,Yes,E01002912,2012
6,201201BS70007,527780,179680,-0.160418,51.501567,1,3,1,1,12/01/2012,...,Pedestrian phase at traffic signal junction,Daylight: Street light present,Fine without high winds,Dry,,,1,Yes,E01002818,2012
7,201201BS70008,524010,182080,-0.213862,51.523975,1,3,2,1,07/01/2012,...,Zebra crossing,Daylight: Street light present,Fine without high winds,Dry,,,1,Yes,E01002905,2012
8,201201BS70010,527710,179290,-0.161567,51.498077,1,3,2,1,07/01/2012,...,No physical crossing within 50 meters,Daylight: Street light present,Fine without high winds,Dry,,,1,No,E01002818,2012
9,201201BS70011,525120,180060,-0.198587,51.505576,1,3,2,1,04/01/2012,...,No physical crossing within 50 meters,Darkness: Street lights present and lit,Raining without high winds,Wet/Damp,,,1,Yes,E01002825,2012


In [11]:
# Atributos presentes no dataset
print("Atributos do dataset:")
for i in df.columns:
    print("\t" + i)

Atributos do dataset:
	Accident_Index
	Location_Easting_OSGR
	Location_Northing_OSGR
	Longitude
	Latitude
	Police_Force
	Accident_Severity
	Number_of_Vehicles
	Number_of_Casualties
	Date
	Day_of_Week
	Time
	Local_Authority_(District)
	Local_Authority_(Highway)
	1st_Road_Class
	1st_Road_Number
	Road_Type
	Speed_limit
	Junction_Detail
	Junction_Control
	2nd_Road_Class
	2nd_Road_Number
	Pedestrian_Crossing-Human_Control
	Pedestrian_Crossing-Physical_Facilities
	Light_Conditions
	Weather_Conditions
	Road_Surface_Conditions
	Special_Conditions_at_Site
	Carriageway_Hazards
	Urban_or_Rural_Area
	Did_Police_Officer_Attend_Scene_of_Accident
	LSOA_of_Accident_Location
	Year


In [None]:
# Retirando todas as linhas que possuem dados faltantes


### Análise através do agrupamento de dados

### Exploração via regras de associação

### Uso de modelos preditivos