In [1]:
#Analise de dados de carros roubados registrados 
#pelo departamento da DEINTER de São José dos Campos 
#nos meses de Janeiro à Abril de 2018.
#Utilizando um mapa de calor e as informações cedidas 
#pelo portal de transparencia do governo do estado de São Paulo 
#é possivel evidenciar as regiões com maiores indices de roubo de veiculos 
#e assim aplicar uma solução de segurança. 
#Projeto elaborado para a materia de Graduação de Inteligencia Artificial na FATEC de São José dos Campos.

In [2]:
import pandas as pd
from pandas import Series, DataFrame
import folium
from folium import plugins

In [3]:
path = 'datasets/'
startName = 'dataset_of_'
filenames = {'janeiro', 'fevereiro', 'marco', 'abril'}
extension = '.csv'

In [4]:
#Função para percorrer os arquivos de dados e popular o dataframe.
def populaDataFrame():
    dfList = list()

    for file in filenames:
        df= pd.DataFrame(pd.read_csv(path+startName+file+extension))
        dfList.append(df)

    df = pd.concat(dfList)
    return df

In [5]:
df = populaDataFrame()
df.reset_index()

Unnamed: 0,index,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,PERIDOOCORRENCIA,DATACOMUNICACAO,DATAELABORACAO,...,NATUREZAVINCULADA,TIPOVINCULO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO
0,0,2018,1140,1140/2018,01/03/2018 09:04:16,01/03/2018 09:33:48,28/02/2018,A NOITE,01/03/2018,01/03/2018 09:04:16,...,,,FJP6956,MG,AIURUOCA,Branco,SCANIA/R 440 A6X2,2013.0,2013.0,CAMINHÃO TRATOR
1,1,2018,1140,1140/2018,01/03/2018 09:04:16,01/03/2018 09:33:48,28/02/2018,A NOITE,01/03/2018,01/03/2018 09:04:16,...,,,GUD0032,SP,PORTO FERREIRA,Prata,REB/RANDON SR SL CI,1995.0,1995.0,SEMI-REBOQUE
2,2,2018,333,333/2018,01/03/2018 15:10:34,01/03/2018 15:45:18,01/03/2018,PELA MANHÃ,01/03/2018,01/03/2018 15:10:34,...,,,,,,,,0.0,0.0,
3,3,2018,333,333/2018,01/03/2018 15:10:34,01/03/2018 15:45:18,01/03/2018,PELA MANHÃ,01/03/2018,01/03/2018 15:10:34,...,,,FPU1009,SP,S.JOSE DOS CAMPOS,Azul,CHEVROLET/S10 ADV FD2,2017.0,2017.0,CAMINHONETE
4,4,2018,333,333/2018,01/03/2018 15:10:34,01/03/2018 15:45:18,01/03/2018,PELA MANHÃ,01/03/2018,01/03/2018 15:10:34,...,,,,,,,,0.0,0.0,
5,5,2018,333,333/2018,01/03/2018 15:10:34,01/03/2018 15:45:18,01/03/2018,PELA MANHÃ,01/03/2018,01/03/2018 15:10:34,...,,,FPU1009,SP,S.JOSE DOS CAMPOS,Azul,CHEVROLET/S10 ADV FD2,2017.0,2017.0,CAMINHONETE
6,6,2018,503,503/2018,01/03/2018 17:28:58,01/03/2018 17:35:50,22/02/2018,A NOITE,01/03/2018,01/03/2018 17:28:58,...,,,HAS4218,MG,MURIAE,Preta,HONDA/CBX 250 TWISTER,2003.0,2003.0,MOTOCICLO
7,7,2018,735,735/2018,01/03/2018 22:04:39,01/03/2018 22:53:49,01/03/2018,A NOITE,01/03/2018,01/03/2018 22:04:39,...,,,DUN5089,SP,S.JOSE DOS CAMPOS,Prata,GM/ASTRA HB 4P ADVANTAGE,2006.0,2007.0,AUTOMOVEL
8,8,2018,732,732/2018,01/03/2018 20:48:59,01/03/2018 22:54:05,01/03/2018,A NOITE,01/03/2018,01/03/2018 20:48:59,...,,,NTO7524,RJ,EST DO RIO DE JANEIR,Prata,I/GM CAPTIVA SPORT FWD,2010.0,2010.0,CAMIONETA
9,9,2018,602,602/2018,01/03/2018 22:30:15,01/03/2018 23:41:25,01/03/2018,A TARDE,01/03/2018,01/03/2018 22:30:15,...,,,,,,,,0.0,0.0,


In [6]:
#Criamos um novo dataframe para trabalhar com as informações que iremos utilizar
geolocalizacoes = df[['LATITUDE', 'LONGITUDE']]

In [7]:
#Processo de limpeza da base removendo os valores nulos

#Identifica a quantidade de resultados nulos existentes na base
geolocalizacoes.isnull().sum()

LATITUDE     217
LONGITUDE    217
dtype: int64

In [8]:
#Remove estes valores nulos e persiste na indexação
geolocalizacoes.dropna(inplace=True)
#Valida novamente a quantidade de resultados nulos
geolocalizacoes.isnull().sum()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


LATITUDE     0
LONGITUDE    0
dtype: int64

In [9]:
#Através da biblioteca do Folium criamos um novo mapa e populamos ele com as latitudes e longitudes do dataframe
coordenadas = []
lat = geolocalizacoes['LATITUDE'].values

long = geolocalizacoes['LONGITUDE'].values

mapa = folium.Map(location=[-23.1791, -45.8872],tiles='OpenStreetMap',zoom_start=12)
 
for la,lo in zip(lat,long):
    coordenadas.append([la,lo])
    
mapa.add_child(plugins.HeatMap(coordenadas))