### Análise do problema:


Os registros começam em 14 de junho de 2015 e continuam até 3 de setembro de 2018.

Que tipos de crimes são mais comuns?
Onde os diferentes tipos de crimes têm maior probabilidade de ocorrer?
A frequência dos crimes muda ao longo do dia? Semana? Ano?

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
sns.set(style="whitegrid")

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

In [None]:
crime = pd.read_csv('/kaggle/input/crimes-in-boston/crime.csv', encoding='latin')
oc = pd.read_csv('/kaggle/input/crimes-in-boston/offense_codes.csv', encoding='latin')

In [None]:
crime.head()

In [None]:
crime.shape

In [None]:
oc.head()

In [None]:
oc.shape

In [None]:
crime.dtypes

## Limpeza e preparação dos dados

In [None]:
crime.isnull().sum()

In [None]:
crime['DISTRICT'].value_counts()

In [None]:
crime['DISTRICT'] = crime['DISTRICT'].fillna(crime['DISTRICT'].mode().iloc[0])
crime.isnull().sum()

In [None]:
# Os valores nulos de Shooting são por conta que não houve troca de tiro.

crime['SHOOTING'].value_counts()

In [None]:
crime['SHOOTING'] = crime['SHOOTING'].fillna(value='N')

In [None]:
crime['UCR_PART'].value_counts()

In [None]:
crime['UCR_PART'] = crime['UCR_PART'].fillna(crime['UCR_PART'].mode().iloc[0])

In [None]:
crime.Lat.replace(-1, None, inplace=True)
crime.Long.replace(-1, None, inplace=True)

In [None]:
crime.drop(['INCIDENT_NUMBER', 'Location'], axis=1, inplace=True)

In [None]:
crime['STREET'].fillna('Not identified', inplace=True)

In [None]:
crime['OCCURRED_ON_DATE'] = pd.to_datetime(crime['OCCURRED_ON_DATE'])

In [None]:
crime.isnull().sum()

## Análise Geral

In [None]:
lista = crime['SHOOTING'].value_counts()
dict_shooting = {'No' : lista[0], 'Yes' : lista[1]}

names = dict_shooting.keys()
values = dict_shooting.values()

plt.title('Shooting')
plt.bar(names, values)

In [None]:
# Top 10 categoria de crimes cometidos
lista_offense_code_group = crime['OFFENSE_CODE_GROUP'].value_counts()
dict_offense_code_group = lista_offense_code_group[0:5].to_dict()

names_offense_code_group = dict_offense_code_group.keys()
values_offense_code_group = dict_offense_code_group.values()

plt.figure(figsize=[12,9])
plt.title('Maiores categorias de crimes cometidos - Geral')
plt.xlabel('Crimes')
plt.ylabel('Quantidade')
plt.bar(names_offense_code_group, values_offense_code_group)

UCR Part One que incluem os crimes mais sérios.

In [None]:
crime_part_one = crime.loc[crime['UCR_PART'] == 'Part One']

lista_offense_group_one = crime_part_one['OFFENSE_CODE_GROUP'].value_counts()
dict_offense_group_one = lista_offense_group_one[0:5].to_dict()

names_offense_group_one = dict_offense_group_one.keys()
values_offense_group_one = dict_offense_group_one.values()

plt.figure(figsize=[12,9])
plt.title('Group Part One')
plt.xlabel('Crimes')
plt.ylabel('Quantidade')
plt.bar(names_offense_group_one, values_offense_group_one)

In [None]:
# Distritos
lista_district = crime['DISTRICT'].value_counts()
dict_district = lista_district.to_dict()

names_district = dict_district.keys()
values_district = dict_district.values()

plt.figure(figsize=[12,9])
plt.title('Distritos')
plt.xlabel('Distritos')
plt.ylabel('Quantidade')
plt.bar(names_district, values_district)

In [None]:
grouped = crime[['MONTH']].groupby(crime['OFFENSE_CODE_GROUP'])

In [None]:
grouped_month = grouped.mean()
grouped_month = grouped_month[:5]
plt.figure(figsize=[12,8])
sns.barplot(x=grouped_month.index, y=grouped_month['MONTH'], palette="rocket")

In [None]:
# Gráfico com a hora de ocorrência dos crimes
sns.catplot(x="HOUR", kind="count", height=6, palette="muted", data=crime)
plt.xlabel("Hora")

In [None]:
# Gráfico com os dias da semana com ocorrência dos crimes
sns.catplot(x="DAY_OF_WEEK", kind="count", height=6, palette="muted", data=crime)
plt.xlabel("Dias")

In [None]:
# Gráfico com o mês de ocorrência dos crimes
sns.catplot(x="MONTH", kind="count", height=6, palette="muted", data=crime)
plt.xlabel("Mês")

In [None]:
# Scatterplot geral
sns.scatterplot(x='Lat',
               y='Long',
                alpha=0.01,
               data=crime)

In [None]:
# Scatterplot UCR Part One
sns.scatterplot(x='Lat',
               y='Long',
                alpha=0.01,
               data=crime_part_one)

In [None]:
# Scatterplot relacionado com o distrito
sns.scatterplot(x='Lat',
               y='Long',
               hue='DISTRICT',
               alpha=0.01,
               data=crime)
plt.legend(bbox_to_anchor=(1.05, 1), loc=2)