<h1 style='color: blue; font-size: 36px; font-weight: bold;'>Projeto: Previsão de Crimes no Estado de São Paulo</h1>

# <font color='red' style='font-size: 30px;'>Conhecendo o Dataset</font>
<hr style='border: 2px solid red;'>

## Importando bibliotecas

In [1]:
import matplotlib.pyplot as plt
import pandas as pd

## O Dataset e o Projeto
<hr>

### Fonte: http://www.ssp.sp.gov.br/transparenciassp/Consulta.aspx

### Descrição:
<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Este projeto procura analisar e desenvolver um modelo preditivo baseado em dados históricos da Segurança Pública a fim de prever a ocorrência de crimes no Estado de São Paulo. A intenção geral é fornecer informações sobre a segurança de determinados bairros, dependendo do local e horário para as pessoas, contribuindo para a promoção de um ambiente mais seguro. </p>

<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Vamos utilizar as datasets disponíveis no Portal da Transparência. Este dataset contém as informações dos 3 últimos anos de boletins de ocorrência de furtos e roubos.</p>

### Dados:
<ul style='font-size: 18px; line-height: 2; text-align: justify;'>
  <li><b>periodo</b>: Indica período em que BO foi registrado.</li>
  <li><b>anoBO</b>: Indica ano em que BO foi registrado.</li>
  <li><b>numeroBO</b>: Indica número do BO.</li>
  <li><b>numeroBoletim</b>: Indica protocolo do BO.</li>
  <li><b>boIniciado</b>: Indica data de abertura do BO.</li>
  <li><b>boEmitido</b>: Indica data de emissão do BO.</li>
  <li><b>dataOcorrencia</b>: Indica data da ocorrência de Roubo/Furto.</li>
  <li><b>horaOcorrencia</b>: Indica o horário da ocorrência de Roubo/Furto.</li>
  <li><b>periodoOcorrencia</b>: Indica o período do dia da ocorrência de Roubo/Furto.</li>
  <li><b>dataComunicacao</b>Indica data da comunicação do ocorrido.</li>
  <li><b>boAutoria</b>: - </li>
  <li><b>flagrante</b>: Indica se houve flagrante no ato da ocorrência.</li>
  <li><b>numeroBoletimPrincipal</b>:</li>
  <li><b>logradouro</b>: Logradouro da ocorrência.</li>
  <li><b>numero</b>: Número do logradouro da ocorrência.</li>
  <li><b>bairro</b>: Bairro da ocorrência.</li>
  <li><b>cidade</b>: Cidade da ocorrência.</li>
  <li><b>descricaoLocal</b>: Descreve grupo de tipos de locais onde se deu o fato.</li>
  <li><b>solucao</b>: Soluções tomadas pelo Departamento de Polícia.</li>
  <li><b>tipoDelegacia</b>: Indica se BO foi registrado na delegacia física (0) ou digital (1). </li>
  <li><b>rubrica</b>: Natureza jurídica da ocorrência.</li>
  <li><b>consumado</b>: Indica se é crime consumado (1) ou tentado (0).</li>
  <li><b>vitimaFatal</b>: Se houve (1) ou não (0) vítima fatal.</li>
  <li><b>sexo</b>: Sexo da vítima.</li>
  <li><b>idade</b>: Idade da vítima.</li>
  <li><b>estadoCivil</b>: Estado civil da vítima.</li>
  <li><b>profissao</b>: Profissão da vítima.</li>
  <li><b>grauInstrucao</b>: Grau de instrução da vítima.</li>
  <li><b>cor</b>: Cor da pele da vítima.</li>
  <li><b>quantidadeCelular</b>: Indica a quantidade de celulares roubadas/furtadas.</li>
  <li><b>marcaCelular</b>: Indica a marca da celular roubada/furtada.</li>
</ul>


## Leitura dos dados

Dataset está na pasta "dados" com o nome "Casos.csv" em usa como separador "\t".

In [2]:
dados = pd.read_csv('dados\Casos.csv', sep='\t', encoding='latin-1', low_memory=False)

## Visualizar os dados

In [3]:
dados.head()

Unnamed: 0,anoBO,mesBO,diaSemanaBO,numeroBO,numeroBoletim,boIniciado,boEmitido,dataOcorrencia,horaOcorrencia,mesOcorrencia,...,vitimaFatal,sexo,idade,estadoCivil,profissao,grauInstrucao,cor,quantidadeCelular,marcaCelular,idArquivo
0,2022,12,5,3290,3290/2022,2022-12-01 00:02:34,2022-12-01 00:02:34,2022-11-22,19:30:00,11.0,...,0,,,,,,,1,APPLE,36
1,2022,12,5,3290,3290/2022,2022-12-01 00:02:34,2022-12-01 00:02:34,2022-11-22,19:30:00,11.0,...,0,,,,,,,1,SAMSUNG,36
2,2022,12,5,3290,3290/2022,2022-12-01 00:02:34,2022-12-01 00:02:34,2022-11-22,19:30:00,11.0,...,0,,,,,,,1,APPLE,36
3,2022,12,5,3290,3290/2022,2022-12-01 00:02:34,2022-12-01 00:02:34,2022-11-22,19:30:00,11.0,...,0,,,,,,,1,SAMSUNG,36
4,2022,12,5,193386,193386/2022,2022-12-01 00:14:04,2022-12-01 00:14:04,2022-11-30,07:00:00,11.0,...,0,,,,,,,1,XIAOMI,36


## Verificando o tamanho do dataset

In [4]:
linhas, colunas = dados.shape
print(f'{linhas} linhas\n{colunas} colunas')

1412109 linhas
35 colunas


## Verificando os tipos de dados

In [5]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1412109 entries, 0 to 1412108
Data columns (total 35 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   anoBO                   1412109 non-null  int64  
 1   mesBO                   1412109 non-null  int64  
 2   diaSemanaBO             1412109 non-null  int64  
 3   numeroBO                1412109 non-null  int64  
 4   numeroBoletim           1412109 non-null  object 
 5   boIniciado              1412109 non-null  object 
 6   boEmitido               1412109 non-null  object 
 7   dataOcorrencia          1412106 non-null  object 
 8   horaOcorrencia          1007575 non-null  object 
 9   mesOcorrencia           1412106 non-null  float64
 10  diaSemanaOcorrencia     1412106 non-null  float64
 11  periodoOcorrencia       1412109 non-null  object 
 12  dataComunicacao         1412109 non-null  object 
 13  boAutoria               1412109 non-null  object 
 14  fl

## Limpeza e Tratamento de dados

In [6]:
dados['anoBO'].unique()

array([2022, 2023, 2020, 2019, 2021], dtype=int64)

In [7]:
# Deletando as linhas onde contém os dados nulos na coluna dataOcorrencia.
dados.dropna(subset=['dataOcorrencia'], inplace=True)

# Deletando as linhas onde contém dados inválidas.
datas_invalidas = (dados['dataOcorrencia'] < '1677-09-21') | (dados['dataOcorrencia'] > '2262-04-11')
dados.drop(dados[datas_invalidas].index, inplace=True)

# Deletando as linhas onde o ano de BO é igual a 2019.
ano_BO_invalido = dados['anoBO'] == 2019
dados.drop(dados[ano_BO_invalido].index, inplace=True)


In [8]:
linhas, colunas = dados.shape
print(f'{linhas} linhas\n{colunas} colunas')

1411973 linhas
35 colunas


### Padronizando as colunas para o tipo correto

In [9]:
# convertendo os dados para int.
dados['mesOcorrencia'] = dados['mesOcorrencia'].astype(int)

# convertendo os dados para int.
dados['diaSemanaOcorrencia'] = dados['diaSemanaOcorrencia'].astype(int)

# Substituindo os dados nulos por 0 e convertendo o tipo de dado para int.
dados['numero'] = dados['numero'].fillna(0).astype(int)

# Substituindo os dados nulos por 0 e convertendo o tipo de dado para int.
dados['idade'] = dados['idade'].fillna(0).astype(int)

Ao tentar converter os dados da coluna "quantidadeCelular", obtive erro devido o dado 22,53. Sendo assim, localizei e deletei a linha conforme abaixo para converter os demais dados para tipo int.

In [10]:
# Localizando a linha onde o dado ocasiona o erro ao tentar converter.
dados[dados.eq('22,53').any(axis=1)]

Unnamed: 0,anoBO,mesBO,diaSemanaBO,numeroBO,numeroBoletim,boIniciado,boEmitido,dataOcorrencia,horaOcorrencia,mesOcorrencia,...,vitimaFatal,sexo,idade,estadoCivil,profissao,grauInstrucao,cor,quantidadeCelular,marcaCelular,idArquivo
1344193,2022,7,4,2290,2290/2022,2022-07-13 17:08:08,2022-07-13 17:08:08,2022-07-07,20:30:00,7,...,0,,0,,,,,2253,APPLE,31


In [12]:
# Deletando o index com data inválido.
dados.drop(index=1344193, inplace=True)

# Substituindo os dados nulos por 1 (quantidade mínimo) e convertendo o tipo de dado para int.
dados['quantidadeCelular'] = dados['quantidadeCelular'].fillna(1).astype(int)

### Padronizando as colunas "boIniciado", "boEmitido", "dataOcorrencia" e "dataComunicacao" para tipo data

In [13]:
dados['boIniciado'] = pd.to_datetime(dados['boIniciado'])
dados['boEmitido'] = pd.to_datetime(dados['boEmitido'])
dados['dataOcorrencia'] = pd.to_datetime(dados['dataOcorrencia'])
dados['dataComunicacao'] = pd.to_datetime(dados['dataComunicacao'])

### Padronizando os dados da coluna "periodoOcorrencia"
* DE MADRUGADA: 0h às 6h
* PELA MANHÃ: 6h às 12h
* A TARDE: 12h às 18h
* A NOITE: 18h às 0h

In [14]:
# Tratando a coluna horaOcorrencia.
dados['horaOcorrencia'] = pd.to_datetime(dados['horaOcorrencia'], format='%H:%M:%S').dt.time

# Função para categorizar as horas
def categorizar_horas(hora):
    if 0 <= hora.hour < 6:
        return 'DE MADRUGADA'
    elif 6 <= hora.hour < 12:
        return 'PELA MANHÃ'
    elif 12 <= hora.hour < 18:
        return 'A TARDE'
    elif 18 <= hora.hour < 24:
        return 'A NOITE'
    else:
        return 'EM HORA INCERTA'

# Aplicando a função para categorizar as horas da ocorrência corretamente na coluna "periodoOcorrencia"
dados['periodoOcorrencia'] = dados['horaOcorrencia'].apply(categorizar_horas)

# Exibindo as colunas formatadas.
dados[['horaOcorrencia', 'periodoOcorrencia']]

Unnamed: 0,horaOcorrencia,periodoOcorrencia
0,19:30:00,A NOITE
1,19:30:00,A NOITE
2,19:30:00,A NOITE
3,19:30:00,A NOITE
4,07:00:00,PELA MANHÃ
...,...,...
1412104,19:00:00,A NOITE
1412105,18:40:00,A NOITE
1412106,18:40:00,A NOITE
1412107,20:40:00,A NOITE


In [15]:
# Resetando o index. 
dados.reset_index(drop=True, inplace= True)

# Exibindo as informações das colunas padronizadas.
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1411972 entries, 0 to 1411971
Data columns (total 35 columns):
 #   Column                  Non-Null Count    Dtype         
---  ------                  --------------    -----         
 0   anoBO                   1411972 non-null  int64         
 1   mesBO                   1411972 non-null  int64         
 2   diaSemanaBO             1411972 non-null  int64         
 3   numeroBO                1411972 non-null  int64         
 4   numeroBoletim           1411972 non-null  object        
 5   boIniciado              1411972 non-null  datetime64[ns]
 6   boEmitido               1411972 non-null  datetime64[ns]
 7   dataOcorrencia          1411972 non-null  datetime64[ns]
 8   horaOcorrencia          1007482 non-null  object        
 9   mesOcorrencia           1411972 non-null  int32         
 10  diaSemanaOcorrencia     1411972 non-null  int32         
 11  periodoOcorrencia       1411972 non-null  object        
 12  dataComunicaca

### Separando as dataframes: dados_ocorrencias, dados_vitimas e dados_celular

In [28]:
# Dividir o DataFrame em três partes com base nas colunas.
dados_ocorrencias = dados.iloc[:, :26]
dados_vitimas = dados.iloc[:, 26:32]
dados_celular = dados.iloc[:, 32:34]

In [29]:
dados_celular.head()

Unnamed: 0,quantidadeCelular,marcaCelular
0,1,APPLE
1,1,SAMSUNG
2,1,APPLE
3,1,SAMSUNG
4,1,XIAOMI


# <font color='red' style='font-size: 30px;'>Análises Preliminares</font>
<hr style='border: 2px solid red;'>

# Análises gráficas

## Importando biblioteca seaborn

In [32]:
import seaborn as sns

## Configurando o estilo e cor dos gráficos

In [33]:
sns.set_palette('rocket')
sns.set_style('darkgrid')

## Análises

### Ocorrências por período

In [None]:
sns.barplot(data=dados_ocorrencias, x='anoBO', y= .index, orient='h' )

## Box plot da variável *dependente* (y)


### Avalie o comportamento da distribuição da variável dependente:
<ul style='font-size: 16px; line-height: 2; text-align: justify;'>
    <li>Parecem existir valores discrepantes (outliers)?</li>
    <li>O box plot apresenta alguma tendência?</li>
</ul>

https://seaborn.pydata.org/generated/seaborn.boxplot.html?highlight=boxplot#seaborn.boxplot

In [None]:
# Gerar gráficos.

## Investigando a variável *dependente* (y) juntamente com outras característica

Fazendo um box plot da variável dependente em conjunto com cada variável explicativa (somente as categóricas).

### Avaliando o comportamento da distribuição da variável dependente com cada variável explicativa categórica:
<ul style='font-size: 16px; line-height: 2; text-align: justify;'>
    <li>As estatísticas apresentam mudança significativa entre as categorias?</li>
    <li>O box plot apresenta alguma tendência bem definida?</li>
</ul>

### EX: Box-plot (Período X Ocorrências)

## Distribuição de frequências da variável *dependente* (y)

Construindo um histograma da variável dependente.

### Avaliar:
<ul style='font-size: 16px; line-height: 2; text-align: justify;'>
    <li>A distribuição de frequências da variável dependente parece ser assimétrica?</li>
    <li>É possível supor que a variável dependente segue uma distribuição normal?</li>
</ul>

## Gráficos de dispersão entre as variáveis do dataset

## Plotando o pairplot fixando somente uma variável no eixo y

Plotando gráficos de dispersão da variável dependente contra cada variável explicativa, utilizando o pairplot da biblioteca seaborn.

### Avaliar:
<ul style='font-size: 16px; line-height: 2; text-align: justify;'>
    <li>É possível identificar alguma relação linear entre as variáveis?</li>
    <li>A relação é positiva ou negativa?</li>
    <li>Compare com os resultados obtidos na matriz de correlação.</li>
</ul>

In [None]:
"""
ax = sns.pairplot(dados, y_vars='', x_vars=[''], kind='reg')
ax.fig.suptitle('Dispersão entre as variáveis', fontsize=20, y=1.05)
plt.show()
"""

# <font color='red' style='font-size: 30px;'>Estimando um Modelo de Regressão Linear</font>
<hr style='border: 2px solid red;'>

## Importando o *train_test_split* da biblioteca *scikit-learn*

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
from sklearn.model_selection import train_test_split

## Criando uma Series (pandas) para armazenar a variável dependente (y)

## Criando um DataFrame (pandas) para armazenar as variáveis explicativas (X)

## Criando os datasets de treino e de teste

## Importando *LinearRegression* e *metrics* da biblioteca *scikit-learn*

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

https://scikit-learn.org/stable/modules/classes.html#regression-metrics

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

## Instanciando a classe *LinearRegression()*

## Utilizando o método *fit()* para estimar o modelo linear utilizando os dados de TREINO (y_train e X_train)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.fit

## Obtendo o coeficiente de determinação (R²) do modelo estimado com os dados de TREINO

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score


### Avalie:
<ul style='font-size: 16px; line-height: 2; text-align: justify;'>
    <li>O modelo apresenta um bom ajuste?</li>
    <li>Você lembra o que representa o R²?</li>
    <li>Qual medida podemos tomar para melhorar essa estatística?</li>
</ul>

## Gerando previsões para os dados de TESTE (X_test) utilizando o método *predict()*

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.predict

## Obtendo o coeficiente de determinação (R²) para as previsões do nosso modelo

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score

# <font color='red' style='font-size: 30px;'>Obtendo Previsões Pontuais</font>
<hr style='border: 2px solid red;'>

## Criando um simulador simples

Crie um simulador que gere estimativas de ocorrências a partir de um conjunto de informações.

# <font color='red' style='font-size: 30px;'>Métricas de Regressão</font>
<hr style='border: 2px solid red;'>

## Métricas da regressão
<hr>

fonte: https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics

Algumas estatísticas obtidas do modelo de regressão são muito úteis como critério de comparação entre modelos estimados e de seleção do melhor modelo, as principais métricas de regressão que o scikit-learn disponibiliza para modelos lineares são as seguintes:

### Erro Quadrático Médio

Média dos quadrados dos erros. Ajustes melhores apresentam $EQM$ mais baixo.

$$EQM(y, \hat{y}) = \frac 1n\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2$$

### Raíz do Erro Quadrático Médio

Raíz quadrada da média dos quadrados dos erros. Ajustes melhores apresentam $\sqrt{EQM}$ mais baixo.

$$\sqrt{EQM(y, \hat{y})} = \sqrt{\frac 1n\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}$$

### Coeficiente de Determinação - R²

O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. É um valor entra 0 e 1.

$$R^2(y, \hat{y}) = 1 - \frac {\sum_{i=0}^{n-1}(y_i-\hat{y}_i)^2}{\sum_{i=0}^{n-1}(y_i-\bar{y}_i)^2}$$

# <font color='red' style='font-size: 30px;'>Salvando e Carregando o Modelo Estimado</font>
<hr style='border: 2px solid red;'>

## Importando a biblioteca pickle

In [None]:
import pickle

## Salvando o modelo estimado