# Projeto Banco de Dados
# Ocorrências Policiais de São Paulo/SP

# Objetivo
Com base em informações de Ocorrências Policiais do Estado de São Paulo, entre os anos de 2002 e 2021, pretende-se neste projeto avaliar alguns questionamentos, como:

1. 5 anos com maiores incidentes de homicidio;
2. Top 10 cidades em registros de homicídio nos últimos 10 anos (2011-2021);
3. Top 5 cidades em registros de Roubo e Furto;
4. Histórico dos últimos 5 anos de Roubo e Furtos na cidade de São Paulo;
5. Top 5 anos em quantidade de ocorrências policiais no estado.


# 1. Detalhamento

## Origem dos Dados
Dados públicos fornecidos pela Secretaria de Segurança Pública do Estado de São Paulo

## Catálogo de Dados

1. Tabela de Ocorrências:

![Catalogo Ocorrencias](https://raw.githubusercontent.com/pauloricardofagundes/MVP-Engenharia_Dados/refs/heads/main/Catalogo_dados_MVP1.png)

2. Tabela de Municípios:
- Serão carregados para criação do banco de dados apenas os 2 campos necessários para identificação do município

![Catalogo Municipios](https://raw.githubusercontent.com/pauloricardofagundes/MVP-Engenharia_Dados/refs/heads/main/Catalogo_dados_MVP2.png)

In [0]:
from pyspark import SparkFiles
from pyspark.sql.types import IntegerType


# 2. Importação dos dados para criação do Database

In [0]:
# Base de dados com registro de ocorrências
url_1 = "https://raw.githubusercontent.com/pauloricardofagundes/MVP-Engenharia_Dados/refs/heads/main/br_sp_gov_ssp_ocorrencias_registradas.csv"  

# Base de identificação de municícipios, para join com a base de ocorrências
url_2 = "https://raw.githubusercontent.com/pauloricardofagundes/MVP-Engenharia_Dados/refs/heads/main/br_bd_diretorios_brasil_municipio.csv"  

spark.sparkContext.addFile(url_1)
df_bd_ocorrencias = spark.read.csv(
    "file://" + SparkFiles.get("br_sp_gov_ssp_ocorrencias_registradas.csv"),
    header=True,
    inferSchema=False,
)

spark.sparkContext.addFile(url_2)
df_bd_municipios = spark.read.csv(
    "file://" + SparkFiles.get("br_bd_diretorios_brasil_municipio.csv"),
    header=True,
    inferSchema=False,
)

# Convertendo campos numéricos de texto para número inteiro
Campos_Num = [  "ano",
                "homicidio_doloso",
                "numero_de_vitimas_em_homicidio_doloso",
                "homicidio_doloso_por_acidente_de_transito",
                "numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito",
                "homicidio_culposo_por_acidente_de_transito",
                "homicidio_culposo_outros",
                "tentativa_de_homicidio",
                "lesao_corporal_seguida_de_morte",
                "lesao_corporal_dolosa",
                "lesao_corporal_culposa_por_acidente_de_transito",
                "lesao_corporal_culposa_outras",
                "latrocinio",
                "numero_de_vitimas_em_latrocinio",
                "total_de_estupro",
                "estupro",
                "estupro_de_vulneravel",
                "total_de_roubo_outros",
                "roubo_outros",
                "roubo_de_veiculo",
                "roubo_a_banco",
                "roubo_de_carga",
                "furto_outros",
                "furto_de_veiculo"
                ]

for x in Campos_Num: 
    df_bd_ocorrencias = df_bd_ocorrencias.withColumn(x, df_bd_ocorrencias[x].cast(IntegerType()))

# Selecionar colunas específicas da tabela de município
colunas_desejadas = ["id_municipio", "nome"]
df_bd_municipios = df_bd_municipios.select(colunas_desejadas)

#df_bd_ocorrencias = df_bd_ocorrencias.dropna()  # Deleta linhas sem valores
#df_bd_municipios = df_bd_municipios.dropna()  # Deleta linhas sem valores

display(df_bd_ocorrencias, 5)
display(df_bd_municipios, 5)

ano,mes,id_municipio,regiao_ssp,homicidio_doloso,numero_de_vitimas_em_homicidio_doloso,homicidio_doloso_por_acidente_de_transito,numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito,homicidio_culposo_por_acidente_de_transito,homicidio_culposo_outros,tentativa_de_homicidio,lesao_corporal_seguida_de_morte,lesao_corporal_dolosa,lesao_corporal_culposa_por_acidente_de_transito,lesao_corporal_culposa_outras,latrocinio,numero_de_vitimas_em_latrocinio,total_de_estupro,estupro,estupro_de_vulneravel,total_de_roubo_outros,roubo_outros,roubo_de_veiculo,roubo_a_banco,roubo_de_carga,furto_outros,furto_de_veiculo
2002,1,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,13,2,0,0,0,,,0,,0,0,0,21,0
2002,2,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,15,2,0,0,0,,,0,,0,0,0,32,0
2002,3,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,21,13,5,0,0,0,,,0,,0,0,0,36,0
2002,4,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,36,13,1,0,0,0,,,1,,0,0,0,45,0
2002,5,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,27,12,1,0,0,0,,,1,,0,0,0,35,0
2002,6,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,19,20,3,0,0,0,,,1,,0,0,0,25,0
2002,7,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,18,16,4,0,0,0,,,0,,0,0,0,28,0
2002,8,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,36,12,2,1,1,0,,,0,,0,0,0,21,0
2002,9,3500105,Presidente Prudente,1,1,0,0,0,0,0,0,24,12,4,0,0,0,,,0,,0,0,0,17,0
2002,10,3500105,Presidente Prudente,0,0,0,0,1,0,1,0,35,11,2,0,0,0,,,0,,0,0,0,27,0


id_municipio,nome
1100338,Nova Mamoré
1100205,Porto Velho
1101104,Itapuã do Oeste
1100809,Candeias do Jamari
1100940,Cujubim
1100452,Buritis
1100700,Campo Novo de Rondônia
1100106,Guajará-Mirim
1100080,Costa Marques
1101492,São Francisco do Guaporé


# 3. Criação do Banco de Dados

In [0]:
%sql DROP DATABASE Db_Ocorrencia --CASCADE;

[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-2543913894165253>:7[0m
[1;32m      5[0m     display(df)
[1;32m      6[0m     [38;5;28;01mreturn[39;00m df
[0;32m----> 7[0m   _sqldf [38;5;241m=[39m [43m____databricks_percent_sql[49m[43m([49m[43m)[49m
[1;32m      8[0m [38;5;28;01mfinally[39;00m:
[1;32m      9[0m   [38;5;28;01mdel[39;00m ____databricks_percent_sql

File [0;32m<command-2543913894165253>:4[0m, in [0;36m____databricks_percent_sql[0;34m()[0m
[1;32m      2[0m [38;5;28;01mdef[39;00m [38;5;21m____databricks_percent_sql[39m():
[1;32m      3[0m   [38;5;28;01mimport[39;00m [38;5;21;01mbase64[39;00m
[0;32m----> 4[0m   df [38;5;241m=[39m [43mspark[49m[38;5;241;43m.[39;49m[43msql[49m[43m([49m[43mbase64[49m[38;5;241;43m.[39;49m[43mstandard_b64decode[49m[43m([49m[38;5;124;43m"[39;

In [0]:
%sql CREATE DATABASE Db_Ocorrencia;

In [0]:
df_bd_ocorrencias.write.mode("overwrite").saveAsTable("Db_Ocorrencia.ocorrencias")

df_bd_municipios.write.mode("overwrite").saveAsTable("Db_Ocorrencia.municipios")

In [0]:
%sql SELECT * FROM Db_Ocorrencia.ocorrencias LIMIT 5

ano,mes,id_municipio,regiao_ssp,homicidio_doloso,numero_de_vitimas_em_homicidio_doloso,homicidio_doloso_por_acidente_de_transito,numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito,homicidio_culposo_por_acidente_de_transito,homicidio_culposo_outros,tentativa_de_homicidio,lesao_corporal_seguida_de_morte,lesao_corporal_dolosa,lesao_corporal_culposa_por_acidente_de_transito,lesao_corporal_culposa_outras,latrocinio,numero_de_vitimas_em_latrocinio,total_de_estupro,estupro,estupro_de_vulneravel,total_de_roubo_outros,roubo_outros,roubo_de_veiculo,roubo_a_banco,roubo_de_carga,furto_outros,furto_de_veiculo
2002,1,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,13,2,0,0,0,,,0,,0,0,0,21,0
2002,2,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,15,2,0,0,0,,,0,,0,0,0,32,0
2002,3,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,21,13,5,0,0,0,,,0,,0,0,0,36,0
2002,4,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,36,13,1,0,0,0,,,1,,0,0,0,45,0
2002,5,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,27,12,1,0,0,0,,,1,,0,0,0,35,0


In [0]:
%sql SELECT * FROM Db_Ocorrencia.municipios LIMIT 5

id_municipio,nome
1100338,Nova Mamoré
1100205,Porto Velho
1101104,Itapuã do Oeste
1100809,Candeias do Jamari
1100940,Cujubim


# 4. Junção de tabelas para criação de tabela flat final

In [0]:
%sql
SELECT
Id_municipio,
nome,
COUNT(*) as contagem
FROM Db_Ocorrencia.municipios
GROUP BY id_municipio, nome
ORDER BY contagem DESC

Id_municipio,nome,contagem
1504422,Marituba,1
1712702,Mateiros,1
2103000,Caxias,1
2107902,Passagem Franca,1
2211357,Várzea Branca,1
2202091,Caldeirão Grande do Piauí,1
2503407,Cacimba de Areia,1
2930758,Sítio do Mato,1
2930808,Souto Soares,1
3135357,Japonvar,1


In [0]:
%sql CREATE TABLE Db_Ocorrencia.Geral AS 
SELECT 
O.* ,
M.nome
FROM Db_Ocorrencia.ocorrencias AS O
 
LEFT JOIN 
 (SELECT DISTINCT
 Id_municipio,
 nome
 From Db_Ocorrencia.municipios ) AS M
ON O.id_municipio = M.id_municipio

num_affected_rows,num_inserted_rows


In [0]:
%sql
SELECT * FROM db_ocorrencia.geral
LIMIT 5

ano,mes,id_municipio,regiao_ssp,homicidio_doloso,numero_de_vitimas_em_homicidio_doloso,homicidio_doloso_por_acidente_de_transito,numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito,homicidio_culposo_por_acidente_de_transito,homicidio_culposo_outros,tentativa_de_homicidio,lesao_corporal_seguida_de_morte,lesao_corporal_dolosa,lesao_corporal_culposa_por_acidente_de_transito,lesao_corporal_culposa_outras,latrocinio,numero_de_vitimas_em_latrocinio,total_de_estupro,estupro,estupro_de_vulneravel,total_de_roubo_outros,roubo_outros,roubo_de_veiculo,roubo_a_banco,roubo_de_carga,furto_outros,furto_de_veiculo,nome
2002,1,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,13,2,0,0,0,,,0,,0,0,0,21,0,Adamantina
2002,2,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,24,15,2,0,0,0,,,0,,0,0,0,32,0,Adamantina
2002,3,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,21,13,5,0,0,0,,,0,,0,0,0,36,0,Adamantina
2002,4,3500105,Presidente Prudente,0,0,0,0,0,0,1,0,36,13,1,0,0,0,,,1,,0,0,0,45,0,Adamantina
2002,5,3500105,Presidente Prudente,0,0,0,0,0,0,0,0,27,12,1,0,0,0,,,1,,0,0,0,35,0,Adamantina


# 5. Análises dos Dados

In [0]:
%sql
SELECT
ano as Ano,
Sum(homicidio_doloso) as Hom_Doloso,
Sum(homicidio_doloso_por_acidente_de_transito) as Hom_Dol_AT,
Sum(homicidio_culposo_outros) as Hom_Cul,
Sum(homicidio_culposo_por_acidente_de_transito) as Hom_Cul_AT,
Sum(homicidio_doloso) + Sum(homicidio_doloso_por_acidente_de_transito) + sum(homicidio_culposo_outros) + sum(homicidio_culposo_por_acidente_de_transito)  as Total,

Round(((
  Sum(homicidio_doloso) +
  Sum(homicidio_doloso_por_acidente_de_transito) + 
  Sum(homicidio_culposo_outros) + 
  Sum(homicidio_culposo_por_acidente_de_transito)) 
  * 100.0 / 
  (SELECT (
    Sum(homicidio_doloso) + 
    Sum(homicidio_doloso_por_acidente_de_transito) + 
    Sum(homicidio_culposo_outros) + 
    Sum(homicidio_culposo_por_acidente_de_transito)) 
    FROM Db_Ocorrencia.geral)),2) AS `% Perc`

FROM Db_Ocorrencia.geral
GROUP BY Ano
ORDER BY Total DESC
LIMIT 5

Ano,Hom_Doloso,Hom_Dol_AT,Hom_Cul,Hom_Cul_AT,Total,% Perc
2002,11846,0,333,4740,16919,8.96
2003,10943,0,377,4601,15921,8.43
2004,8743,0,230,4609,13582,7.19
2005,7076,0,259,4708,12043,6.37
2006,6050,0,256,4479,10785,5.71


In [0]:
%sql
SELECT
nome as Municipio,
Sum(homicidio_doloso) as Hom_Doloso,
Sum(homicidio_doloso_por_acidente_de_transito) as Hom_Dol_AT,
Sum(homicidio_culposo_outros) as Hom_Cul,
Sum(homicidio_culposo_por_acidente_de_transito) as Hom_Cul_AT,
Sum(homicidio_doloso) + Sum(homicidio_doloso_por_acidente_de_transito) + sum(homicidio_culposo_outros) + sum(homicidio_culposo_por_acidente_de_transito)  as Total,

Round(((
  Sum(homicidio_doloso) +
  Sum(homicidio_doloso_por_acidente_de_transito) + 
  Sum(homicidio_culposo_outros) + 
  Sum(homicidio_culposo_por_acidente_de_transito)) 
  * 100.0 / 
  (SELECT (
    Sum(homicidio_doloso) + 
    Sum(homicidio_doloso_por_acidente_de_transito) + 
    Sum(homicidio_culposo_outros) + 
    Sum(homicidio_culposo_por_acidente_de_transito)) 
    FROM Db_Ocorrencia.geral)),2) AS `% Perc`

FROM Db_Ocorrencia.geral
WHERE Ano BETWEEN 2011 and 2021
GROUP BY Municipio
ORDER BY Total DESC
LIMIT 10

Municipio,Hom_Doloso,Hom_Dol_AT,Hom_Cul,Hom_Cul_AT,Total,% Perc
São Paulo,9610,135,485,4998,15228,8.06
Campinas,1411,5,57,1201,2674,1.42
Guarulhos,1401,11,56,920,2388,1.26
Sorocaba,602,6,17,596,1221,0.65
São Bernardo do Campo,597,14,35,535,1181,0.63
São José dos Campos,572,2,21,577,1172,0.62
Ribeirão Preto,539,11,16,538,1104,0.58
Osasco,668,4,21,328,1021,0.54
Jundiaí,235,6,40,587,868,0.46
Santo André,538,6,23,244,811,0.43
