Neste projeto, desenvolvido no √¢mbito da disciplina CCF425 - Introdu√ß√£o √† Ci√™ncia
dos Dados, buscamos aplicar os conceitos te√≥ricos aprendidos em sala de aula para analisar
conjuntos de dados reais e desafiadores. O trabalho est√° dividido em cinco etapas, cada uma
com objetivos espec√≠ficos, culminando em uma apresenta√ß√£o final que destaca as principais
descobertas.
Nesta primeira etapa, nosso foco √© o entendimento inicial dos dados e sua prepara√ß√£o.
Trabalharemos com um dos conjuntos de dados dispon√≠veis: Dados de criminalidade de SP
(SPSafe) ou Dados demogr√°ficos dos munic√≠pios brasileiros (BrStats), dependendo da turma
pr√°tica. Nosso grupo ficou respons√°vel pelo conjunto de dados do SPSafe. O objetivo √©
explorar os atributos presentes, identificar poss√≠veis ru√≠dos, tratar informa√ß√µes ausentes e
formular pelo menos 10 perguntas que guiar√£o nossas an√°lises futuras. Al√©m disso,
realizaremos ajustes na formata√ß√£o dos dados, enriquecimento com atributos externos e
outras atividades necess√°rias para garantir a qualidade da base de dados.
A entrega desta etapa inclui a cria√ß√£o de um projeto no GitHub, onde disponibilizaremos um
arquivo README com os integrantes do grupo, as perguntas elaboradas, o c√≥digo utilizado e
um relat√≥rio parcial documentando as decis√µes tomadas e suas justificativas. Cada integrante
contribuir√° ativamente, e suas a√ß√µes ser√£o registradas no hist√≥rico de commits e na
documenta√ß√£o.
Esta fase √© fundamental para estabelecer as bases do projeto, garantindo que os dados
estejam prontos para as an√°lises explorat√≥rias e t√©cnicas mais avan√ßadas que ser√£o aplicadas
nas etapas subsequentes. Com um trabalho bem estruturado desde o in√≠cio, estaremos
preparados para enfrentar os desafios t√≠picos da Ci√™ncia de Dados e extrair insights valiosos
dos conjuntos de dados selecionados.


**Pap√©is de cada integrante**
Todos os integrantes tiveram papel fundamental no decorrer do trabalho at√© aqui, seja
contribuindo com as ideias e perguntas, ou seja contribuindo com desenvolvimento dos
c√≥digos. A seguir detalharemos o papel de cada integrante:

‚û¢ Arthur Teodoro: Participou ativamente no desenvolvimento e decis√£o das das
perguntas, na elabora√ß√£o do relat√≥rio e foi respons√°vel pela implementa√ß√£o da adi√ß√£o
dos dados externos de ‚ÄúDatas At√≠picas‚Äù.

‚û¢ Gabriel Benez: Participou na cria√ß√£o e decis√£o de quais perguntas selecionar, na
elabora√ß√£o do relat√≥rio e tamb√©m foi respons√°vel pela a implementa√ß√£o do c√≥digo que
preenche os dados vazios do campo ‚ÄúCidade‚Äù, e detec√ß√£o de alguns ru√≠dos.

‚û¢ Lucas Fonseca: Participou ativamente no desenvolvimento e decis√£o das das
perguntas, na elabora√ß√£o do relat√≥rio e foi respons√°vel pela implementa√ß√£o e melhora da adi√ß√£o
dos dados externos de ‚ÄúIncidentes‚Äù, remo√ß√£o de dados dublipcados,adi√ß√£o de correla√ß√£o e gr√°ficos de;
"Quantidade de BO's por dia na semana", "Rela√ß√£o quantidades BO's com periodo do Dia",
"Dias da semana t√™m maior incid√™ncia de invas√µes domiciliares (Pergunta 8)", associatividade entre tipo de crimes e o local de alabora√ß√£o do BO, e associa√ß√£o de datas de jogos de futebol com tipo de crimes.

‚û¢ Matheus Kauan: Respons√°vel pela cria√ß√£o do reposit√≥rio e adi√ß√£o dos
colaboradores. Participou ativamente no desenvolvimento e nas escolhas das
perguntas e tamb√©m trabalhou na adi√ß√£o/cria√ß√£o de uma nova coluna no dataframe
inserindo os dias da semana correspondente a data

In [None]:
import subprocess
import sys
import json
import pandas as pd
import numpy as np
from shapely.geometry import Point
import math
import geopandas as gpd
import re
from rapidfuzz import process, fuzz
import unicodedata
import matplotlib.pyplot as pl
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.dates as mdates
import plotly.express as px

<H2 align="center"> Baixar o arquivo csv, caso n√£o tenha baixado o arquivo via github:</H2>


In [None]:

# Tenta importar gdown, se n√£o conseguir, instala
try:
    import gdown  # Tenta importar novamente ap√≥s a instala√ß√£o
except ImportError:
    print("üì• gdown n√£o encontrado. Instalando automaticamente...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "gdown"])

# Baixar o arquivo do Google Drive

file_id = "1VbB_fvowkgNoWcLADi1mEfFjWQI6nBjp"
url = f"https://drive.google.com/uc?id={file_id}"
output = "dados/SpSafe_2022.csv"

gdown.download(url, output, quiet=False)

<p align="center">
  Leitura do arquivo
</p>

In [None]:

df = pd.read_csv('dados/SpSafe_2022.csv', delimiter=';')
pd.set_option('display.max_columns', None)

Verificando os diferentes tipos de crimes registrados:

In [None]:
df['NATUREZA_APURADA'].dropna().unique()

Dados nulos para profiss√£o

Pensamos em analisar a correla√ß√£o das v√≠timas e suas profiss√µes, mas grande parte dos dados s√£o nulos.

In [None]:
porcentagem_nan_prof = df['PROFISSAO'].isna().mean() * 100
print(f"{porcentagem_nan_prof:.2f}% dos dados s√£o NaN")

Cria√ß√£o do dicion√°rio dos campos:

In [None]:
dados_boletim = {
    "Nome do Campo": [
        "NUM BO", "ANO BO", "CODIGO BOLETIM", "NATUREZA APURADA", "DATA OCORRENCIA", "HORA OCORRENCIA", "PERIODO OCORRENCIA",
        "CIDADE", "COD IBGE", "LOGRADOURO", "NUMERO LOGRADOURO", "BAIRRO", "UF", "TIPO LOCAL", "LATITUDE", "LONGITUDE", "PONTO CRIME",
        "DELEGACIA ELABORACAO", "DEPARTAMENTO ELABORACAO", "SECCIONAL ELABORACAO", "TIPO PESSOA", "GENERO PESSOA", "IDADE PESSOA",
        "DATA NASCIMENTO PESSOA", "COR PELE", "PROFISSAO", "PLACA VEICULO", "UF VEICULO", "CIDADE VEICULO", "COR VEICULO",
        "MARCA VEICULO", "MODELO VEICULO", "ANO FABRICACAO", "ANO MODELO", "TIPO VEICULO", "MARCA CELULAR", "QUANT CELULAR",
        "BO INICIADO", "BO EMITIDO", "DATA HORA ELABORACAO", "DATA COMUNICACAO", "BO AUTORIA", "FLAGRANTE", "EXAME", "SOLUCAO",
        "ESPECIE", "STATUS", "FLAG VITIMA FATAL", "DESDOBRAMENTO"
    ],
    "Descri√ß√£o do Campo": [
        "N√∫mero do boletim de ocorr√™ncia", "Ano do boletim de ocorr√™ncia", "Jun√ß√£o do n√∫mero com o ano do BO separados por '/'",
        "Tipo de crime cometido", "Data em que o crime ocorreu", "Hora em que o crime ocorreu", "Per√≠odo do dia em que o crime ocorreu",
        "Cidade em que o crime ocorreu", "C√≥digo da cidade (IBGE)", "Via em que o crime ocorreu",
        "N√∫mero do local do crime", "Bairro do crime", "UF do crime", "Tipo de local do crime",
        "Latitude do ponto do crime", "Longitude do ponto do crime", "Ponto geogr√°fico no formato WKT",
        "Delegacia que elaborou o BO", "Departamento que elaborou o BO", "Seccional que elaborou o BO",
        "Indica se √© v√≠tima ou autor", "G√™nero", "Idade", "Data de nascimento", "Cor da pele", "Profiss√£o",
        "Placa do ve√≠culo", "UF do emplacamento", "Cidade do emplacamento", "Cor do ve√≠culo",
        "Marca do ve√≠culo", "Modelo do ve√≠culo", "Ano de fabrica√ß√£o", "Ano do modelo", "Tipo de ve√≠culo",
        "Marca do celular", "Quantidade de celulares", "Data/hora em que o BO foi iniciado", "Data/hora em que o BO foi conclu√≠do",
        "Data/hora de elabora√ß√£o do BO", "Data em que o BO foi comunicado", "Respons√°vel pelo BO",
        "Indica se foi flagrante", "Respons√°vel pelo exame", "Tipo de solu√ß√£o do crime",
        "Esp√©cie de patrim√¥nio", "Status do crime", "Indica se houve v√≠tima fatal", "Desdobramento do caso"
    ]
}

df_dicionario = pd.DataFrame(dados_boletim)
df_dicionario

Para entendermos se h√° alguma correla√ß√£o entre o dia da semana e os crimes cometidos, foi criada uma nova coluna com os dias da semana que obtivemos a partir da data da ocorr√™ncia do crime. 

<H2 align="center"> C√≥digos criados para adicionar uma coluna com os atributos dia da semana. </H2>
 

<P aling = "center">  </P>
<p align="center">
  Executar somente quando um novo arquivo for baixado do Google Drive
</p>



In [None]:
#Conventendo a coluna DATA_OCORRENCIA para datetime para ser reconhecido como data pelo pandas
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'])

In [None]:
#Cria√ß√£o de coluna com o dia da semana
df.insert(df.columns.get_loc('DATA_OCORRENCIA') + 1, 'DIA_SEMANA', df['DATA_OCORRENCIA'].dt.day_name())

In [None]:
#Convertendo os dias da semana para portugu√™s
dias_semana = {
    'Monday': 'SEGUNDA-FEIRA', 'Tuesday': 'TER√áA-FEIRA', 'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA', 'Friday': 'SEXTA-FEIRA', 'Saturday': 'S√ÅBADO', 'Sunday': 'DOMINGO'
}
df['DIA_SEMANA'] = df['DATA_OCORRENCIA'].dt.day_name().map(dias_semana)

In [None]:
df.head(20)

<H2 align="center"> C√≥digos criados para verificar se a data teve um evento at√≠pico. </H2>
 

Devido h√° v√°rios eventos e datas comemorativas que ocorrem durante o ano, um novo atributo ser√° adicionado para entendermos se h√° uma correla√ß√£o entre a data espec√≠fica e quantidade de crimes cometidos. 

<p align="center">
  Executar somente para o arquivo csv baixado via Google Drive
</p>


In [None]:
#Definir os eventos de S√£o Paulo em 2022
eventos_sp_2022 = [
    #Feriados em Sp 2022:
    '2022-01-01',  # Confraterniza√ß√£o Universal
    '2022-04-15',  # Paix√£o de Cristo
    '2022-04-21',  # Tiradentes
    '2022-05-01',  # Dia do Trabalho
    '2022-09-07',  # Independ√™ncia do Brasil
    '2022-10-12',  # Nossa Senhora Aparecida
    '2022-11-02',  # Finados
    '2022-11-15',  # Proclama√ß√£o da Rep√∫blica
    '2022-12-25',  # Natal
    '2022-07-09',  # Revolu√ß√£o Constitucionalista
    '2022-02-28',  # Carnaval
    '2022-03-01',  # Carnaval
    '2022-06-16',  # Corpus Christi
    '2022-10-28',  # Dia do Servidor P√∫blico
    
    #Facultativos:
    '2022-03-02',  # Quarta-Feira de Cinzas
    '2022-12-24',  # V√©spera de Natal
    '2022-12-31',   # V√©spera de Ano Novo

    '2022-01-25',  # Final da Copa S√£o Paulo de Futebol J√∫nior
    '2022-03-10',  # Palmeiras x S√£o Paulo - Paulista
    '2022-03-30',  # Final Paulista - Jogo 1
    '2022-04-03',  # Final Paulista - Jogo 2
    '2022-05-02',  # S√£o Paulo x Santos - Brasileir√£o
    '2022-05-22',  # Corinthians x S√£o Paulo - Brasileir√£o
    '2022-06-20',  # S√£o Paulo x Palmeiras - Brasileir√£o
    '2022-08-21',  # Santos x S√£o Paulo - Brasileir√£o
    '2022-09-11',  # S√£o Paulo x Corinthians - Brasileir√£o
    '2022-10-16',  # Palmeiras x S√£o Paulo - Brasileir√£o
    
    # Jogos da Copa do Mundo 2022 (Sele√ß√£o Brasileira)
    '2022-11-24',  # Brasil 2 x 0 S√©rvia
    '2022-11-28',  # Brasil 1 x 0 Su√≠√ßa
    '2022-12-02',  # Camar√µes 1 x 0 Brasil
    '2022-12-05',  # Brasil 4 x 1 Coreia do Sul (Oitavas)
    '2022-12-09'   # Brasil 1(2) x (4)1 Cro√°cia (Quartas)
]

In [None]:
#Conventendo a coluna DATA_OCORRENCIA para datetime para ser reconhecido como data pelo pandas
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'])

# Converter para datetime para compara√ß√£o
eventos_dates = pd.to_datetime(eventos_sp_2022)

In [None]:
#Criar nova coluna 'DIA ATIPICO' que indica se na data aconteceu um evento at√≠pico:
df['DIA ATIPICO'] = df['DATA_OCORRENCIA'].isin(eventos_dates)

#Converter para texto mais descritivo
df['DIA ATIPICO'] = df['DIA ATIPICO'].map({True: 'SIM', False: 'N√ÉO'})

In [None]:
#df.head(20)

# Filtrar o DataFrame para retornar apenas as linhas onde 'DIA ATIPICO' √© 'SIM'
df_atipico = df[df['DIA ATIPICO'] == 'SIM']
# Exibir o resultado
df_atipico

Ao analisarmos o dataset, detectamos alguns problemas com certas informa√ß√µes que apresentam dados nulos: falta de nomes das cidades e aus√™ncia de per√≠odos.

### Tratamento de PERIODO_OCORRENCIA:

Verificando Objetos que 'PERIODO_OCORRENCIA' s√£o "NaN":

In [None]:
df_nam = df[df['PERIODO_OCORRENCIA'].isna()]
df_nam

Verificando Objetos que 'PERIODO_OCORRENCIA' e 'HORA_OCORRENCIA' s√£o "NaN":

In [None]:
mask1 = df['HORA_OCORRENCIA'].isna().astype(bool)
mask2 = df['PERIODO_OCORRENCIA'].isna().astype(bool)
df_nam = df[mask1 & mask2]  # or mask1 | mask2 for OR condition
df_nam

Filtro de Tratamento

In [None]:

# 1. Filtra linhas onde PERIODO_OCORRENCIA √© nulo (usando isna)
df_nam = df[df['PERIODO_OCORRENCIA'].isna()].copy()

# 2. Atualiza PERIODO_OCORRENCIA baseado em HORA_OCORRENCIA (formato "HH:MM:SS")
def definir_periodo(hora_str):
    if pd.isna(hora_str):
        return "EM HORA INCERTA"
    
    try:
        hora_part = hora_str.split(':')[0]
        hora = int(hora_part)
    except (ValueError, IndexError, AttributeError):
        return "EM HORA INCERTA"
    
    if 0 <= hora < 5:
        return "DE MADRUGADA"
    elif 5 <= hora < 12:
        return "PELA MANH√É"
    elif 12 <= hora < 18:
        return "A TARDE"
    elif 18 <= hora <= 23:
        return "A NOITE"
    else:
        return "EM HORA INCERTA"

# Aplica a fun√ß√£o para atualizar os valores
df_nam['PERIODO_OCORRENCIA'] = df_nam['HORA_OCORRENCIA'].apply(definir_periodo)

# Verifica o resultado
df_nam

Atualiza o DataFrame:

In [None]:
df['PERIODO_OCORRENCIA'] = np.where(
    df['PERIODO_OCORRENCIA'].isna(),
    df['HORA_OCORRENCIA'].apply(definir_periodo),
    df['PERIODO_OCORRENCIA']
)

df[df['PERIODO_OCORRENCIA'].isna()]

### Incidentes:

Cria√ß√£o do campo:

In [None]:

# Criar uma coluna combinada para o local de elabora√ß√£o
df['LOCAL_ELABORACAO'] = df['DELEGACIA_ELABORACAO'].fillna(
                          df['DEPARTAMENTO_ELABORACAO'].fillna(
                          df['SECCIONAL_ELABORACAO']))

# Definir as colunas para agrupar os incidentes
dados_incidente = ['DATA_OCORRENCIA', 'PERIODO_OCORRENCIA', 
                   'LOGRADOURO', 'NUMERO_LOGRADOURO', 'BAIRRO', 
                   'UF', 'TIPO_LOCAL', 'LOCAL_ELABORACAO','DIA_SEMANA']

# Criar os IDs de incidentes com base no agrupamento
df['INCIDENTES_ID'] = df.groupby(dados_incidente, dropna=False).ngroup() + 1
df

In [None]:
#Incidentes sem Id
df[df['INCIDENTES_ID'].isna()]

Quantidade de Incidentes:

In [None]:
# Filtrar apenas registros que pertencem a incidentes (excluindo poss√≠veis registros sem agrupamento)
dados_com_incidentes = df[df['INCIDENTES_ID'].notna()]

# Mostrar esses dados
dados_com_incidentes.nunique()

Revis√£o da an√°lise inicial e tratamentos:

Atributos externos adicionados
Para responder todas estas quest√µes ser√° necess√°rio um pouco mais que os dados
disponibilizados no Sp Safe, por este motivo, adicionaremos mais informa√ß√µes que ser√£o
essenciais para a an√°lise e entendimento dos dados. As novas adi√ß√µes foram:

1) Dias da semana:
Como buscamos tra√ßar um padr√£o de comportamento baseado em per√≠odos da semana, foi
necess√°rio transcrever as datas dos ocorridos para seus respectivos dias da semana. Para isso
utilizamos ‚Äúdf['DATA_OCORRENCIA'].dt.day_name()‚Äù, que vai extrair da data da
ocorr√™ncia o seu dia da semana, possibilitando fazer a an√°lise de um poss√≠vel padr√£o semanal.

2) Eventos at√≠picos:
Entender se h√° uma rela√ß√£o entre crimes ocorridos e dias ‚Äún√£o rotineiros‚Äù faz parte dos
in√∫meros objetivos deste projeto, logo, precisamos conhecer as datas de grandes eventos que
movimentaram a popula√ß√£o no ano de 2022. Para isso adicionamos um conjunto de datas
marcantes no ano de 2022, como, por exemplo, feriados relevantes e jogos importantes.
Usando estes dados exteriores podemos identificar crimes que ocorreram em datas e eventos
movimentados e entender como se correlacionam.

3) Incidentes:
Com a finalidade de agrupar os crimes juntos, podemos observar que no banco de dados pode
ser que um crime tenha ocorrido como uma invas√£o de propriedade e tenha ocorrido um
furto. Esses dois crimes s√£o considerados distintos, um sendo de invas√£o de propriedade e o
outro de furto. Ent√£o, √© interessante criar um novo atributo que identifique incidentes. Se
houver informa√ß√µes iguais em outros atributos, significa que provavelmente s√£o do mesmo
incidente, ocorreram ao mesmo tempo e com a mesma pessoa.
Com o tratamento de dados atual, que ainda apresenta muitos registros em branco, foi
poss√≠vel associar um n√∫mero de incidente a 20.556 BOs (Boletins de Ocorr√™ncia). No
entanto, o dataset completo cont√©m 720.446 registros. Essa diferen√ßa evidencia a necessidade
de complementar as informa√ß√µes faltantes, pois s√≥ assim ser√° poss√≠vel determinar se um
3
determinado BO ou crime faz parte de um conjunto de ocorr√™ncias relacionadas a um mesmo
incidente.


**Tratamento de aus√™ncia de dados**
Para responder as perguntas escolhidas precisar√≠amos da completude de alguns campos, o que
nem sempre ocorre. Veja algumas destas demandas e suas solu√ß√µes abaixo:
1) Falta de nomes de cidades:
Para resolver este problema, usamos a biblioteca ‚Äúgeopy‚Äù para recuperar o nome da cidade
onde o crime descrito ocorreu usando sua latitude e longitude. Essa biblioteca pega os valores
de latitude e longitude, e por meio de uma API, recupera o endere√ßo onde essas coordenadas
batem, retornando a informa√ß√£o faltante no campo ‚Äúcidade‚Äù.
2) Aus√™ncia de per√≠odos:
Alguns registros de BO n√£o possuem seus per√≠odos registrados de acordo seus respectivos
hor√°rios, apresentando valores nulos (NaN). Com base nas informa√ß√µes do SPSafe, o turnos
do periodo foram adicionados a partir desses hor√°rios registrados, foi feito, primeiramente,
filtrando o dataframe para exibir as linhas de dados em que esse fator ocorre e em seguida foi
aplicada a l√≥gica para adi√ß√£o dos turnos. Ap√≥s o tratamentos desses dados nulos, foram
acrescentadas mais de 6 mil novas linhas sem dados nulos na coluna de
PERIODO_OCORRENCIA.


**Ru√≠dos detectados:**
1) Erro na digita√ß√£o ou formata√ß√£o dos dados de latitude e longitude.
Foi detectado alguns erros na digita√ß√£o dos dados do campo ‚Äúlatitude‚Äù e ‚Äúlongitude‚Äù do
dataframe. Um desses erros foi o valor num√©rico que n√£o corresponde ao padr√£o usado
para identificar as coordenadas, e deslocamento da v√≠rgula.
2) BO‚Äôs com idade igual a 0:
Foi detectado tamb√©m alguns BO's em que o autor/v√≠tima possui 0 anos de idade

<h2 align="center">
  C√≥digos criados para localizar as cidades dos dados via latitude e longitude
</h2>


<div style = "text-align: center;">
<strong>Diferente da primeira entrega, usamos o geopanda para mapear as cidades via latitude e longitude usando shapefile da Funda√ß√£o Seade (Sistema Estadual de An√°lise de Dados)</strong>
<br>
<a href="https://portalgeo.seade.gov.br/">Clique aqui para visitar o site</a>

</div>


In [None]:
malha = gpd.read_file("dados/Shapefile/LimiteMunicipal.shp")

<div style = "text-align: center;">
<p> Percorremos cada linha, cruzando os dados do dataframe SpSafe com o que foi gerado com o shapefile da base geogr√°fica dos munic√≠pios de S√£o Paulo </p>
</div>


In [None]:
contador_erro = 0
for indice, linha in df.iloc[1:].iterrows():
	if pd.isna(linha["LATITUDE"]) and pd.isna(linha["LONGITUDE"]):
		continue
	if pd.isna(linha["CIDADE"]) and pd.notna(linha["LATITUDE"]) and pd.notna(linha["LONGITUDE"]):
		ponto = Point(linha["LONGITUDE"], linha["LATITUDE"])
		cidade = malha[malha.geometry.contains(ponto)]
		if not cidade.empty:
			df.at[indice, "CIDADE"] = cidade.iloc[0]["Municipio"]
		else:
			contador_erro = contador_erro + 1
			df.iloc[indice, "LATITUDE", "LONGITUDE"]
	if(contador_erro >= 10 and contador_erro % 10 == 0):
		print(f"{contador_erro} erros.")

df.to_csv('dados/SpSafe_2022.csv', index=False, sep=';', encoding='utf-8')
print("Gravado")


<div style = "text-align: center;">
<h2> Tratamentos de erros</h2>
</div>


<div style = "text-align: center;">
<p> Erros por latitude com virgula em posi√ß√£o incorreta </p>
</div>


In [None]:
def verificaMag(valor):
    if valor == 0:
        return 0
    return math.floor(math.log10(abs(valor))) - 1

cont_alteracoes = 0

for indice, linha in df.iloc[1:].iterrows():
    if(pd.isna(linha["CIDADE"]) and pd.notna(linha["LATITUDE"]) and pd.notna(linha["LONGITUDE"])):
        lat = linha["LATITUDE"] / 10 ** verificaMag(linha["LATITUDE"])
        long = linha["LONGITUDE"] / 10 ** verificaMag(linha["LONGITUDE"])
        ponto = Point(long, lat)
        cidade = malha[malha.geometry.contains(ponto)]

        if not cidade.empty:
            df.at[indice, "CIDADE"] = cidade.iloc[0]["Municipio"]
            cont_alteracoes = cont_alteracoes + 1


print(f"Foram feitas {cont_alteracoes} altera√ßoes")
df.to_csv('dados/SpSafe_2022.csv', index=False, sep=';', encoding='utf-8')
    

<div style = "text-align: center;">
<p> Erros por falta de latitude e longitude </p>
<p> Tratamento correlacionando com um DF de delegacias -> cidades encontrada via secret√°ria de seguran√ßa p√∫blica de S√£o Paulo </p>
<a href="https://portalgeo.seade.gov.br/">Clique aqui para visitar o site</a>
</div>


In [None]:
delegacias = df["DELEGACIA_CIRCUNSCRICAO"].unique()
print(delegacias)

<div style = "text-align: center;">
<p> Abaixo vamos fazer uma pre-normaliza√ß√£o  a escrita do dataFrame de delegacias, tirando simbolos, acentos</p>
<p> A biblioteca unicodedate foi respons√°vel por essa normaliza√ß√£o </p>
</div>

In [None]:

def remove_simbolos(texto):
    texto = str(texto)

    # Remove s√≠mbolos espec√≠ficos antes da normaliza√ß√£o
    texto = texto.replace("¬∫", "")  # ordinal masculino
    texto = texto.replace("¬™", "")  # ordinal feminino
    texto = texto.replace("¬∞", "")  # grau

    # Normaliza (remove acentos)
    texto = unicodedata.normalize("NFKD", texto)

    # Remove qualquer caractere que n√£o seja letra, n√∫mero ou espa√ßo
    texto = ''.join(c for c in texto if c.isalnum() or c.isspace())

    return texto

df["DELEGACIA_ELABORACAO"] = df["DELEGACIA_ELABORACAO"].apply(remove_simbolos)

print(remove_simbolos("02¬∫ D.P. JACAREI¬∫"))

<div style = "text-align: center;">
<p> Agora usamos uma biblioteca chamada RapidFuzz, para encontrar casamentos por similaridades usando o algoritimo
    distancia Levenshtein, que classifica as similaridade de duas strings em um valor n√∫merico de 0 a 100  </p>
<p> Tamb√©m usamos a biblioteca re, que trabalha com substitui√ß√£o/remo√ß√£o de padr√µes 
</div>

In [None]:


df_delegacias = pd.read_csv("dados/DADOS CRIMINAIS.csv", delimiter=',')

def preprocessar_string(s):
    s = s.lower()
    s = re.sub(r'[^\w\s]', '', s)  # [] Toda palavra ^nega√ß√£o \w Letras, n√∫meros e underscore \s espa√ßo
    s = re.sub(r'\s+', ' ', s).strip()
    s = re.sub(r'^0+(\d+)', r'\1', s)
    return s

# Preprocessa todas as delegacias
df_delegacias["DP_PREP"] = df_delegacias["DP"].astype(str).apply(preprocessar_string)

def procura_similaridade(delegacia):
    s = preprocessar_string(str(delegacia))
    match = process.extractOne(
        s,
        df_delegacias["DP_PREP"],
        scorer=fuzz.ratio
    )
    if match and match[1] >= 90:
        idx = df_delegacias["DP_PREP"][df_delegacias["DP_PREP"] == match[0]].index[0]
        return df_delegacias.loc[idx, "MUNICIPIO"]
    return np.nan

# Aplica nos registros com cidade nula
mascara = df["CIDADE"].isna()
df.loc[mascara, "CIDADE"] = df.loc[mascara, "DELEGACIA_ELABORACAO"].apply(procura_similaridade)

print("Substitui√ß√µes conclu√≠das.")

<div style = "text-align: center;">
<p> Ruidos de cidades com valor 2513851.0, que corresponde a cidade de Santo Andr√© </p>
</div>


In [None]:
df.loc[df["CIDADE"] == "2513851.0", "CIDADE"] = "Santo Andre"

df.to_csv('dados/SpSafe_2022.csv', index=False, sep=';', encoding='utf-8')
print("Dados atualizados com sucesso.")

<div style = "text-align: center;">
<p> Algumas corre√ß√µes que faltaram  com  maiores repeti√ß√µes </p>
</div>


In [None]:
delegacias_agrupadas = df[df["CIDADE"].isnull()]["DELEGACIA_ELABORACAO"].value_counts()
delegacias_agrupadas

In [None]:

for indice, linha in df[df["CIDADE"].isnull()].iterrows():
    if linha["DELEGACIA_ELABORACAO"] == "73 DP JACANA":
        df.at[indice, "CIDADE"] = "S√£o Paulo"
    elif linha["DELEGACIA_ELABORACAO"] == "PLANTAO DE SOROCABA  Z NORTE":
        df.at[indice, "CIDADE"] = "Sorocaba"
    elif linha["DELEGACIA_ELABORACAO"] == "CPJ RIBEIRAO PRETO":
        df.at[indice, "CIDADE"] = "Ribeir√£o Preto"
    elif linha["DELEGACIA_ELABORACAO"] == "DELPOLPLANTAO SUMARE":
        df.at[indice, "CIDADE"] = "Sumar√©"
    elif linha["DELEGACIA_ELABORACAO"] == "101 DP JDIM IMBUIAS":
        df.at[indice, "CIDADE"] = "Jardim das Imbuias"
    elif linha["DELEGACIA_ELABORACAO"] == "89 DP JARDIM TABOAO":
        df.at[indice, "CIDADE"] = "S√£o Paulo"
    elif linha["DELEGACIA_ELABORACAO"] == "DELSECFRANCA PLANTAO":
        df.at[indice, "CIDADE"] = "Franca"
    elif linha["DELEGACIA_ELABORACAO"] == "DELSECITANHAEM PLANTAO":
        df.at[indice, "CIDADE"] = "Itanha√©m"
    elif linha["DELEGACIA_ELABORACAO"] == "CPJ LINS":
        df.at[indice, "CIDADE"] = "Lins"
    elif linha["DELEGACIA_ELABORACAO"] == "27 DP DR IGNACIO FRANCISCO":
        df.at[indice, "CIDADE"] = "S√£o Paulo"
    elif linha["DELEGACIA_ELABORACAO"] == "DELSECRIO CLARO PLANTAO":
        df.at[indice, "CIDADE"] = "Rio Claro"

print("Altera√ß√µes realizadas com sucesso.")

In [None]:
df.to_csv('dados/SpSafe_2022.csv', index=False, sep=';', encoding='utf-8')
print("Salvo com sucesso")

<div style = "text-align: center;">
<h2> Cruzamento de dados: SpSafe com os Dados demogr√°ficos</h2>
<p> Cruzei os dados das cidades conseguidas a cima, com os dados demogr√°ficos do estado de S√£o Paulo via SEADE </p>
<a href="https://repositorio.seade.gov.br/dataset/demografia">Clique aqui para visitar o site</a>

</div>

In [None]:
malha_demografica = gpd.read_file("dados/Dados Demograficos/Den Demografica.shp")

<div style = "text-align: center;">
<p> Algumas corre√ß√µes de cidades incorretas, e igualando padr√µes com os Dados Demogr√°ficos   </p>
</div>

In [None]:
df["CIDADE"] = df["CIDADE"].replace({
    "Jardim das Imbuias": "S√£o Paulo",
    "Santa B√°rbara D'Oeste" : "Santa B√°rbara d'Oeste",
    "√Åguas de Lindoia" : "√Åguas de Lind√≥ia",
    "Pompeia" : "Pomp√©ia", 
    "Santa Rosa do Viterbo" : "Santa Rosa de Viterbo",
    "Uch√¥a" : "Uchoa",
    "Santo Andre": "Santo Andr√©"
})
df.to_csv('dados/SpSafe_2022.csv', index=False, sep=';', encoding='utf-8')
print("Altera√ß√µes feitas com sucesso.")

In [None]:
df_cidades = df["CIDADE"].value_counts().reset_index()
df_cidades.columns = ["CIDADE", "QUANTIDADE_CRIMES"]
df_cidades["QUANTIDADE_POPULACAO"] = 0

for indice, linha in df_cidades.iterrows():
    qtd = malha_demografica[malha_demografica["Nome"].str.contains(linha["CIDADE"], na=False)]

    if not qtd.empty:
        df_cidades.at[indice, "QUANTIDADE_POPULACAO"] = qtd.iloc[0]["Pop"]


df_cidades

In [None]:
quantidade_crime = df_cidades["QUANTIDADE_CRIMES"].sum()
quantidade_pessoas = df_cidades["QUANTIDADE_POPULACAO"].sum()
media_estadual = round(quantidade_crime / quantidade_pessoas * 100000)


print(f"Quantidade crime {quantidade_crime}, Quantidade pessoas {quantidade_pessoas}")

print(f"A m√©dia estadual √© de {media_estadual} crimes a cada 100 mil habitantes. ")

In [None]:
df_cidades["CRIMES_POR_100K"] = round((df_cidades["QUANTIDADE_CRIMES"] / df_cidades["QUANTIDADE_POPULACAO"]) * 100000)
print("Dados calculados com sucesso.")

In [None]:
df_cidades_filtrado = df_cidades.loc[(df_cidades.QUANTIDADE_POPULACAO > 0 ) & (df_cidades.QUANTIDADE_POPULACAO < 50000 )]

In [None]:
df_cidades_filtrado

In [None]:

# Tamanho do gr√°fico
plt.figure(figsize=(12, 6))

# Scatter plot
plt.scatter(df_cidades_filtrado["QUANTIDADE_POPULACAO"], df_cidades_filtrado["CRIMES_POR_100K"], color='dodgerblue', alpha=0.7)

# Linha horizontal com a m√©dia
plt.axhline(y=media_estadual, color='red', linestyle='--', label=f'M√©dia estadual: {media_estadual:.2f}')

# Labels e t√≠tulo
plt.xlabel("Popula√ß√£o")
plt.ylabel("Crimes por 100 mil habitantes")
plt.title("Rela√ß√£o entre Media de crimes em cidades com popula√ß√£o menor que 50k com a estadual")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


<div style = "text-align: center;">
<p> Tabela com os dados do gr√°fico acima.</p>
</div>

In [None]:
df_cidades_filtrado.loc[df_cidades_filtrado.CRIMES_POR_100K > 1431]

<div style = "text-align: center;">
<h2> Tratamento de BO's Duplicados</h2>
<p> </p>
</div>

<div style = "text-align: left;">
<p> Definindo de quais ser√£o considerados como BO's Duplicados, a partir de uma lista de parametros contendo as colunas (campos) que ser√£o utilizadas para a defini√ß√£o de um filtro. 

Utilizar somente o campo 'NUM_BO' n√£o √© interssante,pois apenas considerando tal campo se tem uma maior probabilidade de exclus√£o de dados n√£o duplicados. J√° que com este pensamento n√£o √© levado em conta a possibilidade de erros de digita√ß√£o ou outros possiveis erros dos quais no final resultariam na exclus√£o de dados n√£o duplicados, e sim dados que precisam, somente, de um tratamento.</p>
</div>

In [None]:
param_duplicados = ['NUM_BO','NATUREZA_APURADA' ,'CODIGO_BOLETIM', 'LOCAL_ELABORACAO','TIPO_LOCAL']

# Identifica duplicatas (mantendo o primeiro como "n√£o duplicado")
duplicados = df.duplicated(subset=param_duplicados, keep='first')

# Exibe os duplicados
df_duplicados = df[duplicados]
df_duplicados

<div style = "text-align: center;">
<h3> Remo√ß√£o dos dados duplicados do Dataframe:</h3>
</div>

In [None]:
# Remove os duplicados do DataFrame original
df_sem_duplicados = df[~duplicados]
df = df[~duplicados]
df

<div style = "text-align: center;">
<p>Calculo de m√©dia estadual de crimes por 100 mil habitantes.</p>
</div>

In [None]:
quantidade_crime = df_cidades["QUANTIDADE_CRIMES"].sum()
quantidade_pessoas = df_cidades["QUANTIDADE_POPULACAO"].sum()
media_estadual = round(quantidade_crime / quantidade_pessoas * 100000)


print(f"Quantidade crime {quantidade_crime}, Quantidade pessoas {quantidade_pessoas}")

print(f"A m√©dia estadual √© de {media_estadual} crimes a cada 100 mil habitantes. ")

In [None]:
df_cidades["CRIMES_POR_100K"] = round((df_cidades["QUANTIDADE_CRIMES"] / df_cidades["QUANTIDADE_POPULACAO"]) * 100000)
print("Dados calculados com sucesso.")

<div style = "text-align: center;">
<p>Cidades com menos de 50.0000 habitantes.</p>
</div>

In [None]:
df_cidades_filtrado = df_cidades.loc[(df_cidades.QUANTIDADE_POPULACAO > 0 ) & (df_cidades.QUANTIDADE_POPULACAO < 50000 )]

<div style = "text-align: center;">
<p>Gr√°fico de dispers√£o das cidades com popula√ß√£o menor de 50k, comparando a taxa de crime por 100k pessoas, com a m√©dia estadual</p>
</div>

In [None]:
df_cidades_filtrado

In [None]:

# Tamanho do gr√°fico
plt.figure(figsize=(12, 6))

# Scatter plot
plt.scatter(df_cidades_filtrado["QUANTIDADE_POPULACAO"], df_cidades_filtrado["CRIMES_POR_100K"], color='dodgerblue', alpha=0.7)

# Linha horizontal com a m√©dia
plt.axhline(y=media_estadual, color='red', linestyle='--', label=f'M√©dia estadual: {media_estadual:.2f}')

# Labels e t√≠tulo
plt.xlabel("Popula√ß√£o")
plt.ylabel("Crimes por 100 mil habitantes")
plt.title("Rela√ß√£o entre Media de crimes em cidades com popula√ß√£o menor que 50k com a estadual")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

<div style = "text-align: center;">
<p>Tabela com as cidades;</p>
</div>

In [None]:
df_cidades_filtrado.loc[df_cidades_filtrado.CRIMES_POR_100K > 1431]

<div style = "text-align: center;">
<h3> Quantidade de BO's por dia na semana</h3>
</div>

<div style = "text-align: left;">
<p> Interesse em em entender quais dias da semana, e sua propor√ß√£o, acontecem maior quantidade de crimes, a partir da quantidade de BO's registrados. Assim, podendo inferir em quais dias s√£o mais prov√°veis que ocorra crimes, junto de sua propro√ß√£o, no estado de S√£o Paulo.</p> 
</div>

In [None]:

dias = ["Segunda", "Ter√ßa", "Quarta", "Quinta", "Sexta", "S√°bado", "Domingo"]
crimes = [0] * 7
dias_semana = ["SEGUNDA-FEIRA", "TER√áA-FEIRA", "QUARTA-FEIRA", "QUINTA-FEIRA", "SEXTA-FEIRA", "S√ÅBADO", "DOMINGO"]

for i, dia in enumerate(dias_semana):
    crimes[i] = df.loc[
        (df['DIA_SEMANA'] == dia)
    ].shape[0]

media = sum(crimes) / len(crimes)


# Gr√°fico
plt.figure(figsize=(12, 6))
cores = plt.cm.viridis([i / 6 for i in range(7)])
barras = plt.bar(dias, crimes, color=cores)

plt.xlabel("Dias da Semana", fontsize=14)
plt.ylabel("Quantidade de BO's", fontsize=14)
plt.title("Quantidade de BO's por dia na semana", fontsize=16, weight='bold')

for barra in barras:
    altura = barra.get_height()
    plt.text(barra.get_x() + barra.get_width()/2., altura + 0.5,
             f'{int(altura)}', ha='center', va='bottom', fontsize=12)

# Linha da m√©dia
plt.axhline(media, color='red', linestyle='--', linewidth=2, label=f'M√©dia: {media:.1f}')
plt.text(len(dias) - 0.5, media + 0.5, f'', color='red', fontsize=12)

# Grade, legenda e layout
plt.grid(True, axis='y', linestyle='--', alpha=0.5)
plt.legend()
plt.tight_layout()
plt.show()

<div style = "text-align: center;">
<h3> Rela√ß√£o quantidades BO's com periodo do Dia</h3>
</div>

<div style = "text-align: left;">
<p> Com os dados sobre a quantidade de B.O.s registrados por dia da semana, tornou-se interessante tamb√©m identificar os per√≠odos com maior incid√™ncia de crimes, ou seja, os momentos em que h√° mais registros de B.O.s. Dessa forma, buscou-se correlacionar a quantidade de B.O.s com o per√≠odo em que os crimes ocorreram, permitindo uma an√°lise mais precisa dos momentos de maior criminalidade.</p>
</div>

In [None]:

# Mapeamento dos per√≠odos
periodo_mapeamento = {
    'PELA MANHA': 'Manh√£',
    'A TARDE': 'Tarde',
    'A NOITE': 'Noite',
    'DE MADRUGADA': 'Madrugada',
    'EM HORA INCERTA': 'Incerto'
}

# Aplica o mapeamento para uma nova coluna
df['PERIODO_SIMPLIFICADO'] = df['PERIODO_OCORRENCIA'].map(periodo_mapeamento)

# Per√≠odos simplificados na ordem desejada
periodos = ["Manh√£", "Tarde", "Noite", "Madrugada", "Incerto"]
qnt_BO = []

# Contagem de BOs por per√≠odo
for periodo in periodos:
    contagem = df[df['PERIODO_SIMPLIFICADO'] == periodo].shape[0]
    qnt_BO.append(contagem)

# C√°lculo da m√©dia
media = sum(qnt_BO) / len(qnt_BO)

# Gr√°fico
plt.figure(figsize=(12, 6))
barras = plt.bar(periodos, qnt_BO)

# Labels e t√≠tulo
plt.xlabel("Per√≠odos", fontsize=14)
plt.ylabel("Quantidade de BO's", fontsize=14)
plt.title("Quantidade de BO's por Per√≠odo do Dia", fontsize=16, weight='bold')

# Adiciona os valores em cima de cada barra
for barra in barras:
    altura = barra.get_height()
    plt.text(barra.get_x() + barra.get_width()/2., altura + 0.5,
             f'{int(altura)}', ha='center', va='bottom', fontsize=12)

# Linha da m√©dia
plt.axhline(media, color='red', linestyle='--', linewidth=2, label=f'M√©dia: {media:.1f}')
plt.text(len(periodos) - 0.5, media + 1, f'', color='red', fontsize=12)

# Grade, legenda e layout
plt.grid(True, axis='y', linestyle='--', alpha=0.5)
plt.legend()
plt.tight_layout()
plt.show()

<div style = "text-align: center;">
<h3> Dias da semana t√™m maior incid√™ncia de invas√µes domiciliares (Pergunta 8)</h3>
</div>

<div style = "text-align: left;">
<p> Necessidade dee criar uma lista de tipos de crimes que podem ser relacionados com invas√£o domiciliar para que tenha se uma maior amostragem de dados que se encaxem com invas√£o domiciliar.

Por√©m, a amostragem teve uma pequena quantidade de dados, mesmo utilizando a lista de tipos de crimes. Outro ponto para observa√ß√£o √© pelo fato de serem crimes relacionados h√° a possibilidade de n√£o refletir com uma boa acur√°cia (ru√≠do) a resposta da pergunta</p>
</div>

In [None]:
crimes_invasao_domiciliar = [
    'VIOLACAO DE DOMICILIO (ART. 150)',
    'FURTO (ART. 155) - RESIDENCIA',
    'FURTO QUALIFICADO (ART. 155, ¬ß4O.) - RESIDENCIA',
    'A.I.-FURTO (ART. 155) - RESIDENCIA',
    'A.I.-FURTO QUALIFICADO (ART. 155, ¬ß4O.) - RESIDENCIA',
    'FURTO DE COISA COMUM (ART. 156) - RESIDENCIA',
    'ROUBO (ART. 157) - RESIDENCIA'
]

df[df['NATUREZA_APURADA'].isin(crimes_invasao_domiciliar)]

<div style = "text-align: center;">
<h3> Gera√ß√£o do Gr√°fico</h3>
</div>

In [None]:

# Dados
dias = ["Segunda", "Ter√ßa", "Quarta", "Quinta", "Sexta", "S√°bado", "Domingo"]
invasoes = [0] * 7
dias_semana = ["SEGUNDA-FEIRA", "TER√áA-FEIRA", "QUARTA-FEIRA", "QUINTA-FEIRA", "SEXTA-FEIRA", "S√ÅBADO", "DOMINGO"]

for i, dia in enumerate(dias_semana):
    invasoes[i] = df.loc[
        (df['DIA_SEMANA'] == dia) & (df['NATUREZA_APURADA'].isin(crimes_invasao_domiciliar))
    ].shape[0]

# C√°lculo da m√©dia
media = sum(invasoes) / len(invasoes)


# Gr√°fico
plt.figure(figsize=(12, 6))
cores = plt.cm.viridis([i / 6 for i in range(7)])
barras = plt.bar(dias, invasoes, color=cores)

# Labels e t√≠tulo
plt.xlabel("Dias da Semana", fontsize=14)
plt.ylabel("Invas√µes Domiciliares", fontsize=14)
plt.title("Invas√µes Domiciliares por Dia da Semana", fontsize=16, weight='bold')

# Adiciona os valores em cima de cada barra
for barra in barras:
    altura = barra.get_height()
    plt.text(barra.get_x() + barra.get_width()/2., altura + 0.5,
             f'{int(altura)}', ha='center', va='bottom', fontsize=12)

# Linha da m√©dia
plt.axhline(media, color='red', linestyle='--', linewidth=2, label=f'M√©dia: {media:.1f}')
plt.text(len(dias) - 0.5, media + 0.5, f'', color='red', fontsize=12)

# Grade, legenda e layout
plt.grid(True, axis='y', linestyle='--', alpha=0.5)
plt.legend()
plt.tight_layout()
plt.show()

Fatores Sociodemogr√°ficos
An√°lise: COR DA PELE X CRIME COMETIDO
* Existe alguma correla√ß√£o entre esses dois fatores?

*An√°lise feita por: Matheus Kauan*

Nessa an√°lise, ser√£o gerados alguns gr√°ficos para melhor entendimento, mas antees √© necess√°rio realizar algumas filtragens e an√°lise dos dados do dataframe

Filtragem do dataframe para sele√ß√£o de crimes que est√£o relacionados a viol√™ncia f√≠sica/verbal:

In [None]:
crimes_violencia_fisica_verbal = [
    'LESAO CORPORAL (ART. 129)',
    'LESAO CORPORAL CULPOSA NA DIRECAO DE VEICULO AUTOMOTOR (ART. 303)',
    'LESAO CORPORAL SEGUIDA DE MORTE',
    'AMEACA (ART. 147)',
    'INJURIA (ART. 140)',
    'CALUNIA (ART. 138)',
    'DESACATO (ART. 331)',
    'RESISTENCIA (ART. 329)',
    'VIOLENCIA DOMESTICA',
    'HOMICIDIO DOLOSO',
    'LATROCINIO',
    'MORTE DECORRENTE DE INTERVENCAO POLICIAL'
]

Criando um novo dataframe com a filtragem:

In [None]:
df_violencia_f_v = df[df['NATUREZA_APURADA'].isin(crimes_violencia_fisica_verbal)].copy()

In [None]:
#Quantidade de crimes por natureza
print(df_violencia_f_v['NATUREZA_APURADA'].value_counts())

In [None]:
# Filtrar apenas os registros onde 'COR_PELE' n√£o √© nulo
df_violencia_f_v = df_violencia_f_v[df_violencia_f_v['COR_PELE'].notna()]

In [None]:
print(df_violencia_f_v['COR_PELE'].value_counts())

Verificando a porcentagem de dados que s√£o nulos da coluna 'COR_PELE' em rela√ß√£o ao total de linhas (dados):

In [None]:
# N√∫mero de valores NaN na coluna
num_nan = df['COR_PELE'].isna().sum()

# N√∫mero total de linhas
total_linhas = len(df)

# Porcentagem de NaN
porcentagem_nan = (num_nan / total_linhas) * 100

print(f'Porcentagem de NaN em COR_PELE: {porcentagem_nan:.2f}%')

Confirmando a veracidade da porcentagem acima:

In [None]:
# Filtrar onde COR_PELE √© nulo
cor_pele_nulo = df[df['COR_PELE'].isna()]

# Mostrar o dataframe filtrado
print(cor_pele_nulo)

# Mostrar a quantidade de linhas
print(f'Total de linhas com COR_PELE nulo: {len(cor_pele_nulo)}')

In [None]:
# Filtrar onde COR_PELE n√£o √© nulo
cor_pele_preenchido = df[df['COR_PELE'].notna()]

# Mostrar o dataframe filtrado
print(cor_pele_preenchido)

# Mostrar a quantidade de linhas
print(f'Total de linhas com COR_PELE preenchido: {len(cor_pele_preenchido)}')

Aqui encontramos um grande problema: mais de 97% dos dados est√£o nulos na coluna COR_PELE. Assim, os gr√°ficos ser√£o gerados com base em apenas 3% dos registros que possuem informa√ß√µes sobre a cor da pele da v√≠tima, o que representa um obst√°culo para a veracidade e a representatividade das informa√ß√µes que podem ser extra√≠das dos gr√°ficos a priori.

Cria√ß√£o de um gr√°fico de barras:

In [None]:


sns.countplot(data=df_violencia_f_v, x='COR_PELE', hue='NATUREZA_APURADA')
plt.title('Frequ√™ncia de Crimes por Cor da Pele da V√≠tima (Baseado em 3% dos dados)')
plt.xlabel('Cor da Pele')
plt.ylabel('Quantidade de Casos')
plt.legend(title='Tipo de Crime')
plt.tight_layout()
plt.show()

In [None]:
# Listar crimes √∫nicos onde COR_PELE n√£o √© nulo
crimes_unicos = df_violencia_f_v['NATUREZA_APURADA'].unique()

print(crimes_unicos)

In [None]:
#Gerando um HeatMap para visualizar a rela√ß√£o entre COR_PELE e NATUREZA_APURADA

pivot = df_violencia_f_v.pivot_table(index='COR_PELE', columns='NATUREZA_APURADA', aggfunc='size', fill_value=0)
plt.figure(figsize=(12, 6))
sns.heatmap(pivot, annot=True, fmt='d', cmap='Reds')
plt.title('Distribui√ß√£o de Crimes Verbais/F√≠sicos por Cor da Pele')
plt.xlabel('Tipo de Crime')
plt.ylabel('Cor da Pele')
plt.show()

<div style="text-align: center;">
  <h2>Explorando os dados: datas dos BOs</h2>
  <p>Para entender a natureza dos dias dos acontecimentos e a correla√ß√£o com datas espec√≠ficas, cruzaremos os dados de datas at√≠picas e datas dos crimes. Para realizar esta anlise mais apurada, dividimos os dados em "Natal", "Carnaval", "Demais Feriados", "Jogos de futebol" e "Dias comuns".</p>
</div>

In [None]:
#Definir as categorias baseadas na sua lista eventos_sp_2022
carnaval = ['2022-02-28', '2022-03-01', '2022-03-02']  # Carnaval + Quarta de Cinzas
natal = ['2022-12-24', '2022-12-25', '2022-12-31']     # Natal + V√©speras

outros_feriados = [
    '2022-01-01', '2022-04-15', '2022-04-21', '2022-05-01',
    '2022-06-16', '2022-07-09', '2022-09-07', '2022-10-12',
    '2022-10-28', '2022-11-02', '2022-11-15'
]

jogos_futebol = [
    '2022-01-25', '2022-03-10', '2022-03-30', '2022-04-03',
    '2022-05-02', '2022-05-22', '2022-06-20', '2022-08-21',
    '2022-09-11', '2022-10-16', '2022-11-24', '2022-11-28',
    '2022-12-02', '2022-12-05', '2022-12-09',  # j√° existentes

    # Novas datas que n√£o estavam no array original
    '2022-01-30', '2022-02-02', '2022-02-06', '2022-02-17', '2022-02-19',
    '2022-02-20', '2022-02-21', '2022-02-25', '2022-03-17', '2022-03-19',
    '2022-03-20', '2022-04-17', '2022-05-06', '2022-06-19', '2022-07-30',
    '2022-08-06', '2022-09-10', '2022-10-23', '2022-11-12', '2022-12-03'
]


# Fun√ß√£o de categoriza√ß√£o (ajustada para lidar com strings e datetime)
def categorizar_evento(data):
    if pd.isna(data):  # Tratar valores nulos
        return 'DIA NORMAL'
    
    data_str = data.strftime('%Y-%m-%d') if hasattr(data, 'strftime') else str(data)[:10]  # Adapta para datetime ou string
    if data_str in carnaval:
        return 'CARNAVAL'
    elif data_str in natal:
        return 'NATAL'
    elif data_str in outros_feriados:
        return 'OUTROS FERIADOS'
    elif data_str in jogos_futebol:
        return 'JOGOS FUTEBOL'
    else:
        return 'DIA NORMAL'

# Aplicar a categoriza√ß√£o
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'], errors='coerce')  # Garante datetime e trata erros
df['CATEGORIA_EVENTO'] = df['DATA_OCORRENCIA'].apply(categorizar_evento)

# Verificar contagem
print(df['CATEGORIA_EVENTO'].value_counts())

<div style = "text-align: center;">
<p>Agora, vamos comparar a m√©dia di√°ria de crimes para cada categoria:</p>
</div>

In [None]:
# Calcular dias √∫nicos por categoria
dias_por_categoria = {
    'CARNAVAL': len(carnaval),
    'NATAL': len(natal),
    'OUTROS FERIADOS': len(outros_feriados),
    'JOGOS FUTEBOL': len(jogos_futebol),
    'DIA NORMAL': len(df['DATA_OCORRENCIA'].dt.date.unique()) - (len(carnaval) + len(natal) + len(outros_feriados) + len(jogos_futebol))
}

# Calcular m√©dia di√°ria
crimes_por_categoria = df.groupby('CATEGORIA_EVENTO').size().reset_index(name='TOTAL_CRIMES')
crimes_por_categoria['MEDIA_DIARIA'] = crimes_por_categoria['TOTAL_CRIMES'] / crimes_por_categoria['CATEGORIA_EVENTO'].map(dias_por_categoria)

# Filtrar apenas eventos (excluindo dias normais)
crimes_analise = crimes_por_categoria[crimes_por_categoria['CATEGORIA_EVENTO'] != 'DIA NORMAL']

# Configura√ß√µes de estilo (opcional)
sns.set_style("whitegrid")
plt.figure(figsize=(12, 6))

# Cores tem√°ticas para cada categoria
colors = {
    'CARNAVAL': '#FF69B4',  # Rosa
    'NATAL': '#32CD32',     # Verde
    'OUTROS FERIADOS': '#FFA500',  # Laranja
    'JOGOS FUTEBOL': '#1E90FF'     # Azul
}

# Criar o gr√°fico de barras
bars = plt.bar(
    crimes_analise['CATEGORIA_EVENTO'], 
    crimes_analise['MEDIA_DIARIA'],
    color=[colors[cat] for cat in crimes_analise['CATEGORIA_EVENTO']]
)

# Linha de refer√™ncia (m√©dia di√°ria normal)
media_normal = crimes_por_categoria.loc[crimes_por_categoria['CATEGORIA_EVENTO'] == 'DIA NORMAL', 'MEDIA_DIARIA'].values[0]
plt.axhline(
    media_normal, 
    color='red', 
    linestyle='--', 
    linewidth=2,
    label=f'M√©dia dias normais: {media_normal:.1f}'
)

# Detalhes do gr√°fico
plt.title('M√©dia Di√°ria de Crimes por Categoria de Evento\nS√£o Paulo - 2022', fontsize=14, pad=20)
plt.xlabel('Categoria do Evento', fontsize=12)
plt.ylabel('M√©dia de Crimes por Dia', fontsize=12)
plt.xticks(fontsize=11)
plt.yticks(fontsize=11)
plt.legend(fontsize=11)

# Adicionar valores nas barras
for bar in bars:
    height = bar.get_height()
    plt.text(
        bar.get_x() + bar.get_width()/2, 
        height + 5,  # Offset para posicionar acima da barra
        f'{height:.1f}', 
        ha='center', 
        va='bottom',
        fontsize=10
    )

plt.tight_layout()
plt.show()

<div style = "text-align: center;">
<p>Para uma vis√£o mais detalhada, podemos plotar a quantidade de crimes ao longo do ano, destacando os dias at√≠picos:</p>
</div>

In [None]:

# Agrupar crimes por data
crimes_por_data = df.groupby('DATA_OCORRENCIA').size().reset_index(name='TOTAL_CRIMES')

# Identificar dias at√≠picos no DataFrame
crimes_por_data['DIA_ATIPICO'] = crimes_por_data['DATA_OCORRENCIA'].isin(eventos_dates)

# Configurar o gr√°fico
plt.figure(figsize=(14, 6))

# Gr√°fico de linha principal
plt.plot(crimes_por_data['DATA_OCORRENCIA'], 
         crimes_por_data['TOTAL_CRIMES'], 
         label='Crimes por dia', 
         color='gray', 
         alpha=0.6,
         linewidth=1)

# Destacar dias at√≠picos
dias_atipicos = crimes_por_data[crimes_por_data['DIA_ATIPICO'] == True]
plt.scatter(dias_atipicos['DATA_OCORRENCIA'], 
            dias_atipicos['TOTAL_CRIMES'], 
            color='red', 
            label='Dias at√≠picos', 
            zorder=5,
            s=50)  # tamanho dos pontos

# Configurar limites do eixo x para 2022
plt.xlim([pd.to_datetime('2022-01-01'), pd.to_datetime('2022-12-31')])

# Formatar eixo x para mostrar meses
plt.gca().xaxis.set_major_locator(mdates.MonthLocator())
plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%b'))  # Nomes curtos dos meses

# Adicionar detalhes
plt.xlabel('Data (2022)', fontsize=12)
plt.ylabel('Quantidade de Crimes', fontsize=12)
plt.title('Flutua√ß√£o Di√°ria de Crimes em S√£o Paulo (2022)\nDias At√≠picos Destacados', fontsize=14, pad=20)
plt.legend(fontsize=11)
plt.grid(linestyle='--', alpha=0.4)

# Melhorar a legibilidade das datas
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

<div style="text-align: center;">
  <h2>BOs Iniciados X BOs Emitidos</h2>
  <p>Para entender se todos os boletins de ocorr√™ncia de fato s√£o emitidos, ou pelo menos uma boa parte, cruzaremos os dados de BO_EMITIDOS e BO_INICIADOS. Tamb√™m observaremos para quais naturezas de crimes os boletins s√£o mais efeivado e para quais s√£o menos efetivados.</p>
</div>

In [None]:
#Verificando os tipos de crimes:

if 'NATUREZA_APURADA' in df.columns:
    valores_unicos = df['NATUREZA_APURADA'].dropna().unique()
    print(f"Total de tipos √∫nicos: {len(valores_unicos)}\n")
    print("Exemplos de tipos de natureza apurada:")
    for valor in sorted(valores_unicos)[:50]:  # Mostra os 50 primeiros para n√£o ficar gigante
        print(f"- {valor}")
else:
    print("A coluna 'NATUREZA_APURADA' n√£o foi encontrada no dataset.")

In [None]:
# 1. Identificar os 6 tipos mais comuns
top_6_crimes = df['NATUREZA_APURADA'].value_counts().head(6).index.tolist()

# 2. Fun√ß√£o de categoriza√ß√£o
def categorizar_crime(natureza):
    natureza = str(natureza).upper()
    
    # Verificar os 6 tipos mais comuns
    for crime in top_6_crimes:
        if str(crime).upper() in natureza:
            return crime.split('-')[-1].split('(')[0].strip()
    
    # Categorias espec√≠ficas
    if 'FURTO' in natureza:
        return 'FURTO'
    elif 'ROUBO' in natureza:
        return 'ROUBO'
    elif 'HOMIC√çDIO' in natureza or 'HOMICIDIO' in natureza:
        return 'HOMIC√çDIO'
    elif 'LES√ÉO' in natureza or 'LESAO' in natureza:
        return 'LES√ÉO CORPORAL'
    elif 'ESTELIONATO' in natureza:
        return 'ESTELIONATO'
    elif 'TR√ÅFICO' in natureza or 'TRAFICO' in natureza:
        return 'TR√ÅFICO DE DROGAS'
    else:
        return 'OUTROS'

# 3. Aplicar categoriza√ß√£o e calcular status
df['CATEGORIA_CRIME'] = df['NATUREZA_APURADA'].apply(categorizar_crime)
df['STATUS_EMISSAO'] = df['BO_EMITIDO'].apply(lambda x: 'Emitido' if pd.notnull(x) else 'N√£o Emitido')

# 4. Calcular estat√≠sticas por categoria
emissoes_por_categoria = df.groupby('CATEGORIA_CRIME').agg(
    Total_Iniciados=('STATUS_EMISSAO', 'count'),
    Total_Emitidos=('STATUS_EMISSAO', lambda x: (x == 'Emitido').sum())
).reset_index()

emissoes_por_categoria['Perc_Emitidos'] = (emissoes_por_categoria['Total_Emitidos'] / 
                                          emissoes_por_categoria['Total_Iniciados']) * 100

# Ordenar por porcentagem de emiss√£o
emissoes_por_categoria = emissoes_por_categoria.sort_values('Perc_Emitidos', ascending=False)

In [None]:
# Criar gr√°fico de barras
plt.figure(figsize=(14, 7))
sns.set_style("whitegrid")

# Paleta de cores - usando as 6 cores principais + cinza para "OUTROS"
cores = sns.color_palette("viridis", n_colors=6) + [(0.7, 0.7, 0.7)]
cores = cores[:len(emissoes_por_categoria)]  # Ajustar para o n√∫mero real de categorias

ax = sns.barplot(
    data=emissoes_por_categoria,
    x='CATEGORIA_CRIME',
    y='Perc_Emitidos',
    palette=cores,
    order=emissoes_por_categoria['CATEGORIA_CRIME']  # Manter a ordena√ß√£o
)

# Adicionar r√≥tulos de porcentagem
for p in ax.patches:
    height = p.get_height()
    ax.text(p.get_x() + p.get_width()/2.,
            height + 0.5,
            f'{height:.1f}%',
            ha='center',
            va='bottom',
            fontsize=10)

# Linha de m√©dia geral
media_geral = (df['STATUS_EMISSAO'] == 'Emitido').mean() * 100
ax.axhline(media_geral, color='red', linestyle='--', linewidth=1.5)
ax.text(len(emissoes_por_categoria)-0.8, media_geral+2, 
        f'M√©dia Geral: {media_geral:.1f}%', 
        color='red',
        fontsize=11,
        bbox=dict(facecolor='white', alpha=0.8))

# Adicionar volume de ocorr√™ncias
for i, row in emissoes_por_categoria.iterrows():
    ax.text(i, -3, 
            f"N={row['Total_Iniciados']:,}", 
            ha='center', 
            va='top', 
            rotation=45, 
            fontsize=9,
            color='dimgrey')

# Configura√ß√µes do gr√°fico
plt.title('Taxa de Emiss√£o de BOs por Categoria de Crime\n(Top 6 Tipos Mais Comuns + Outros)', 
          fontsize=15, pad=20)
plt.xlabel('Categoria de Crime', fontsize=12)
plt.ylabel('BOs Emitidos (%)', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=11)
plt.yticks(fontsize=11)
plt.ylim(0, 105)  # Espa√ßo extra para os r√≥tulos

# Ajustar layout
plt.tight_layout()
plt.show()

<div style="text-align: center;">
  <h2>Explorando os dados: Tipologia vi√°ria</h2>
  <p>Em quais vias acontecem maior n√∫mero de crimes? Visando verificar se os dados nos respondem esta pergunta, observaremos aqui a correla√ß√£o entre o n√∫mero de crimes e os locais onde aconteceram. Para isso, vamos dividir os dados de LOGRADOURO em: Rua, Avenida, nulo, Rodovia e outros que consite em: Estrada, Pra√ßa, Alameda e Travessa; e ap√≥s isso sr√° possivel verificar onde mais acontecem crimes</p>
</div>

In [None]:
# Fun√ß√£o para classificar o tipo de logradouro
def classificar_logradouro(log):
    if pd.isna(log):
        return 'NULO'
    log = log.strip().lower()
    if log.startswith('rua'):
        return 'Rua'
    elif log.startswith('avenida') or log.startswith('av.'):
        return 'Avenida'
    elif any(log.startswith(tipo) for tipo in ['pra√ßa', 'praca', 'travessa', 'trv.', 'estrada', 'alameda']):
        return 'OUTROS'
    elif log.startswith('rodovia'):
        return 'Rodovia'
    else:
        return 'OUTROS'

# Aplica classifica√ß√£o
df['TIPO_LOGRADOURO'] = df['LOGRADOURO'].apply(classificar_logradouro)

# Contagem por tipo
contagem_logradouros = df['TIPO_LOGRADOURO'].value_counts().reset_index()
contagem_logradouros.columns = ['Tipo de Logradouro', 'Quantidade']

In [None]:

# Criar gr√°fico de pizza simples
plt.figure(figsize=(8, 8))
plt.pie(contagem_logradouros['Quantidade'],
        labels=contagem_logradouros['Tipo de Logradouro'],
        autopct='%1.1f%%',
        startangle=90,
        colors=plt.cm.Pastel1.colors,
        wedgeprops={'linewidth': 1, 'edgecolor': 'white'})

# Adicionar t√≠tulo
plt.title('Distribui√ß√£o de Crimes por Tipo de Logradouro', pad=20)

# Mostrar o gr√°fico
plt.tight_layout()
plt.show()

<div style="text-align: center;">
  <h2>Crimes em datas de jogos: Infer√™ncia est√°tistica</h2>
  An√°lise por Arthur Teodoro
  <p>Como j√° foi observado, as medias de crimes registradas se demonstraram bem mais altas em dias "fora do comum", como feriados e dias de jogos. Visando provar que h√° rela√ß√£o entre quantidade de crimes e eventos atip√≠cos, faremos aqui demonstra√ß√µes gr√°ficas e marem√°ticas que provem o ponto. 
  
  Observe o gr√°fico a seguir:</p>
</div>

In [None]:
# Filtrar os dados para dias normais e dias de jogos
df_normal = df[df['CATEGORIA_EVENTO'] == 'DIA NORMAL']
df_futebol = df[df['CATEGORIA_EVENTO'] == 'JOGOS FUTEBOL']

# Contar n√∫mero de dias √∫nicos por dia da semana (necess√°rio para calcular m√©dia)
dias_unicos_normal = df_normal[['DATA_OCORRENCIA', 'DIA_SEMANA']].drop_duplicates()
dias_unicos_futebol = df_futebol[['DATA_OCORRENCIA', 'DIA_SEMANA']].drop_duplicates()

# Contar crimes por dia da semana
crimes_normal = df_normal.groupby('DIA_SEMANA').size()
crimes_futebol = df_futebol.groupby('DIA_SEMANA').size()

# Contar dias √∫nicos por dia da semana
contagem_dias_normal = dias_unicos_normal['DIA_SEMANA'].value_counts()
contagem_dias_futebol = dias_unicos_futebol['DIA_SEMANA'].value_counts()

# Calcular m√©dia de crimes por dia da semana
media_normal = (crimes_normal / contagem_dias_normal).fillna(0)
media_futebol = (crimes_futebol / contagem_dias_futebol).fillna(0)

# Juntar os dois em um DataFrame
comparativo = pd.DataFrame({
    'Dias Normais': media_normal,
    'Dias com Jogos': media_futebol
}).fillna(0)

# Ordenar os dias da semana corretamente
ordem_dias = [
    'SEGUNDA-FEIRA', 'TER√áA-FEIRA', 'QUARTA-FEIRA',
    'QUINTA-FEIRA', 'SEXTA-FEIRA', 'S√ÅBADO', 'DOMINGO'
]
comparativo = comparativo.reindex(ordem_dias)

# Plotar gr√°fico de barras lado a lado
plt.figure(figsize=(12, 6))
comparativo.plot(kind='bar', width=0.8, color=['#808080', '#1E90FF'], edgecolor='black')

plt.title('M√©dia de Crimes por Dia da Semana\nCompara√ß√£o: Dias Normais vs Dias com Jogos de Futebol', fontsize=14, pad=20)
plt.xlabel('Dia da Semana', fontsize=12)
plt.ylabel('M√©dia de Crimes por Dia', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=11)
plt.yticks(fontsize=11)
plt.legend(fontsize=11)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()


Como √© poss√≠vel ver no gr√°fico, as m√©dias de crimes em dias com jogos marcados s√£o, em alguns casos, maiores do que as m√©dias em dias comuns, para todos os dias da semana. Mas, apesar de a interfer√™ncia do fator 'partida de futebol' j√° estar bastante evidente, analisaremos tamb√©m estatisticamente usando o m√©todo de hip√≥teses.

### Teste de Hip√≥tese: Impacto de Jogos de Futebol na M√©dia de Crimes

Neste teste, buscamos avaliar se h√° uma diferen√ßa estatisticamente significativa na **m√©dia de crimes registrados em dias com jogos de futebol** em compara√ß√£o com **dias normais**, em S√£o Paulo no ano de 2022.

### Hip√≥teses

- H‚ÇÄ (hip√≥tese nula): A m√©dia de crimes em dias com jogos √© igual √† m√©dia de dias normais.
- H‚ÇÅ (hip√≥tese alternativa): A m√©dia de crimes em dias com jogos √© **maior** do que a m√©dia de dias normais.


Utilizamos um **teste de hip√≥tese para diferen√ßa de m√©dias** com base na distribui√ß√£o normal (z-teste), assumindo:
- Os dados seguem uma distribui√ß√£o aproximadamente normal (via Teorema Central do Limite).
- As amostras s√£o independentes.

O valor de **z-score** √© calculado pela f√≥rmula:

$$
z = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
$$

Onde:
- \( $\bar{x}_1$, $s_1$, $n_1$ \) s√£o m√©dia, desvio padr√£o e tamanho da amostra dos **dias com jogos**
- \( $\bar{x}_2$, $s_2$, $n_2$ \) s√£o os mesmos para **dias normais**

Em seguida, comparamos o **valor-p** ao n√≠vel de signific√¢ncia usual de 5% \( $\alpha$ = 0.05 \). Se o valor-p for menor que 0.05, rejeitamos a hip√≥tese nula.


In [None]:
from scipy.stats import norm

# Agrupar total de crimes por dia
crimes_por_dia = df.groupby(['DATA_OCORRENCIA', 'CATEGORIA_EVENTO']).size().reset_index(name='TOTAL_CRIMES')

# Separar amostras
crimes_normais = crimes_por_dia[crimes_por_dia['CATEGORIA_EVENTO'] == 'DIA NORMAL']['TOTAL_CRIMES']
crimes_jogos = crimes_por_dia[crimes_por_dia['CATEGORIA_EVENTO'] == 'JOGOS FUTEBOL']['TOTAL_CRIMES']

# Par√¢metros das amostras
x1 = crimes_jogos.mean()
x2 = crimes_normais.mean()
s1 = crimes_jogos.std(ddof=1)
s2 = crimes_normais.std(ddof=1)
n1 = len(crimes_jogos)
n2 = len(crimes_normais)

# Estat√≠stica z
z = (x1 - x2) / np.sqrt((s1**2)/n1 + (s2**2)/n2)

# Valor-p (teste unilateral √† direita)
p_valor = 1 - norm.cdf(z)

# Mostrar resultados
print(f"M√©dia (jogos): {x1:.2f}")
print(f"M√©dia (normais): {x2:.2f}")
print(f"Z-score: {z:.2f}")
print(f"Valor-p: {p_valor:.4f}")

# Conclus√£o
alpha = 0.05
if p_valor < alpha:
    print("‚û°Ô∏è Rejeitamos H‚ÇÄ: H√° evid√™ncia de que a m√©dia de crimes em dias com jogos √© maior.")
else:
    print("‚û°Ô∏è N√£o rejeitamos H‚ÇÄ: N√£o h√° evid√™ncia suficiente de que a m√©dia seja maior.")


Conforme vimos acima, o teste de hip√≥tese est√° em concord√¢ncia com os gr√°ficos apresentados anteriormente. Portanto, com o resultado obtido, **√© poss√≠vel afirmar que a ocorr√™ncia de uma partida de futebol em determinada data pode repercutir em um not√°vel aumento no n√∫mero de crimes**.

<div style="text-align: center;">
  <h2>O crime folga aos fins de semana: infer√™ncia estat√≠stica</h2>
  An√°lise por Arthur Teodoro
  <p>Ficou provado que os n√∫meros de crimes aumentam dependendo se h√° ou n√£o partidas de futebol na data, mas h√° diferen√ßa com rela√ß√£o ao dia da semana em que esses jogos ocorrem? Jogos no meio da semana tem ainda mais crimes que os jogos de s√°bado e domingo? A seguir an√°lisaremos, novamente, de forma gr√°fica e estat√≠stica, se h√° uma correla√ß√£o
  Observe o gr√°fico a seguir:</p>
</div>

In [None]:
# Garantir datetime
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'], errors='coerce')

# Criar coluna com dia da semana em portugu√™s
dias_semana = {
    'Monday': 'SEGUNDA-FEIRA', 'Tuesday': 'TER√áA-FEIRA', 'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA', 'Friday': 'SEXTA-FEIRA', 'Saturday': 'S√ÅBADO', 'Sunday': 'DOMINGO'
}
df['DIA_SEMANA'] = df['DATA_OCORRENCIA'].dt.day_name().map(dias_semana)

# Adicionar classifica√ß√£o "FIM DE SEMANA" ou "DIA √öTIL"
df['TIPO_DIA'] = df['DIA_SEMANA'].apply(lambda x: 'FIM DE SEMANA' if x in ['S√ÅBADO', 'DOMINGO'] else 'DIA √öTIL')

# Filtrar apenas os dias com jogos
df_jogos = df[df['CATEGORIA_EVENTO'] == 'JOGOS FUTEBOL']

# Agrupar por data para obter n√∫mero de crimes por dia
crimes_por_dia_jogo = df_jogos.groupby(['DATA_OCORRENCIA', 'TIPO_DIA']).size().reset_index(name='QTD_CRIMES')

# Calcular m√©dia por tipo de dia
media_crimes = crimes_por_dia_jogo.groupby('TIPO_DIA')['QTD_CRIMES'].mean().reset_index()

# Plotar
plt.figure(figsize=(8, 6))
sns.barplot(data=media_crimes, x='TIPO_DIA', y='QTD_CRIMES', palette=['#1E90FF', '#FF8C00'])

# Adicionar r√≥tulos
for i, row in media_crimes.iterrows():
    plt.text(i, row['QTD_CRIMES'] + 1, f'{row["QTD_CRIMES"]:.1f}', ha='center', fontsize=11)

plt.title('M√©dia de Crimes em Dias com Jogos de Futebol\nComparando Fins de Semana e Dias √öteis', fontsize=14, pad=20)
plt.xlabel('Tipo de Dia', fontsize=12)
plt.ylabel('M√©dia de Crimes por Dia com Jogo', fontsize=12)
plt.tight_layout()
plt.show()


Considerando apenas s√°bado e domingo como fim de semana, e os demais dias como meio de semana, n√£o √© poss√≠vel observar claramente uma grande diferen√ßa entre as m√©dias representadas nas barras. Portanto, realizaremos novamente um teste de hip√≥tese para verificar se h√° uma diferen√ßa significativa entre o fim de semana e o meio de semana.

### Hip√≥teses:

- **H‚ÇÄ (nula):** $\mu_{\text{√∫til}} = \mu_{\text{fim\_semana}}$ (mesma m√©dia de crimes)
- **H‚ÇÅ (alternativa):** $\mu_{\text{√∫til}} \neq \mu_{\text{fim\_semana}}$ (diferen√ßa significativa)

Em seguida, comparamos o **valor-p** ao n√≠vel de signific√¢ncia usual de 5% \( $\alpha$ = 0.05 \). Se o valor-p for menor que 0.05, rejeitamos a hip√≥tese nula.

In [None]:
# Reutilizando os dados de dias com jogos
df_jogos = df[df['CATEGORIA_EVENTO'] == 'JOGOS FUTEBOL']

# Criar coluna com tipo de dia
df_jogos['TIPO_DIA'] = df_jogos['DIA_SEMANA'].apply(lambda x: 'FIM DE SEMANA' if x in ['S√ÅBADO', 'DOMINGO'] else 'DIA √öTIL')

# Agrupar por data e tipo de dia
crimes_por_dia = df_jogos.groupby(['DATA_OCORRENCIA', 'TIPO_DIA']).size().reset_index(name='QTD_CRIMES')

# Separar os dois grupos
grupo_util = crimes_por_dia[crimes_por_dia['TIPO_DIA'] == 'DIA √öTIL']['QTD_CRIMES']
grupo_fds = crimes_por_dia[crimes_por_dia['TIPO_DIA'] == 'FIM DE SEMANA']['QTD_CRIMES']

# Estat√≠sticas b√°sicas
media_util = grupo_util.mean()
media_fds = grupo_fds.mean()
std_util = grupo_util.std(ddof=1)
std_fds = grupo_fds.std(ddof=1)
n_util = len(grupo_util)
n_fds = len(grupo_fds)

# Estat√≠stica z
z = (media_util - media_fds) / np.sqrt((std_util**2 / n_util) + (std_fds**2 / n_fds))

# Valor-p (teste bilateral)
p_valor = 2 * (1 - norm.cdf(abs(z)))

# Exibir resultados
print(f"M√©dia (dia √∫til): {media_util:.2f}")
print(f"M√©dia (fim de semana): {media_fds:.2f}")
print(f"Z-score: {z:.2f}")
print(f"Valor-p: {p_valor:.4f}")


Desta vez, o valor-p √© maior que 0,05, ou seja, n√£o rejeitamos a hip√≥tese nula (H‚ÇÄ).
Ap√≥s a an√°lise do teste de hip√≥tese, conclu√≠mos que n√£o h√° uma diferen√ßa significativa no n√∫mero de crimes entre os dias de fim de semana e de meio de semana, e **n√£o √© poss√≠vel afirmar que um per√≠odo tende a apresentar mais ocorr√™ncias do que o outro**.

<div style="text-align: center;">
  <h2>Associa√ß√µes</h2>
  <p>Abaixo exploraremos algumas associa√ß√µes para que possamos interpretar melhor os dados, e encontrar alguns padr√µes que posso ajudar a entend√™-los </p>
</div>

Pensando em regras de associa√ß√£o, ir√° ser feita uma an√°lise de que turno do dia um crime √© realizado em um determinado, com base na natureza apurada, turno e local. (Matheus Kauan)

In [None]:
# Calcula a porcentagem de valores n√£o nulos
porcentagem_nao_nulos = df['NATUREZA_APURADA'].notna().mean() * 100

# Exibe a porcentagem
print(f"{porcentagem_nao_nulos:.2f}% dos dados de NATUREZA_APURADA n√£o s√£o nulos.")

In [None]:
# Calcula a porcentagem de valores n√£o nulos
porcentagem_nao_nulos = df['TIPO_LOCAL'].notna().mean() * 100

# Exibe a porcentagem
print(f"{porcentagem_nao_nulos:.2f}% dos dados de TIPO_LOCAL n√£o s√£o nulos.")

In [None]:
# Calcula a porcentagem de valores n√£o nulos
porcentagem_nao_nulos = df['PERIODO_OCORRENCIA'].notna().mean() * 100

# Exibe a porcentagem
print(f"{porcentagem_nao_nulos:.2f}% dos dados de PERIODO_OCORRENCIA n√£o s√£o nulos.")

Ap√≥s as verifica√ß√µes, podemos realizar as an√°lises visto que maior parte dos dados possuem todos os atributos necess√°rios

In [None]:
# Seleciona e faz uma c√≥pia expl√≠cita das colunas
df_assoc = df[['NATUREZA_APURADA', 'TIPO_LOCAL', 'PERIODO_OCORRENCIA']].copy()

# Agora √© seguro remover os nulos sem warnings
df_assoc.dropna(inplace=True)


In [None]:
# Instala automaticamente o mlxtend, se n√£o estiver instalado
try:
    from mlxtend.preprocessing import TransactionEncoder
    from mlxtend.frequent_patterns import apriori, association_rules
except ImportError:
    import subprocess
    import sys
    subprocess.check_call([sys.executable, "-m", "pip", "install", "mlxtend"])
    from mlxtend.preprocessing import TransactionEncoder
    from mlxtend.frequent_patterns import apriori, association_rules


In [None]:
df_assoc['itens'] = df_assoc.apply(lambda row: [
    f"NATUREZA={row['NATUREZA_APURADA']}",
    f"LOCAL={row['TIPO_LOCAL']}",
    f"PERIODO={row['PERIODO_OCORRENCIA']}"
], axis=1)

In [None]:

te = TransactionEncoder()
te_ary = te.fit(df_assoc['itens']).transform(df_assoc['itens'])
df_encoded = pd.DataFrame(te_ary, columns=te.columns_)

In [None]:
# Gera itemsets frequentes com suporte m√≠nimo de 1%
freq_items = apriori(df_encoded, min_support=0.01, use_colnames=True)

# Gera regras com confian√ßa m√≠nima de 60%
regras = association_rules(freq_items, metric="confidence")

# Exibe as 10 primeiras
regras[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

In [None]:
regras.shape[0]

In [None]:
df_assoc

In [None]:
df.head(5)


Arquivo CSV atualizado:

In [None]:
df2 = pd.read_csv('dados/SpSafe_2022(c_cidades).csv', delimiter=';')
pd.set_option('display.max_columns', None)

<p>Agora tentaramos ver se √© valido o investimento em efetivo policial nas sextas e s√°bados a noite a fim de uma melhor preven√ß√£o ao crime (Gabriel) </p>

In [None]:
# Calcular a porcentagem de valores n√£o nulos
porcentagem_nao_nulos = df['DIA_SEMANA'].notna().mean() * 100

print(f"{porcentagem_nao_nulos:.2f}% dos dados de DIA_SEMANA n√£o s√£o nulos.")

<p> Como 99,91% dos dados DIA_SEMANA n√£o s√£o nulos, irei descartar os que s√£o, e construir a tabela de transa√ß√£o com os disponiveis </p> 

In [None]:
# Converte para mai√∫sculas (caso os dados estejam com letras min√∫sculas ou misturadas)
df['DIA_SEMANA'] = df['DIA_SEMANA'].str.upper()
df['PERIODO_OCORRENCIA'] = df['PERIODO_OCORRENCIA'].str.upper()

# Filtra os dados com base nos crit√©rios
df_filtrado = df.dropna(subset=['DIA_SEMANA', 'PERIODO_OCORRENCIA', 'NATUREZA_APURADA'])



<p> Usando o algoritmo apriori para validar (ou n√£o) as associa√ßoes </p>

In [None]:
# Fazendo um filtro com as colunas envolvidas 
transacoes = df_filtrado.apply(lambda row: [
    f"DIA_SEMANA={row['DIA_SEMANA']}",
    f"PERIODO_OCORRENCIA={row['PERIODO_OCORRENCIA']}",
    f"NATUREZA_APURADA={row['NATUREZA_APURADA']}"
], axis=1).tolist()


In [None]:
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

# 1. Montar as transa√ß√µes apenas com DIA_SEMANA e PERIODO_OCORRENCIA
transacoes_temporais = df_filtrado.apply(lambda row: [
    f"DIA_SEMANA={row['DIA_SEMANA']}",
    f"PERIODO_OCORRENCIA={row['PERIODO_OCORRENCIA']}"
], axis=1).tolist()

# 2. Codificar as transa√ß√µes
te_temp = TransactionEncoder()
te_temp_ary = te_temp.fit(transacoes_temporais).transform(transacoes_temporais)
df_encoded_temp = pd.DataFrame(te_temp_ary, columns=te_temp.columns_)

# 3. Rodar Apriori
frequent_itemsets_temp = apriori(df_encoded_temp, min_support=0.01, use_colnames=True)

# 4. Gerar regras de associa√ß√£o
regras_temp = association_rules(frequent_itemsets_temp, metric="confidence", min_threshold=0.1)

# 5. Deixar os resultados mais leg√≠veis
regras_temp['antecedents'] = regras_temp['antecedents'].apply(lambda x: ', '.join(list(x)))
regras_temp['consequents'] = regras_temp['consequents'].apply(lambda x: ', '.join(list(x)))

# 6. Selecionar e ordenar
regras_temporais_formatadas = regras_temp[['antecedents', 'consequents', 'support', 'confidence', 'lift']]
regras_ordenadas = regras_temporais_formatadas.sort_values(by='lift', ascending=False)

# 7. Mostrar as top regras
print(regras_ordenadas.head(10))


<p> Com a execu√ß√£o do algoritmo temos: </p>

In [None]:
# Filtrar regras onde antecedents √© 'DIA_SEMANA=SEXTA-FEIRA' e consequents √© 'PERIODO_OCORRENCIA=A NOITE'
filtro = (
    ((regras_ordenadas['antecedents'] == 'DIA_SEMANA=SEXTA-FEIRA') |
     (regras_ordenadas['antecedents'] == 'DIA_SEMANA=S√ÅBADO')) &
    (regras_ordenadas['consequents'] == 'PERIODO_OCORRENCIA=A NOITE')
)
regras_ordenadas[filtro]

In [None]:
# Ordena as regras pelo suporte de forma decrescente
regras_ordenadas = regras_ordenadas.sort_values(by='support', ascending=False)
regras_ordenadas

In [None]:
media_support = regras_ordenadas['support'].mean()
print(f"M√©dia do suporte: {media_support:.4f}")
mediana_support = regras_ordenadas['support'].median()
print(f"Mediana do suporte: {mediana_support:.4f}")

<p> Analisando os dados, vi que aproximadamente associando sexta-feira e s√°bado com o total, 5% de todas as ocorr√™ncia ocorreram em cada  um desses dias. e Desse sub-conjunto, aproximadamente 30% ocorreram a noite, com o lift beirando a estabilidade. Vendo o conjunto de dados por completo, percebi que que a distribui√ß√£o dos crimes pelo dia da semana est√° bem normalizada, tendo a m√©dia e a mediana aproximadamente com 3%. Sendo assim, n√£o valeria a pena o investimento em efetivo policial em determinado dia da semana e periodo como forma preven√ß√£o a crime.</p>  

<div style="text-align: center;">
  <h3>Tipos de crimes para com locais de elabora√ß√£o</h3>
  <p>Estudo para descobrir se h√° associa√ß√£o entre o tipo de vrime que a pessoa passou para com o tipo de delegacia que foi elaborado o B.O</p>
</div>

Verificando se h√° algum ru√≠do nos campos que ser√£o utilizados para realizar o estudo de associatividade

In [None]:
porcentagem_crimes = df['NATUREZA_APURADA'].notna().mean() * 100
print(f"{porcentagem_crimes:.2f}% das linhas possuem 'NATUREZA_APURADA' preenchida.")

porcentagem_elab = df['LOCAL_ELABORACAO'].notna().mean() * 100
print(f"{porcentagem_elab:.2f}% das linhas possuem 'LOCAL_ELABORACAO' preenchida.")


Cria√ß√£o de grupos de tipos de delegacias e tipos de crimes semelhantes(podendo pertencer a algum grupo). Foi feito isso na inten√ß√£o de diminuir a quantidade de itens e itensets poss√≠veis.

In [None]:
grupo_delegacia = {
    "Delegacia Distrital (DP)": r"\d+¬∫ D\.P\.",
    "Delegacia de Plant√£o": r"PLANTAO|PLANT√ÉO",
    "Delegacia da Mulher (DDM)": r"DDM",
    "Delegacia de Homic√≠dios (DHPP/DIG)": r"DHPP|DIG|HOMICIDIOS",
    "Delegacia de Narc√≥ticos (DISE/DENARC)": r"DISE|DENARC|ENTORPECENTES",
    "Delegacia de Roubos (DRADE)": r"DRADE|ROUBO|FURTO",
    "Delegacia de Crimes Financeiros (DCCIBER)": r"DCCIBER|FRAUDE|FINANCEIRO",
    "Delegacia do Idoso": r"PROTECAO IDOSO|IDOSO",
    "Delegacia da Crian√ßa/Adolescente": r"INF\.JUV|JUVENIL|CRIAN√áA",
    "Delegacia de Capturas (DIPE)": r"DIPE|CAPTURA|FUGA",
    "Delegacia Ambiental (DICCA)": r"DICCA|AMBIENTAL",
    "Delegacia da Fazenda (DIIMA)": r"DIIMA|FAZENDA|SONEGA√á√ÉO",
    "Delegacia Municipal (DEL.POL.)": r"^DEL\.POL\.",
    "Delegacia Eletr√¥nica": r"ELETRONICA|ONLINE",
    "Circunscri√ß√£o Policial (CPJ)": r"CPJ",
    "Outras": r".*"  # Padr√£o gen√©rico (caso n√£o se encaixe em nenhum outro)
}

def classificar_delegacia(delegacia):
    for grupo, regex in grupo_delegacia.items():
        if re.search(regex, delegacia, re.IGNORECASE):
            return grupo
    return "Outras"  # Caso n√£o encontre nenhum padr√£o

In [None]:
import re

grupos_crime = {
    # 1. Crimes Violentos Contra a Vida
    "Homic√≠dio Doloso": r"HOMICIDIO DOLOSO|HOMICIDIO SIMPLES|HOMICIDIO QUALIFICADO",
    "Morte Decorrente de Interven√ß√£o Policial": r"MORTE DECORRENTE DE INTERVENCAO POLICIAL",
    "Les√£o Corporal Seguida de Morte": r"LESAO CORPORAL SEGUIDA DE MORTE",
    "Latroc√≠nio": r"LATROCINIO",
    
    # 2. Roubos (subdivididos)
    "Roubo a Pessoa": r"ROUBO.*TRANSEUNTE|ROUBO.*SAIDINHA",
    "Roubo a Ve√≠culos": r"ROUBO.*VEICULO|ROUBO.*CARGA",
    "Roubo a Estabelecimentos": r"ROUBO.*ESTABELECIMENTO|ROUBO.*JOALHERIA",
    "Roubo em Resid√™ncias": r"ROUBO.*RESIDENCIA|ROUBO.*CONDOMINIO",
    
    # 3. Furtos (subdivididos)
    "Furto a Ve√≠culos": r"FURTO.*VEICULO|FURTO.*INTERIOR DE VEICULO",
    "Furto a Estabelecimentos": r"FURTO.*ESTABELECIMENTO|FURTO.*JOALHERIA",
    "Furto em Resid√™ncias": r"FURTO.*RESIDENCIA|FURTO.*CONDOMINIO",
    "Furto Qualificado": r"FURTO QUALIFICADO",
    
    # 4. Crimes Sexuais
    "Estupro": r"ESTUPRO|ART\. 213",
    "Importuna√ß√£o Sexual": r"IMPORTUNACAO SEXUAL|ASSEDIO SEXUAL",
    "Crimes Sexuais contra Vulner√°veis": r"ESTUPRO DE VULNERAVEL|CORRUPCAO DE MENORES",
    
    # 5. Crimes contra o Patrim√¥nio (outros)
    "Extors√£o": r"EXTORSAO",
    "Fraudes": r"ESTELIONATO|FRAUDE|MOEDA FALSA",
    "Dano": r"DANO|DANO QUALIFICADO",
    
    # 6. Crimes contra a Pessoa
    "Les√£o Corporal": r"LESAO CORPORAL",
    "Amea√ßa": r"AMEACA|PERSEGUIR",
    "Viol√™ncia Dom√©stica": r"VIOLENCIA DOMESTICA|VIOLENCIA PSICOLOGICA",
    
    # 7. Crimes de Tr√¢nsito
    "Embriaguez ao Volante": r"EMBRIAGUEZ AO VOLANTE",
    "Acidentes de Tr√¢nsito": r"ACIDENTE|ATROPELAMENTO|COLISAO",
    "Dire√ß√£o Perigosa": r"DIRECAO PERIGOSA|VELOCIDADE INCOMPATIVEL",
    
    # 8. Crimes contra a Administra√ß√£o P√∫blica
    "Corrup√ß√£o": r"CORRUPCAO",
    "Falsifica√ß√£o": r"FALSIDADE|FALSIFICACAO",
    
    # 9. Crimes Digitais
    "Crimes Cibern√©ticos": r"INFORMATICA|INVASAO DE DISPOSITIVO",
    
    # 10. Outros Crimes
    "Porte Ilegal de Arma": r"PORTE ILEGAL|POSSE ILEGAL DE ARMA",
    "Tr√°fico de Drogas": r"DROGAS.*AUTORIZACAO|ENTORPECENTES",
    "Outros Crimes": r".*"  # Padr√£o gen√©rico para casos n√£o classificados
}

def classificar_crime(crime):
    for grupo, regex in grupos_crime.items():
        if re.search(regex, crime, re.IGNORECASE):
            return grupo
    return "Outros Crimes"  # Caso n√£o encontre nenhum padr√£o

In [None]:
import re

df['GRUPO_ELAB'] = df['LOCAL_ELABORACAO'].apply(classificar_delegacia)
df['GRUPO_CRIME'] = df['NATUREZA_APURADA'].apply(classificar_crime)
df

In [None]:
df_elab_group = df[['NUM_BO','GRUPO_CRIME', 'GRUPO_ELAB']].copy()
df_elab_group.dropna(inplace=True)
df_elab_group

In [None]:
df_elab = df[['NUM_BO','NATUREZA_APURADA','LOCAL_ELABORACAO']].copy()
df_elab.dropna(inplace=True)
df_elab

In [None]:
df_elab_group['itens'] = df_elab_group.apply(lambda row: [row['GRUPO_CRIME'], row['GRUPO_ELAB']], axis=1)
print(df_elab_group[['itens']].head(5))

In [None]:

df_elab['itens'] = df_elab.apply(lambda row: [row['NATUREZA_APURADA'], row['LOCAL_ELABORACAO']], axis=1)
print(df_elab[['itens']].head(5))

In [None]:
from mlxtend.preprocessing import TransactionEncoder

# Inicializar e transformar os dados
te = TransactionEncoder()
te_ary = te.fit(df_elab['itens']).transform(df_elab['itens'])

# Criar DataFrame codificado
df_encoded_elab = pd.DataFrame(te_ary, columns=te.columns_)
df_encoded_elab

In [None]:
from mlxtend.preprocessing import TransactionEncoder

# Inicializar e transformar os dados
te = TransactionEncoder()
te_ary = te.fit(df_elab_group['itens']).transform(df_elab_group['itens'])

# Criar DataFrame codificado
df_encoded_elab_group = pd.DataFrame(te_ary, columns=te.columns_)
df_encoded_elab_group

In [None]:
from mlxtend.frequent_patterns import apriori

# Encontrar itens frequentes (pares crime + delegacia)
frequent_itemsets = apriori(
    df_encoded_elab,
    min_support=0.05,  # Ajuste conforme seu dataset (ex: 5% das ocorr√™ncias)
    use_colnames=True
)

# Ordenar por suporte
frequent_itemsets = frequent_itemsets.sort_values(by='support', ascending=False)
frequent_itemsets

In [None]:
from mlxtend.frequent_patterns import apriori

# Encontrar itens frequentes (pares crime + delegacia)
frequent_itemsets = apriori(
    df_encoded_elab_group,
    min_support=0.05,  # Ajuste conforme seu dataset (ex: 5% das ocorr√™ncias)
    use_colnames=True
)

# Ordenar por suporte
frequent_itemsets_group = frequent_itemsets.sort_values(by='support', ascending=False)
frequent_itemsets_group

Com a finalidade de entender se h√° alguma rela√ß√£o entre crimes e locais de leabora√ß√£o a confian√ßa foi ajustada para zero, mesmo assim houve apenas poucos casos de associa√ß√£o(repetidos), mesmo juntando as duas abordagens(agrupada e n√£o agrupada). Embora exista o seu grau de confian√ßa √© muito baixo, al√©m de seu grau de associa√ß√£o tamb√©m ser baixo e o lift alto. *Necess√°rio uma busca para entender o que estes dados est√£o querendo dizer*.

In [None]:
from mlxtend.frequent_patterns import association_rules

# Gerar regras com base na confian√ßa ou lift
rules = association_rules(
    frequent_itemsets,
    metric='confidence',
    min_threshold=0.00  # Confian√ßa m√≠nima de 0%
)

# Filtrar regras relevantes (ex: lift > 1.5)
rules[rules['lift'] >= 0.01].sort_values(by='lift', ascending=False)

In [None]:
from mlxtend.frequent_patterns import association_rules

# Gerar regras com base na confian√ßa ou lift
rules = association_rules(
    frequent_itemsets_group,
    metric='confidence',
    min_threshold=0.00  # Confian√ßa m√≠nima de 0%
)

# Filtrar regras relevantes (ex: lift > 1.5)
rules[rules['lift'] >= 0.01].sort_values(by='lift', ascending=False)

In [None]:
# Futebol (datas de jogos importantes de times paulistas em 2022)
jogos_futebol = [
    '2022-01-27',  # Athletico-PR 1-1 S√£o Paulo
    '2022-02-20',  # Internacional 2-1 Corinthians
    '2022-03-06',  # Flamengo 1-1 Palmeiras
    '2022-04-02',  # S√£o Paulo 2-1 Palmeiras (Paulist√£o)
    '2022-04-10',  # Corinthians 1-0 Flamengo
    '2022-04-17',  # Atl√©tico-MG 0-0 Santos
    '2022-05-15',  # Fluminense 2-0 Corinthians
    '2022-05-22',  # S√£o Paulo 1-1 Palmeiras
    '2022-06-19',  # Fortaleza 0-3 Palmeiras
    '2022-07-10',  # Botafogo 1-2 S√£o Paulo
    '2022-07-13',  # S√£o Paulo 3-1 Juventude (Copa do Brasil)
    '2022-08-07',  # Goi√°s 1-0 Santos
    '2022-08-13',  # Corinthians 0-2 Flamengo (Copa do Brasil)
    '2022-08-28',  # Palmeiras 4-2 Corinthians
    '2022-09-04',  # Coritiba 0-1 Palmeiras
    '2022-09-17',  # Santos 0-1 S√£o Paulo
    '2022-10-02',  # Cuiab√° 1-1 Corinthians
    '2022-11-06',  # Ava√≠ 1-3 S√£o Paulo
    '2022-11-24',  # Corinthians 2-0 S√£o Paulo
    '2022-11-28',  # Corinthias 1-0 Athetico-PR
    '2022-12-02',  # Am√©rica-MG 1-2 Palmeiras
    '2022-12-05',  # S√£o Paulo 4-0 Fluminense
    '2022-12-09'   # Santos 2-1 Botafogo
]

Adicionando o campo de 'Houve_JOGO' no dataset, para melhorar a manipula√ß√£o dos dados

In [None]:
df['HOUVE_JOGO'] = df['DATA_OCORRENCIA'].dt.strftime('%Y-%m-%d').isin(jogos_futebol)
df

Definindo apenas quais campos ser√£o utilizados para verificar sua assosiatividade

In [None]:
df_jogos = df[['NATUREZA_APURADA', 'HOUVE_JOGO']].copy()
df_jogos.dropna(inplace=True)
df_jogos

Colocando no formato de transi√ß√µes

In [None]:
df_jogos['itens'] = df_jogos.apply(lambda row: [row['NATUREZA_APURADA'], row['HOUVE_JOGO']], axis=1)
print(df_jogos[['itens']])

In [None]:
from mlxtend.preprocessing import TransactionEncoder

# Criar transa√ß√µes no formato: [['ROUBO', 'SIM_JOGO'], ['FURTO', 'NAO_JOGO'], ...]
transacoes = df_jogos.apply(
    lambda row: [row['NATUREZA_APURADA'], 'SIM_JOGO' if row['HOUVE_JOGO'] else 'NAO_JOGO'], 
    axis=1
).tolist()

# Codificar como matriz bin√°ria
te = TransactionEncoder()
te_array = te.fit_transform(transacoes)
df_encoded_jogos = pd.DataFrame(te_array, columns=te.columns_)

Aplicando o algoritmo:

In [None]:
from mlxtend.frequent_patterns import apriori

# Itens frequentes (suporte m√≠nimo de 5%)
frequent_items_jogos = apriori(df_encoded_jogos, min_support=0.05, use_colnames=True)
frequent_items_jogos

In [None]:
from mlxtend.frequent_patterns import association_rules

# Regras com confian√ßa m√≠nima de 70%
regras = association_rules(frequent_items_jogos, metric="confidence", min_threshold=0.0001)
regras[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

<div style="text-align: center;">
    <h3> Jogos de futebol com tipos de crimes </h3>
    <p> Os jogos de futebol ser√£o usados aqueles que tiverem algum time paulista </p>
</div>

<div style="text-align: center;">
    <h1> Arquivo csv atualizado </h1>
    <p> Executar a c√©lula somente se n√£o tiver o arquivo .csv do SpSafe atualizado.  </p>
</div>

In [None]:
# Tenta importar gdown, se n√£o conseguir, instala
try:
    import gdown  # Tenta importar novamente ap√≥s a instala√ß√£o
except ImportError:
    print("üì• gdown n√£o encontrado. Instalando automaticamente...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "gdown"])

# Baixar o arquivo do Google Drive

file_id = "1Tf6-immhPLj23A0Lvai52j-WQpl6KjKt"
url = f"https://drive.google.com/uc?id={file_id}"
output = "dados/SpSafe_2022(c_cidades).csv"

gdown.download(url, output, quiet=False)