# Passo 1: Captura dos Dados

Este Jupyter Notebook servirá como guia para a análise de dados de ocorrências criminais na cidade de Lins, SP. Neste primeiro passo, vamos coletar os dados brutos dos arquivos fornecidos.

Este Jupyter Notebook fornecerá um guia completo para a análise de dados de ocorrências criminais em Lins, com explicações detalhadas para cada passo.

## Importando bibliotecas

Importamos a biblioteca Pandas para manipulação de dados.

In [1]:
import pandas as pd

## Definindo caminho para os arquivos:
Definimos o caminho para a pasta onde os arquivos estão armazenados. É importante adaptar o caminho de acordo com a estrutura do seu repositório.
Criamos uma lista com os nomes dos arquivos.

In [2]:
path = "data/raw/" # Substitua pelo caminho correto para a pasta "data/raw/" no seu repositório

files = [
    "ocorrencia_mensal_criminal_lins_2020.xlsx",
    "ocorrencia_mensal_criminal_lins_2021.xlsx",
    "ocorrencia_mensal_criminal_lins_2022.xlsx",
    "ocorrencia_mensal_criminal_lins_2023.xlsx",
    "ocorrencia_mensal_criminal_lins_2024_updating.xlsx"
]

## Carregando os dados para DataFrames:
Usamos a função pd.read_excel para ler cada arquivo Excel e criar um DataFrame Pandas para cada um.

In [3]:
dfs = []

for file in files:
    df = pd.read_excel(path + file)
    dfs.append(df)

  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")
  warn("Workbook contains no default style, apply openpyxl's default")


## Concatenando os DataFrames:
Usamos a função pd.concat para juntar todos os DataFrames em um único DataFrame.

In [4]:
df_total = pd.concat(dfs, ignore_index=True)

## Verificando os dados carregados:
Exibimos as primeiras linhas do DataFrame e informações gerais sobre os dados usando df_total.head() e df_total.info().

In [5]:
print(df_total.head())
print(df_total.info())

                                            Natureza  Janeiro  Fevereiro  \
0                               HOMICÍDIO DOLOSO (2)        0          1   
1              Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO (3)        0          1   
2          HOMICÍDIO DOLOSO POR ACIDENTE DE TRÂNSITO        0          0   
3  Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO POR ACIDENTE...        0          0   
4         HOMICÍDIO CULPOSO POR ACIDENTE DE TRÂNSITO        1          0   

   Marco  Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro  \
0      0      1    0     0     1      1        1       0        1        2   
1      0      1    0     0     1      1        1       0        1        2   
2      0      0    0     0     0      0        0       0        0        0   
3      0      0    0     0     0      0        0       0        0        0   
4      1      1    1     1     2      0        2       1        0        1   

   Total  
0    8.0  
1    8.0  
2    0.0  
3    0.0  
4   11.0  
<class '

## Próximos passos:

- Limpar e preparar os dados para análise, incluindo:
 - Eliminar colunas irrelevantes.
 - Converter tipos de dados para os mais adequados.
 - Tratar valores faltantes.
 - Renomear colunas e remover caracteres especiais.
- Realizar análise exploratória dos dados.
- Criar visualizações para comunicar os insights obtidos.

# Passo 2: Processamento dos Dados

Neste passo, vamos preparar os dados para a análise, realizando a limpeza e o tratamento necessários.

Este notebook mostra como realizar a limpeza e o processamento dos dados para análise, garantindo que os dados estejam em um formato adequado e confiável para análise.

## Importando Bibliotecas:

In [None]:
import pandas as pd

## Carregando o DataFrame:

In [None]:
# Assumindo que o DataFrame 'df_total' foi criado no passo anterior
# ...

## Limpando os Dados:

Removemos colunas que não são relevantes para a análise, como as que contam o número de vítimas, pois já temos a contagem total de ocorrências.

- Removendo Colunas Irrelevantes:

In [6]:
df_total = df_total.drop(columns=["Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO", "Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO POR ACIDENTE DE TRÂNSITO", "Nº DE VÍTIMAS EM LATROCÍNIO"])

KeyError: "['Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO', 'Nº DE VÍTIMAS EM HOMICÍDIO DOLOSO POR ACIDENTE DE TRÂNSITO', 'Nº DE VÍTIMAS EM LATROCÍNIO'] not found in axis"

Renomeamos as colunas para facilitar a manipulação e a leitura dos dados, utilizando nomes mais descritivos e sem caracteres especiais.

- Renomeando Colunas:

In [7]:
df_total = df_total.rename(columns={"TOTAL DE ESTUPRO (4)": "TOTAL_ESTUPRO", "TOTAL DE ROUBO - OUTROS (1)": "TOTAL_ROUBO_OUTROS", "HOMICÍDIO DOLOSO (2)": "HOMICIDIO_DOLOSO"})

Substituímos vírgulas por pontos para que os valores numéricos sejam lidos corretamente.

- Substituindo Caracteres Especiais:

In [8]:
df_total = df_total.replace(",", ".", regex=True)

Convertemos as colunas para o tipo numérico usando pd.to_numeric, tratando possíveis erros de conversão com errors='coerce'.

- Convertendo Tipos de Dados:


In [9]:
df_total = df_total.apply(pd.to_numeric, errors='coerce')

## Tratando Valores Faltantes:

Substituímos os valores faltantes por zero, assumindo que a ausência de dados significa que não houve ocorrências.

Substituindo por Zero:

In [10]:
df_total = df_total.fillna(0)

## Criando Coluna de Ano:

Criamos uma coluna "Ano" para indicar o ano das ocorrências, assumindo que todos os dados são de 2024.

In [11]:
df_total["Ano"] = 2024 # Assumindo que todos os dados são de 2024

## Salvando o DataFrame Processado:

Salvamos o DataFrame processado em um arquivo CSV na pasta "data/processed/".

In [12]:
df_total.to_csv("data/processed/dados_limpos.csv", index=False)

## Próximos passos:

- Realizar a análise exploratória dos dados processados.
- Criar visualizações para comunicar os insights obtidos.
- Investigar a necessidade de modelos preditivos ou outros tipos de análise mais complexos.

# No entanto, podemos adicionar outras etapas importantes de pré-processamento, como:

## Criação de Novas Variáveis:
- Criar colunas que representem a soma das ocorrências por trimestre ou semestre.
- Criar uma coluna que represente a taxa de ocorrências por 100 mil habitantes (caso tenha dados populacionais).
- Criar colunas categóricas que agrupem crimes semelhantes (por exemplo, "Crimes Violentos", "Crimes Patrimoniais").

## Escalonamento de Dados:
- Se você for usar modelos de Machine Learning que exigem escalonamento de dados, como Regressão Linear ou Redes Neurais, é importante realizar essa etapa.
- Você pode usar técnicas como:
 - Normalização: Escalonar os dados para um intervalo entre 0 e 1.
 - Padronização: Centralizar os dados e dividi-los pelo desvio padrão.

## Transformação de Dados:
- Logaritmo: Aplicar a função logarítmica para dados com distribuição enviesada.
- Padronização: Aplicar a função logarítmica para dados com distribuição enviesada.
- One-Hot Encoding: Converter variáveis categóricas em variáveis numéricas, criando colunas binárias (0 ou 1).

Exemplo de Criação de Novas Variáveis:

In [13]:
df_total['Total_Primeiro_Trimestre'] = df_total['Janeiro'] + df_total['Fevereiro'] + df_total['Marco']
df_total['Total_Segundo_Trimestre'] = df_total['Abril'] + df_total['Maio'] + df_total['Junho']
df_total['Total_Terceiro_Trimestre'] = df_total['Julho'] + df_total['Agosto'] + df_total['Setembro']
df_total['Total_Quarto_Trimestre'] = df_total['Outubro'] + df_total['Novembro'] + df_total['Dezembro']

Exemplo de Escalonamento de Dados:

In [15]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
df_total[['Janeiro', 'Fevereiro', 'Marco', 'Abril' , 'Maio' , 'Junho' , 'Julho' , 'Agosto' , 'Setembro' , 'Outubro' , 'Novembro' , 'Dezembro']] = scaler.fit_transform(df_total[['Janeiro', 'Fevereiro', 'Marco', 'Abril' , 'Maio' , 'Junho' , 'Julho' , 'Agosto' , 'Setembro' , 'Outubro' , 'Novembro' , 'Dezembro']])

Exemplo de One-Hot Encoding:

In [16]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(handle_unknown='ignore')
encoder.fit(df_total[['Natureza']])
encoded_data = encoder.transform(df_total[['Natureza']]).toarray()

# Passo 3: Transformação dos Dados

Neste passo, vamos realizar transformações nos dados para facilitar a análise e a visualização. A transformação dos dados envolve a criação de novas variáveis e a categorização de dados.

Neste notebook, demonstramos como transformar os dados para facilitar a análise e a visualização, criando novas variáveis e agrupando os dados em categorias.

## Importando Bibliotecas:

In [None]:
import pandas as pd

Carregando o DataFrame:

In [17]:
# Assumindo que o DataFrame 'df_total' foi processado nos passos anteriores
df_total = pd.read_csv("data/processed/dados_limpos.csv")

## Criando Novas Variáveis:

Criamos novas colunas para somar o número de ocorrências em cada trimestre.

- Criando Colunas de Trimestre:

In [18]:
df_total['Total_Primeiro_Trimestre'] = df_total['Janeiro'] + df_total['Fevereiro'] + df_total['Marco']
df_total['Total_Segundo_Trimestre'] = df_total['Abril'] + df_total['Maio'] + df_total['Junho']
df_total['Total_Terceiro_Trimestre'] = df_total['Julho'] + df_total['Agosto'] + df_total['Setembro']
df_total['Total_Quarto_Trimestre'] = df_total['Outubro'] + df_total['Novembro'] + df_total['Dezembro']

Criamos uma coluna com o total de ocorrências por linha, somando todas as ocorrências mensais.

- Criando Coluna de Total de Ocorrências:

In [19]:
df_total['Total_Ocorrencias'] = df_total.iloc[:, 1:14].sum(axis=1)

## Categorizando Dados:

Classificamos os crimes em categorias mais amplas, como "Crimes Violentos" e "Crimes Patrimoniais", para análise mais abrangente.

- Criando Colunas Categóricas:

In [32]:
df_total

Unnamed: 0,Natureza,Janeiro,Fevereiro,Marco,Abril,Maio,Junho,Julho,Agosto,Setembro,...,Novembro,Dezembro,Total,Ano,Total_Primeiro_Trimestre,Total_Segundo_Trimestre,Total_Terceiro_Trimestre,Total_Quarto_Trimestre,Total_Ocorrencias,Categoria_Crime
0,0,0,1,0,1,0.0,0.0,1.0,1.0,1.0,...,1.0,2.0,8.0,2024,1,1.0,3.0,3.0,16.0,Outros
1,0,0,1,0,1,0.0,0.0,1.0,1.0,1.0,...,1.0,2.0,8.0,2024,1,1.0,3.0,3.0,16.0,Outros
2,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2024,0,0.0,0.0,0.0,0.0,Outros
3,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2024,0,0.0,0.0,0.0,0.0,Outros
4,0,1,0,1,1,1.0,1.0,2.0,0.0,2.0,...,0.0,1.0,11.0,2024,2,3.0,4.0,2.0,22.0,Outros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
110,0,0,0,1,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,2024,1,0.0,0.0,0.0,2.0,Outros
111,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2024,0,0.0,0.0,0.0,0.0,Outros
112,0,0,0,0,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,2024,0,0.0,0.0,0.0,0.0,Outros
113,0,136,138,67,0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,341.0,2024,341,0.0,0.0,0.0,682.0,Outros


In [28]:
df_total['Categoria_Crime'] = 'Outros'

# Definindo categorias de crimes
crimes_violentos = ['HOMICIDIO_DOLOSO', 'TENTATIVA DE HOMICÍDIO', 'LESÃO CORPORAL DOLOSA', 'LESÃO CORPORAL SEGUIDA DE MORTE', 'LATROCÍNIO', 'TOTAL_ESTUPRO']
crimes_patrimoniais = ['ROUBO - OUTROS', 'ROUBO DE VEÍCULO', 'ROUBO A BANCO', 'ROUBO DE CARGA', 'FURTO - OUTROS', 'FURTO DE VEÍCULO']

In [31]:
# Convertendo float para int
df_total['Natureza'] = df_total['Natureza'].fillna(0).astype(int)
df_total['Natureza']

0      0
1      0
2      0
3      0
4      0
      ..
110    0
111    0
112    0
113    0
114    0
Name: Natureza, Length: 115, dtype: int64

In [37]:
# Classificando os crimes
for index, row in df_total.iterrows():
    if any(crime in row['Natureza'] for crime in crimes_violentos):
        df_total.loc[index, 'Categoria_Crime'] = 'Crimes Violentos'
    elif any(crime in row['Natureza'] for crime in crimes_patrimoniais):
        df_total.loc[index, 'Categoria_Crime'] = 'Crimes Patrimoniais'

TypeError: argument of type 'int' is not iterable

In [None]:
# Criando coluna com a categoria resumida
df_total['Categoria_Crime_Resumida'] = df_total['Categoria_Crime'].apply(lambda x: x.split()[0] if x != 'Outros' else x)

Salvamos o DataFrame transformado em um arquivo CSV na pasta "data/processed/".

- Salvando o DataFrame Transformado:

In [None]:
df_total.to_csv("data/processed/dados_transformados.csv", index=False)

## Próximos Passos:
- Realizar análise exploratória dos dados transformados.
- Criar visualizações para comunicar os insights obtidos.
- Investigar a necessidade de modelos preditivos ou outros tipos de análise mais complexos.

# Passo 4: Análise Exploratória dos Dados

Neste passo, vamos realizar a análise exploratória dos dados, buscando identificar padrões, tendências e insights.

Neste notebook, demonstramos como realizar a análise exploratória dos dados, utilizando gráficos e ferramentas para identificar padrões e tendências. Os insights obtidos nesse passo serão cruciais para direcionar as próximas etapas da análise.

## Importando Bibliotecas:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Carregando o DataFrame:

In [None]:
# Assumindo que o DataFrame 'df_total' foi transformado nos passos anteriores
df_total = pd.read_csv("data/processed/dados_transformados.csv")

## Analisando Distribuição de Ocorrências:

- Total de Ocorrências por Mês:

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(x=df_total.columns[1:13], y=df_total.iloc[:, 1:13].sum())
plt.title("Total de Ocorrências por Mês")
plt.xlabel("Mês")
plt.ylabel("Número de Ocorrências")
plt.show()

- Total de Ocorrências por Trimestre:

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(x=['1º Trimestre', '2º Trimestre', '3º Trimestre', '4º Trimestre'], y=[df_total['Total_Primeiro_Trimestre'].sum(), df_total['Total_Segundo_Trimestre'].sum(), df_total['Total_Terceiro_Trimestre'].sum(), df_total['Total_Quarto_Trimestre'].sum()])
plt.title("Total de Ocorrências por Trimestre")
plt.xlabel("Trimestre")
plt.ylabel("Número de Ocorrências")
plt.show()

- Distribuição de Ocorrências por Categoria:

In [None]:
plt.figure(figsize=(12, 6))
sns.countplot(x='Categoria_Crime_Resumida', data=df_total)
plt.title("Distribuição de Ocorrências por Categoria de Crime")
plt.xlabel("Categoria de Crime")
plt.ylabel("Número de Ocorrências")
plt.show()

## Analisando Tendências ao Longo do Ano:

- Tendência de Ocorrências por Mês:

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(x=df_total.columns[1:13], y=df_total.iloc[:, 1:13].sum(), marker='o')
plt.title("Tendência de Ocorrências por Mês")
plt.xlabel("Mês")
plt.ylabel("Número de Ocorrências")
plt.show()

- Tendência de Ocorrências por Trimestre:

In [None]:
plt.figure(figsize=(12, 6))
sns.lineplot(x=['1º Trimestre', '2º Trimestre', '3º Trimestre', '4º Trimestre'], y=[df_total['Total_Primeiro_Trimestre'].sum(), df_total['Total_Segundo_Trimestre'].sum(), df_total['Total_Terceiro_Trimestre'].sum(), df_total['Total_Quarto_Trimestre'].sum()], marker='o')
plt.title("Tendência de Ocorrências por Trimestre")
plt.xlabel("Trimestre")
plt.ylabel("Número de Ocorrências")
plt.show()

## Analisando Correlação entre Variáveis:

- Matriz de Correlação:

In [None]:
plt.figure(figsize=(12, 6))
correlation_matrix = df_total.corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
plt.title("Matriz de Correlação")
plt.show()

## Analisando Ocorrências por Tipo de Crime:

- Total de Ocorrências por Tipo de Crime:

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(y=df_total['Natureza'].value_counts().index, x=df_total['Natureza'].value_counts().values)
plt.title("Total de Ocorrências por Tipo de Crime")
plt.xlabel("Número de Ocorrências")
plt.ylabel("Tipo de Crime")
plt.show()

## Explicação:
- Analisando Distribuição de Ocorrências: Criamos gráficos de barras para visualizar o número total de ocorrências por mês, por trimestre e por categoria de crime.
- Analisando Tendências: Criamos gráficos de linhas para observar a tendência de ocorrências ao longo do ano, por mês e por trimestre.
- Analisando Correlação: Criamos uma matriz de correlação para verificar a relação entre as variáveis, utilizando um mapa de calor para visualizar a força da correlação.
- Analisando Ocorrências por Tipo de Crime: Criamos um gráfico de barras para visualizar o número de ocorrências por tipo de crime.

## Observações:
- A análise exploratória fornece insights importantes sobre os dados, mas não realiza predições ou classificações.
- Para análise mais complexa, como predição de ocorrências, podemos utilizar técnicas de mineração de dados e Machine Learning nos próximos passos.

## Próximos Passos:
- Realizar análises estatísticas mais avançadas, como teste de hipóteses.
Criar modelos preditivos para prever a probabilidade de ocorrências.
- Explorar técnicas de clusterização para identificar áreas com maior concentração de crimes.

# Passo 5: Interpretação, Avaliação e Conhecimento

Neste passo, vamos aprofundar a análise dos dados, interpretando os resultados da análise exploratória, realizando testes de hipóteses, criando modelos preditivos e explorando técnicas de clusterização.

Neste notebook, exploramos a interpretação dos resultados da análise exploratória, realizamos testes de hipóteses, criamos modelos preditivos e aplicamos técnicas de clusterização para gerar conhecimento a partir dos dados de ocorrências criminais em Lins.

## Importando Bibliotecas:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

## Carregando o DataFrame:

In [None]:
# Assumindo que o DataFrame 'df_total' foi processado nos passos anteriores
df_total = pd.read_csv("data/processed/dados_transformados.csv")

## Interpretação dos Resultados da Análise Exploratória:

- Observação:
 - Tendências: Observar as tendências de ocorrências por mês e por trimestre pode identificar períodos com maior risco de criminalidade.
 - Correlação: Analisar a matriz de correlação pode revelar se há relação entre diferentes tipos de crime ou entre crimes e variáveis como mês do ano ou trimestre.
 - Distribuição: A análise da distribuição de ocorrências por categoria de crime revela os tipos de crimes mais frequentes na cidade.

 ## Teste de Hipóteses:
- Hipótese: O número de ocorrências é maior no segundo trimestre do ano.
- Teste: Utilizar o teste t para amostras independentes para comparar o número de ocorrências no segundo trimestre com a média do número de ocorrências nos outros trimestres.

In [None]:
# Separar os dados do segundo trimestre
segundo_trimestre = df_total['Total_Segundo_Trimestre']

# Separar os dados dos outros trimestres
outros_trimestres = df_total[['Total_Primeiro_Trimestre', 'Total_Terceiro_Trimestre', 'Total_Quarto_Trimestre']].sum(axis=1)

# Realizar o teste t
t_statistic, p_value = stats.ttest_ind(segundo_trimestre, outros_trimestres)

# Imprimir os resultados
print(f"Estatística t: {t_statistic}")
print(f"Valor p: {p_value}")

# Conclusões:
# Se o valor p for menor que o nível de significância (por exemplo, 0.05), rejeitamos a hipótese nula e concluímos que o número de ocorrências é maior no segundo trimestre.

## Modelagem Preditiva:

- Objetivo: Criar um modelo de regressão linear para prever o número total de ocorrências em cada mês, com base nos dados históricos.
- Variáveis: Utilizar as colunas do DataFrame que representam os meses (Janeiro a Dezembro) como variáveis explicativas e a coluna "Total_Ocorrencias" como variável resposta.

In [None]:
# Separar as variáveis explicativas e a variável resposta
X = df_total.iloc[:, 1:13]
y = df_total['Total_Ocorrencias']

# Criar o modelo de regressão linear
model = LinearRegression()

# Treinar o modelo
model.fit(X, y)

# Prever o número de ocorrências para cada mês
previsoes = model.predict(X)

# Avaliar o modelo (por exemplo, usando R² ou erro médio absoluto)
print(f"R²: {model.score(X, y)}")

# Visualizar as previsões e os dados reais
plt.figure(figsize=(12, 6))
plt.plot(df_total.columns[1:13], y, label="Dados Reais")
plt.plot(df_total.columns[1:13], previsoes, label="Previsões")
plt.title("Previsões de Ocorrências")
plt.xlabel("Mês")
plt.ylabel("Número de Ocorrências")
plt.legend()
plt.show()

## Clusterização:

- Objetivo: Identificar áreas com maior concentração de crimes, utilizando dados de localização (se disponível) e a coluna "Total_Ocorrencias".
- Variáveis: Se os dados de localização forem disponíveis, utilizar as coordenadas geográficas (latitude e longitude). Caso contrário, utilizar o total de ocorrências por mês ou trimestre como proxy para a localização.

In [None]:
# Assumindo que a coluna 'Latitude' e 'Longitude' estão disponíveis
X = df_total[['Latitude', 'Longitude']]

# Escalonar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Criar o modelo KMeans
kmeans = KMeans(n_clusters=3, random_state=0)

# Treinar o modelo
kmeans.fit(X_scaled)

# Obter os clusters
clusters = kmeans.labels_

# Visualizar os clusters
plt.figure(figsize=(12, 6))
plt.scatter(X['Latitude'], X['Longitude'], c=clusters, cmap='viridis')
plt.title("Clusters de Ocorrências")
plt.xlabel("Latitude")
plt.ylabel("Longitude")
plt.show()

# Analisar as características dos clusters:
# - Comparar o número de ocorrências em cada cluster.
# - Investigar o tipo de crime predominante em cada cluster.
# - Analisar se os clusters coincidem com áreas específicas da cidade.

## Explicação:
- Interpretação: Baseamos a análise na observação de tendências, correlações e padrões identificados na análise exploratória.
- Teste de Hipóteses: Utilizamos o teste t para avaliar a hipótese de que o número de ocorrências é maior no segundo trimestre.
- Modelagem Preditiva: Criamos um modelo de regressão linear para prever o número de ocorrências em cada mês, utilizando os dados históricos.
- Clusterização: Utilizando dados de localização (se disponíveis), podemos identificar áreas com maior concentração de crimes através da técnica KMeans.

## Observações:
- A interpretação dos resultados é crucial para gerar conhecimento e insights relevantes.
- Os testes de hipóteses, modelos preditivos e técnicas de clusterização são ferramentas importantes para análise de dados mais profunda.
- É importante lembrar que a precisão e a confiabilidade dos resultados dependem da qualidade dos dados e da escolha das técnicas de análise adequadas.

## Próximos Passos:
- Investigar a influência de variáveis socioeconômicas e demográficas na criminalidade.
- Explorar outras técnicas de Machine Learning, como árvores de decisão ou redes neurais.
- Desenvolver dashboards interativos para visualizar e analisar os dados.