In [None]:
# TESTE. Verificar dados vazios no dataset integrado
print("ver dados vazios")
print("Valores nulos por coluna:")
print(df_merged.isnull().sum())

print("\nPercentual de dados vazios:")
percentual_vazios = (df_merged.isnull().sum() / len(df_merged)) * 100
print(percentual_vazios[percentual_vazios > 0])

In [None]:
# TESTE. Verificar se os dados fazem sentido
print("=== VERIFICAÇÃO DE RELEVÂNCIA ===")
print("Tipos de crimes mais comuns:")
print(df_merged['tipo_fato'].value_counts().head())

print("\nEstatísticas das variáveis meteorológicas:")
colunas_meteo = ['PRECIPITACAO TOTAL, DIARIO (AUT)(mm)', 
                'TEMPERATURA MAXIMA, DIARIA (AUT)(Â°C)', 
                'TEMPERATURA MINIMA, DIARIA (AUT)(Â°C)']
print(df_merged[colunas_meteo].describe())

In [None]:
# TESTE. Teste simples de correlação
print("=== TESTE DE RELEVÂNCIA ===")
print("Crimes por dia em média:", len(df_merged) / df_merged['data_fato'].nunique())
print("Dias únicos com dados:", df_merged['data_fato'].nunique())

In [None]:
# TESTE. Ver se tem correlação básica
crimes_por_dia = df_merged.groupby('data_fato').size()
print(f"Dia com mais crimes: {crimes_por_dia.max()} crimes")
print(f"Dia com menos crimes: {crimes_por_dia.min()} crimes")
dia_mais_crimes = crimes_por_dia.idxmax()
media_temp = df_merged[df_merged['data_fato'] == dia_mais_crimes]['TEMPERATURA MAXIMA, DIARIA (AUT)(Â°C)'].mean()
print(f"Média da temperatura máxima no dia com mais crimes: {media_temp:.2f}°C")

dados

In [None]:
# Filtra o DataFrame para mostrar apenas as linhas onde 'bairro' é nulo
linhas_vazias = df_merged[df_merged['bairro'].isnull()]

# Exibe as primeiras 10 linhas desse filtro
print("Exibindo as primeiras 10 linhas onde o bairro é nulo:")
display(linhas_vazias.head(10))

In [None]:
# --- 1. Garantir que a coluna 'bairro' seja string, sem espaços e em minúsculas ---
df_pf['bairro'] = df_pf['bairro'].astype(str).str.strip().str.lower()

# --- 2. Substituir valores nulos, vazios ou inválidos por "desconhecido" ---
valores_invalidos = ['nan', 'na', 'none', '', 'desconhecido', 'ignorado', 'não informado']  # inclui variações
df_pf['bairro'] = df_pf['bairro'].replace(valores_invalidos, 'desconhecido')
df_pf['bairro'] = df_pf['bairro'].fillna('desconhecido')

# --- 3. Converter a coluna para category ---
df_pf['bairro'] = df_pf['bairro'].astype('category')

# --- 4. Conferir resultados ---
print("Top 10 bairros mais frequentes:")
print(df_pf['bairro'].value_counts().head(10))
print("\nQuantidade de bairros 'desconhecido':", (df_pf['bairro'] == 'desconhecido').sum())
percent_desconhecido = (df_pf['bairro'] == 'desconhecido').mean() * 100
print(f"Percentual de bairros desconhecidos: {percent_desconhecido:.2f}%")

# --- 5. Visualizar algumas linhas onde bairro é 'desconhecido' ---
print("\nExemplos de registros com bairro 'desconhecido':")
print(df_pf[df_pf['bairro'] == 'desconhecido'].head(10))


In [None]:
# 1. Conferir os 10 bairros mais frequentes (já inclui "desconhecido" se existir)
print(df_pf['bairro'].value_counts().head(10))

# 2. Conferir quantos valores são "desconhecido"
print("Quantidade de bairros 'desconhecido':", (df_pf['bairro'] == 'desconhecido').sum())

# 3. Percentual de bairros desconhecidos
percent_desconhecido = (df_pf['bairro'] == 'desconhecido').mean() * 100
print(f"Percentual de bairros desconhecidos: {percent_desconhecido:.2f}%")

# 4. Opcional: listar algumas linhas que ficaram como "desconhecido"
print(df_pf[df_pf['bairro'] == 'desconhecido'].head(10))


In [None]:
# para teste
def verificacao(df_merged):
    print("=== VERIFICAÇÃO DE INTEGRIDADE DO MERGE ===\n")
    
    # 1. Conferir se há datas sem correspondência meteorológica
    datas_sem_meteo = df_merged[df_merged['PRECIPITACAO TOTAL, DIARIO (AUT)(mm)'].isnull()]['data_fato'].unique()
    if len(datas_sem_meteo) == 0:
        print("✔ Todas as datas possuem dados meteorológicos.")
    else:
        print("⚠ Datas sem dados meteorológicos:", datas_sem_meteo)
    
    print("\n--- Valores nulos por coluna ---")
    print(df_merged.isnull().sum())
    
    # 2. Conferir integridade de contagem
    print("\n--- Contagem de registros ---")
    print("Total de registros após merge:", df_merged.shape[0])
    
    # 3. Conferir duplicatas nas datas meteorológicas
    duplicatas = df_merged.duplicated(subset=['data_fato'], keep=False).sum()
    print(f"Total de linhas duplicadas por data_fato: {duplicatas}")
    
    # 4. Estatísticas básicas das colunas meteorológicas
    colunas_meteo = [
        'PRECIPITACAO TOTAL, DIARIO (AUT)(mm)',
        'TEMPERATURA MAXIMA, DIARIA (AUT)(Â°C)',
        'TEMPERATURA MINIMA, DIARIA (AUT)(Â°C)',
        'UMIDADE RELATIVA DO AR, MEDIA DIARIA (AUT)(%)',
        'VENTO, VELOCIDADE MEDIA DIARIA (AUT)(m/s)'
    ]
    print("\n--- Estatísticas meteorológicas ---")
    print(df_merged[colunas_meteo].describe())
    
    # 5. Conferir intervalo de datas
    print("\n--- Intervalo de datas ---")
    print("Data mínima:", df_merged['data_fato'].min())
    print("Data máxima:", df_merged['data_fato'].max())
    
    # 6. Conferir tipos de dados
    print("\n--- Tipos de dados ---")
    print(df_merged.dtypes)
    
    # 7. Conferir amostra de um dia específico
    sample_date = df_merged['data_fato'].min()
    print(f"\n--- Exemplo de linhas do dia {sample_date.date()} ---")
    print(df_merged[df_merged['data_fato'] == sample_date].head(10))

# Executar verificação
verificacao(df_merged)


In [None]:
import pandas as pd

# --- Certifique-se de que o df_merged está pronto e limpo ---

# Renomear colunas para facilitar (caso ainda não tenha feito)
nomes_corrigidos = {
    'PRECIPITACAO TOTAL, DIARIO (AUT)(mm)': 'precipitacao_total',
    'TEMPERATURA MAXIMA, DIARIA (AUT)(Â°C)': 'temperatura_maxima'
}
df_merged.rename(columns=nomes_corrigidos, inplace=True, errors='ignore')
df_merged['data_fato'] = pd.to_datetime(df_merged['data_fato'], errors='coerce')

# Remover linhas onde dados essenciais são nulos
df_analysis = df_merged.dropna(subset=['data_fato', 'temperatura_maxima', 'precipitacao_total']).copy()

# Agrupar por dia
crimes_por_dia = df_analysis.groupby(df_analysis['data_fato'].dt.date).agg(
    quantidade_crimes=('data_fato', 'size'),
    temperatura_maxima=('temperatura_maxima', 'first'),
    precipitacao_total=('precipitacao_total', 'first')
).reset_index()

# --- TESTE DE CORRELAÇÃO ---
print("=== TESTE DE CORRELAÇÃO DE PEARSON ===\n")

# Selecionar apenas as colunas numéricas para o teste
colunas_para_correlacao = ['quantidade_crimes', 'temperatura_maxima', 'precipitacao_total']

# Calcular e exibir a matriz de correlação
matriz_correlacao = crimes_por_dia[colunas_para_correlacao].corr()

print("Matriz de Correlação:")
print(matriz_correlacao)