# Instalação de Bibliotecas

In [None]:
pip install tabula-py PyMuPDF openpyxl seaborn

# 🧩 Etapa 1: Preparar o Ambiente

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import tabula
import fitz  # PyMuPDF
import os

sns.set_theme(style="whitegrid")

# 📂 Etapa 2: Carregar os Dados

In [None]:
# Caminhos dos arquivos (exemplo)
caminho_csv = "/caminho/para/dados.csv"
caminho_xlsx = "/caminho/para/dados.xlsx"
caminho_pdf = "/caminho/para/relatorio.pdf"

# CSV
try:
    dados_csv = pd.read_csv(caminho_csv)
    print("CSV carregado com sucesso.")
except Exception as e:
    print("Erro ao carregar CSV:", e)

# XLSX
try:
    dados_xlsx = pd.read_excel(caminho_xlsx)
    print("XLSX carregado com sucesso.")
except Exception as e:
    print("Erro ao carregar XLSX:", e)

# PDF (Tabular)
try:
    tabelas_pdf = tabula.read_pdf(caminho_pdf, pages='paginas', multiple_tables=True)
    print(f"{len(tabelas_pdf)} tabelas extraídas do PDF.")
except Exception as e:
    print("Erro ao extrair dados do PDF:", e)

# 🔍 Etapa 3: Tratamento e Amostragem dos Dados

In [None]:
# Tratamento de dados - Remoção de nulos e padronização de colunas

def tratar_dataframe(df):
    # Remover colunas completamente vazias
    df = df.dropna(axis=1, how='all')

    # Remover linhas completamente vazias
    df = df.dropna(axis=0, how='all')

    # Preencher valores nulos com string vazia ou zero (dependendo do tipo de dado)
    df = df.fillna('' if df.dtypes.any() == object else 0)

    # Padronizar nomes das colunas (remover espaços, deixar minúsculo, substituir por underline)
    df.columns = [col.strip().lower().replace(' ', '_') for col in df.columns]

    return df

# Aplicar o tratamento nos dados, se existirem
if 'dados_csv' in locals():
    dados_csv = tratar_dataframe(dados_csv)

if 'dados_xlsx' in locals():
    dados_xlsx = tratar_dataframe(dados_xlsx)

if 'tabelas_pdf' in locals():
    tabelas_pdf = [tratar_dataframe(tabela) for tabela in tabelas_pdf]

print("Tratamento de dados concluído.")

# Exibir as 5 primeiras linhas de cada fonte (se carregadas)
if 'dados_csv' in locals():
    display(dados_csv.head())

if 'dados_xlsx' in locals():
    display(dados_xlsx.head())

if 'tabelas_pdf' in locals():
    for i, tabela in enumerate(tabelas_pdf):
        print(f"\nTabela {i+1} do PDF:")
        display(tabela.head())


# 📊 Etapa 4: Análise Exploratória

In [None]:
# Verificar colunas disponíveis
if 'dados_csv' in locals():
    print("Colunas CSV:", dados_csv.columns)

# Contagem por tipo de crime (exemplo)
if 'dados_csv' in locals() and 'TipoCrime' in dados_csv.columns:
    plt.figure(figsize=(10, 6))
    sns.countplot(data=dados_csv, y='TipoCrime', order=dados_csv['TipoCrime'].value_counts().index)
    plt.title("Distribuição dos Tipos de Crime")
    plt.xlabel("Frequência")
    plt.ylabel("Tipo de Crime")
    plt.show()

**Categoria A**

**Categoria B**

# 🧠 Etapa 5: Observar Padrões e Anomalias

In [None]:
# Tendência anual
if 'dados_csv' in locals() and 'Ano' in dados_csv.columns:
    tendencia = dados_csv.groupby('Ano').size()
    tendencia.plot(kind='line', marker='o', figsize=(10,5), title='Tendência de Ocorrências por Ano')
    plt.ylabel("Número de Ocorrências")
    plt.grid(True)
    plt.show()

# Comparar regiões
if 'dados_csv' in locals() and 'Regiao' in dados_csv.columns:
    plt.figure(figsize=(10,6))
    sns.countplot(data=dados_csv, x='Regiao', order=dados_csv['Regiao'].value_counts().index)
    plt.title("Distribuição por Região")
    plt.xticks(rotation=45)
    plt.show()

**Categoria A**

**Conclusão**

TextoTextoTextoTextoTextoTextoTextoTextoTexto

**Categoria B**

**Conclusão**

TextoTextoTextoTextoTextoTextoTextoTextoTexto

# 📝 Etapa 6: Conclusões

In [None]:
from IPython.display import Markdown

Markdown("""## Conclusões Preliminares

- Tendência: [Descrever aumento/quedas observadas]
- Regiões com destaque: [Citar regiões com maiores/menores ocorrências]
- Diferença entre fontes: [Comparar CSV/XLSX/PDF se aplicável]
- Relações entre variáveis: [Exemplo: aumento de vitimização em anos eleitorais]
""")

Texto detalhado com conclusão geral falando de cada analise

# 🧩 Etapa 7: Exportar Resultados

In [None]:
# Exemplo: salvar CSV com dados limpos
if 'dados_csv' in locals():
    dados_csv.to_csv("dados_vitimizacao_limpos.csv", index=False)
    print("Dados exportados para 'dados_vitimizacao_limpos.csv'")