In [16]:
import pandas as pd
from IPython.display import display

# Lê o conjunto de dados
data = pd.read_csv('../data/br_sp_gov_ssp_ocorrencias_registradas.csv', sep=',', quotechar='"')

# Número de linhas e colunas
num_linhas, num_colunas = data.shape

# Verifica dados faltantes
faltantes = data.isnull().sum()

# Seleção de 15 atributos principais
variaveis = [
    "ano", "mes", "id_municipio", "regiao_ssp",
    "homicidio_doloso", "numero_de_vitimas_em_homicidio_doloso",
    "tentativa_de_homicidio", "lesao_corporal_seguida_de_morte",
    "lesao_corporal_dolosa", "latrocinio", "numero_de_vitimas_em_latrocinio",
    "total_de_estupro", "estupro_de_vulneravel",
    "roubo_de_veiculo", "furto_de_veiculo"
]

# Criação da tabela descritiva resumida
tabela_descritiva = pd.DataFrame({
    "Nome da variável": variaveis,
    "Tipo": [
        "Numérico (inteiro)",  # ano
        "Numérico (inteiro)",  # mes
        "Numérico (inteiro)",  # id_municipio
        "Categórico nominal",  # regiao_ssp
        "Numérico (inteiro)",  # homicidio_doloso
        "Numérico (inteiro)",  # numero_de_vitimas_em_homicidio_doloso
        "Numérico (inteiro)",  # tentativa_de_homicidio
        "Numérico (inteiro)",  # lesao_corporal_seguida_de_morte
        "Numérico (inteiro)",  # lesao_corporal_dolosa
        "Numérico (inteiro)",  # latrocinio
        "Numérico (inteiro)",  # numero_de_vitimas_em_latrocinio
        "Numérico (inteiro)",  # total_de_estupro
        "Numérico (inteiro)",  # estupro_de_vulneravel
        "Numérico (inteiro)",  # roubo_de_veiculo
        "Numérico (inteiro)"   # furto_de_veiculo
    ],
    "Descrição": [
        "Ano da ocorrência", 
        "Mês da ocorrência", 
        "Identificador do município (IBGE)", 
        "Região administrativa segundo a SSP",
        "Número de homicídios dolosos", 
        "Número de vítimas em homicídios dolosos", 
        "Número de tentativas de homicídio",
        "Número de lesões corporais seguidas de morte", 
        "Número de lesões corporais dolosas", 
        "Número de latrocínios",
        "Número de vítimas em latrocínios", 
        "Total de casos de estupro (geral)", 
        "Número de casos de estupro de vulnerável",
        "Número de roubos de veículos", 
        "Número de furtos de veículos"
    ],
    "Unidades": [
        "ano", # ano
        "mês", # mês
        "código IBGE", # código IBGE
        "-",            # -
        "ocorrências", # ocorrências
        "vítimas",     # vítimas
        "ocorrências", # ocorrências
        "ocorrências", # ocorrências
        "ocorrências", # ocorrências
        "vítimas",     # vítimas
        "ocorrências", # ocorrências
        "ocorrências", # ocorrências
        "ocorrências", # ocorrências
        "ocorrências", # ocorrências
        "ocorrências"  # ocorrências
    ],
    "Valores Faltantes": [faltantes.get(var, 0) for var in variaveis]
})


# Exibe resultados gerais
print(f"Total de amostras (linhas): {num_linhas}")
print(f"Total de atributos (colunas): {num_colunas}\n")

# Exibe a tabela final
display(tabela_descritiva)


Total de amostras (linhas): 153876
Total de atributos (colunas): 27



Unnamed: 0,Nome da variável,Tipo,Descrição,Unidades,Valores Faltantes
0,ano,Numérico (inteiro),Ano da ocorrência,ano,0
1,mes,Numérico (inteiro),Mês da ocorrência,mês,0
2,id_municipio,Numérico (inteiro),Identificador do município (IBGE),código IBGE,0
3,regiao_ssp,Categórico nominal,Região administrativa segundo a SSP,-,0
4,homicidio_doloso,Numérico (inteiro),Número de homicídios dolosos,ocorrências,2580
5,numero_de_vitimas_em_homicidio_doloso,Numérico (inteiro),Número de vítimas em homicídios dolosos,vítimas,2580
6,tentativa_de_homicidio,Numérico (inteiro),Número de tentativas de homicídio,ocorrências,2580
7,lesao_corporal_seguida_de_morte,Numérico (inteiro),Número de lesões corporais seguidas de morte,ocorrências,48648
8,lesao_corporal_dolosa,Numérico (inteiro),Número de lesões corporais dolosas,ocorrências,2580
9,latrocinio,Numérico (inteiro),Número de latrocínios,vítimas,2580
