### Anuário Brasileiro de Segurança Pública (2016 - 2021)

In [5]:
import os
from dotenv import load_dotenv
import pandas as pd
import pandas_gbq as gbq
from google.oauth2 import service_account
from google.cloud import bigquery

In [6]:
#variável de ambiente com as credenciais Google
load_dotenv()
google_credentials = (
    os.environ["GOOGLE_CREDENTIALS"]
    )

Autenticação com uma Conta de Serviço do Google Cloud

In [7]:
#Definição do escopo
SCOPE = [
    "https://www.googleapis.com/auth/cloud-platform"
]

#credenciais Google
credentials = service_account.Credentials.from_service_account_file(
    google_credentials, scopes=SCOPE
    )

#configurando o contexto para o projeto no GoogleCloud
gbq.context.credentials = credentials
gbq.context.project = "projeto-absp-2016-2021"

Aquisição dos dados de: 
https://basedosdados.org/dataset/9a2368e4-2fa6-4b42-88b7-026aa048f5ab?table=82e257d0-3564-4122-ba4a-78a039ca89b7

In [8]:
# Configurando o projeto padrão no BigQuery
project_id = 'projeto-absp-2016-2021'
client = bigquery.Client(project=project_id)

#Consulta SQL
QUERY = ('SELECT SAFE_CAST(ano AS INT64) ano, SAFE_CAST(sigla_uf AS STRING) sigla_uf, SAFE_CAST(id_municipio AS STRING) id_municipio, SAFE_CAST(grupo AS STRING) grupo, SAFE_CAST(quantidade_homicidio_doloso AS INT64) quantidade_homicidio_doloso, SAFE_CAST(quantidade_latrocinio AS INT64) quantidade_latrocinio, SAFE_CAST(quantidade_lesao_corporal_morte AS INT64) quantidade_lesao_corporal_morte, SAFE_CAST(quantidade_mortes_policiais_confronto AS INT64) quantidade_mortes_policiais_confronto, SAFE_CAST(quantidade_mortes_intervencao_policial AS INT64) quantidade_mortes_intervencao_policial, SAFE_CAST(quantidade_mortes_intervencao_policial_civil_em_servico AS INT64) quantidade_mortes_intervencao_policial_civil_em_servico, SAFE_CAST(quantidade_mortes_intervencao_policial_militar_em_servico AS INT64) quantidade_mortes_intervencao_policial_militar_em_servico, SAFE_CAST(quantidade_mortes_intervencao_policial_civil_fora_de_servico AS INT64) quantidade_mortes_intervencao_policial_civil_fora_de_servico, SAFE_CAST(quantidade_mortes_intervencao_policial_militar_fora_de_servico AS INT64) quantidade_mortes_intervencao_policial_militar_fora_de_servico, SAFE_CAST(quantidade_mortes_violentas_intencionais AS INT64) quantidade_mortes_violentas_intencionais, SAFE_CAST(quantidade_feminicidio AS INT64) quantidade_feminicidio, SAFE_CAST(quantidade_lesao_corporal_dolosa_violencia_domestica AS INT64) quantidade_lesao_corporal_dolosa_violencia_domestica, SAFE_CAST(quantidade_estupro AS INT64) quantidade_estupro, SAFE_CAST(quantidade_roubo_veiculos AS INT64) quantidade_roubo_veiculos, SAFE_CAST(quantidade_furto_veiculos AS INT64) quantidade_furto_veiculos, SAFE_CAST(quantidade_roubo_furto_veiculos AS INT64) quantidade_roubo_furto_veiculos, SAFE_CAST(proporcao_mortes_intenvencao_policial_x_mortes_violentas_intencionais AS FLOAT64) proporcao_mortes_intenvencao_policial_x_mortes_violentas_intencionais, SAFE_CAST(quantidade_posse_ilegal_arma_de_fogo AS INT64) quantidade_posse_ilegal_arma_de_fogo, SAFE_CAST(quantidade_porte_ilegal_arma_de_fogo AS INT64) quantidade_porte_ilegal_arma_de_fogo, SAFE_CAST(quantidade_posse_ilegal_porte_ilegal_arma_de_fogo AS INT64) quantidade_posse_ilegal_porte_ilegal_arma_de_fogo, SAFE_CAST(quantidade_trafico_entorpecente AS INT64) quantidade_trafico_entorpecente, SAFE_CAST(quantidade_posse_uso_entorpecente AS INT64) quantidade_posse_uso_entorpecente, SAFE_CAST(quantidade_morte_policiais_civis_confronto_em_servico AS INT64) quantidade_morte_policiais_civis_confronto_em_servico, SAFE_CAST(quantidade_morte_policiais_militares_confronto_em_servico AS INT64) quantidade_morte_policiais_militares_confronto_em_servico, SAFE_CAST(quantidade_morte_policiais_civis_fora_de_servico AS INT64) quantidade_morte_policiais_civis_fora_de_servico, SAFE_CAST(quantidade_morte_policiais_militares_fora_de_servico AS INT64) quantidade_morte_policiais_militares_fora_de_servico FROM basedosdados-staging.br_fbsp_absp_staging.municipio AS t')

# Executando a consulta e armazenando os resultados em um DataFrame
df = client.query(QUERY).to_dataframe()

# Variável  para armazenar o caminho do novo arquivo CSV com os dados importados
caminho_do_arquivo = '/home/will/PastaCompVMs/ProjetosPowerBI/Projeto-ABSP-2016-2021/Dados/data_frame_pre_ETL.csv'

#Exportando o arquivo CSV com os dados importados
df.to_csv(caminho_do_arquivo, index=False)



In [9]:
df_ELT = pd.read_csv(caminho_do_arquivo, sep=",")

In [10]:
df_ELT.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 162 entries, 0 to 161
Data columns (total 30 columns):
 #   Column                                                                 Non-Null Count  Dtype  
---  ------                                                                 --------------  -----  
 0   ano                                                                    162 non-null    int64  
 1   sigla_uf                                                               162 non-null    object 
 2   id_municipio                                                           162 non-null    int64  
 3   grupo                                                                  108 non-null    object 
 4   quantidade_homicidio_doloso                                            162 non-null    int64  
 5   quantidade_latrocinio                                                  162 non-null    int64  
 6   quantidade_lesao_corporal_morte                                        160 non-null    flo

In [11]:
df_ELT.describe()

Unnamed: 0,ano,id_municipio,quantidade_homicidio_doloso,quantidade_latrocinio,quantidade_lesao_corporal_morte,quantidade_mortes_policiais_confronto,quantidade_mortes_intervencao_policial,quantidade_mortes_intervencao_policial_civil_em_servico,quantidade_mortes_intervencao_policial_militar_em_servico,quantidade_mortes_intervencao_policial_civil_fora_de_servico,...,proporcao_mortes_intenvencao_policial_x_mortes_violentas_intencionais,quantidade_posse_ilegal_arma_de_fogo,quantidade_porte_ilegal_arma_de_fogo,quantidade_posse_ilegal_porte_ilegal_arma_de_fogo,quantidade_trafico_entorpecente,quantidade_posse_uso_entorpecente,quantidade_morte_policiais_civis_confronto_em_servico,quantidade_morte_policiais_militares_confronto_em_servico,quantidade_morte_policiais_civis_fora_de_servico,quantidade_morte_policiais_militares_fora_de_servico
count,162.0,162.0,162.0,162.0,160.0,157.0,157.0,40.0,42.0,38.0,...,154.0,73.0,84.0,101.0,108.0,107.0,50.0,51.0,50.0,52.0
mean,2018.5,2919276.0,416.191358,18.549383,8.3625,4.101911,70.898089,1.75,41.690476,1.473684,...,11.175325,147.684932,268.333333,388.623762,1564.546296,1211.065421,0.16,1.352941,0.68,3.923077
std,1.713121,1283234.0,362.095669,21.162211,11.874865,8.15647,126.154067,3.499084,60.830628,3.261046,...,9.945034,221.25299,280.700515,405.126495,1686.788224,1900.215689,0.548095,3.41071,0.978128,6.902248
min,2016.0,1100205.0,44.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,5.0,23.0,25.0,88.0,0.0,0.0,0.0,0.0,0.0
25%,2017.0,1721000.0,156.5,5.0,1.0,0.0,10.0,0.0,7.75,0.0,...,4.0,38.0,116.25,132.0,460.25,163.5,0.0,0.0,0.0,0.0
50%,2018.5,2704302.0,287.5,12.0,4.0,1.0,22.0,0.0,22.5,0.0,...,7.0,83.0,213.5,306.0,1055.0,505.0,0.0,0.0,0.0,2.0
75%,2020.0,4106902.0,579.75,22.0,13.0,4.0,63.0,2.0,50.0,1.0,...,17.75,175.0,296.25,496.0,2028.0,1440.0,0.0,1.0,1.0,3.25
max,2021.0,5300108.0,1932.0,118.0,103.0,55.0,726.0,17.0,281.0,16.0,...,37.0,1432.0,1847.0,2978.0,8651.0,11964.0,3.0,17.0,4.0,36.0


In [12]:
df_ELT.describe(exclude="number")

Unnamed: 0,sigla_uf,grupo
count,162,108
unique,27,4
top,AL,Grupo 1
freq,6,54


In [14]:
df_ELT.head(10)

Unnamed: 0,ano,sigla_uf,id_municipio,grupo,quantidade_homicidio_doloso,quantidade_latrocinio,quantidade_lesao_corporal_morte,quantidade_mortes_policiais_confronto,quantidade_mortes_intervencao_policial,quantidade_mortes_intervencao_policial_civil_em_servico,...,proporcao_mortes_intenvencao_policial_x_mortes_violentas_intencionais,quantidade_posse_ilegal_arma_de_fogo,quantidade_porte_ilegal_arma_de_fogo,quantidade_posse_ilegal_porte_ilegal_arma_de_fogo,quantidade_trafico_entorpecente,quantidade_posse_uso_entorpecente,quantidade_morte_policiais_civis_confronto_em_servico,quantidade_morte_policiais_militares_confronto_em_servico,quantidade_morte_policiais_civis_fora_de_servico,quantidade_morte_policiais_militares_fora_de_servico
0,2016,AL,2704302,Grupo 1,449,21,2.0,5.0,59.0,0.0,...,11.0,,,,,,0.0,2.0,1.0,2.0
1,2016,CE,2304400,Grupo 1,965,27,15.0,8.0,39.0,1.0,...,3.0,,,,,,0.0,1.0,2.0,5.0
2,2016,ES,3205309,Grupo 1,51,0,3.0,0.0,9.0,1.0,...,14.0,,,,,,0.0,0.0,0.0,0.0
3,2016,GO,5208707,Grupo 1,452,33,14.0,3.0,100.0,0.0,...,16.0,,,,,,0.0,0.0,0.0,3.0
4,2016,MA,2111300,Grupo 1,498,23,12.0,1.0,27.0,0.0,...,4.0,,,,,,0.0,0.0,0.0,1.0
5,2016,MT,5103403,Grupo 1,196,18,4.0,3.0,,0.0,...,,,,,,,0.0,1.0,0.0,2.0
6,2016,PA,1501402,Grupo 1,878,41,20.0,10.0,39.0,,...,3.0,,,,,,0.0,1.0,2.0,7.0
7,2016,PB,2507507,Grupo 1,341,8,1.0,4.0,5.0,1.0,...,1.0,,,,,,0.0,2.0,1.0,1.0
8,2016,PE,2611606,Grupo 1,624,5,11.0,6.0,15.0,,...,2.0,,,,,,0.0,0.0,1.0,5.0
9,2016,PI,2211001,Grupo 1,341,22,4.0,1.0,7.0,0.0,...,1.0,,,,,,0.0,0.0,0.0,1.0


In [15]:
df_ELT.groupby(['ano']).size()

ano
2016    27
2017    27
2018    27
2019    27
2020    27
2021    27
dtype: int64

Conclusão inicial:

Apesar da série temporal está de acordo com o que foi proposto inicialmente pelo estudo, os dados obtidos a partir do datalake, não são suficientes para a criação de um modelo da forma que desejamos.

O proxímo passo é tentarmos recolher esses dados na fonte primária de dados.