# **PROJETO FACÇÕES**

![](projeto-faccoes.jpg)


# **Bibliotecas**

## Instalação das bibliotecas necessárias

In [None]:
# !pip install gspread -U -q
# !pip install gmaps -U -q
# !pip install googlemaps -U -q
# !pip install geopandas -U -q
# !pip install folium -U -q

## Importando as bibliotecas.


In [None]:
%matplotlib inline
# importar biblioteca Pandas
import pandas as pd

# importar Matplotlib biblioteca de gráficos
import matplotlib.pyplot as plt

# importar Seaborn biblioteca de gráficos
import seaborn as sns

import geopandas as gpd

# Importar Numpy, train_test_split
import numpy as np
from sklearn.model_selection import train_test_split

# importa o modelo de regressão linear, metrics, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn import metrics

from sklearn.preprocessing import OrdinalEncoder

from sklearn.preprocessing import LabelEncoder

# acesso ao so e ao sys
import os
import sys

# Garbage collector, para recuperar memória após carregar o dataset inicial
import gc

import graphviz.backend as be
import statistics as sts

# Importar algoritmo
# from dtreeviz.trees import *
from IPython.display import Image, display_svg, SVG
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from mpl_toolkits.mplot3d import axes3d

# import dtreeviz

random_state = 1234

# controlar as notificações
from sklearn.exceptions import ConvergenceWarning
import warnings

warnings.simplefilter(action="ignore", category=FutureWarning)
warnings.simplefilter("ignore", category=ConvergenceWarning)

pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", None)
pd.set_option("display.width", None)
pd.set_option("display.float_format", lambda x: "%.8f" % x)

%config InlineBackend.figure_format = 'retina' # Make visualizations look good
# %config InlineBackend.figure_format = 'svg'
%matplotlib inline

# **1. Preparando o Ambiente**


## Carregando o conjunto de dados


NOME DOS CAMPOS NO GOOGLE PLANILHA
====================================
Carimbo de data/hora (A1)
Endereço de e-mail (A2)
Foto recente (A3)
Fotos das tatuagens (A4)
Nome completo (A5)
Vulgo ou Alcunha (A6)
Filiação (A7)
Data de nascimento (A8)
CPF (A9)
RG (A10)
Órgão expedidor (A11)
CNH (A12)
UF da CNH (A13)
Função na facção (A14)
Área de atuação (A15)
Área(s) que já atuou (A16)
BO(s) (A17)
Registro na SERIS como reeducando (A18)
Período como reeducando (em caso de SIM) (A19)
Situação jurídica (A20)
Alvo da SSPAL	(A21)
Qual Operação foi Alvo (A22)
Ocorrências de destaque (A23)
Pena em Presídio Federal (A24)
Qual Presídio e Estado (A25)
Endereço Atual (A26)
Endereço Anterior (A27)
Endereço de algum familiar (A28)
CEP (A29)
Latitude (A30)
Logitude (A31)
Tornozeleira (A32)
Redes Sociais (A33)
Registro de homízio (A34)
Informações de homízidio (A35)
Parentes no Crime (A36)
Informações de Parentes criminosos (A37)
Nome Completo do Conjugue (A38)
Tempo com o Conjugue  (A39)
Tipos dos Bens (A40)
Descrição dos Bens (A41)
Observações (A42)
Qual à facção (A43)
Bairro Atual (A44)
Cidade Atual (A45)
UF Atual (A46)
Tipo de Rede Social (A47)
Histórico (A48)

In [None]:
column_names = [
    "A1",
    "A2",
    "A3",
    "A4",
    "A5",
    "A6",
    "A7",
    "A8",
    "A9",
    "A10",
    "A11",
    "A12",
    "A13",
    "A14",
    "A15",
    "A16",
    "A17",
    "A18",
    "A19",
    "A20",
    "A21",
    "A22",
    "A23",
    "A24",
    "A25",
    "A26",
    "A27",
    "A28",
    "A29",
    "A30",
    "A31",
    "A32",
    "A33",
    "A34",
    "A35",
    "A36",
    "A37",
    "A38",
    "A39",
    "A40",
    "A41",
    "A42",
    "A43",
    "A44",
    "A45",
    "A46",
    "A47",
    "A48",
]

## 1.1 Google Planilha

### 1.1.1. Buscando os dados da Planilha: "Projeto Facções Criminosas (respostas).csv"

In [None]:
#!wget --no-check-certificate "https://docs.google.com/spreadsheets/d/1ON1_havmapkHsa8SlWS_lXmbzwmxUs2YgkeZHtLpMyQ/export?format=csv" -O "Projeto Facções Criminosas (respostas).csv"

### 1.1.2 Acessando à Google Planilha (google sheets)

In [None]:
name_csv = "Projeto Facções Criminosas (respostas).csv"
name_google_plan = "Projeto Facções Criminosas (respostas)"

In [None]:
if "google.colab" in sys.modules:

    from google.colab import auth
    from google.auth import default
    import gspread

    auth.authenticate_user()
    creds, _ = default()
    gc = gspread.authorize(creds)

    worksheet = gc.open(name_google_plan).sheet1

    rows = worksheet.get_all_values()


    df = pd.DataFrame.from_records(rows, columns=column_names)

else:
    df = pd.read_csv(name_csv, encoding="utf-8")

In [None]:
# df = df.iloc[0:]

In [None]:
df.columns

In [None]:
df.head(5)

In [None]:
df.info()

 ### 1.1.2 Acessando o Google Drive

In [None]:
if "google.colab" in sys.modules:

    from google.colab import drive

    # drive.mount("/content/drive")
    drive.mount("/content/drive", force_remount=True)
    %pwd
    %cd '/content/drive/MyDrive/Colab Notebooks/faccoes'
    %pwd
    %ll -a

# **2. Análise da qualidade dos dados**

In [None]:
df.columns

## 2.1 Análise de dados ausentes

In [None]:
df.info()

In [None]:
df.isna().sum()

### 2.1.1 Colunas númericas

In [None]:
df.columns = column_names

In [None]:
numerical_cols = df.describe().columns
categorical_cols = [i for i in column_names if i not in numerical_cols]

In [None]:
numerical_cols

### 2.1.2 Colunas categóricas

In [None]:
categorical_cols

# **3. Analises exploratória dos dados**

## *3.1. Análise da distribuição dos dados*

### 3.1.1. Dados categóricos

### 3.1.2. Dados numéricos

# **4. Engenharia de Dados**


In [None]:
df.A5 = df.A5.str.upper()
df.A6 = df.A6.str.upper()
df.A7 = df.A7.str.upper()
df.A13 = df.A13.str.upper()
df.A14 = df.A14.str.upper()
df.A15 = df.A15.str.upper()
df.A16 = df.A16.str.upper()
df.A20 = df.A20.str.upper()
df.A22 = df.A22.str.upper()
df.A33 = df.A33.str.upper()
df.A37 = df.A37.str.upper()
df.A38 = df.A38.str.upper()
df.A39 = df.A39.str.upper()
df.A40 = df.A40.str.upper()
df.A43 = df.A43.str.upper()

In [None]:
df_faccoes = df.drop(["A1", "A2"], axis=1)

In [None]:
# df_faccoes.head(5)

In [None]:
df_faccoes.columns

In [None]:
df_faccoes.describe()

## 4.1 _Análise das colunas_

### 4.1.0 _Coluna A11_


In [None]:
print(df_faccoes.groupby("A8").size())

### 4.1.1 _Coluna A11_


In [None]:
# print(df_faccoes.groupby("A11").size())

In [None]:
df_faccoes.A11.replace(
    {
        "Al": "SSPAL",
        "AL": "SSPAL",
        "SPP SSPAL": "SSPAL",
        "SPP AL": "SSPAL",
        "SSP": "SSPAL",
        "SSP - SP": "SSPSP",
        "SSP - RN": "SSPRN",
        "SSP AL": "SSPAL",
        "SSP al": "SSPAL",
        "SSP-AL": "SSPAL",
        "SSp-AL": "SSPAL",
        "Ssp al": "SSPAL",
        "SSP/AL": "SSPAL",
        "ssp/al": "SSPAL",
        "SSP RN": "SSPRN",
        "SSp-AL ": "SSPAL",
        "SSP-AL ": "SSPAL",
        "SS´AL": "SSPAL",
        "SSP/GO": "SSPGO",
        "SSP/AL": "SSPAL",
    },
    regex=False,
    inplace=True,
)

In [None]:
# print(df_faccoes.groupby("A11").size())

### 4.1.2 _Coluna A13_


In [None]:
print(df_faccoes.groupby("A13").size())

In [None]:
df_faccoes.A13.replace(
    {
        "ALAGOAS": "AL",
        "UF DA CNH": "",
        "X-X-X-X": "",
    },
    regex=False,
    inplace=True,
)

In [None]:
print(df_faccoes.groupby("A13").size())

### 4.1.3 _Coluna A14_


In [None]:
print(df_faccoes.groupby("A14").size())

### 4.1.4 _Coluna A15_


In [None]:
print(df_faccoes.groupby("A15").size())

### 4.1.5 _Coluna A16_


In [None]:
print(df_faccoes.groupby("A16").size())

In [None]:
print(df_faccoes.groupby("A22").size())

### 4.1.6 Coluna A26, A27 e A28

In [None]:
print(df_faccoes.groupby("A26").size())

In [None]:
print(df_faccoes.groupby("A27").size())

In [None]:
print(df_faccoes.groupby("A28").size())

#### 4.1.6.1 Usando Google Maps

In [None]:
endereco_atual = (
    df_faccoes["A26"]
    + ", "
    + df_faccoes["A44"]
    + ", "
    + df_faccoes["A45"]
    + ", "
    + df_faccoes["A46"]
)
endereco_anterior = df_faccoes["A27"]
endereco_familiares = df_faccoes["A28"]

In [None]:
import googlemaps
from datetime import datetime

gmaps = googlemaps.Client(key="AIzaSyDIZiZOJVo3BYameibLFeroFLs5MKxeB58")

In [None]:
endereco_atual.head(5)

In [None]:
# Inicializando 'geocode_result_atual' como uma lista de listas vazias
geocode_result_atual = [[] for _ in range(len(endereco_atual))]

for i in range(len(endereco_atual)):
    if (
        endereco_atual[i]
        and endereco_atual[i] != ""
        and endereco_atual[i] != ""
        and endereco_atual[i] is not None
    ):
        geocode_result_atual[i].append(gmaps.geocode(endereco_atual[i]))
    else:
        geocode_result_atual[i].append("")

In [None]:
print(len(geocode_result_atual))

In [None]:
# geocode_result_atual

In [None]:
# transformar lista do Google Maps em dicionário
dicionario = {
    i: sublista[0] for i, sublista in enumerate(geocode_result_atual) if sublista
}
# print(dicionario)

In [None]:
# print(type(dicionario))

In [None]:
# print(len(dicionario))

In [None]:
lat_atual = []
lng_atual = []
for i in range(len(dicionario)):
    if dicionario[i] and dicionario[i][0] != "[]" and dicionario[i][0] != "":
        lat_atual.append(dicionario[i][0]["geometry"]["location"]["lat"])
        lng_atual.append(dicionario[i][0]["geometry"]["location"]["lng"])
    else:
        lat_atual.append(0)
        lng_atual.append(0)

In [None]:
print(len(lat_atual))

In [None]:
print(len(lng_atual))

In [None]:
df_faccoes["lat_atual"] = lat_atual
df_faccoes["lng_atual"] = lng_atual

In [None]:
# df_faccoes.info()

In [None]:
# from google.colab import data_table

# data_table.enable_dataframe_formatter()

In [None]:
path_faccoes = "./dados/"
path_faccoes_shapes = "./shapes_files/"


#### 4.1.6.1 Teste no Mapa

In [None]:
# Importe a biblioteca
import folium
import geopandas as gpd


if "google.colab" in sys.modules:

    # Locais
    path_faccoes = "/content/drive/MyDrive/Colab Notebooks/faccoes/"

    # Locais das camadas (shapefiles) do IBGE, NEAC e etc

    # ibge
    path_arq_ibge_brmi = (
        path_faccoes + "shapes_files/BR_Microrregioes_2022/BR_Microrregioes_2022.shp"
    )
    path_arq_ibge_brrg = (
        path_faccoes + "shapes_files/BR_RG_Imediatas_2022/BR_RG_Imediatas_2022.shp"
    )
    path_arq_ibge_br_mun = (
        path_faccoes + "shapes_files/BR_Municipios_2022/BR_Municipios_2022.shp"
    )
    path_arq_ibge_br_uf = path_faccoes + "shapes_files/BR_UF_2022/BR_UF_2022.shp"

    # neac
    path_arq_neac_pmal = (
        path_faccoes + "shapes_files/areas_batalhoes_pmal/µras das Unidades_PMAL.shp"
    )

    # Alagoas em dados
    path_arq_ad_mun = (
        path_faccoes + "shapes_files/al_municipios_2022/AL_Municipios_2022.shp"
    )

    # Camada de terceiros
    path_arq_br_mun = path_faccoes + "shapes_files/municipio.json"

    # Pontos de localização dos faccionados
    pontos = df_faccoes[["lat_atual", "lng_atual"]].apply(lambda x: list(x), axis=1)

    # Calcule o centro das coordenadas
    # l = len(pontos)
    # l1=0
    # l2=0

    # for index,r in enumerate(pontos):
    #     if r != None:
    #       l1 = (pontos[index][0]+l1)
    #       l2 = (pontos[index][1]+l2)
    # centro = [l1/l,l2/l]

    # # Eliminas os  Nan e criar [0,0]
    # centro = [0 if np.isnan(x) else x for x in centro]

    # Centro das coordenadas no nordeste
    centro_nordeste = [-8.885072, -41.176758]

    # definindo tamanho de visualização do mapa
    f = folium.Figure(width=1200, height=400)

    # Mapa
    m = folium.Map(location=centro_nordeste, zoom_start=5).add_to(f)

    # Carregar os shapefiles e converter para GeoJSON
    # gdf = gpd.read_file(path_arq_br_mun)
    # gdf_json = gdf.to_json()

    # folium.GeoJson(
    #     gdf_json,
    #     name='br-mu-geojson'
    # ).add_to(m)

    # Carregar os shapefiles e converter para GeoJSON
    # gdf = gpd.read_file(path_arq_ibge_br_uf)
    # gdf_json = gdf.to_json()

    # folium.GeoJson(
    #     gdf_json,
    #     name='uf-br-geojson'
    # ).add_to(m)

    # gdf1 = gpd.read_file(path_arq_ibge_br_mun)
    # gdf1_json = gdf1.to_json()

    # folium.GeoJson(
    #     gdf1_json,
    #     name='municipios-br-geojson'
    # ).add_to(m)

    gdf2 = gpd.read_file(path_arq_ad_mun)
    gdf2_json = gdf2.to_json()

    folium.GeoJson(gdf2_json, name="municipios-al-ad-geojson").add_to(m)

    gdf3 = gpd.read_file(path_arq_neac_pmal)
    gdf3_json = gdf3.to_json()

    folium.GeoJson(gdf3_json, name="pm-unidade-al-geojson").add_to(m)

    # Inserir localizações no mapaaker)
    # Substitua NaNs por 0 em cada sublista de 'pontos'
    pontos = [[0 if np.isnan(y) else y for y in x] for x in pontos]

    pontos = [valor for valor in pontos if valor != 0]

    popup_view = df_faccoes

    for index, r in enumerate(pontos):
        if pontos[index] != [0, 0]:
            folium.Marker(
                pontos[index],
                icon=folium.Icon(color="red", icon="home"),
                popup=(
                    "FACCIONADO: <br> {} <br> FOTO 1 <br> {} <br> FOTO 2 <br> {} <br> BAIRRO: {}".format(
                        popup_view.loc[index, ["A5"]],
                        popup_view.loc[index, ["A3"]],
                        popup_view.loc[index, ["A4"]],
                        popup_view.loc[index, ["A44"]],
                    )
                ),
                # popup = ('Ponto{} da lista'.format(index))
            ).add_to(m)
    # linhas
    # folium.PolyLine(pontos, color='red').add_to(m)
    # visualizar mapa
    # Adicionar um controle de camadas ao mapa para alternar entre as camadas
    folium.LayerControl().add_to(m)
    # Apresentar o Mapa
    m
    # salvar o mapa
    m.save(path_faccoes + "index.html")

In [None]:
# gdf2.head()

In [None]:
# df_faccoes.to_csv('/content/drive/MyDrive/Colab Notebooks/faccoes/faccoes.csv', index=False)
df_facionados = df_faccoes.copy()

# Defina a primeira linha como cabeçalho
df_facionados = df_facionados.drop(df_facionados.index[0])
df_facionados.to_csv(path_faccoes + "faccionados.csv", index=False)

# **5. Resumir o conjunto de dados**


## 5.1 Neo4j

In [None]:
df_faccoes.head(5)

In [None]:
df_faccoes.to_csv(path_faccoes + "faccionados.csv", index=True)

In [None]:
column_names = [
    # "data_hora_cadastro",
    # "email_analista",
    "foto_recente",
    "fotos_tatuagens",
    "nome_completo",
    "vulgo_alcunha",
    "filiacao",
    "data_nascimento",
    "cpf",
    "rg",
    "orgao_expedidor",
    "cnh",
    "uf_cnh",
    "faccao_funcao",
    "area_atuacao",
    "area_que_ja_atuou",
    "bos",
    "registro_como_reeducando",
    "período_como_reeducando",
    "situacao_juridica",
    "alvo_sspal",
    "qual_operacao_foi_alvo",
    "ocorrencias_destaque",
    "pena_presidio_federal",
    "qual_presidio_estado",
    "endereco_atual",
    "endereco_anterior",
    "endereco_familiar",
    "cep",
    "latitude_cadastro",
    "logitude_cadastro",
    "tornozeleira",
    "redes_sociais",
    "registro_homizio",
    "informacoes_homizidio",
    "parentes_crime",
    "informacoes_parentes_criminosos",
    "nome_completo_conjugue",
    "tempo_conjugue",
    "tipos_bens",
    "descricao_bens",
    "observacoes",
    "faccao",
    "bairro_atual",
    "cidade_atual",
    "uf_atual",
    "tipo_rede_social",
    "historico",
    "latitude_atual",
    "longitude_atual",
]

In [None]:
df_neo4j = df_faccoes.copy()
df_neo4j.columns = column_names

In [None]:
df_neo4j.columns

In [None]:
# Supondo que 'df' é o seu DataFrame
df_neo4j = df_neo4j.drop(df.index[0])

In [None]:
df_neo4j.head()

In [None]:
print(df_neo4j.groupby("faccao_funcao").size())

## 5.2 Categorizar as colunas

In [None]:
nomes = df_neo4j[["nome_completo", "vulgo_alcunha", "cpf", "rg", "cnh"]].copy()
fotos = df_neo4j[["foto_recente", "fotos_tatuagens"]].copy()
faccao = df_neo4j[["faccao"]].copy()
funcao = df_neo4j[["faccao_funcao"]].copy()
area_atuacao = df_neo4j[["area_atuacao"]].copy()
ja_atuou = df_neo4j[["area_que_ja_atuou"]].copy()
filiacao = df_neo4j[["filiacao", "data_nascimento"]].copy()
alvo_sspal = df_neo4j[["alvo_sspal", "qual_operacao_foi_alvo"]].copy()
reeducando = df_neo4j[["registro_como_reeducando", "período_como_reeducando"]].copy()
conjugue = df_neo4j[["nome_completo_conjugue", "tempo_conjugue", "uf_atual"]].copy()
endereco_anterior = df_neo4j[["endereco_anterior"]].copy()
endereco_familiar = df_neo4j[["endereco_familiar"]].copy()
endereco_atual = df_neo4j[
    ["endereco_atual", "bairro_atual", "cidade_atual", "uf_atual"]
].copy()
bairro = df_neo4j[["bairro_atual"]].copy()
cidade = df_neo4j[["cidade_atual"]].copy()
uf = df_neo4j[["uf_atual"]].copy()
cep = df_neo4j[["cep"]].copy()
coordenadas = df_neo4j[["latitude_atual", "longitude_atual"]].copy()
analises_vinculos = df_neo4j[
    [
        "nome_completo",
        "vulgo_alcunha",
        "faccao",
        "faccao_funcao",
        "bairro_atual",
        "cidade_atual",
        "uf_atual",
        "area_atuacao",
    ]
].copy()

### 5.2.1 Analisando cada arquivo

## 5.3 Salvando os arquivos .CLS

In [None]:
# df_neo4j.to_csv(path_faccoes + "faccionados.csv", index=True)
df_neo4j.to_csv(path_faccoes + "faccionados_neo4j_00.csv", index=True)
# csvs desmembrados
nomes.to_csv(path_faccoes + "nomes.csv", index=True)
fotos.to_csv(path_faccoes + "fotos.csv", index=True)
faccao.to_csv(path_faccoes + "faccao.csv", index=True)
funcao.to_csv(path_faccoes + "funcao.csv", index=True)
area_atuacao.to_csv(path_faccoes + "area_atuacao.csv", index=True)
ja_atuou.to_csv(path_faccoes + "ja_atuou.csv", index=True)
filiacao.to_csv(path_faccoes + "filiacao.csv", index=True)
alvo_sspal.to_csv(path_faccoes + "alvo_sspal.csv", index=True)
reeducando.to_csv(path_faccoes + "reeducando.csv", index=True)
conjugue.to_csv(path_faccoes + "conjugue.csv", index=True)
endereco_anterior.to_csv(path_faccoes + "endereco_anterior.csv", index=True)
endereco_familiar.to_csv(path_faccoes + "endereco_familiar.csv", index=True)
endereco_atual.to_csv(path_faccoes + "endereco_atual.csv", index=True)
bairro.to_csv(path_faccoes + "bairro.csv", index=True)
cidade.to_csv(path_faccoes + "cidade.csv", index=True)
uf.to_csv(path_faccoes + "uf.csv", index=True)
cep.to_csv(path_faccoes + "cep.csv", index=True)
coordenadas.to_csv(path_faccoes + "coordenadas.csv", index=True)

# analises de vinculos
analises_vinculos.to_csv(path_faccoes + "analises_vinculos.csv", index=True)

In [None]:
analises_vinculos.to_csv("faccionados_analise_vinculos.csv", index=False)

# **6. Visualização de Dados**


# **7. Treinamento**


# **8. Aprendizado**


# **9. Resultados:**
