# Cleaning Process of Ligue 180 Semi-Annual Report Data

This notebook outlines the data cleaning process applied to the Ligue 180 semi-annual report data. 

The aim of this cleaning process is to ensure the dataset is accurate, consistent, and suitable for analysis.

* **Importing Libraries:** Imports essential libraries, including pandas, numpy, and re, required for data handling and cleaning operations.

* **Data Loading:** Loads multiple CSV datasets, each representing Ligue 180 reports from different semesters between 2020 and 2024. These files are stored in a list for batch processing.

* **Column Inspection:** Collects and stores column names from each dataset to check for consistency and detect any naming discrepancies.

* **Data Cleaning and Standardization:**

    - **Column Name Handling:** Likely includes steps to standardize column names across datasets.
    - **Value Cleaning:** Involves functions for transforming and normalizing text values, such as removing accents, replacing unwanted characters, and adjusting date formats.
    - **Date and Time Conversion:** Applies a custom function to normalize date and time formats.
    - **Data Concatenation:** Combines all datasets into a single DataFrame, merging data from all semesters reviewed.

**Export:** The consolidated DataFrame is exported as a CSV file. This resulting file is optimized for import into Power BI for data visualization and analysis.

## Importing Libraries

In [68]:
import pandas as pd
import numpy as np
import re
from collections import Counter
import unicodedata


## Data Loading

In [69]:
datasetSegSem2020 = pd.read_csv('csv_files/ligue180-segundo-semestre-2020.csv', sep=';')
datasetPrimSem2021 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2021.csv', sep=';')
datasetSegSem2021 = pd.read_csv('csv_files/ligue180-segundo-semestre-2021.csv', sep=';')
datasetPrimSem2022 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2022.csv', sep=';')
datasetSegSem2022 = pd.read_csv('csv_files/ligue180-segundo-semestre-2022.csv', sep=';')
datasetPrimSem2023 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2023.csv', sep=';')
datasetSegSem2023 = pd.read_csv('csv_files/ligue180-segundo-semestre-2023.csv', sep=';')
datasetPrimSem2024 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2024.csv', sep=';')

  datasetSegSem2022 = pd.read_csv('csv_files/ligue180-segundo-semestre-2022.csv', sep=';')
  datasetPrimSem2023 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2023.csv', sep=';')
  datasetPrimSem2024 = pd.read_csv('csv_files/ligue180-primeiro-semestre-2024.csv', sep=';')


In [70]:
datasetPrimSem2024.head()

Unnamed: 0,hash,Data_de_cadastro,Canal_de_atendimento,Denúncia_emergencial,Denunciante,Cenário_da_violação,País,UF,Município,Frequência,...,Grau_de_instrução_do_suspeito,Religião_do_suspeito,Raça_Cor_do_suspeito,Suspeito_Etnia,Faixa_de_renda_do_suspeito,Vínculo_Órgão_PJ_do_suspeito,sl_suspeito_ramo,suspeito_especificacao_etnia,vitima_especificacao_etnia,violacao
0,ADCED6E583BF5600AC69908DD5925E84809602D98FF1FA...,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,...,,,PARDA,,,,,,,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
1,ADCED6E583BF5600AC69908DD5925E84809602D98FF1FA...,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,...,,,PARDA,,,,,,,INTEGRIDADE>FÍSICA>OUTROS
2,ADCED6E583BF5600AC69908DD5925E84809602D98FF1FA...,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,...,,,PARDA,,,,,,,INTEGRIDADE>PSÍQUICA>CONSTRANGIMENTO
3,3ABB8F1D7A6E12902F3D7E38D5235DBBDD8FFAC935DB6F...,2024-01-01 00:20:59.367,TELEFÔNICO,NÃO,TERCEIRO,CASA DE FAMILIARES,BR | BRASIL,MT,5103403 | CUIABÁ,DIARIAMENTE,...,,,BRANCA,,,,,,,INTEGRIDADE>FÍSICA>TORTURA FÍSICA
4,3ABB8F1D7A6E12902F3D7E38D5235DBBDD8FFAC935DB6F...,2024-01-01 00:20:59.367,TELEFÔNICO,NÃO,TERCEIRO,CASA DE FAMILIARES,BR | BRASIL,MT,5103403 | CUIABÁ,DIARIAMENTE,...,,,BRANCA,,,,,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO


## Column Inspection

In [71]:
datasetsList = [datasetSegSem2020, 
                datasetPrimSem2021, 
                datasetSegSem2021, 
                datasetPrimSem2022, 
                datasetSegSem2022, 
                datasetPrimSem2023, 
                datasetSegSem2023,
                datasetPrimSem2024]

In [72]:
allColsNames =[]
for data in datasetsList:
    for col in data.columns:
        allColsNames.append(col)

allColsNames

['hash',
 'Data de cadastro',
 'Canal de atendimento',
 'Denúncia emergencial',
 'Denunciante',
 'Cenário da violação',
 'País',
 'UF',
 'Município',
 'Frequência',
 'Início das violações',
 'sl_quantidade_vitimas',
 'Grupo vulnerável',
 'Motivação',
 'Relação vítima-suspeito',
 'sl_vitima_cadastro',
 'Gênero da vítima',
 'Orientação sexual da vítima',
 'Faixa etária da vítima',
 'Nacionalidade da vítima',
 'sl_vitima_naturalidade',
 'sl_vitima_naturalizado_uf',
 'sl_vitima_naturalizado_municipio',
 'Deficiência da vítima',
 'Doença rara da vítima',
 'Deficiência relacionada a doença rara ?',
 'Vítima preso(a)',
 'País da vítima',
 'UF da vítima',
 'Município  da vítima',
 'Profissão da vítima',
 'Grau de instrução da vítima',
 'Religião da vítima',
 'Raça\\Cor da vítima',
 'Etnia da vítima',
 'Faixa de renda da vítima',
 'Natureza Jurídica do Suspeito',
 'Gênero do suspeito',
 'Orientação sexual do suspeito',
 'Faixa etária do suspeito',
 'Suspeito nacionalidade',
 'sl_suspeito_natura

## Column Name Handling

In [None]:
def normalizeColName(colName):
    """
    Normalizes a column name by removing special characters and converting to lowercase.

    This function takes a string representing a column name and applies the following 
    transformations:
    1. Normalizes the string to remove any Unicode characters using NFKD normalization.
    2. Encodes the normalized string to ASCII and decodes it back to a string, effectively 
       removing any non-ASCII characters.
    3. Converts the string to lowercase.
    4. Replaces any non-word characters (i.e., anything that is not a letter, digit, or 
       underscore) with underscores.

    Parameters:
    - colName (str): The column name to be normalized.

    Returns:
    - str: The normalized column name, with special characters removed and in lowercase.
    """
    normalized = unicodedata.normalize('NFKD', colName).encode('ASCII', 'ignore').decode('ASCII').lower()
    normalized = re.sub(r'\W+', '_', normalized)
    return normalized



In [74]:
normalizedCol= [normalizeColName(col) for col in allColsNames]

# Contar a frequência de cada coluna normalizada
columnCounts = Counter(normalizedCol)

# Encontrar colunas comuns que aparecem pelo menos n vezes (por exemplo, 2 vezes)
numDatasets = 7
commonCols = [col for col, count in columnCounts.items() if count >= numDatasets]

commonCols

['hash',
 'data_de_cadastro',
 'canal_de_atendimento',
 'denuncia_emergencial',
 'denunciante',
 'cenario_da_violacao',
 'pais',
 'uf',
 'municipio',
 'frequencia',
 'inicio_das_violacoes',
 'sl_quantidade_vitimas',
 'grupo_vulneravel',
 'motivacao',
 'relacao_vitima_suspeito',
 'sl_vitima_cadastro',
 'genero_da_vitima',
 'orientacao_sexual_da_vitima',
 'faixa_etaria_da_vitima',
 'nacionalidade_da_vitima',
 'sl_vitima_naturalidade',
 'sl_vitima_naturalizado_uf',
 'sl_vitima_naturalizado_municipio',
 'deficiencia_da_vitima',
 'doenca_rara_da_vitima',
 'pais_da_vitima',
 'uf_da_vitima',
 'municipio_da_vitima',
 'profissao_da_vitima',
 'grau_de_instrucao_da_vitima',
 'religiao_da_vitima',
 'raca_cor_da_vitima',
 'etnia_da_vitima',
 'faixa_de_renda_da_vitima',
 'natureza_juridica_do_suspeito',
 'genero_do_suspeito',
 'orientacao_sexual_do_suspeito',
 'faixa_etaria_do_suspeito',
 'suspeito_nacionalidade',
 'sl_suspeito_naturalidade',
 'sl_suspeito_naturalizado_uf',
 'sl_suspeito_naturalizad

In [None]:
def filterDatasetsCols(datasets, desiredColumns):
    """
    Filters specified columns from a list of datasets and normalizes column names.

    This function iterates through a list of datasets (each consisting of a name 
    and a DataFrame), normalizes the column names of each DataFrame using the 
    `normalizeColName` function, and then filters the DataFrame to retain only 
    the desired columns specified in the `desiredColumns` list. The filtered 
    DataFrame is saved globally with a name that appends '_filtered' to the original 
    dataset name.

    Parameters:
    - datasets (list of tuples): A list of tuples, where each tuple contains a 
                                  dataset name (str) and its corresponding 
                                  DataFrame (pd.DataFrame).
    - desiredColumns (list of str): A list of column names that should be retained 
                                     in the filtered DataFrame.

    Returns:
    - None: The function saves filtered DataFrames globally but does not return any value.
    """
    for name, df in datasets:
        df.columns = [normalizeColName(col) for col in df.columns]
        filteredDf = df[[col for col in desiredColumns if col in df.columns]]
        globals()[f'{name}_filtered'] = filteredDf



In [76]:
# Lista com os nomes das colunas que você deseja manter
desiredColumns = ['data_de_cadastro',  'canal_de_atendimento', 'denuncia_emergencial',
 'denunciante', 'cenario_da_violacao', 'pais', 'uf', 'municipio', 'frequencia', 'inicio_das_violacoes', 'grupo_vulneravel', 
 'motivacao', 'relacao_vitima_suspeito', 'faixa_etaria_da_vitima', 'nacionalidade_da_vitima', 'sl_vitima_naturalidade', 
 'pais_da_vitima', 'uf_da_vitima', 'municipio_da_vitima', 'profissao_da_vitima', 'grau_de_instrucao_da_vitima', 'religiao_da_vitima', 
 'raca_cor_da_vitima', 'etnia_da_vitima', 'faixa_de_renda_da_vitima', 'genero_do_suspeito', 'faixa_etaria_do_suspeito', 'suspeito_nacionalidade', 
 'sl_suspeito_naturalidade', 'pais_do_suspeito', 'uf_do_suspeito', 'sl_suspeito_municipio', 'profissao_do_suspeito', 'grau_de_instrucao_do_suspeito', 
 'religiao_do_suspeito', 'raca_cor_do_suspeito', 'suspeito_etnia', 'faixa_de_renda_do_suspeito', 'violacao']

# Lista de DataFrames e seus nomes
datasets = [
    ('datasetSegSem2020', datasetSegSem2020),
    ('datasetPrimSem2021', datasetPrimSem2021),
    ('datasetSegSem2021', datasetSegSem2021),
    ('datasetPrimSem2022', datasetPrimSem2022),
    ('datasetSegSem2022', datasetSegSem2022),
    ('datasetPrimSem2023', datasetPrimSem2023),
    ('datasetSegSem2023', datasetSegSem2023),
    ('datasetPrimSem2024', datasetPrimSem2024)
]

In [77]:

filterDatasetsCols(datasets, desiredColumns)


In [78]:
datasetPrimSem2024_filtered

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,grau_de_instrucao_do_suspeito,religiao_do_suspeito,raca_cor_do_suspeito,suspeito_etnia,faixa_de_renda_do_suspeito,violacao
0,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,ES,3204906 | SÃO MATEUS,OUTROS NÃO LISTADOS,,,PARDA,,,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
1,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,ES,3204906 | SÃO MATEUS,OUTROS NÃO LISTADOS,,,PARDA,,,INTEGRIDADE>FÍSICA>OUTROS
2,2024-01-01 00:15:43.310,TELEFÔNICO,NÃO,TERCEIRO,VIA PÚBLICA,BR | BRASIL,ES,3204906 | SÃO MATEUS,DIARIAMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,ES,3204906 | SÃO MATEUS,OUTROS NÃO LISTADOS,,,PARDA,,,INTEGRIDADE>PSÍQUICA>CONSTRANGIMENTO
3,2024-01-01 00:20:59.367,TELEFÔNICO,NÃO,TERCEIRO,CASA DE FAMILIARES,BR | BRASIL,MT,5103403 | CUIABÁ,DIARIAMENTE,HÁ UM MÊS,...,BR | BRASIL,MT,5103403 | CUIABÁ,MECÂNICO DE VEÍCULOS AUTOMOTORES,,,BRANCA,,,INTEGRIDADE>FÍSICA>TORTURA FÍSICA
4,2024-01-01 00:20:59.367,TELEFÔNICO,NÃO,TERCEIRO,CASA DE FAMILIARES,BR | BRASIL,MT,5103403 | CUIABÁ,DIARIAMENTE,HÁ UM MÊS,...,BR | BRASIL,MT,5103403 | CUIABÁ,MECÂNICO DE VEÍCULOS AUTOMOTORES,,,BRANCA,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
394149,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,OUTROS NÃO LISTADOS,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>INJÚRIA
394150,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,LIBERDADE>DIREITOS INDIVIDUAIS>AUTONOMIA DE VO...
394151,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>DIFAMAÇÃO
394152,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO


In [79]:
datasetPrimSem2024_filtered.columns

Index(['data_de_cadastro', 'canal_de_atendimento', 'denuncia_emergencial',
       'denunciante', 'cenario_da_violacao', 'pais', 'uf', 'municipio',
       'frequencia', 'inicio_das_violacoes', 'grupo_vulneravel', 'motivacao',
       'relacao_vitima_suspeito', 'faixa_etaria_da_vitima',
       'nacionalidade_da_vitima', 'sl_vitima_naturalidade', 'pais_da_vitima',
       'uf_da_vitima', 'municipio_da_vitima', 'profissao_da_vitima',
       'grau_de_instrucao_da_vitima', 'religiao_da_vitima',
       'raca_cor_da_vitima', 'etnia_da_vitima', 'faixa_de_renda_da_vitima',
       'genero_do_suspeito', 'faixa_etaria_do_suspeito',
       'suspeito_nacionalidade', 'sl_suspeito_naturalidade',
       'pais_do_suspeito', 'uf_do_suspeito', 'sl_suspeito_municipio',
       'profissao_do_suspeito', 'grau_de_instrucao_do_suspeito',
       'religiao_do_suspeito', 'raca_cor_do_suspeito', 'suspeito_etnia',
       'faixa_de_renda_do_suspeito', 'violacao'],
      dtype='object')

In [80]:
print(datasetSegSem2020_filtered.shape[1])
print(datasetPrimSem2021_filtered.shape[1])
print(datasetSegSem2021_filtered.shape[1])
print(datasetPrimSem2022_filtered.shape[1])
print(datasetSegSem2022_filtered.shape[1])
print(datasetPrimSem2023_filtered.shape[1])
print(datasetSegSem2023_filtered.shape[1])
print(datasetPrimSem2024_filtered.shape[1])

39
39
39
39
39
39
39
39


## Data Concatenation

In [81]:
dataFiltered =pd.concat([datasetSegSem2020_filtered, 
           datasetPrimSem2021_filtered, 
           datasetSegSem2021_filtered, 
           datasetPrimSem2022_filtered, 
           datasetSegSem2022_filtered, 
           datasetPrimSem2023_filtered, 
           datasetSegSem2023_filtered,
           datasetPrimSem2024_filtered], ignore_index=True)

In [82]:
dataFiltered.head()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,grau_de_instrucao_do_suspeito,religiao_do_suspeito,raca_cor_do_suspeito,suspeito_etnia,faixa_de_renda_do_suspeito,violacao
0,02/07/2020 14:18,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BRASIL,BA,SIMÕES FILHO,DIARIAMENTE,HÁ MAIS DE SEIS MESES,...,BRASIL,BA,SIMÕES FILHO,N/D,N/D,N/D,N/D,N/D,N/D,LIBERDADE>DIREITOS INDIVIDUAIS>LIBERDADE DE IR...
1,03/07/2020 20:14,TELEFÔNICO,NÃO,TERCEIRO,CASA DA VÍTIMA,BRASIL,DF,BRASÍLIA,SEMANALMENTE,HÁ MAIS DE UM ANO,...,BRASIL,DF,BRASÍLIA,N/D,N/D,N/D,BRANCA,N/D,N/D,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
2,15/07/2020 19:31,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BRASIL,CE,FORTALEZA,DIARIAMENTE,HÁ MAIS DE CINCO ANOS,...,BRASIL,CE,GRAÇA,N/D,N/D,N/D,N/D,N/D,N/D,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO
3,15/07/2020 14:21,TELEFÔNICO,NÃO,TERCEIRO,CASA ONDE RESIDE A VÍTIMA E O SUSPEITO,BRASIL,PI,BOM PRINCÍPIO DO PIAUÍ,OCASIONALMENTE,HÁ MAIS DE UM ANO,...,BRASIL,PI,BOM PRINCÍPIO DO PIAUÍ,N/D,N/D,N/D,N/D,N/D,N/D,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO
4,07/07/2020 17:41,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,LOCAL DE TRABALHO DA VÍTIMA,BRASIL,AM,MANAUS,DIARIAMENTE,HÁ MAIS DE UM ANO,...,BRASIL,AM,MANAUS,N/D,N/D,N/D,N/D,N/D,N/D,INTEGRIDADE>FÍSICA>EXPOSIÇÃO DE RISCO À SAÚDE


In [83]:
dataFiltered.tail()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,grau_de_instrucao_do_suspeito,religiao_do_suspeito,raca_cor_do_suspeito,suspeito_etnia,faixa_de_renda_do_suspeito,violacao
2075303,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,OUTROS NÃO LISTADOS,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>INJÚRIA
2075304,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,LIBERDADE>DIREITOS INDIVIDUAIS>AUTONOMIA DE VO...
2075305,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>DIFAMAÇÃO
2075306,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
2075307,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,,,BRANCA,,,INTEGRIDADE>PSÍQUICA>INJÚRIA


## Value Cleaning

In [84]:
dataFiltered.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2075308 entries, 0 to 2075307
Data columns (total 39 columns):
 #   Column                         Dtype 
---  ------                         ----- 
 0   data_de_cadastro               object
 1   canal_de_atendimento           object
 2   denuncia_emergencial           object
 3   denunciante                    object
 4   cenario_da_violacao            object
 5   pais                           object
 6   uf                             object
 7   municipio                      object
 8   frequencia                     object
 9   inicio_das_violacoes           object
 10  grupo_vulneravel               object
 11  motivacao                      object
 12  relacao_vitima_suspeito        object
 13  faixa_etaria_da_vitima         object
 14  nacionalidade_da_vitima        object
 15  sl_vitima_naturalidade         object
 16  pais_da_vitima                 object
 17  uf_da_vitima                   object
 18  municipio_da_vitima   

In [85]:
dataFiltered.duplicated().sum()

31802

In [86]:
dataFiltered.drop_duplicates(inplace=True)

In [87]:
dataFiltered.replace({'N/D': np.nan, 'NaN': np.nan}, inplace=True)

In [88]:
dataFiltered.isna().mean()*100

data_de_cadastro                  0.000000
canal_de_atendimento              0.002838
denuncia_emergencial              0.032053
denunciante                       0.011059
cenario_da_violacao               0.092243
pais                              0.015757
uf                                1.751597
municipio                         1.835620
frequencia                        0.696010
inicio_das_violacoes              1.383749
grupo_vulneravel                  0.000000
motivacao                        41.715121
relacao_vitima_suspeito           0.336578
faixa_etaria_da_vitima            1.843156
nacionalidade_da_vitima           2.081423
sl_vitima_naturalidade           70.279755
pais_da_vitima                    0.001957
uf_da_vitima                      0.131979
municipio_da_vitima               0.257058
profissao_da_vitima              75.503962
grau_de_instrucao_da_vitima      45.695682
religiao_da_vitima               75.107732
raca_cor_da_vitima                6.364160
etnia_da_vi

In [None]:
def evaluate_missing_data(df, threshold=0.3):
    """
    Evaluates the columns based on the percentage of missing values and removes
    columns with missing values above the specified threshold.
    
    This function calculates the proportion of missing values in each column 
    of the provided DataFrame. If the percentage of missing values in a column 
    exceeds the specified threshold, that column is dropped from the DataFrame. 
    The function also prints the names of the columns that are removed.

    Parameters:
    - df (DataFrame): The DataFrame to be evaluated.
    - threshold (float): The maximum allowed percentage of missing values 
                         (default is 0.3, which means 30%).

    Returns:
    - DataFrame: A cleaned DataFrame with filtered columns.
    """
    missing_percentage = df.isnull().mean()

    cols_to_drop = missing_percentage[missing_percentage > threshold].index
    
    print(f"Removed columns (more than {threshold * 100}% missing): {list(cols_to_drop)}")

    df_cleaned = df.drop(columns=cols_to_drop)
    
    return df_cleaned


In [90]:
df_cleaned = evaluate_missing_data(dataFiltered, threshold=0.42)

Colunas removidas (mais de 42.0% ausentes): ['sl_vitima_naturalidade', 'profissao_da_vitima', 'grau_de_instrucao_da_vitima', 'religiao_da_vitima', 'etnia_da_vitima', 'faixa_de_renda_da_vitima', 'sl_suspeito_naturalidade', 'grau_de_instrucao_do_suspeito', 'religiao_do_suspeito', 'suspeito_etnia', 'faixa_de_renda_do_suspeito']


In [91]:
df_cleaned.head()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,raca_cor_da_vitima,genero_do_suspeito,faixa_etaria_do_suspeito,suspeito_nacionalidade,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,raca_cor_do_suspeito,violacao
0,02/07/2020 14:18,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BRASIL,BA,SIMÕES FILHO,DIARIAMENTE,HÁ MAIS DE SEIS MESES,...,,FEMININO,,BRASIL,BRASIL,BA,SIMÕES FILHO,,,LIBERDADE>DIREITOS INDIVIDUAIS>LIBERDADE DE IR...
1,03/07/2020 20:14,TELEFÔNICO,NÃO,TERCEIRO,CASA DA VÍTIMA,BRASIL,DF,BRASÍLIA,SEMANALMENTE,HÁ MAIS DE UM ANO,...,PARDA,MASCULINO,30 A 34 ANOS,BRASIL,BRASIL,DF,BRASÍLIA,,BRANCA,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
2,15/07/2020 19:31,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BRASIL,CE,FORTALEZA,DIARIAMENTE,HÁ MAIS DE CINCO ANOS,...,,FEMININO,35 A 39 ANOS,BRASIL,BRASIL,CE,GRAÇA,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO
3,15/07/2020 14:21,TELEFÔNICO,NÃO,TERCEIRO,CASA ONDE RESIDE A VÍTIMA E O SUSPEITO,BRASIL,PI,BOM PRINCÍPIO DO PIAUÍ,OCASIONALMENTE,HÁ MAIS DE UM ANO,...,,FEMININO,30 A 34 ANOS,BRASIL,BRASIL,PI,BOM PRINCÍPIO DO PIAUÍ,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO
4,07/07/2020 17:41,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,LOCAL DE TRABALHO DA VÍTIMA,BRASIL,AM,MANAUS,DIARIAMENTE,HÁ MAIS DE UM ANO,...,,MASCULINO,50 A 54 ANOS,BRASIL,BRASIL,AM,MANAUS,,,INTEGRIDADE>FÍSICA>EXPOSIÇÃO DE RISCO À SAÚDE


In [92]:
df_cleaned.tail()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,raca_cor_da_vitima,genero_do_suspeito,faixa_etaria_do_suspeito,suspeito_nacionalidade,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,raca_cor_do_suspeito,violacao
2075303,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,PARDA,FEMININO,65 A 69 ANOS,BR | BRASIL,BR | BRASIL,CE,2304400 | FORTALEZA,OUTROS NÃO LISTADOS,BRANCA,INTEGRIDADE>PSÍQUICA>INJÚRIA
2075304,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,PARDA,FEMININO,65 A 69 ANOS,BR | BRASIL,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,LIBERDADE>DIREITOS INDIVIDUAIS>AUTONOMIA DE VO...
2075305,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,PARDA,FEMININO,65 A 69 ANOS,BR | BRASIL,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,INTEGRIDADE>PSÍQUICA>DIFAMAÇÃO
2075306,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,PARDA,FEMININO,65 A 69 ANOS,BR | BRASIL,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO
2075307,2024-06-30 23:53:19.173,TELEFÔNICO,NÃO,A PRÓPRIA VÍTIMA,CASA DA VÍTIMA,BR | BRASIL,CE,2304400 | FORTALEZA,OCASIONALMENTE,HÁ MAIS DE SEIS MESES,...,PARDA,FEMININO,65 A 69 ANOS,BR | BRASIL,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,INTEGRIDADE>PSÍQUICA>INJÚRIA


In [93]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2043506 entries, 0 to 2075307
Data columns (total 28 columns):
 #   Column                    Dtype 
---  ------                    ----- 
 0   data_de_cadastro          object
 1   canal_de_atendimento      object
 2   denuncia_emergencial      object
 3   denunciante               object
 4   cenario_da_violacao       object
 5   pais                      object
 6   uf                        object
 7   municipio                 object
 8   frequencia                object
 9   inicio_das_violacoes      object
 10  grupo_vulneravel          object
 11  motivacao                 object
 12  relacao_vitima_suspeito   object
 13  faixa_etaria_da_vitima    object
 14  nacionalidade_da_vitima   object
 15  pais_da_vitima            object
 16  uf_da_vitima              object
 17  municipio_da_vitima       object
 18  raca_cor_da_vitima        object
 19  genero_do_suspeito        object
 20  faixa_etaria_do_suspeito  object
 21  suspeito_naci

## Date and Time Conversion

In [None]:
def formatDate(valor):
    """
    Formats a date string into a specific format.

    This function takes an input value (which can be a date and time string) and 
    reformats it to ensure it is represented as 'DD/MM/YYYY HH:MM'. The function 
    performs the following operations:
    1. Converts the input to a string and replaces '-' with '/'.
    2. Removes seconds and milliseconds, keeping only the hour and minute (HH:MM).
    3. Checks if the input starts with a year/month/day format and rearranges it 
       to day/month/year format if necessary.

    Parameters:
        valor (str or any): The input date value to be formatted.

    Returns:
        str: The formatted date string in the format 'DD/MM/YYYY HH:MM' or 'DD/MM/YYYY' 
              if no time is provided.
    """

    valor = str(valor).replace('-', '/')

    if " " in valor:
        data, hora = valor.split(" ")
        hora = hora[:5]
        valor = f"{data} {hora}"
    else:
        data = valor

    if data[:4].isdigit() and data[4] == '/':
        partes = data.split("/")
        data = f"{partes[2]}/{partes[1]}/{partes[0]}"
    
    return f"{data} {hora}" if " " in valor else data


In [119]:
df_cleaned['data_de_cadastro'] = df_cleaned['data_de_cadastro'].astype(str).apply(formatDate)

In [122]:
df_cleaned['data_de_cadastro']

0         2020-07-02 14:18:00
1         2020-07-03 20:14:00
2         2020-07-15 19:31:00
3         2020-07-15 14:21:00
4         2020-07-07 17:41:00
                  ...        
2075303   2024-06-30 23:53:00
2075304   2024-06-30 23:53:00
2075305   2024-06-30 23:53:00
2075306   2024-06-30 23:53:00
2075307   2024-06-30 23:53:00
Name: data_de_cadastro, Length: 2043506, dtype: datetime64[ns]

In [121]:
df_cleaned['data_de_cadastro'] = pd.to_datetime(df_cleaned['data_de_cadastro'], format="%d/%m/%Y %H:%M", errors="coerce")

## Standardizing Categorical Data

In [None]:
def lowerCase(category):
    """
    Converts a string category to lowercase, handling NaN values.

    This function checks if the input category is not NaN. If it is a valid string, 
    the function converts the string to lowercase. If the input is NaN, it will 
    return the input unchanged.

    Parameters:
        category (str or NaN): The input category to be converted to lowercase.

    Returns:
        str or NaN: The lowercase version of the input category if it is a valid string; 
                     otherwise, the original input.
    """
    if not pd.isna(category):  
        category = category.lower()
    return category


In [124]:
df_cleaned['canal_de_atendimento'] = df_cleaned['canal_de_atendimento'].apply(lowerCase)

In [125]:
df_cleaned['canal_de_atendimento'].value_counts()

canal_de_atendimento
telefônico            1879023
whatsapp               113464
webchat                 26793
portal                   7990
e-mail                   7381
telegram                 4498
processo sei             1464
mobile dh                 945
presencial                646
aplicativo                614
carta                     301
mobile sabe               126
videochamada              114
ofício                     56
aplicativo/app             17
autuação de ofício          9
mobile gdf                  7
Name: count, dtype: int64

In [None]:
def catReplace(category, mapping_dict, elseCondition=None):
    """
    Replaces a category with a corresponding value from a mapping dictionary.

    This function takes a category and attempts to retrieve its associated value 
    from the provided mapping dictionary. If the category is not found in the 
    dictionary, the function will return an optional alternative value specified 
    by the `elseCondition` parameter.

    Parameters:
        category (str): The category to be looked up in the mapping dictionary.
        mapping_dict (dict): A dictionary that maps categories to their corresponding values.
        elseCondition (optional): A value to return if the category is not found in the mapping_dict. 
                                  Defaults to None.

    Returns:
        The value associated with the category from the mapping dictionary, or the 
        elseCondition if the category is not found.
    """
    return mapping_dict.get(category, elseCondition)


In [127]:
chanelDict={'telefônico': 'telefônico',
            'whatsapp': 'online', 
            'webchat': 'online', 
            'portal': 'online', 
            'e-mail': 'online', 
            'telegram': 'online', 
            'mobile dh': 'online',
            'aplicativo': 'online', 
            'processo sei': 'online', 
            'mobile sabe': 'online', 
            'videochamada': 'online', 
            'aplicativo/app': 'online',
            'mobile gdf': 'online'
}

In [128]:
df_cleaned['canal_de_atendimento'] = df_cleaned['canal_de_atendimento'].apply(lambda x: catReplace(x, chanelDict, 'outros'))

In [129]:
df_cleaned['denuncia_emergencial'] = df_cleaned['denuncia_emergencial'].apply(lowerCase)

In [130]:
df_cleaned['denuncia_emergencial'].value_counts()

denuncia_emergencial
não                                                            1846516
situação flagrante - até 24h da ocorrência - sem frequência     100311
risco iminente de morte da vítima                                92078
vítima em sangramento                                             3946
Name: count, dtype: int64

In [131]:
reportEmergencyDict={
        'não': 'não',
        'situação flagrante - até 24h da ocorrência - sem frequência': 'sim (flagrante)',
        'risco iminente de morte da vítima': 'sim (risco de morte)',
        'vítima em sangramento': 'sim (vítima em sangramento)'   

}

In [132]:
df_cleaned['denuncia_emergencial'] = df_cleaned['denuncia_emergencial'].apply(lambda x: catReplace(x, reportEmergencyDict))

In [133]:
df_cleaned['denunciante']= df_cleaned['denunciante'].apply(lowerCase)

In [134]:
df_cleaned['denunciante'].value_counts()

denunciante
a própria vítima                 1247335
terceiro                          630876
anônimo                           154347
pessoa em sofrimento psíquico       6544
o próprio agressor                  2123
criança/adolescente                 1064
pessoa com deficiência mental        991
Name: count, dtype: int64

In [135]:
informantDict={
    'a própria vítima': 'vítima',
    'terceiro': 'terceiro',
    'criança/adolescente': 'terceiro',
    'anônimo' :'anônimo'
    }

In [136]:
df_cleaned['denunciante'] = df_cleaned['denunciante'].apply(lambda x: catReplace(x, informantDict, 'outros'))

In [137]:
df_cleaned['cenario_da_violacao'] = df_cleaned['cenario_da_violacao'].apply(lowerCase)

In [138]:
df_cleaned['cenario_da_violacao'].value_counts()

cenario_da_violacao
casa onde reside a vítima e o suspeito                  839887
casa da vítima                                          742013
casa do suspeito                                        112949
ambiente virtual (no âmbito da internet)                 99605
via pública                                              53835
outros                                                   36782
local de trabalho da vítima                              32052
casa de familiares                                       20946
estabelecimento de saúde                                 18613
local de trabalho do agressor                            12793
órgãos públicos                                          12008
casa de terceiro                                          9469
estabelecimento comercial                                 8578
instituição de ensino                                     7907
não sabe informar                                         5158
unidade prisional                  

In [139]:
placeDict = {
    'casa onde reside a vítima e o suspeito': 'domiciliar',
    'casa da vítima': 'domiciliar',
    'casa do suspeito': 'domiciliar',
    'casa de familiares': 'domiciliar',
    'casa de terceiro': 'domiciliar',
    'serviço de abrigamento': 'institucional',
    'berçário/creche': 'institucional',
    'unidade de medida socioeducativa': 'institucional',
    'órgãos públicos': 'institucional',
    'instituição de ensino': 'institucional',
    'unidade prisional': 'institucional',
    'centro de referência': 'institucional',
    'instituição financeira': 'institucional',
    'instituição de longa permanência de idoso - ilpi': 'institucional',
    'delegacia de polícia': 'institucional',
    'centro de referência': 'institucional',
    'instituição financeira': 'institucional',
    'ambiente virtual (no âmbito da internet)': 'público',
    'via pública': 'público',
    'local de trabalho da vítima': 'público',
    'local de trabalho do agressor': 'público',
    'estabelecimento comercial': 'público',
    'bar, restaurante, lanchonete': 'público',
    'ambiente de lazer/esporte/entretenimento': 'público',
    'ônibus': 'público',
    'evento público': 'público',
    'loja': 'público',
    'casa noturna': 'público',
    'taxi/transporte aplicativo': 'público',
    'metrô/trem': 'público',
    'shopping': 'público',
    'taxi': 'público',
    'transporte monitorado por aplicativo': 'público',
    'centro de treinamento': 'público',
    'clube esportivo': 'público',
    'transporte aéreo': 'público',
    'transporte marítimo': 'público',
    'cinema': 'público'
}


In [140]:
df_cleaned['cenario_da_violacao'] = df_cleaned['cenario_da_violacao'].apply(lambda x: catReplace(x, placeDict, 'outros'))

In [141]:
df_cleaned['pais'] = df_cleaned['pais'].apply(lowerCase)

In [142]:
df_cleaned['pais'].value_counts()

pais
br | brasil                  1222469
brasil                        818150
fr | frança                      221
it | itália                      190
pt | portugal                    184
                              ...   
catar                              2
do | república dominicana          2
pa | panamá                        1
lu | luxemburgo                    1
turquia                            1
Name: count, Length: 88, dtype: int64

In [None]:
def removePrefix(name):
    """
    Removes a specific prefix from a given string.

    This function checks if the input is a string and attempts to remove a prefix 
    formatted as 'some_text | ' from the beginning of the string. The function uses 
    a regular expression to match the prefix and returns the remaining portion of 
    the string. If the input is not a string or does not match the expected format, 
    the original string (or the trimmed version) is returned.

    Parameters:
        name (str): The input string from which to remove the prefix.

    Returns:
        str: The string without the prefix if matched; otherwise, the trimmed original string.
    """
    if isinstance(name, str):
        match = re.match(r'^\S+\s?\|\s?(.*)$', name.strip())
        if match:
            return match.group(1).strip()
    return str(name).strip()


In [144]:
df_cleaned['pais'] = df_cleaned['pais'].apply(removePrefix)

In [145]:
continentDict = {
    'brasil': 'américa do sul', 'frança': 'europa', 'portugal': 'europa', 
    'estados unidos': 'américa do norte', 'itália': 'europa', 'espanha': 'europa',
    'argentina': 'américa do sul', 'japão': 'ásia', 'reino unido': 'europa',
    'paraguai': 'américa do sul', 'canadá': 'américa do norte', 'bélgica': 'europa',
    'alemanha': 'europa', 'peru': 'américa do sul', 'méxico': 'américa do norte',
    'venezuela': 'américa do sul', 'chile': 'américa do sul', 'suíça': 'europa',
    'equador': 'américa do sul', 'turquia': 'ásia', 'afeganistão': 'ásia',
    'áfrica do sul': 'áfrica', 'suriname': 'américa do sul', 'bolívia': 'américa do sul',
    'austrália': 'oceania', 'hungria': 'europa', 'noruega': 'europa', 'guiana': 'américa do sul',
    'china': 'ásia', 'emirados árabes unidos': 'ásia', 'bielorrússia': 'europa',
    'egito': 'áfrica', 'suécia': 'europa', 'panamá': 'américa central', 'líbano': 'ásia',
    'dinamarca': 'europa', 'aruba': 'américa central', 'líbia': 'áfrica',
    'maldivas': 'ásia', 'república dominicana': 'américa central', 'áustria': 'europa',
    'catar': 'ásia', 'uruguai': 'américa do sul', 'romênia': 'europa', 'islândia': 'europa',
    'malta': 'europa', 'república checa': 'europa', 'países baixos': 'europa', 'índia': 'ásia',
    'tailândia': 'ásia'
}

In [146]:
df_cleaned['continente'] = df_cleaned['pais'].map(continentDict)

In [147]:
df_cleaned['continente'].value_counts()

continente
américa do sul      2040943
europa                 1457
américa do norte        388
ásia                    205
áfrica                   34
américa central          26
oceania                  24
Name: count, dtype: int64

In [148]:
df_cleaned['uf'] = df_cleaned['uf'].apply(lowerCase)

In [149]:
df_cleaned['uf'].value_counts()

uf
sp                                451678
rj                                356884
mg                                198100
ba                                137116
rs                                101792
pe                                 69077
pr                                 68482
go                                 64804
sc                                 61663
ce                                 53547
df                                 46922
pa                                 39838
es                                 38769
am                                 36381
ma                                 35487
ms                                 34930
rn                                 31644
pb                                 28795
al                                 28151
pi                                 26500
denunciante não soube informar     23094
mt                                 19701
se                                 18369
to                                 11659
ro           

In [150]:
ufDict = {
    'sp': 'São Paulo',
    'rj': 'Rio de Janeiro',
    'mg': 'Minas Gerais',
    'ba': 'Bahia',
    'rs': 'Rio Grande do Sul',
    'pr': 'Paraná',
    'pe': 'Pernambuco',
    'go': 'Goiás',
    'sc': 'Santa Catarina',
    'ce': 'Ceará',
    'df': 'Distrito Federal',
    'pa': 'Pará',
    'es': 'Espírito Santo',
    'am': 'Amazonas',
    'ms': 'Mato Grosso do Sul',
    'ma': 'Maranhão',
    'rn': 'Rio Grande do Norte',
    'pb': 'Paraíba',
    'al': 'Alagoas',
    'pi': 'Piauí',
    'se': 'Sergipe',
    'mt': 'Mato Grosso',
    'to': 'Tocantins',
    'ro': 'Rondônia',
    'ap': 'Amapá',
    'ac': 'Acre',
    'rr': 'Roraima',
    'denunciante não soube informar': 'Não Soube Informar',
    'atendimento interrompido': 'Atendimento Interrompido'
}


In [151]:
df_cleaned['uf_name'] = df_cleaned['uf'].apply(lambda x: catReplace(x, ufDict))

In [152]:
df_cleaned['municipio'] = df_cleaned['municipio'].apply(lowerCase)

In [153]:
df_cleaned['municipio'].value_counts()

municipio
rio de janeiro             65361
330455 | rio de janeiro    55893
são paulo                  53552
355030 | são paulo         52509
3550308 | são paulo        33579
                           ...  
bernardo sayão                 1
jacuizinho                     1
4218350 | treviso              1
4127304 | terra rica           1
córrego fundo                  1
Name: count, Length: 13242, dtype: int64

In [154]:
df_cleaned['municipio'] = df_cleaned['municipio'].apply(removePrefix)

In [155]:
df_cleaned['frequencia'] = df_cleaned['frequencia'].apply(lowerCase)

In [156]:
df_cleaned['frequencia'].value_counts()

frequencia
diariamente          1068165
ocasionalmente        357288
única ocorrência      261621
semanalmente          223696
não sabe informar      75832
mensalmente            42681
Name: count, dtype: int64

In [157]:
df_cleaned['inicio_das_violacoes'] = df_cleaned['inicio_das_violacoes'].apply(lowerCase)

In [158]:
df_cleaned['inicio_das_violacoes'].value_counts()

inicio_das_violacoes
há mais de um ano        583890
não se aplica            287021
há um mês                270742
há mais de seis meses    239095
há mais de cinco anos    207971
há mais de dez anos      204027
não sabe informar        134596
há uma semana             87887
Name: count, dtype: int64

In [159]:
startViolation = {
    'há mais de um ano': 'Intermediário',
    'não se aplica': 'Não Aplicável',
    'há um mês': 'Recente',
    'há mais de seis meses': 'Intermediário',
    'há mais de cinco anos': 'Prolongado',
    'há mais de dez anos': 'Prolongado',
    'não sabe informar': 'Prolongado',
    'há uma semana': 'Recente'
}

In [160]:
df_cleaned['inicio_das_violacoes'] = df_cleaned['inicio_das_violacoes'].apply(lambda x: catReplace(x, startViolation))

In [161]:
df_cleaned['grupo_vulneravel'] = df_cleaned['grupo_vulneravel'].apply(lowerCase)

In [162]:
df_cleaned['grupo_vulneravel'].value_counts()

grupo_vulneravel
violência contra a mulher                             1224546
02. violência doméstica e familiar contra a mulher     674870
01. outras violências contra a mulher                  144018
violência doméstica e familiar contra a mulher             51
outras violências contra a mulher                          21
Name: count, dtype: int64

In [163]:
groupDict = {
    'violência contra a mulher': 'Violência contra a Mulher',
    '02. violência doméstica e familiar contra a mulher': 'Violência contra a Mulher',
    '01. outras violências contra a mulher': 'Não especificado',
    'violência doméstica e familiar contra a mulher' : 'Violência contra a Mulher',
    'outras violências contra a mulher': 'Não especificado'
}

In [164]:
df_cleaned['grupo_vulneravel'] = df_cleaned['grupo_vulneravel'].apply(lambda x: catReplace(x, groupDict))

In [165]:
df_cleaned['relacao_vitima_suspeito'] = df_cleaned['relacao_vitima_suspeito'].apply(lowerCase)

In [166]:
df_cleaned['relacao_vitima_suspeito'].value_counts()

relacao_vitima_suspeito
companheiro(a)       257961
ex-companheiro(a)    187692
outros               153339
marido               153148
esposa(o)            133802
                      ...  
bisneto(a)               74
treinador/técnico        70
aluno (a)                70
trisavô(ó)               28
bisavô(ó)                20
Name: count, Length: 76, dtype: int64

In [167]:
maridoRelacionamentoProximo = [
    'companheiro(a)', 'marido', 'ex-companheiro(a)', 'companheiro (a)', 
    'namorado(a)', 'parceiro(a)', 'amante', 'ex-marido', 'ex-namorado(a)', 
    'companheiro(a) da mãe/do pai', 'ex-companheiro(a)',  'ex-esposa(o)', 'esposa(o)', 'companheiro(a)'
]

familiarConhecido = [
    'pai', 'mãe', 'filho(a)', 'irmão(ã)', 'avô(ó)', 'avó', 'sogro(a)', 
    'cunhado(a)', 'primo(a)', 'tio(a)', 'sobrinho(a)', 'genro/nora', 
    'enteado(a)', 'padrasto/madrasta', 'bisavô(ó)', 'trissavô(ó)', 
    'avô(ó)', 'famíliares', 'outros familiares', 'pessoa com quem mantém/manteve convivência familiar', 
    'morou na mesma residência mas não é familiar', 
    'mora na mesma residência mas não é familiar', 'vizinho(a)','amigo(a)', 'amigo(a) da família', 'cuidador(a)',
    'pessoa com quem mantém/manteve convivência familiar', 'morou na mesma residência mas não é familiar',
    'padrinho/madrinha'
]

profissionalHierarquico = [
    'empregador/patrão (hierarquicamente superior)', 'empregado (hierarquicamente inferior)', 
    'professor(a)', 'diretor(a) de escola', 'diretor(a) de unidade prisional', 
    'treinador/técnico', 'colega de trabalho (mesmo nível hierárquico)', 
    'profissional de saúde', 'prestador(a) de serviço', 
    'funcionário, voluntário ou prestador de serviço para instituição', 
    'líder religioso(a)', 'empregado(a) doméstico', 
    
]



relationDict = {
    **{val: 'Marido ou Relacionamento Próximo' for val in maridoRelacionamentoProximo},
    **{val: 'Familiar ou Conhecido' for val in familiarConhecido},
    **{val: 'Profissional ou Hierárquico' for val in profissionalHierarquico},
}

relationDict

{'companheiro(a)': 'Marido ou Relacionamento Próximo',
 'marido': 'Marido ou Relacionamento Próximo',
 'ex-companheiro(a)': 'Marido ou Relacionamento Próximo',
 'companheiro (a)': 'Marido ou Relacionamento Próximo',
 'namorado(a)': 'Marido ou Relacionamento Próximo',
 'parceiro(a)': 'Marido ou Relacionamento Próximo',
 'amante': 'Marido ou Relacionamento Próximo',
 'ex-marido': 'Marido ou Relacionamento Próximo',
 'ex-namorado(a)': 'Marido ou Relacionamento Próximo',
 'companheiro(a) da mãe/do pai': 'Marido ou Relacionamento Próximo',
 'ex-esposa(o)': 'Marido ou Relacionamento Próximo',
 'esposa(o)': 'Marido ou Relacionamento Próximo',
 'pai': 'Familiar ou Conhecido',
 'mãe': 'Familiar ou Conhecido',
 'filho(a)': 'Familiar ou Conhecido',
 'irmão(ã)': 'Familiar ou Conhecido',
 'avô(ó)': 'Familiar ou Conhecido',
 'avó': 'Familiar ou Conhecido',
 'sogro(a)': 'Familiar ou Conhecido',
 'cunhado(a)': 'Familiar ou Conhecido',
 'primo(a)': 'Familiar ou Conhecido',
 'tio(a)': 'Familiar ou Conhe

In [168]:
df_cleaned['relacao_vitima_suspeito'] = df_cleaned['relacao_vitima_suspeito'].apply(lambda x: catReplace(x, relationDict, 'outros'))

In [169]:
df_cleaned['faixa_etaria_da_vitima'] = df_cleaned['faixa_etaria_da_vitima'].apply(lowerCase)

In [170]:
df_cleaned['faixa_etaria_da_vitima'].values

array([nan, '25 a 29 anos', '55 a 59 anos', ..., '50 a 54 anos',
       '50 a 54 anos', '50 a 54 anos'], dtype=object)

In [None]:
def categorizeAgeGroup(val):
    """
    Categorizes an age group based on the provided input value.

    This function checks if the input value contains the character 'a' and ensures that 
    it is not 'não' or other invalid values. If the input is valid, it extracts the 
    minimum age from the value and categorizes it into predefined age groups. 

    Age groups are defined as follows:
        - 'Crianças e Adolescentes (0-17)' for ages 0-17
        - 'Adulto Jovem (18-34)' for ages 18-34
        - 'Adultos (35-59)' for ages 35-59
        - 'Idosos (60+)' for ages 60 and above

    If the input is NaN, invalid, or cannot be parsed as an integer, the function returns 
    'Não Informado'.

    Parameters:
        val (str): The age group input as a string.

    Returns:
        str: The categorized age group or 'Não Informado' if the input is invalid.
    """
    if pd.isna(val) == False:
        if ('a' in val) and (val != 'não') and ('informada' not in val):  
            try:
                min_age = int(val.split()[0])
                if min_age <= 17:
                    return 'Crianças e Adolescentes (0-17)'
                elif min_age >= 18 and min_age <= 34:
                    return 'Adulto Jovem (18-34)'
                elif min_age >= 35 and min_age <= 59:
                    return 'Adultos (35-59)'
                else:
                    return 'Idosos (60+)'
            except ValueError:
                return 'Não Informado'
        else:
            return 'Não Informado'
    else:
        return 'Não Informado'


In [None]:
df_cleaned['faixa_etaria_da_vitima_grupos'] = df_cleaned['faixa_etaria_da_vitima'].apply(categorizeAgeGroup)


In [173]:
df_cleaned['faixa_etaria_da_vitima_grupos']

0                 Não Informado
1          Adulto Jovem (18-34)
2               Adultos (35-59)
3               Adultos (35-59)
4          Adulto Jovem (18-34)
                   ...         
2075303         Adultos (35-59)
2075304         Adultos (35-59)
2075305         Adultos (35-59)
2075306         Adultos (35-59)
2075307         Adultos (35-59)
Name: faixa_etaria_da_vitima_grupos, Length: 2043506, dtype: object

In [174]:
df_cleaned['nacionalidade_da_vitima'] = df_cleaned['nacionalidade_da_vitima'].apply(lowerCase)

In [175]:
df_cleaned['nacionalidade_da_vitima'].value_counts()

nacionalidade_da_vitima
br | brasil              1222791
brasil                    774543
venezuela                    731
ve | venezuela               530
bolívia                      315
                          ...   
za | áfrica do sul             1
kr | coreia do sul             1
albânia                        1
pa | panamá                    1
são cristóvão e neves          1
Name: count, Length: 98, dtype: int64

In [176]:
df_cleaned['nacionalidade_da_vitima'] = df_cleaned['nacionalidade_da_vitima'].apply(removePrefix)

In [177]:
df_cleaned['pais_da_vitima'] = df_cleaned['pais_da_vitima'].apply(lowerCase)

In [178]:
df_cleaned['pais_da_vitima'].value_counts()

pais_da_vitima
br | brasil                  1223119
brasil                        818003
us | estados unidos              183
pt | portugal                    181
frança                           162
                              ...   
turquia                            2
namíbia                            2
do | república dominicana          2
finlândia                          1
th | tailândia                     1
Name: count, Length: 83, dtype: int64

In [179]:
df_cleaned['pais_da_vitima'] = df_cleaned['pais_da_vitima'].apply(removePrefix)

In [180]:
      
df_cleaned['uf_da_vitima'] = df_cleaned['uf_da_vitima'].apply(lowerCase)       

In [181]:
df_cleaned['uf_da_vitima'].value_counts()

uf_da_vitima
sp                                461795
rj                                366312
mg                                202179
ba                                138279
rs                                103716
pe                                 70731
pr                                 70089
go                                 66721
sc                                 62906
ce                                 54738
df                                 48133
pa                                 40361
es                                 39715
am                                 37095
ms                                 35954
ma                                 35904
rn                                 32204
pb                                 29553
al                                 28780
pi                                 27093
mt                                 20117
se                                 18748
denunciante não soube informar     11955
to                                 11852
ro 

In [182]:
df_cleaned['uf_da_vitima_name'] = df_cleaned['uf_da_vitima'].apply(lambda x: catReplace(x, ufDict))

In [183]:
df_cleaned['municipio_da_vitima'] = df_cleaned['municipio_da_vitima'].apply(lowerCase)       

In [184]:
df_cleaned['municipio_da_vitima'].value_counts()

municipio_da_vitima
rio de janeiro             69139
330455 | rio de janeiro    56456
são paulo                  56173
355030 | são paulo         53449
3550308 | são paulo        33889
                           ...  
palmeira dos índios            1
pindaré mirim                  1
520360 | brazabrantes          1
cruzeta                        1
3555901 | uru                  1
Name: count, Length: 13257, dtype: int64

In [185]:
df_cleaned['municipio_da_vitima'] = df_cleaned['municipio_da_vitima'].apply(removePrefix)

In [186]:
df_cleaned['raca_cor_da_vitima'] = df_cleaned['raca_cor_da_vitima'].apply(lowerCase)

In [187]:
df_cleaned['raca_cor_da_vitima'].value_counts()

raca_cor_da_vitima
parda            829703
branca           738108
preta            251735
não informado     72865
amarela           12872
indígena           8171
Name: count, dtype: int64

In [188]:
df_cleaned

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,pais_do_suspeito,uf_do_suspeito,sl_suspeito_municipio,profissao_do_suspeito,raca_cor_do_suspeito,violacao,continente,uf_name,faixa_etaria_da_vitima_grupos,uf_da_vitima_name
0,2020-07-02 14:18:00,telefônico,não,vítima,domiciliar,brasil,ba,simões filho,diariamente,Intermediário,...,BRASIL,BA,SIMÕES FILHO,,,LIBERDADE>DIREITOS INDIVIDUAIS>LIBERDADE DE IR...,américa do sul,Bahia,Não Informado,Bahia
1,2020-07-03 20:14:00,telefônico,não,terceiro,domiciliar,brasil,df,brasília,semanalmente,Intermediário,...,BRASIL,DF,BRASÍLIA,,BRANCA,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO,américa do sul,Distrito Federal,Adulto Jovem (18-34),Distrito Federal
2,2020-07-15 19:31:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,diariamente,Prolongado,...,BRASIL,CE,GRAÇA,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO,américa do sul,Ceará,Adultos (35-59),Ceará
3,2020-07-15 14:21:00,telefônico,não,terceiro,domiciliar,brasil,pi,bom princípio do piauí,ocasionalmente,Intermediário,...,BRASIL,PI,BOM PRINCÍPIO DO PIAUÍ,,,INTEGRIDADE>FÍSICA>AGRESSÃO ou VIAS DE FATO,américa do sul,Piauí,Adultos (35-59),Piauí
4,2020-07-07 17:41:00,telefônico,não,vítima,público,brasil,am,manaus,diariamente,Intermediário,...,BRASIL,AM,MANAUS,,,INTEGRIDADE>FÍSICA>EXPOSIÇÃO DE RISCO À SAÚDE,américa do sul,Amazonas,Adulto Jovem (18-34),Amazonas
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2075303,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,BR | BRASIL,CE,2304400 | FORTALEZA,OUTROS NÃO LISTADOS,BRANCA,INTEGRIDADE>PSÍQUICA>INJÚRIA,américa do sul,Ceará,Adultos (35-59),Ceará
2075304,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,LIBERDADE>DIREITOS INDIVIDUAIS>AUTONOMIA DE VO...,américa do sul,Ceará,Adultos (35-59),Ceará
2075305,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,INTEGRIDADE>PSÍQUICA>DIFAMAÇÃO,américa do sul,Ceará,Adultos (35-59),Ceará
2075306,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,BR | BRASIL,CE,2304400 | FORTALEZA,DOMÉSTICO/FAXINEIRO,BRANCA,INTEGRIDADE>PSÍQUICA>AMEAÇA ou COAÇÃO,américa do sul,Ceará,Adultos (35-59),Ceará


In [189]:
df_cleaned.columns

Index(['data_de_cadastro', 'canal_de_atendimento', 'denuncia_emergencial',
       'denunciante', 'cenario_da_violacao', 'pais', 'uf', 'municipio',
       'frequencia', 'inicio_das_violacoes', 'grupo_vulneravel', 'motivacao',
       'relacao_vitima_suspeito', 'faixa_etaria_da_vitima',
       'nacionalidade_da_vitima', 'pais_da_vitima', 'uf_da_vitima',
       'municipio_da_vitima', 'raca_cor_da_vitima', 'genero_do_suspeito',
       'faixa_etaria_do_suspeito', 'suspeito_nacionalidade',
       'pais_do_suspeito', 'uf_do_suspeito', 'sl_suspeito_municipio',
       'profissao_do_suspeito', 'raca_cor_do_suspeito', 'violacao',
       'continente', 'uf_name', 'faixa_etaria_da_vitima_grupos',
       'uf_da_vitima_name'],
      dtype='object')

In [190]:
df_cleaned['motivacao'] = df_cleaned['motivacao'].apply(lowerCase)

In [191]:
df_cleaned['motivacao'].unique()

array(['em razão de conflito de ideias', 'em razão do sexo biológico',
       'em razão de quaisquer formas de discriminação',
       'em razão da idade',
       'do agressor possuir influência junto às autoridades locais',
       'na relação familiar',
       'em razão de condições físicas, sensoriais, intelectuais ou mentais',
       'com humilhação',
       'da coabitação/ convivência familiar/ relação afetiva',
       'em razão de orientação sexual/ ideologia de gênero',
       'com vítima em situação de rua', 'resultando em lesão gravíssima',
       'para obtenção de benefício financeiro/ ganância',
       'em razão de ser mulher', 'resultando em lesão grave',
       'com resultado morte',
       'na forma de auxílio/instigação/induzimento/incitação',
       'por motivo vil, torpe, insidioso, cruel, à traição, ou por dinheiro',
       'resultando em lesão leve', nan, 'valendo-se da hospitalidade',
       'por violência institucional', 'com fins corretivos',
       'em razão da rel

In [None]:
motivationGroups = {
    # Group 1: Social and Identity Motivations
    'em razão de conflito de ideias': 'Motivações Sociais e Identitárias',
    'em razão do sexo biológico': 'Motivações Sociais e Identitárias',
    'em razão de quaisquer formas de discriminação': 'Motivações Sociais e Identitárias',
    'em razão da idade': 'Motivações Sociais e Identitárias',
    'em razão de condições físicas, sensoriais, intelectuais ou mentais': 'Motivações Sociais e Identitárias',
    'em razão de orientação sexual/ ideologia de gênero': 'Motivações Sociais e Identitárias',
    'em razão de ser mulher': 'Motivações Sociais e Identitárias',
    'em razão da religião': 'Motivações Sociais e Identitárias',
    'em razão de ser policial/militar*/demais agente de segurança pública': 'Motivações Sociais e Identitárias',
    'em razão da etnia': 'Motivações Sociais e Identitárias',
    'em razão da origem': 'Motivações Sociais e Identitárias',
    'em razão de raça/cor': 'Motivações Sociais e Identitárias',
    'em razão de ser comunicador social': 'Motivações Sociais e Identitárias',
    'em razão de discurso de ódio': 'Motivações Sociais e Identitárias',

    # Group 2: Economic Motivations and Power Relations
    'para obtenção de benefício financeiro/ganância': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de exploração sexual': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de exploração do trabalho.doméstico': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de exploração do trabalho.informal': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de exploração do trabalho.rural': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de exploração do trabalho.comércio/ indústria': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de adoção': 'Motivações Econômicas e Relacionadas ao Poder',
    'para fins de remoção de órgãos/tráfico de órgãos': 'Motivações Econômicas e Relacionadas ao Poder',
    'do agressor possuir influência junto às autoridades locais': 'Motivações Econômicas e Relacionadas ao Poder',
    'por motivo vil, torpe, insidioso, cruel, à traição, ou por dinheiro': 'Motivações Econômicas e Relacionadas ao Poder',
    'em descumprimento de medida protetiva': 'Motivações Econômicas e Relacionadas ao Poder',
    
    # Group 3: Family Context and Social Interaction
    'na relação familiar': 'Contexto Familiar e Convivência',
    'da coabitação/ convivência familiar/ relação afetiva': 'Contexto Familiar e Convivência',
    'valendo-se da hospitalidade': 'Contexto Familiar e Convivência',
    'em razão da relação de ensino': 'Contexto Familiar e Convivência',
    'em razão da profissão': 'Contexto Familiar e Convivência',
    
    # Group 4: Environmental Violence and Agrarian Conflicts
    'por conflito agrário.de expansão urbana': 'Violências Ambientais e Conflitos Agrários',
    'por conflito agrário.de garimpagem': 'Violências Ambientais e Conflitos Agrários',
    'por conflito agrário.de comunidades tradicionais': 'Violências Ambientais e Conflitos Agrários',
    'por crime ambiental.com fins de extrativismo.mineral': 'Violências Ambientais e Conflitos Agrários',
    'por crime ambiental.para expansão urbana': 'Violências Ambientais e Conflitos Agrários',
    'por crime ambiental.com fins de extrativismo.vegetal': 'Violências Ambientais e Conflitos Agrários',
    'motivação.na regularização fundiária': 'Violências Ambientais e Conflitos Agrários',
    'motivação.por conflito agrário': 'Violências Ambientais e Conflitos Agrários',
    'motivação.por crime ambiental': 'Violências Ambientais e Conflitos Agrários',
    
    # Adding some combinations of more complex motivations for the group that applies the most.
    'agravante.com humilhação,agravante.da coabitação/convivência familiar/relação afetiva,agravante.por motivo vil, torpe, insidioso, cruel, à traição, ou por dinheiro,motivação.em razão de ser mulher': 'Contexto Familiar e Convivência',
    'agravante.com humilhação,agravante.por motivo vil, torpe, insidioso, cruel, à traição, ou por dinheiro,agravante.resultando em lesão,motivação.em razão da profissão,motivação.em razão de conflito de ideias,motivação.em razão de ser mulher': 'Motivações Econômicas e Relacionadas ao Poder',
    'agravante.na relação familiar,agravante.por condutas excessivas/desnecessárias/desaconselhadas,motivação.em razão da idade,motivação.em razão de conflito de ideias': 'Contexto Familiar e Convivência',
    'agravante.na relação familiar,agravante.por condutas excessivas/desnecessárias/desaconselhadas,motivação.em razão de condições físicas, sensoriais, intelectuais ou mentais,motivação.em razão de ser mulher': 'Contexto Familiar e Convivência',
}

In [193]:
df_cleaned['motivacao'] = df_cleaned['motivacao'].apply(lambda x: catReplace(x, motivationGroups, 'outros'))

In [194]:
df_cleaned['genero_do_suspeito'] = df_cleaned['genero_do_suspeito'].apply(lowerCase)

In [195]:
df_cleaned['genero_do_suspeito'].value_counts()

genero_do_suspeito
masculino                                    1581209
feminino                                      315738
não informado                                  20479
não se aplica - vítima comunidade/família       2901
intersexo                                        264
Name: count, dtype: int64

In [196]:
df_cleaned['faixa_etaria_do_suspeito'] = df_cleaned['faixa_etaria_do_suspeito'].apply(lowerCase)

In [197]:
df_cleaned['faixa_etaria_do_suspeito'].value_counts()

faixa_etaria_do_suspeito
40 a 44 anos                               248555
35 a 39 anos                               239407
30 a 34 anos                               232783
25 a 29 anos                               200651
45 a 49 anos                               170505
50 a 54 anos                               155521
20 a 24 anos                               131298
55 a 59 anos                                93755
não informado                               83070
60 a 64 anos                                75559
65 a 69 anos                                32798
18 a 19 anos                                23864
70 a 74 anos                                23313
75 a 79 anos                                10556
80 a 84 anos                                 5625
15 a 17 anos                                 5325
17 anos                                      4013
16 anos                                      3426
15 anos                                      2485
14 anos                  

In [None]:
df_cleaned['faixa_etaria_suspeito_grupos'] = df_cleaned['faixa_etaria_do_suspeito'].apply(categorizeAgeGroup)

In [199]:
df_cleaned['faixa_etaria_suspeito_grupos'].value_counts()

faixa_etaria_suspeito_grupos
Adultos (35-59)                   907743
Adulto Jovem (18-34)              588596
Não Informado                     375481
Idosos (60+)                      149318
Crianças e Adolescentes (0-17)     22368
Name: count, dtype: int64

In [200]:
df_cleaned['suspeito_nacionalidade'] = df_cleaned['suspeito_nacionalidade'].apply(lowerCase)

In [201]:
df_cleaned['suspeito_nacionalidade'].value_counts()

suspeito_nacionalidade
br | brasil       1220710
brasil             744198
venezuela             552
ve | venezuela        414
bolívia               343
                   ...   
panamá                  1
roménia                 1
austrália               1
maurícia                1
hungria                 1
Name: count, Length: 157, dtype: int64

In [202]:
df_cleaned['suspeito_nacionalidade'] = df_cleaned['suspeito_nacionalidade'].apply(removePrefix)

In [203]:
df_cleaned['pais_do_suspeito'] = df_cleaned['pais_do_suspeito'].apply(lowerCase)

In [204]:
df_cleaned['pais_do_suspeito'].value_counts()

pais_do_suspeito
br | brasil            1220868
brasil                  816948
us | estados unidos        583
pt | portugal              530
fr | frança                350
                        ...   
ucrânia                      1
ug | uganda                  1
maurícia                     1
th | tailândia               1
polônia                      1
Name: count, Length: 132, dtype: int64

In [205]:
df_cleaned['pais_do_suspeito'] = df_cleaned['pais_do_suspeito'].apply(removePrefix)

In [206]:
df_cleaned['uf_do_suspeito'] = df_cleaned['uf_do_suspeito'].apply(lowerCase)

In [207]:
df_cleaned['uf_do_suspeito'].value_counts()

uf_do_suspeito
sp                                442257
rj                                350609
mg                                195010
ba                                134945
rs                                100409
pr                                 67289
pe                                 67038
go                                 63200
denunciante não soube informar     62457
sc                                 60352
ce                                 52179
df                                 46172
pa                                 39352
es                                 38104
am                                 35910
ma                                 34897
ms                                 34721
rn                                 31318
pb                                 28679
al                                 27640
pi                                 26185
mt                                 19194
se                                 18155
to                                 11614
r

In [208]:
df_cleaned['uf_do_suspeito_name'] = df_cleaned['uf_do_suspeito'].apply(lambda x: catReplace(x, ufDict, 'outros'))

In [209]:
df_cleaned['sl_suspeito_municipio'] = df_cleaned['sl_suspeito_municipio'].apply(lowerCase)

In [210]:
df_cleaned['sl_suspeito_municipio'].value_counts()

sl_suspeito_municipio
rio de janeiro                    67953
denunciante não soube informar    64597
330455 | rio de janeiro           55173
são paulo                         55058
355030 | são paulo                50509
                                  ...  
teotônio vilela                       1
flora rica                            1
são josé dos basílios                 1
santa mercedes                        1
3555901 | uru                         1
Name: count, Length: 13345, dtype: int64

In [211]:
df_cleaned['sl_suspeito_municipio'] = df_cleaned['sl_suspeito_municipio'].apply(removePrefix)

In [212]:
df_cleaned['raca_cor_do_suspeito'] = df_cleaned['raca_cor_do_suspeito'].apply(lowerCase)

In [213]:
df_cleaned['raca_cor_do_suspeito'].value_counts()

raca_cor_do_suspeito
branca           586276
parda            569535
preta            228957
não informado     74166
amarela            7287
indígena           4622
indígena              7
Name: count, dtype: int64

In [214]:
df_cleaned['violacao'] = df_cleaned['violacao'].apply(lowerCase)

In [215]:
df_cleaned['violacao'].unique()

array(['liberdade>direitos individuais>liberdade de ir vir permanecer',
       'integridade>psíquica>ameaça ou coação',
       'integridade>física>agressão ou vias de fato',
       'integridade>física>exposição de risco à saúde', nan,
       'integridade>física>maus tratos', 'vida>homicídio',
       'integridade>física>lesão corporal', 'segurança>física',
       'integridade>psíquica>insubsistência afetiva',
       'integridade>psíquica>constrangimento',
       'integridade>psíquica>calúnia',
       'integridade>física>insubsistência material',
       'integridade>psíquica>tortura psíquica',
       'integridade>psíquica>injúria', 'liberdade>sexual>física>estupro',
       'integridade>física>insubsistência intelectual',
       'integridade>física>tortura física',
       'liberdade>direitos individuais>cárcere privado',
       'integridade>física>outros',
       'liberdade>sexual>psíquica>abuso / importunação sexual psíquica',
       'integridade>psíquica>exposição',
       'integridade>

In [216]:
violDict = {
    'liberdade>direitos individuais>liberdade de ir vir permanecer': 'Liberdade e Direitos Individuais',
    'integridade>psíquica>ameaça ou coação': 'Integridade Física e Psíquica',
    'integridade>física>agressão ou vias de fato': 'Integridade Física e Psíquica',
    'integridade>física>exposição de risco à saúde': 'Integridade Física e Psíquica',
    'integridade>física>maus tratos': 'Integridade Física e Psíquica',
    'vida>homicídio': 'Vida, Meio Ambiente e Igualdade',
    'integridade>física>lesão corporal': 'Integridade Física e Psíquica',
    'segurança>física': 'Integridade Física e Psíquica',
    'integridade>psíquica>insubsistência afetiva': 'Integridade Física e Psíquica',
    'integridade>psíquica>constrangimento': 'Integridade Física e Psíquica',
    'integridade>psíquica>calúnia': 'Integridade Física e Psíquica',
    'integridade>física>insubsistência material': 'Integridade Física e Psíquica',
    'integridade>psíquica>tortura psíquica': 'Integridade Física e Psíquica',
    'integridade>psíquica>injúria': 'Integridade Física e Psíquica',
    'liberdade>sexual>física>estupro': 'Liberdade e Direitos Individuais',
    'integridade>física>insubsistência intelectual': 'Integridade Física e Psíquica',
    'integridade>física>tortura física': 'Integridade Física e Psíquica',
    'liberdade>direitos individuais>cárcere privado': 'Liberdade e Direitos Individuais',
    'integridade>física>outros': 'Integridade Física e Psíquica',
    'liberdade>sexual>psíquica>abuso / importunação sexual psíquica': 'Liberdade e Direitos Individuais',
    'integridade>psíquica>exposição': 'Integridade Física e Psíquica',
    'integridade>patrimonial>individual': 'Integridade Física e Psíquica',
    'integridade>psíquica>exposição (erotização)': 'Integridade Física e Psíquica',
    'segurança>psíquica': 'Integridade Física e Psíquica',
    'liberdade>sexual>física>abuso / importunação sexual física': 'Liberdade e Direitos Individuais',
    'integridade>psíquica>difamação': 'Integridade Física e Psíquica',
    'liberdade>direitos individuais>autonomia de vontade': 'Liberdade e Direitos Individuais',
    'direitos sociais>alimentação': 'Direitos Civis, Políticos e Sociais',
    'integridade>patrimonial>coletivo': 'Integridade Física e Psíquica',
    'meio ambiente>água': 'Vida, Meio Ambiente e Igualdade',
    'direitos civis e políticos>propriedade>patrimônio material': 'Direitos Civis, Políticos e Sociais',
    'integridade>física>situação de rua ou abandono material': 'Integridade Física e Psíquica',
    'liberdade>sexual>psíquica>assédio sexual': 'Liberdade e Direitos Individuais',
    'direitos sociais>assistência aos desamparados': 'Direitos Civis, Políticos e Sociais',
    'direitos civis e políticos>retenção de documentos': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>moradia': 'Direitos Civis, Políticos e Sociais',
    'segurança>econômica': 'Integridade Física e Psíquica',
    'liberdade>direitos individuais>sequestro': 'Liberdade e Direitos Individuais',
    'vida>incitação ao suicídio': 'Vida, Meio Ambiente e Igualdade',
    'direitos sociais>lazer': 'Direitos Civis, Políticos e Sociais',
    'meio ambiente>ar': 'Vida, Meio Ambiente e Igualdade',
    'direitos civis e políticos>livre exercício do poder familiar': 'Direitos Civis, Políticos e Sociais',
    'integridade>psíquica>bullying': 'Integridade Física e Psíquica',
    'liberdade>de religião ou crença>de crença': 'Liberdade e Direitos Individuais',
    'direitos sociais>segurança': 'Direitos Civis, Políticos e Sociais',
    'liberdade>sexual>física>exploração sexual': 'Liberdade e Direitos Individuais',
    'direitos sociais>proteção à maternidade': 'Direitos Civis, Políticos e Sociais',
    'vida>aborto': 'Vida, Meio Ambiente e Igualdade',
    'integridade>física>violência obstétrica': 'Integridade Física e Psíquica',
    'liberdade>laboral>exploração do trabalho': 'Liberdade e Direitos Individuais',
    'direitos sociais>previdência social': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>saúde': 'Direitos Civis, Políticos e Sociais',
    'direitos civis e políticos>propriedade>patrimônio genético': 'Direitos Civis, Políticos e Sociais',
    'liberdade>de religião ou crença>de culto': 'Liberdade e Direitos Individuais',
    'liberdade>de religião ou crença>não crença': 'Liberdade e Direitos Individuais',
    'vida>suicídio': 'Vida, Meio Ambiente e Igualdade',
    'liberdade>direitos individuais>condição análoga à de escravo>transportar trabalhador para fins de exploração': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>propriedade>patrimônio imaterial': 'Direitos Civis, Políticos e Sociais',
    'direitos civis e políticos>acesso à informação': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>condição análoga à de escravo>submeter trabalhador a trabalhos forçados': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>nacionalidade': 'Direitos Civis, Políticos e Sociais',
    'meio ambiente>solo': 'Vida, Meio Ambiente e Igualdade',
    'liberdade>expressão>liberdade de consciência e de pensamento': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>tráfico de pessoas - nacional': 'Liberdade e Direitos Individuais',
    'direitos sociais>trabalho': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>tráfico de pessoas - internacional': 'Liberdade e Direitos Individuais',
    'integridade>psíquica>assédio moral': 'Integridade Física e Psíquica',
    'liberdade>direitos individuais>extorsão mediante sequestro': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>memória e verdade': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>condição análoga à de escravo>submeter trabalhador a jornada exaustiva': 'Liberdade e Direitos Individuais',
    'vida>automutilaçao': 'Vida, Meio Ambiente e Igualdade',
    'ni': 'Outros',
    'liberdade>direitos individuais>condição análoga à de escravo>sujeitar trabalhador a condições degradantes': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>direitos de reprodução': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>votar e ser votado': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>proteção à infância': 'Direitos Civis, Políticos e Sociais',
    'integridade>psíquica>alienação parental': 'Integridade Física e Psíquica',
    'liberdade>direitos individuais>condição análoga à de escravo>restrigir a locomoção de trabalhador em razão de dívida': 'Liberdade e Direitos Individuais',
    'meio ambiente>fauna': 'Vida, Meio Ambiente e Igualdade',
    'direitos civis e políticos>participação/democracia': 'Direitos Civis, Políticos e Sociais',
    'integridade>patrimonial>cultural': 'Direitos Civis, Políticos e Sociais',
    'meio ambiente>flora': 'Vida, Meio Ambiente e Igualdade',
    'direitos sociais>educação': 'Direitos Civis, Políticos e Sociais',
    'direitos civis e políticos>cultural': 'Direitos Civis, Políticos e Sociais',
    'liberdade>expressão>liberdade de imprensa': 'Liberdade e Direitos Individuais',
    'direitos sociais>transporte': 'Direitos Civis, Políticos e Sociais',
    'vida>genocídio': 'Vida, Meio Ambiente e Igualdade',
    'liberdade>expressão>liberdade acadêmica (cátedra)': 'Liberdade e Direitos Individuais',
    'liberdade>expressão>liberdade cientifica': 'Liberdade e Direitos Individuais',
    'liberdade>laboral>impedimento de trabalho/ofício/profissão': 'Liberdade e Direitos Individuais',
    'integridade>negligência': 'Integridade Física e Psíquica',
    'integridade>física>abandono': 'Integridade Física e Psíquica',
    'direitos sociais>trabalho>constrangimento no ambiente profissional/punição por meios dissimulados': 'Direitos Civis, Políticos e Sociais',
    'liberdade>sexual>psíquica>abuso sexual psíquico': 'Liberdade e Direitos Individuais',
    'igualdade>racismo': 'Vida, Meio Ambiente e Igualdade',
    'liberdade>direitos individuais>stalking': 'Liberdade e Direitos Individuais',
    'igualdade>injúria racial': 'Vida, Meio Ambiente e Igualdade',
    'liberdade>sexual>física>abuso sexual físico': 'Liberdade e Direitos Individuais',
    'vida>feminicídio': 'Vida, Meio Ambiente e Igualdade',
    'igualdade>discriminação': 'Vida, Meio Ambiente e Igualdade',
    'direitos sociais>trabalho>práticas institucionais que violam direitos humanos>procedimentos explícitos em protocolos ou manuais não coerentes com os direitos humanos': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>trabalho>práticas institucionais que violam direitos humanos>incitação ou constrangimento a comportamentos não coerentes com os direitos humanos': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>condição análoga à de escravo>restringir a locomoção de trabalhador em razão de dívida': 'Liberdade e Direitos Individuais',
    'direitos sociais>trabalho>negligência intitucional>condições de trabalho indignas ou degradantes': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>trabalho>negligência intitucional>exposição excessiva a risco de integridade do profissional ou de seus familiares': 'Direitos Civis, Políticos e Sociais',
    'direitos sociais>trabalho>negligência intitucional>omissão de atendimento a sofrimento psíquico': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>condição análoga à de escravo>transportar trabalhador para fins de exploração': 'Liberdade e Direitos Individuais',
    'integridade>física>agressão ou vias de fato,integridade>física>exposição de risco à saúde,integridade>física': 'Integridade Física e Psíquica',
    'integridade>física>agressão ou vias de fato,integridade>física>lesão corporal,integridade>psíquica': 'Integridade Física e Psíquica',
    'vida>automutilaçao': 'Vida, Meio Ambiente e Igualdade',
    'direitos sociais>trabalho>negligência intitucional>omissão de atendimento a doenças ocupacionais': 'Direitos Civis, Políticos e Sociais',
    'integridade>psíquica>assédio moral,integridade>psíquica>calúnia,integridade>psíquica': 'Integridade Física e Psíquica',
    'direitos sociais>trabalho>negligência intitucional>omissão de atendimento a ideação suicida': 'Direitos Civis, Políticos e Sociais',
    'integridade>física>agressão ou vias de fato,integridade>psíquica>ameaça ou coação,integridade>psíquica': 'Integridade Física e Psíquica',
    'direitos sociais>trabalho>negligência intitucional>omissão de apoio à família em caso de morte': 'Direitos Civis, Políticos e Sociais',
    'integridade>física>agressão ou vias de fato,integridade>física>exposição de risco à saúde,integridade>psíquica': 'Integridade Física e Psíquica',
    'integridade>física>exposição de risco à saúde,integridade>física>lesão corporal,integridade>psíquica': 'Integridade Física e Psíquica',
    'integridade>física>exposição de risco à saúde,integridade>psíquica>ameaça ou coação,integridade>psíquica': 'Integridade Física e Psíquica',
    'integridade>negligência,integridade>psíquica>ameaça ou coação,integridade>psíquica>constrangimento,integridade': 'Integridade Física e Psíquica',
    'integridade>física>agressão ou vias de fato,integridade>física>exposição de risco à saúde,integridade>patrimonial': 'Integridade Física e Psíquica',
    'liberdade>sexual>importunação sexual': 'Liberdade e Direitos Individuais',
    'liberdade>sexual>estupro de vulnerável': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>violência politíca de gênero e contra as mulheres': 'Direitos Civis, Políticos e Sociais',
    'igualdade>injúria racial e étnica': 'Vida, Meio Ambiente e Igualdade',
    'violência institucional>em razão de ser policial/militar/demais agente de segurança pública': 'Outros',
    'violência institucional': 'Outros',
    'liberdade>direitos individuais>falta de acessibilidade>no espaço edificado': 'Liberdade e Direitos Individuais',
    'liberdade>sexual>estupro de vulnerável>pedofilia': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>falta de acessibilidade>na comunicação': 'Liberdade e Direitos Individuais',
    'liberdade>laboral>para fins de exploração do trabalho>doméstico': 'Liberdade e Direitos Individuais',
    'liberdade>sexual>estupro virtual': 'Liberdade e Direitos Individuais',
    'direitos civis e políticos>violência politíca étnico/racial': 'Direitos Civis, Políticos e Sociais',
    'liberdade>direitos individuais>falta de acessibilidade>no espaço urbano': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>falta de acessibilidade>nos sistemas de comunicação ou de tecnologia da informação': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>falta de acessibilidade>nos meios de transporte': 'Liberdade e Direitos Individuais',
    'liberdade>sexual>estupro corretivo': 'Liberdade e Direitos Individuais',
    'liberdade>sexual>violência sexual mediante fraude': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>tráfico de mulheres - internacional': 'Liberdade e Direitos Individuais',
    'liberdade>direitos individuais>tráfico de mulheres - nacional': 'Liberdade e Direitos Individuais'
}

In [217]:
df_cleaned['violacao'] = df_cleaned['violacao'].apply(lambda x: catReplace(x, violDict))

In [218]:
df_cleaned['violacao'].value_counts()

violacao
Integridade Física e Psíquica          1792835
Liberdade e Direitos Individuais        112022
Direitos Civis, Políticos e Sociais      36260
Vida, Meio Ambiente e Igualdade          12654
Outros                                    1201
Name: count, dtype: int64

In [219]:
df_cleaned.head()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,sl_suspeito_municipio,profissao_do_suspeito,raca_cor_do_suspeito,violacao,continente,uf_name,faixa_etaria_da_vitima_grupos,uf_da_vitima_name,faixa_etaria_suspeito_grupos,uf_do_suspeito_name
0,2020-07-02 14:18:00,telefônico,não,vítima,domiciliar,brasil,ba,simões filho,diariamente,Intermediário,...,simões filho,,,Liberdade e Direitos Individuais,américa do sul,Bahia,Não Informado,Bahia,Não Informado,Bahia
1,2020-07-03 20:14:00,telefônico,não,terceiro,domiciliar,brasil,df,brasília,semanalmente,Intermediário,...,brasília,,branca,Integridade Física e Psíquica,américa do sul,Distrito Federal,Adulto Jovem (18-34),Distrito Federal,Adulto Jovem (18-34),Distrito Federal
2,2020-07-15 19:31:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,diariamente,Prolongado,...,graça,,,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Adultos (35-59),Ceará
3,2020-07-15 14:21:00,telefônico,não,terceiro,domiciliar,brasil,pi,bom princípio do piauí,ocasionalmente,Intermediário,...,bom princípio do piauí,,,Integridade Física e Psíquica,américa do sul,Piauí,Adultos (35-59),Piauí,Adulto Jovem (18-34),Piauí
4,2020-07-07 17:41:00,telefônico,não,vítima,público,brasil,am,manaus,diariamente,Intermediário,...,manaus,,,Integridade Física e Psíquica,américa do sul,Amazonas,Adulto Jovem (18-34),Amazonas,Adultos (35-59),Amazonas


In [220]:
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2043506 entries, 0 to 2075307
Data columns (total 34 columns):
 #   Column                         Dtype         
---  ------                         -----         
 0   data_de_cadastro               datetime64[ns]
 1   canal_de_atendimento           object        
 2   denuncia_emergencial           object        
 3   denunciante                    object        
 4   cenario_da_violacao            object        
 5   pais                           object        
 6   uf                             object        
 7   municipio                      object        
 8   frequencia                     object        
 9   inicio_das_violacoes           object        
 10  grupo_vulneravel               object        
 11  motivacao                      object        
 12  relacao_vitima_suspeito        object        
 13  faixa_etaria_da_vitima         object        
 14  nacionalidade_da_vitima        object        
 15  pais_da_vitima      

In [None]:
df_cleaned.tail()

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,sl_suspeito_municipio,profissao_do_suspeito,raca_cor_do_suspeito,violacao,continente,uf_name,faixa_etaria_da_vitima_grupos,uf_da_vitima_name,faixa_etaria_suspeito_grupos,uf_do_suspeito_name
2075303,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,fortaleza,OUTROS NÃO LISTADOS,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará
2075304,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,fortaleza,DOMÉSTICO/FAXINEIRO,branca,Liberdade e Direitos Individuais,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará
2075305,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,fortaleza,DOMÉSTICO/FAXINEIRO,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará
2075306,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,fortaleza,DOMÉSTICO/FAXINEIRO,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará
2075307,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,ce,fortaleza,ocasionalmente,Intermediário,...,fortaleza,DOMÉSTICO/FAXINEIRO,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará


## Adding geographic coordinates

In [222]:
import geobr
municipios = geobr.read_municipality(year=2020)

In [223]:
municipios.head()

Unnamed: 0,code_muni,name_muni,code_state,abbrev_state,name_state,code_region,name_region,geometry
0,1100015.0,Alta Floresta D'oeste,11.0,RO,Rondônia,1.0,Norte,"MULTIPOLYGON (((-62.19465 -11.82746, -62.18945..."
1,1100023.0,Ariquemes,11.0,RO,Rondônia,1.0,Norte,"MULTIPOLYGON (((-62.53648 -9.73222, -62.52765 ..."
2,1100031.0,Cabixi,11.0,RO,Rondônia,1.0,Norte,"MULTIPOLYGON (((-60.37119 -13.36655, -60.37661..."
3,1100049.0,Cacoal,11.0,RO,Rondônia,1.0,Norte,"MULTIPOLYGON (((-61.00080 -11.29737, -61.00103..."
4,1100056.0,Cerejeiras,11.0,RO,Rondônia,1.0,Norte,"MULTIPOLYGON (((-61.49976 -13.00525, -61.49426..."


In [None]:
# Extracting the geometric center of each municipality
municipios['centroid'] = municipios['geometry'].centroid

# Separating latitude and longitude
municipios['latitude'] = municipios['centroid'].y
municipios['longitude'] = municipios['centroid'].x

# Selecting relevant columns
municipiosCoords = municipios[['name_muni', 'abbrev_state', 'latitude', 'longitude']]

# Renaming columns for easier merging
municipiosCoords.rename(columns={
    'name_muni': 'municipio',
    'abbrev_state': 'uf'
}, inplace=True)

# Visualizing the result
municipiosCoords.head()



  municipios['centroid'] = municipios['geometry'].centroid
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  municipiosCoords.rename(columns={


Unnamed: 0,municipio,uf,latitude,longitude
0,Alta Floresta D'oeste,RO,-12.470087,-62.274651
1,Ariquemes,RO,-9.951898,-62.957182
2,Cabixi,RO,-13.474892,-60.639847
3,Cacoal,RO,-11.30123,-61.324713
4,Cerejeiras,RO,-13.203512,-61.260933


In [None]:
df_cleaned['municipio'] = df_cleaned['municipio'].str.strip().str.title()
df_cleaned['uf'] = df_cleaned['uf'].str.strip().str.upper()


In [None]:
# Performing the join based on municipality and state
data_final = pd.merge(df_cleaned, municipiosCoords, on=['municipio', 'uf'], how='left')

# Checking Results
data_final[['municipio', 'uf', 'latitude', 'longitude']].head()


Unnamed: 0,municipio,uf,latitude,longitude
0,Simões Filho,BA,-12.767578,-38.400735
1,Brasília,DF,-15.781116,-47.796866
2,Fortaleza,CE,-3.785736,-38.52804
3,Bom Princípio Do Piauí,PI,-3.157365,-41.630665
4,Manaus,AM,-2.625989,-60.259569


In [None]:
# Counting null values
nullCoords = data_final[data_final['latitude'].isnull() | data_final['longitude'].isnull()]
nullCoords[['municipio', 'uf', 'latitude', 'longitude']]


Unnamed: 0,municipio,uf,latitude,longitude
6,Denunciante Não Soube Informar,CE,,
8,Denunciante Não Soube Informar,MG,,
11,Denunciante Não Soube Informar,AM,,
15,Denunciante Não Soube Informar,RJ,,
18,Denunciante Não Soube Informar,DENUNCIANTE NÃO SOUBE INFORMAR,,
...,...,...,...,...
2043335,Nan,,,
2043336,Nan,,,
2043337,Nan,,,
2043338,Nan,,,


The null values in latitude and longitude reflect missing location information.

In [None]:
# Analyzing the result of the final dataset
data_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2043506 entries, 0 to 2043505
Data columns (total 36 columns):
 #   Column                         Dtype         
---  ------                         -----         
 0   data_de_cadastro               datetime64[ns]
 1   canal_de_atendimento           object        
 2   denuncia_emergencial           object        
 3   denunciante                    object        
 4   cenario_da_violacao            object        
 5   pais                           object        
 6   uf                             object        
 7   municipio                      object        
 8   frequencia                     object        
 9   inicio_das_violacoes           object        
 10  grupo_vulneravel               object        
 11  motivacao                      object        
 12  relacao_vitima_suspeito        object        
 13  faixa_etaria_da_vitima         object        
 14  nacionalidade_da_vitima        object        
 15  pais_da_vitima 

In [230]:
data_final

Unnamed: 0,data_de_cadastro,canal_de_atendimento,denuncia_emergencial,denunciante,cenario_da_violacao,pais,uf,municipio,frequencia,inicio_das_violacoes,...,raca_cor_do_suspeito,violacao,continente,uf_name,faixa_etaria_da_vitima_grupos,uf_da_vitima_name,faixa_etaria_suspeito_grupos,uf_do_suspeito_name,latitude,longitude
0,2020-07-02 14:18:00,telefônico,não,vítima,domiciliar,brasil,BA,Simões Filho,diariamente,Intermediário,...,,Liberdade e Direitos Individuais,américa do sul,Bahia,Não Informado,Bahia,Não Informado,Bahia,-12.767578,-38.400735
1,2020-07-03 20:14:00,telefônico,não,terceiro,domiciliar,brasil,DF,Brasília,semanalmente,Intermediário,...,branca,Integridade Física e Psíquica,américa do sul,Distrito Federal,Adulto Jovem (18-34),Distrito Federal,Adulto Jovem (18-34),Distrito Federal,-15.781116,-47.796866
2,2020-07-15 19:31:00,telefônico,não,vítima,domiciliar,brasil,CE,Fortaleza,diariamente,Prolongado,...,,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Adultos (35-59),Ceará,-3.785736,-38.528040
3,2020-07-15 14:21:00,telefônico,não,terceiro,domiciliar,brasil,PI,Bom Princípio Do Piauí,ocasionalmente,Intermediário,...,,Integridade Física e Psíquica,américa do sul,Piauí,Adultos (35-59),Piauí,Adulto Jovem (18-34),Piauí,-3.157365,-41.630665
4,2020-07-07 17:41:00,telefônico,não,vítima,público,brasil,AM,Manaus,diariamente,Intermediário,...,,Integridade Física e Psíquica,américa do sul,Amazonas,Adulto Jovem (18-34),Amazonas,Adultos (35-59),Amazonas,-2.625989,-60.259569
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2043501,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,CE,Fortaleza,ocasionalmente,Intermediário,...,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará,-3.785736,-38.528040
2043502,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,CE,Fortaleza,ocasionalmente,Intermediário,...,branca,Liberdade e Direitos Individuais,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará,-3.785736,-38.528040
2043503,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,CE,Fortaleza,ocasionalmente,Intermediário,...,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará,-3.785736,-38.528040
2043504,2024-06-30 23:53:00,telefônico,não,vítima,domiciliar,brasil,CE,Fortaleza,ocasionalmente,Intermediário,...,branca,Integridade Física e Psíquica,américa do sul,Ceará,Adultos (35-59),Ceará,Idosos (60+),Ceará,-3.785736,-38.528040


## Export

In [229]:
data_final.to_csv('denuncias.csv', index=False)