## Dissertação: Frederico Gome

**Objetivo:** Limpeza e processamento de dados


**Autor:** Maria Luiza Campos

**Data:** Julho 2025

### Considerações:

• Todos os dados descritos como "anterior ao ano x" na coluna "Anos dos Fatos" foram alterados pra "não informado" na coluna final "anos_fatos". Isso porque a informação de "ser anterior a algum ano" não condiz com a descrição da coluna "anos_fatos", isto é:

"Ano em que houve a consumação de estupro de vulnerável. Estupro de vulnerável é entendido, neste contexo, como qualquer interação
libidinosa com o menor, desde relações sexuais a carícias."

• Todas as linhas na coluna original "Anos dos Fatos" que constam a informação da data do processo original também foram alterados para
"não informado" na coluna final "anos_fatos". O ano em que o processo iniciou não necessariamente condiz com "anos_fatos". 

• Processo 134780 não encontrado no drive. Coluna dos anos se contradiz. Eu troquei pra ser "Não Informado". 

• Processo 1830642 com informações confusas na coluna de anos. 

In [1]:
## Importando bibliotecas

import pandas as pd ## manipulação de dataframes
import numpy as np  ## operações matemáticas simples e complexas
import re ## processamento de strings

## Importando dados

df_raw = pd.read_excel("rawdata.xlsx", engine='openpyxl')
df_raw.head()

Unnamed: 0,Processo,Ano dos Fatos,Ano (Padronizado),Idade da Vítima,Faixa Etária da Vítima,Idade do Réu,Faixa Etária do Réu,Resultado do julgamento,Vínculo Familiar ou Coabitação,Categoria de Vínculo,Coabitação,Presença de Filhos (original),Filhos entre as Partes,Consentimento Familiar,Consentimento da Vítima,Consentimento da Vítima (Padronizado),Aplicação da Súmula 593/STJ ou do Tema 918
0,REsp 1480881 - PI (Tema 918/STJ),2009-2010,2009,11 a 13 anos,11 a 12 anos,Superior a 25 anos,25 a 29 anos,Condenado,Namoro,Afetivo,Não identificado,Não,Não,Sim,Sim,Sim,Sim (tese que originou a Súmula)
1,AgRg no REsp 2033544 - SC,Não especificado (anterior a 2024),2024,11 anos,11 a 12 anos,Aproximadamente 30-31 anos,30 a 34 anos,Condenado,"Namoro (secreto, não constituíram família)",Familiar,Não,Não,Não,Não,Sim,Sim,Sim
2,AgRg no REsp 2112802 - MG,Não especificado (anterior a 2024),2024,13 anos,13 a 14 anos,Não especificada,Não Informado,Condenado,Namoro,Afetivo,Não identificado,Não,Não,Não,Sim,Sim,Sim
3,AgRg no AREsp 2645163 - PR,Não especificado (processo original de 2017),2017,12 anos,11 a 12 anos,Não especificado,Não Informado,Condenado,Sim (relacionamento amoroso/namoro),Afetivo,Não identificado,Não mencionado,Não Informado,Não,Irrelevante (Súmula 593/STJ aplicada),Sim,Sim
4,AgRg no HC 849912 - MG,2018,2018,13 anos,13 a 14 anos,20 anos,20 a 24 anos,Condenado,"Sim (relacionamento amoroso/namoro, não subsiste)",Afetivo,Não,"Sim (uma filha, não registrada pelo réu)",Sim,Não,"Sim, mas irrelevante (Súmula 593/STJ aplicada)",Sim,Sim


In [103]:
## Vamos começar limpando a primeira coluna

print(df_raw['Processo'].head(5))

0    REsp 1480881 - PI (Tema 918/STJ)
1           AgRg no REsp 2033544 - SC
2           AgRg no REsp 2112802 - MG
3          AgRg no AREsp 2645163 - PR
4              AgRg no HC 849912 - MG
Name: Processo, dtype: object


In [2]:
## Vamos criar uma função para limpar a primeira coluna

def extrair_info_processo(valor):
    if pd.isnull(valor) or not isinstance(valor, str):
        return "não informado", "não informado", "não informado"
    
    # Extrai o número de 6 dígitos
    id_proc_match = re.search(r'(\d{6})', valor)
    id_processo = id_proc_match.group(1) if id_proc_match else "não informado"
    
    # Extrai a classe processual (tudo antes do número)
    classe_match = re.search(r'^(.*?)\s*\d{6}', valor)
    classe = classe_match.group(1).strip() if classe_match else "não informado"
    
    # Extrai o estado (duas letras após hífen)
    estado_match = re.search(r'-\s*([A-Z]{2})\b', valor)
    estado = estado_match.group(1) if estado_match else "não informado"
    
    return id_processo, classe, estado

## aplicando a função

## primeiro, vou criar uma cópia do dataframe original

dados = df_raw.copy()

## agora, aplico a função

dados[['ID_processo', 'classe_processual', 'estado']] = dados['Processo'].apply(
    lambda x: pd.Series(extrair_info_processo(x))
)

##visualizando o resultado

print(dados.head(5))

## organizar as colunas

nova_ordem = ['ID_processo', 'classe_processual', 'estado'] + [col for col in dados.columns if col not in ['ID_processo', 'classe_processual', 'estado']]

dados = dados[nova_ordem]

## agora vamos remover a coluna original

dados = dados.drop(columns=['Processo'])

                           Processo  \
0  REsp 1480881 - PI (Tema 918/STJ)   
1         AgRg no REsp 2033544 - SC   
2         AgRg no REsp 2112802 - MG   
3        AgRg no AREsp 2645163 - PR   
4            AgRg no HC 849912 - MG   

                                  Ano dos Fatos Ano (Padronizado)  \
0                                     2009-2010              2009   
1            Não especificado (anterior a 2024)              2024   
2            Não especificado (anterior a 2024)              2024   
3  Não especificado (processo original de 2017)              2017   
4                                          2018              2018   

  Idade da Vítima Faixa Etária da Vítima                Idade do Réu  \
0    11 a 13 anos           11 a 12 anos          Superior a 25 anos   
1         11 anos           11 a 12 anos  Aproximadamente 30-31 anos   
2         13 anos           13 a 14 anos            Não especificada   
3         12 anos           11 a 12 anos            Não especi

In [3]:
## Agora, vamos limpar a coluna "Ano (Padronizado)"

# Troca em "Ano (Padronizado)" por "Não informado" onde "Ano dos Fatos" contém "anterior a"

dados.loc[dados['Ano dos Fatos'].str.contains('anterior a', case=False, na=False), 'Ano (Padronizado)'] = 'Não informado'

print(dados[['Ano dos Fatos', 'Ano (Padronizado)']].head(10))

# Troca em "Ano (Padronizado)" por "Não informado" onde "Ano dos Fatos" contém "processo original de"

dados.loc[dados['Ano dos Fatos'].str.contains('processo original de', case=False, na=False), 'Ano (Padronizado)'] = 'Não informado'

## vamos padronizar algumas linhas

## Linha 48

dados.loc[48, 'Ano dos Fatos'] = 'não informado'
dados.loc[48, 'Ano (Padronizado)'] = 'Não informado'

## Linha 64

if 'até 2019' in str(dados.loc[64, 'Ano dos Fatos']).lower():
    dados.loc[64, 'Ano (Padronizado)'] = 'Não informado'

## Linha 92, 97 e 129

for linha in [92, 97, 129]:
    dados.loc[linha, 'Ano (Padronizado)'] = 'Não informado'

## dropando a coluna "Ano dos Fatos"

dados = dados.drop(columns=['Ano dos Fatos'])

## renomeando...

dados = dados.rename(columns={'Ano (Padronizado)': 'ano_fatos'})

                                  Ano dos Fatos Ano (Padronizado)
0                                     2009-2010              2009
1            Não especificado (anterior a 2024)     Não informado
2            Não especificado (anterior a 2024)     Não informado
3  Não especificado (processo original de 2017)              2017
4                                          2018              2018
5               2013 (início do relacionamento)              2013
6                                          2020              2020
7                                          2011              2011
8               Não informado (anterior a 2017)     Não informado
9                                          2011              2011


In [None]:
## Vamos agora limpar a coluna "Faixa Etária da Vítima"

## Vamos criar uma função para criar categorias

def categorizar_faixa_etaria(valor):
    if isinstance(valor, str) and 'não informado' in valor.lower():
        return 'Não informado'
    # Extrai todos os números da string
    import re
    numeros = [int(n) for n in re.findall(r'\d+', str(valor))]
    if not numeros:
        return 'Não informado'

    idade = max(numeros)  # usa o maior número da faixa como referência  

    if idade < 12:
        return 0  # categoria 1 = criança (<12)
    elif 12 <= idade < 14:
        return 1  # categoria 2 = pré-adolescente (12-13)
    else:
        return 2  # categoria 0 = 14 ou mais
    
# Cria a nova coluna categórica

dados['faixa_etaria_vitima'] = dados['Faixa Etária da Vítima'].apply(categorizar_faixa_etaria)

## vamos reorganizar as colunas

cols = list(dados.columns) ## cria uma lista de colunas
cols.remove('faixa_etaria_vitima') ## remove o nome dessa coluna da lista para reordenar
idx = cols.index('Faixa Etária da Vítima') ## vamos achar o índice dessa coluna
cols.insert(idx + 1, 'faixa_etaria_vitima') ## inserindo uma coluna ao lado da outra
dados = dados[cols] ## aplicando a reordenação

## A forma como estamos organisando a faixa estária da vítima dá origem a uma variável ordinal categórica, com 3 categorias. Isso não segue exatamente o modelo de fisher, que depende
## de duas categorias (não ordinais) para fazer a tabela de contingência 2x2. 

In [7]:
## Dropando algumas colunas...

dados = dados.drop(columns=['Idade da Vítima', 'Faixa Etária da Vítima'])

In [8]:
print(dados.columns)
print(dados['Faixa Etária do Réu '])

Index(['ID_processo', 'classe_processual', 'estado', 'ano_fatos',
       'faixa_etaria_vitima', 'Idade do Réu', 'Faixa Etária do Réu ',
       'Resultado do julgamento', 'Vínculo Familiar ou Coabitação',
       'Categoria de Vínculo', 'Coabitação', 'Presença de Filhos (original)',
       'Filhos entre as Partes', 'Consentimento Familiar',
       'Consentimento da Vítima', 'Consentimento da Vítima (Padronizado)',
       'Aplicação da Súmula 593/STJ ou do Tema 918'],
      dtype='object')
0       25 a 29 anos
1       30 a 34 anos
2      Não Informado
3      Não Informado
4       20 a 24 anos
           ...      
127     14 a 19 anos
128     14 a 19 anos
129    Não Informado
130     14 a 19 anos
131     20 a 24 anos
Name: Faixa Etária do Réu , Length: 132, dtype: object


In [None]:
## Vamos limpar agora a coluna "Faixa Etária do Réu"

## Vamos criar uma função para criar categorias

def categorizar_faixa_etaria_reu(valor):
    if isinstance(valor, str) and 'não informado' in valor.lower():
        return 'Não informado'
    import re
    numeros = [int(n) for n in re.findall(r'\d+', str(valor))]
    if not numeros:
        return 'Não informado'
    maior = max(numeros)
    if maior <= 20:
        return 0
    elif 21 <= maior <= 24:
        return 1
    elif maior >= 25:
        return 2
    else:
        return 'Não Informado'
    
# Cria a nova coluna categórica

dados['faixa_etaria_reu'] = dados['Faixa Etária do Réu '].apply(categorizar_faixa_etaria_reu)

## A forma como estamos organisando a faixa etária do réu dá origem a uma variável ordinal categórica, com 3 categorias. Isso não segue exatamente o modelo de fisher, que depende
## de duas categorias (não ordinais) para fazer a tabela de contingência 2x2. 

In [10]:
## Vamos reordenar

## Há algum erro de digitação na coluna "Faixa Etária do Réu", assim, eu vou criar um objeto para facilitar o código

col_ref = 'Faixa Etária do Réu '

## processo de reordenação

cols = list(dados.columns) ## criando lista
cols.remove('faixa_etaria_reu') ## removendo para reordenar
idx = cols.index(col_ref) ## encontrando o índice
cols.insert(idx + 1, 'faixa_etaria_reu') ## aplicando reordenação
dados = dados[cols] ## aplicando ao drataframe

In [11]:
## Dropando colunas...

dados = dados.drop(columns=['Idade do Réu', 'Faixa Etária do Réu '])

In [12]:
## Vamos limpar agora a coluna do Resultado do Julgamento. 

## Criando a função para criar categorias

def categorizar_resultado(valor):
    if isinstance(valor, str):
        # Remove espaços no início/fim e converte para minúsculas
        valor_limpo = valor.strip().lower()
        # Remove todos os espaços (inclusive no meio, se quiser máxima robustez)
        valor_limpo = valor_limpo.replace(' ', '')
        if valor_limpo == 'absolvido':
            return 0
        elif valor_limpo == 'condenado':
            return 1
    return 'Não Informado'

## aplicando a função

dados['Resultado do julgamento'] = dados['Resultado do julgamento'].apply(categorizar_resultado)

In [13]:
## Ajustes finais

dados = dados.rename(columns={'Resultado do julgamento': 'resultado_julgamento'})

In [14]:
## Ok, agora vamos limpar a categoria de vínculo

## Criando função

def categorizar_vinculo(valor):
    if isinstance(valor, str):
        valor_limpo = valor.strip().lower()
        if 'afetivo' in valor_limpo:
            return 1
        elif 'indefinido' in valor_limpo:
            return 'Indefinido'
        else:
            return 0
    return 0

## Aplicando a função

dados['Categoria de Vínculo'] = dados['Categoria de Vínculo'].apply(categorizar_vinculo)

## Renomeando a coluna

dados = dados.rename(columns={'Categoria de Vínculo': 'categoria_vinculo'})



In [15]:
## Dropando colunas

dados = dados.drop(columns=['Vínculo Familiar ou Coabitação'])

In [16]:
## Vamos limpar agora a coluna de coabitação

## criando a função

def categorizar_coabitacao(valor):
    if isinstance(valor, str):
        valor_limpo = valor.strip().lower()
        if valor_limpo == 'sim':
            return 1
        elif valor_limpo == 'não' or valor_limpo == 'nao':
            return 0
        elif valor_limpo == 'não identificado' or valor_limpo == 'nao identificado':
            return 'Não identificado'
    return valor  # Mantém o valor original caso não seja string ou não se encaixe nas opções

## Aplicando a funçao na coluna 

dados['Coabitação'] = dados['Coabitação'].apply(categorizar_coabitacao)

## renomeando a coluna

dados = dados.rename(columns={'Coabitação': 'coab'})

In [17]:
## Vamos agora limpar a coluna de filhos

## criando a função

def categorizar_filhos(valor):
    if isinstance(valor, str):
        valor_limpo = valor.strip().lower()
        if valor_limpo == 'sim':
            return 1
        elif valor_limpo == 'não' or valor_limpo == 'nao':
            return 0
        elif valor_limpo in ['não informado', 'nao informado', 'não mencionado', 'nao mencionado']:
            return valor  # Mantém o valor original
    return valor  # Mantém o valor original caso não seja string ou não se encaixe nas opções

## aplicando a função 

dados['Filhos entre as Partes'] = dados['Filhos entre as Partes'].apply(categorizar_filhos)

## renomeando coluna

dados = dados.rename(columns={'Filhos entre as Partes': 'filhos'})

## dropando colunas irrelevantes

dados = dados.drop(columns=['Presença de Filhos (original)'])

In [18]:
## Limpando a coluna de consentimento familiar

## criando a função

def categorizar_consentimento_familiar(valor):
    if isinstance(valor, str):
        valor_limpo = valor.strip().lower()
        if valor_limpo == 'sim':
            return 1
        elif valor_limpo == 'não' or valor_limpo == 'nao':
            return 0
        elif valor.strip() == 'Não Informado':
            return valor  # Mantém exatamente "Não Informado"
    return valor  # Mantém o valor original caso não seja string ou não se encaixe nas opções

## aplicando a função

dados['Consentimento Familiar'] = dados['Consentimento Familiar'].apply(categorizar_consentimento_familiar)

## renomeando coluna

dados = dados.rename(columns={'Consentimento Familiar': 'consentimento_familiar'})

In [19]:
## Limpando a coluna de consentimento da vítima

## criando a função

def categorizar_consentimento_vitima(valor):
    if isinstance(valor, str):
        valor_limpo = valor.strip().lower()
        if valor_limpo == 'sim':
            return 1
        elif valor_limpo == 'não' or valor_limpo == 'nao':
            return 0
        elif valor.strip() == 'Não Informado':
            return valor  # Mantém exatamente "Não Informado"
    return valor  # Mantém o valor original caso não seja string ou não se encaixe nas opções

## aplicando a função

dados['Consentimento da Vítima (Padronizado)'] = dados['Consentimento da Vítima (Padronizado)'].apply(categorizar_consentimento_familiar)

## renomeando coluna

dados = dados.rename(columns={'Consentimento da Vítima (Padronizado)': 'consentimento_vitima'})



In [20]:
## Dropando colunas...

dados = dados.drop(columns=['Consentimento da Vítima'])

In [21]:
### Vamos limpar a variável de aplicação da súmula

## criando a função

def simplificar_sumula(valor):
    if isinstance(valor, str) and 'sim' in valor.lower():
        return 1
    else:
        return 0
    
## aplicando a função

dados['Aplicação da Súmula 593/STJ ou do Tema 918'] = dados['Aplicação da Súmula 593/STJ ou do Tema 918'].apply(simplificar_sumula)

## renomeando coluna

dados = dados.rename(columns={'Aplicação da Súmula 593/STJ ou do Tema 918': 'aplicacao_sumula'})


In [22]:
## Vou checar a natureza dos dados em cada coluna dado que isso pode perturbar a análise dos dados.

print(dados.dtypes)

## ## Vamos substituit "Não informado" por NaN, dado que quero fazer operações matemáticas com essas colunas

dados['faixa_etaria_vitima'] = dados['faixa_etaria_vitima'].replace('Não informado', np.nan).astype(float)
dados['faixa_etaria_reu'] = dados['faixa_etaria_reu'].replace('Não informado', np.nan).astype(float)
dados['categoria_vinculo'] = dados['categoria_vinculo'].replace('Indefinido', np.nan).astype(float)
dados['coab'] = dados['coab'].replace('Não identificado', np.nan).astype(float)
dados['filhos'] = dados['filhos'].replace(
    to_replace=r'(?i)^não informado$', value=np.nan, regex=True
).astype(float)
dados['consentimento_familiar'] = dados['consentimento_familiar'].replace('Não Informado', np.nan).astype(float)
dados['consentimento_vitima'] = dados['consentimento_vitima'].replace('Não Informado', np.nan).astype(float)

## printando de novo

print(dados.dtypes)



ID_processo               object
classe_processual         object
estado                    object
ano_fatos                 object
faixa_etaria_vitima       object
faixa_etaria_reu          object
resultado_julgamento       int64
categoria_vinculo         object
coab                      object
filhos                    object
consentimento_familiar    object
consentimento_vitima      object
aplicacao_sumula           int64
dtype: object
ID_processo                object
classe_processual          object
estado                     object
ano_fatos                  object
faixa_etaria_vitima       float64
faixa_etaria_reu          float64
resultado_julgamento        int64
categoria_vinculo         float64
coab                      float64
filhos                    float64
consentimento_familiar    float64
consentimento_vitima      float64
aplicacao_sumula            int64
dtype: object


  dados['faixa_etaria_vitima'] = dados['faixa_etaria_vitima'].replace('Não informado', np.nan).astype(float)
  dados['faixa_etaria_reu'] = dados['faixa_etaria_reu'].replace('Não informado', np.nan).astype(float)
  dados['categoria_vinculo'] = dados['categoria_vinculo'].replace('Indefinido', np.nan).astype(float)
  dados['coab'] = dados['coab'].replace('Não identificado', np.nan).astype(float)
  dados['filhos'] = dados['filhos'].replace(
  dados['consentimento_familiar'] = dados['consentimento_familiar'].replace('Não Informado', np.nan).astype(float)
  dados['consentimento_vitima'] = dados['consentimento_vitima'].replace('Não Informado', np.nan).astype(float)


In [23]:
## Ajustando a natureza dos dados

## ID_processo como número

dados['ID_processo'] = pd.to_numeric(dados['ID_processo'], errors='coerce').astype('Int64') ## ID_processo como número

## Colunas tipo string

dados['classe_processual'] = dados['classe_processual'].astype(str)
dados['estado'] = dados['estado'].astype(str)
dados['ano_fatos'] = dados['ano_fatos'].astype(str)

## Coluna com 3 categorias: faixa_etaria_reu

dados['faixa_etaria_reu'] = pd.to_numeric(dados['faixa_etaria_reu'], errors='coerce').astype('Int64')

## Colunas binárias

colunas_binarias = [
    'faixa_etaria_vitima', 'resultado_julgamento', 'coab', 'categoria_vinculo',
    'filhos', 'consentimento_familiar', 'consentimento_vitima', 'aplicacao_sumula'
]

for col in colunas_binarias:
    dados[col] = pd.to_numeric(dados[col], errors='coerce').astype('Int64')

## printando de novo

print(dados.dtypes)

ID_processo                Int64
classe_processual         object
estado                    object
ano_fatos                 object
faixa_etaria_vitima        Int64
faixa_etaria_reu           Int64
resultado_julgamento       Int64
categoria_vinculo          Int64
coab                       Int64
filhos                     Int64
consentimento_familiar     Int64
consentimento_vitima       Int64
aplicacao_sumula           Int64
dtype: object


In [24]:
## Salvando o dataset limpo no repositório 

dados.to_csv('dados_limpos.csv', index=False)