### Leitura dos Dados

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("2025-09-30_BDPO.txt", sep="\t")

#Renomeando as colunas
df.columns = ["mrfMesAno", "logCargaId", "TipoEmpresa", "IdEmpresa", "DataRegistro", "DataOcorrencia", "DataReconhecimento", "NumeroEvento", "TipoEvento", "PerdaRaizDataRegistro", "PerdaRaizNumeroEvento", "Categoria", "OrigemJudicial", "ContabilizadaPsl", "FuncaoNegocio", "CausaPerda", "StatusPerda", "ValorBruto"]

In [3]:
df.head()

Unnamed: 0,mrfMesAno,logCargaId,TipoEmpresa,IdEmpresa,DataRegistro,DataOcorrencia,DataReconhecimento,NumeroEvento,TipoEvento,PerdaRaizDataRegistro,PerdaRaizNumeroEvento,Categoria,OrigemJudicial,ContabilizadaPsl,FuncaoNegocio,CausaPerda,StatusPerda,ValorBruto
0,2019-03-01,9,1,20,2018-12-21,2013-08-09,2018-09-27,28,1,1900-01-01,0,4,1,1,4,1,1,4314.26
1,2019-03-01,9,1,20,2019-02-28,1991-03-01,2018-01-04,38,6,2018-07-03,14,4,1,2,3,2,1,278782.26
2,2019-03-01,9,1,20,2018-12-21,2018-05-22,2018-09-18,29,1,1900-01-01,0,7,1,2,4,2,1,1495.63
3,2019-03-01,9,1,20,2019-02-28,2014-10-10,2018-08-03,39,6,2017-10-25,4,4,1,2,6,2,1,9100.01
4,2019-03-01,9,1,20,2018-08-09,2016-01-20,2017-09-13,212,1,1900-01-01,0,4,1,1,3,2,1,3444.78


O dataset é composto por 18 colunas e contém 20.394.220 registros.

### Descrição das colunas (9-18) de acordo com o Manual de Orientação para Envio de Dados - Seção 8.6.

**9 - TipoEvento:**  
Indica o tipo do evento, sendo os possíveis valores:

1 - Perda Raiz: Evento original de perda (Não referencia nenhum evento anterior).  
2 - Quase Perda Raiz: Não gerou nenhuma perda, mas poderia ter gerado.  
3 - Perda Descendente: Perda que decorre de uma Perda Raiz anterior.  
4 - Quase Perda Descendente: Consequência de uma Perda Raiz que não gerou impacto financeiro.  
5 - Recuperação: Registro de valores recuperados após a perda.  
6 - Atualização: Correção de informações de uma perda já registrada.<br>
<br>

**10 - PerdaRaizDataRegistro:**  
Data do registro da perda a que o Evento está vinculado (Caso seja uma Perda Raiz, é registrado como “1900-01-01”).<br>
<br>

**11 - PerdaRaizNumeroEvento:**  
Número do evento da perda a que o Evento está vinculado (Caso seja uma Perda Raiz deve ser preenchido com “0”).<br>
<br>

**12 - Categoria:**  
Classifica o evento de Perda, sendo os possíveis valores:

0 - Não Aplicável  
1 - Fraude Interna  
2 - Fraude Externa  
3 - Práticas trabalhistas ou segurança no trabalho  
4 - Clientes, produtos ou práticas de negócio  
5 - Dano a ativo físico  
6 - Interrupção do negócio ou falha de sistemas  
7 - Falha na execução, entrega ou gestão das atividades do negócio<br>
<br>

**13 - OrigemJudicial:**  
Indica se a perda está relacionada a uma ação judicial

0 - Não Aplicável   
1 - A Perda está relacionada a uma ação judicial  
2 - A Perda não está relacionada a uma ação judicial<br>
<br>

**14 - ContabilizadaPsl:**  
Indica se a perda está contabilizada na PSL (Provisão de Sinistros a Liquidar)

0 - Não Aplicável  
1 - A Perda está na PSL  
2 - A Perda não está na PSL<br>
<br>

**15 - FuncaoNegocio:**  
Função associada ao evento de Perda, sendo os possíveis valores:

0 - Não Aplicável  
1 - Administração  
2 - Finanças Corporativas  
3 - Negociação e Vendas  
4 - Pagamentos e Liquidações  
5 - Sistemas  
6 - Subscrição  
7 - Terceirização<br>
<br>

**16 - CausaPerda:**  
Causa associada ao evento de Perda, sendo os possíveis valores:

0 - Não Aplicável  
1 - Pessoas  
2 - Processos  
3 - Sistemas-IT  
4 - Evento Externo<br>
<br>

**17 - StatusPerda:**  
Indica o status da Perda, se ela ainda está sujeita a alterações ou recuperações, ou se os seus valores não serão mais modificados.

0 - Não Aplicável  
1 - Perda ainda não encerrada  
2 - Perda encerrada<br>
<br>

**18 - ValorBruto:**  
Valor em reais apurado para a perda bruta preenchido de acordo com o tipo de evento registrado, conforme especificado:

Perda Raiz, Quase Perda, Quase Perda Raiz, Perda Descendente ou Quase Perda Descendente - Preenchido com o valor da perda bruta.

Recuperação - Preenchido com o total dos valores recuperados desde o registro inicial da Perda. Esse valor substitui todos os valores informados em eventos de recuperação registrados anteriormente.

Atualização - Preenchido com o novo valor bruto total.

### Análise

In [24]:
tipoEvento = df['TipoEvento'].value_counts().sort_index()

tipoEvento

TipoEvento
1     8076560
2          87
3         362
5      133359
6    12183852
Name: count, dtype: int64

A maioria dos eventos são de Perda Raiz e Atualização, que juntas somam 99.34%. Não há registros de Quase Perda Descendente.

In [None]:
categoria = df['Categoria'].value_counts().sort_index()

categoria

Categoria
0      133359
1        8134
2      142495
3      337734
4    14513592
5         784
6       13202
7     5244920
Name: count, dtype: int64

In [28]:
origemJudicial = df['OrigemJudicial'].value_counts().sort_index()

origemJudicial

OrigemJudicial
0      133359
1    18694823
2     1566038
Name: count, dtype: int64

In [29]:
contabilizadaPsl = df['ContabilizadaPsl'].value_counts().sort_index()

contabilizadaPsl

ContabilizadaPsl
0      133359
1    13268717
2     6992144
Name: count, dtype: int64

In [31]:
funcaoNegocio = df['FuncaoNegocio'].value_counts().sort_index()

funcaoNegocio

FuncaoNegocio
0      133359
1     5320174
2      836181
3     1293076
4    11339661
5      400436
6      752259
7      319074
Name: count, dtype: int64