
# Leitura da Base de Dados

Neste notebook, realizamos a leitura e o pré-processamento de uma base de dados contendo informações sobre processos administrativos. A base é carregada, filtrada e transformada para facilitar análises posteriores. A seguir, estão descritas as etapas realizadas para preparar os dados.


In [145]:
import pandas as pd 

#LINHA DE SELEÇÃO DO INPUT
df = pd.read_csv('../dados/cade_clinicas_2.csv', low_memory=False)

linhas, colunas = df.shape
print(f"Quantidade de linhas: {linhas}")
print(f"Quantidade de colunas: {colunas}")

Quantidade de linhas: 9586
Quantidade de colunas: 64


In [146]:
df = df[df['ano_documento'].astype(int) > 2011] #Lei é desatualizada para antes disso

linhas, colunas = df.shape
print(f"Quantidade de linhas: {linhas}")

Quantidade de linhas: 9518


In [147]:
pd.set_option('display.max_columns', None)  # Exibe todas as colunas
df.head(5)

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_acesso,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,dados_processo,ementa_dispositivo,ementa_verbetacao,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,palavras,relator,score,nucluster,sumario,representante_legal,descricao_assunto,quorum,tags,entidade,numero_acordao,interessados,numero_ata,data_publicacao,documentos_citados,descricao_protocolo,dispositivo_conclusao,representante_mp,corpo_texto,selecionado,qtd_acesso,corpo_texto_formatado,decisao_tribunal,soundex,clicks,descricao_titulo_documento,vltfidf,conteudo
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,['Outras'],PUBLICO,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,20240523,2024-05-23T00:00:00Z,['Fabricação de Peças e Acessórios para o Sist...,['Fabricação de Peças e Acessórios para o Sist...,"['Fabricação de Veículos Automotores, Reboques...",['Fabricação de Peças e Acessórios para Veícul...,['Indústrias de Transformação'],['Fabricação de Peças e Acessórios para o Sist...,['CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-...,['{BERND BRÜNIG:08700.004558/2019-05};{FAUSTIN...,['Condenação'],Processo Administrativo n&ordm; 08700.004558/2...,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tA confiss&at...,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tEmenta:\r\n\...,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"['pistões de motor, bronzinas, camisas, pinos,...","['{id_unidade:110000967,protocolo_documento:10...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13T00:00:00Z,jurisprudencia,1800936057604145200,[''],,0,0,,[''],,,[''],[''],,[''],,,[''],,,,,0,0,,[''],[''],0,,0,SEI/CADE - 1390607 - Voto Processo Administrat...
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,['Outras'],PUBLICO,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,20240521,2024-05-21T00:00:00Z,['Fornecimento e Gestão de Recursos Humanos pa...,['Fornecimento e Gestão de Recursos Humanos pa...,"['Seleção, Agenciamento e Locação de Mão-de-Ob...",['Fornecimento e Gestão de Recursos Humanos pa...,['Atividades Administrativas e Serviços Comple...,['Fornecimento e Gestão de Recursos Humanos pa...,['A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLI...,['{A R C - CONSULTORIA LTDA:08700.004914/2021-...,[''],,,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,['Serviços Terceirizados'],"['{id_unidade:110000983,protocolo_documento:09...",3766,Documento Interno,PA Brigadistas,2021-09-08T00:00:00Z,jurisprudencia,1800936077062570000,[''],,0,0,,[''],,,[''],[''],,[''],,,[''],,,,Processo Administrativo n&ordm;&nbsp;08700.004...,0,0,Processo Administrativo nº 08700.004914/2021-0...,[''],[''],0,,0,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Produção de Tubos de Aço com Costura'],['Produção de Tubos de Aço com Costura'],['Metalurgia'],"['Produção de Tubos de Aço, exceto Tubos Sem C...",['Indústrias de Transformação'],['Produção de Tubos de Aço com Costura'],['ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP...,['{ARCELORMITTAL S.A.:08700.002236/2024-81};{N...,['Aprovação sem restrições'],,,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"['Mercados de (i) tarugos, (ii) tubos de aço c...",[''],0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08T00:00:00Z,jurisprudencia,1800936103293747200,[''],,0,0,,[''],,,[''],[''],,[''],,,[''],Parecer Sumário,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER Nº\r...,[''],[''],0,,0,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Fabricação de Amidos e Féculas de Vegetais e...,['Fabricação de Amidos e Féculas de Vegetais e...,['Fabricação de Produtos Alimenttícios'],"['Moagem, Fabricação de Produtos Amiláceos e d...",['Indústrias de Transformação'],['Fabricação de Amidos e Féculas de Vegetais'],['TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOP...,['{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.00...,['Aprovação sem restrições'],,,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,['Mercado de produção de amidos e féculas de m...,[''],0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24T00:00:00Z,jurisprudencia,1800936103526531000,[''],,0,0,,[''],,,[''],[''],,[''],,,[''],,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER Nº\r...,[''],[''],0,,0,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Fabricação de Embalagens de Material Plástic...,['Fabricação de Embalagens de Material Plástic...,['Fabricação de Produtos de Borracha e de Mate...,['Fabricação de Produtos de Material Plástico#...,['Indústrias de Transformação# Eletricidade e ...,['Fabricação de Embalagens de Material Plástic...,['VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME S...,['{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.0088...,[''],,,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,[''],[''],0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26T00:00:00Z,jurisprudencia,1800936103547502600,[''],,0,0,,[''],,,[''],[''],,[''],,,[''],X,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER Nº\r...,[''],[''],0,,0,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...


In [148]:
colunas_remover = []
linhas = df.shape[0]

# Verifica colunas com mais de 8000 valores ausentes
for i in df.columns:
    a = df[i].isna().sum()
    if a > 0.8*linhas:  # Se mais de 80% dos valores estão ausentes
        print(f"{i} = {a}")
        colunas_remover.append(i)
# Remove essas colunas do DataFrame
df = df.drop(colunas_remover, axis=1)

dados_processo = 8743
ementa_dispositivo = 8362
ementa_verbetacao = 8357
relator = 9518
sumario = 9518
descricao_assunto = 9518
quorum = 9518
numero_acordao = 9518
numero_ata = 9518
data_publicacao = 9518
descricao_protocolo = 8106
dispositivo_conclusao = 9132
representante_mp = 9518
corpo_texto_formatado = 8239
descricao_titulo_documento = 9518


In [149]:
pd.set_option('display.max_columns', None)  # Exibe todas as colunas
df.head()

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_acesso,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,palavras,score,nucluster,representante_legal,tags,entidade,interessados,documentos_citados,corpo_texto,selecionado,qtd_acesso,decisao_tribunal,soundex,clicks,vltfidf,conteudo
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,['Outras'],PUBLICO,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,20240523,2024-05-23T00:00:00Z,['Fabricação de Peças e Acessórios para o Sist...,['Fabricação de Peças e Acessórios para o Sist...,"['Fabricação de Veículos Automotores, Reboques...",['Fabricação de Peças e Acessórios para Veícul...,['Indústrias de Transformação'],['Fabricação de Peças e Acessórios para o Sist...,['CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-...,['{BERND BRÜNIG:08700.004558/2019-05};{FAUSTIN...,['Condenação'],1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"['pistões de motor, bronzinas, camisas, pinos,...","['{id_unidade:110000967,protocolo_documento:10...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13T00:00:00Z,jurisprudencia,1800936057604145200,[''],0,0,[''],[''],[''],[''],[''],,0,0,[''],[''],0,0,SEI/CADE - 1390607 - Voto Processo Administrat...
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,['Outras'],PUBLICO,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,20240521,2024-05-21T00:00:00Z,['Fornecimento e Gestão de Recursos Humanos pa...,['Fornecimento e Gestão de Recursos Humanos pa...,"['Seleção, Agenciamento e Locação de Mão-de-Ob...",['Fornecimento e Gestão de Recursos Humanos pa...,['Atividades Administrativas e Serviços Comple...,['Fornecimento e Gestão de Recursos Humanos pa...,['A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLI...,['{A R C - CONSULTORIA LTDA:08700.004914/2021-...,[''],1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,['Serviços Terceirizados'],"['{id_unidade:110000983,protocolo_documento:09...",3766,Documento Interno,PA Brigadistas,2021-09-08T00:00:00Z,jurisprudencia,1800936077062570000,[''],0,0,[''],[''],[''],[''],[''],Processo Administrativo n&ordm;&nbsp;08700.004...,0,0,[''],[''],0,0,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Produção de Tubos de Aço com Costura'],['Produção de Tubos de Aço com Costura'],['Metalurgia'],"['Produção de Tubos de Aço, exceto Tubos Sem C...",['Indústrias de Transformação'],['Produção de Tubos de Aço com Costura'],['ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP...,['{ARCELORMITTAL S.A.:08700.002236/2024-81};{N...,['Aprovação sem restrições'],1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"['Mercados de (i) tarugos, (ii) tubos de aço c...",[''],0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08T00:00:00Z,jurisprudencia,1800936103293747200,[''],0,0,[''],[''],[''],[''],[''],\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,[''],[''],0,0,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Fabricação de Amidos e Féculas de Vegetais e...,['Fabricação de Amidos e Féculas de Vegetais e...,['Fabricação de Produtos Alimenttícios'],"['Moagem, Fabricação de Produtos Amiláceos e d...",['Indústrias de Transformação'],['Fabricação de Amidos e Féculas de Vegetais'],['TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOP...,['{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.00...,['Aprovação sem restrições'],1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,['Mercado de produção de amidos e féculas de m...,[''],0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24T00:00:00Z,jurisprudencia,1800936103526531000,[''],0,0,[''],[''],[''],[''],[''],\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,[''],[''],0,0,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,['Outras'],PUBLICO,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,20240521,2024-05-21T00:00:00Z,['Fabricação de Embalagens de Material Plástic...,['Fabricação de Embalagens de Material Plástic...,['Fabricação de Produtos de Borracha e de Mate...,['Fabricação de Produtos de Material Plástico#...,['Indústrias de Transformação# Eletricidade e ...,['Fabricação de Embalagens de Material Plástic...,['VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME S...,['{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.0088...,[''],1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,[''],[''],0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26T00:00:00Z,jurisprudencia,1800936103547502600,[''],0,0,[''],[''],[''],[''],[''],\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,[''],[''],0,0,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...


In [150]:
# Mudando o tipo para 'category'
colunas = ['assinaturas', 'setor_economico', 'setor_economico_classe', 'setor_economico_divisao', 
           'setor_economico_grupo', 'setor_economico_secao', 'setor_economico_sub_classe', 'partes_processos_like',
            'partes_processos', 'decisao_sg', 'mercado_relevante', 'documentos_relacionados', 
            'palavras', 'representante_legal', 'tags', 'entidade', 'interessados', 'documentos_citados',
            'decisao_tribunal', 'soundex']

for coluna in colunas:
    df[coluna] = df[coluna].astype('category')

#Formatando colunas de data

df['data_ordem'] = pd.to_datetime(df['data_ordem']).dt.date
df['data_processo'] = pd.to_datetime(df['data_processo'])
df['data_documento'] = pd.to_datetime(df['data_documento'])

# Calcular diferença da data do processo pra data do documento em dias
df['diferenca_dias'] = (df['data_documento'] - df['data_processo']).dt.days

# Remover a hora (deixar apenas a data)
df['data_processo'] = df['data_processo'].dt.date
df['data_documento'] = df['data_documento'].dt.date


In [151]:
for i in colunas:
    df[i] = df[i].cat.rename_categories(lambda x: x.replace("['", "").replace("']", "").replace("'", ""))

In [152]:
pd.set_option('display.max_columns', None)  # Exibe todas as colunas
df.head()

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_acesso,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,palavras,score,nucluster,representante_legal,tags,entidade,interessados,documentos_citados,corpo_texto,selecionado,qtd_acesso,decisao_tribunal,soundex,clicks,vltfidf,conteudo,diferenca_dias
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,PUBLICO,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,1970-01-01,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,jurisprudencia,1800936057604145200,,0,0,,,,,,,0,0,,,0,0,SEI/CADE - 1390607 - Voto Processo Administrat...,1714
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,Outras,PUBLICO,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,1970-01-01,2024-05-21,Fornecimento e Gestão de Recursos Humanos para...,Fornecimento e Gestão de Recursos Humanos para...,"Seleção, Agenciamento e Locação de Mão-de-Obra",Fornecimento e Gestão de Recursos Humanos para...,Atividades Administrativas e Serviços Compleme...,Fornecimento e Gestão de Recursos Humanos para...,A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLICI...,{A R C - CONSULTORIA LTDA:08700.004914/2021-05...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Serviços Terceirizados,"{id_unidade:110000983,protocolo_documento:0955...",3766,Documento Interno,PA Brigadistas,2021-09-08,jurisprudencia,1800936077062570000,,0,0,,,,,,Processo Administrativo n&ordm;&nbsp;08700.004...,0,0,,,0,0,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...,986
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Produção de Tubos de Aço com Costura,Produção de Tubos de Aço com Costura,Metalurgia,"Produção de Tubos de Aço, exceto Tubos Sem Cos...",Indústrias de Transformação,Produção de Tubos de Aço com Costura,ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP; ...,{ARCELORMITTAL S.A.:08700.002236/2024-81};{NOR...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"Mercados de (i) tarugos, (ii) tubos de aço com...",,0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08,jurisprudencia,1800936103293747200,,0,0,,,,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,,0,0,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...,43
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Produtos Alimenttícios,"Moagem, Fabricação de Produtos Amiláceos e de ...",Indústrias de Transformação,Fabricação de Amidos e Féculas de Vegetais,TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOPER...,{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.0037...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado de produção de amidos e féculas de mil...,,0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24,jurisprudencia,1800936103526531000,,0,0,,,,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,,0,0,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...,27
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Embalagens de Material Plástico#...,Fabricação de Embalagens de Material Plástico#...,Fabricação de Produtos de Borracha e de Materi...,Fabricação de Produtos de Material Plástico# G...,Indústrias de Transformação# Eletricidade e Gás,Fabricação de Embalagens de Material Plástico#...,VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME SOL...,{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.008857...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,,,0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26,jurisprudencia,1800936103547502600,,0,0,,,,,,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,,0,0,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...,25


In [153]:
colunas = ['assinaturas', 'setor_economico', 'setor_economico_classe', 
        'setor_economico_divisao', 'setor_economico_grupo', 'setor_economico_secao',
        'setor_economico_sub_classe', 'partes_processos_like', 'partes_processos', 
        'decisao_sg', 'mercado_relevante', 'documentos_relacionados', 'palavras', 
        'representante_legal', 'tags', 'entidade', 'interessados', 
        'documentos_citados', 'decisao_tribunal', 'soundex']

colunas_remover = []
linhas = df.shape[0]
for i in colunas:
    b = (df[i] == '').sum()
    if b > 0.8*linhas:
        print(f"{i} = {b}")
        colunas_remover.append(i)

df = df.drop(columns=colunas_remover)

palavras = 9518
representante_legal = 9518
tags = 9518
entidade = 9518
interessados = 9518
documentos_citados = 9518
soundex = 9518


In [154]:
linhas, colunas = df.shape
print(f"Quantidade de linhas: {linhas}")
print(f"Quantidade de colunas: {colunas}")

Quantidade de linhas: 9518
Quantidade de colunas: 43


In [155]:
pd.set_option('display.max_columns', None)  
df.head(5) 

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_acesso,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,score,nucluster,corpo_texto,selecionado,qtd_acesso,decisao_tribunal,clicks,vltfidf,conteudo,diferenca_dias
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,PUBLICO,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,1970-01-01,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,jurisprudencia,1800936057604145200,0,0,,0,0,,0,0,SEI/CADE - 1390607 - Voto Processo Administrat...,1714
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,Outras,PUBLICO,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,1970-01-01,2024-05-21,Fornecimento e Gestão de Recursos Humanos para...,Fornecimento e Gestão de Recursos Humanos para...,"Seleção, Agenciamento e Locação de Mão-de-Obra",Fornecimento e Gestão de Recursos Humanos para...,Atividades Administrativas e Serviços Compleme...,Fornecimento e Gestão de Recursos Humanos para...,A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLICI...,{A R C - CONSULTORIA LTDA:08700.004914/2021-05...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Serviços Terceirizados,"{id_unidade:110000983,protocolo_documento:0955...",3766,Documento Interno,PA Brigadistas,2021-09-08,jurisprudencia,1800936077062570000,0,0,Processo Administrativo n&ordm;&nbsp;08700.004...,0,0,,0,0,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...,986
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Produção de Tubos de Aço com Costura,Produção de Tubos de Aço com Costura,Metalurgia,"Produção de Tubos de Aço, exceto Tubos Sem Cos...",Indústrias de Transformação,Produção de Tubos de Aço com Costura,ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP; ...,{ARCELORMITTAL S.A.:08700.002236/2024-81};{NOR...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"Mercados de (i) tarugos, (ii) tubos de aço com...",,0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08,jurisprudencia,1800936103293747200,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,0,0,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...,43
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Produtos Alimenttícios,"Moagem, Fabricação de Produtos Amiláceos e de ...",Indústrias de Transformação,Fabricação de Amidos e Féculas de Vegetais,TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOPER...,{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.0037...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado de produção de amidos e féculas de mil...,,0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24,jurisprudencia,1800936103526531000,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,0,0,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...,27
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Embalagens de Material Plástico#...,Fabricação de Embalagens de Material Plástico#...,Fabricação de Produtos de Borracha e de Materi...,Fabricação de Produtos de Material Plástico# G...,Indústrias de Transformação# Eletricidade e Gás,Fabricação de Embalagens de Material Plástico#...,VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME SOL...,{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.008857...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,,,0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26,jurisprudencia,1800936103547502600,0,0,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,0,,0,0,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...,25


In [156]:
colunas = ['qtd_acesso_processo', 'score', 'nucluster', 'selecionado', 'qtd_acesso', 'clicks', 'vltfidf']

colunas_remover = []
linhas = df.shape[0]
for i in colunas:
    b = (df[i] == 0).sum()
    if b > 0.8 * linhas:  # Se mais de 80% dos valores são zero
        print(f"{i} = {b}")
        colunas_remover.append(i)
        
df = df.drop(columns=colunas_remover)

score = 9518
nucluster = 9518
selecionado = 9518
clicks = 9518
vltfidf = 9518


In [157]:
linhas, colunas = df.shape
print(f"Quantidade de linhas: {linhas}")
print(f"Quantidade de colunas: {colunas}")

Quantidade de linhas: 9518
Quantidade de colunas: 38


In [158]:
pd.set_option('display.max_columns', None)  
df.head(5)  

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_acesso,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,corpo_texto,qtd_acesso,decisao_tribunal,conteudo,diferenca_dias
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,PUBLICO,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,1970-01-01,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,jurisprudencia,1800936057604145200,,0,,SEI/CADE - 1390607 - Voto Processo Administrat...,1714
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,Outras,PUBLICO,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,1970-01-01,2024-05-21,Fornecimento e Gestão de Recursos Humanos para...,Fornecimento e Gestão de Recursos Humanos para...,"Seleção, Agenciamento e Locação de Mão-de-Obra",Fornecimento e Gestão de Recursos Humanos para...,Atividades Administrativas e Serviços Compleme...,Fornecimento e Gestão de Recursos Humanos para...,A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLICI...,{A R C - CONSULTORIA LTDA:08700.004914/2021-05...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Serviços Terceirizados,"{id_unidade:110000983,protocolo_documento:0955...",3766,Documento Interno,PA Brigadistas,2021-09-08,jurisprudencia,1800936077062570000,Processo Administrativo n&ordm;&nbsp;08700.004...,0,,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...,986
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Produção de Tubos de Aço com Costura,Produção de Tubos de Aço com Costura,Metalurgia,"Produção de Tubos de Aço, exceto Tubos Sem Cos...",Indústrias de Transformação,Produção de Tubos de Aço com Costura,ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP; ...,{ARCELORMITTAL S.A.:08700.002236/2024-81};{NOR...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"Mercados de (i) tarugos, (ii) tubos de aço com...",,0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08,jurisprudencia,1800936103293747200,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...,43
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Produtos Alimenttícios,"Moagem, Fabricação de Produtos Amiláceos e de ...",Indústrias de Transformação,Fabricação de Amidos e Féculas de Vegetais,TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOPER...,{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.0037...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado de produção de amidos e féculas de mil...,,0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24,jurisprudencia,1800936103526531000,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...,27
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,Outras,PUBLICO,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Embalagens de Material Plástico#...,Fabricação de Embalagens de Material Plástico#...,Fabricação de Produtos de Borracha e de Materi...,Fabricação de Produtos de Material Plástico# G...,Indústrias de Transformação# Eletricidade e Gás,Fabricação de Embalagens de Material Plástico#...,VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME SOL...,{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.008857...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,,,0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26,jurisprudencia,1800936103547502600,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...,25


In [159]:
df['descricao_tipo_acesso'].value_counts()

descricao_tipo_acesso
PUBLICO    9518
Name: count, dtype: int64

In [160]:
df = df.drop(columns='descricao_tipo_acesso')

In [161]:
pd.set_option('display.max_columns', None)  
df.head(5) 

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,id_colecao,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,colecao,_version_,corpo_texto,qtd_acesso,decisao_tribunal,conteudo,diferenca_dias
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,1970-01-01,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,jurisprudencia,1800936057604145200,,0,,SEI/CADE - 1390607 - Voto Processo Administrat...,1714
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,Outras,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,1970-01-01,2024-05-21,Fornecimento e Gestão de Recursos Humanos para...,Fornecimento e Gestão de Recursos Humanos para...,"Seleção, Agenciamento e Locação de Mão-de-Obra",Fornecimento e Gestão de Recursos Humanos para...,Atividades Administrativas e Serviços Compleme...,Fornecimento e Gestão de Recursos Humanos para...,A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLICI...,{A R C - CONSULTORIA LTDA:08700.004914/2021-05...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Serviços Terceirizados,"{id_unidade:110000983,protocolo_documento:0955...",3766,Documento Interno,PA Brigadistas,2021-09-08,jurisprudencia,1800936077062570000,Processo Administrativo n&ordm;&nbsp;08700.004...,0,,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...,986
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Produção de Tubos de Aço com Costura,Produção de Tubos de Aço com Costura,Metalurgia,"Produção de Tubos de Aço, exceto Tubos Sem Cos...",Indústrias de Transformação,Produção de Tubos de Aço com Costura,ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP; ...,{ARCELORMITTAL S.A.:08700.002236/2024-81};{NOR...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"Mercados de (i) tarugos, (ii) tubos de aço com...",,0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08,jurisprudencia,1800936103293747200,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...,43
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Produtos Alimenttícios,"Moagem, Fabricação de Produtos Amiláceos e de ...",Indústrias de Transformação,Fabricação de Amidos e Féculas de Vegetais,TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOPER...,{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.0037...,Aprovação sem restrições,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado de produção de amidos e féculas de mil...,,0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24,jurisprudencia,1800936103526531000,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...,27
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Embalagens de Material Plástico#...,Fabricação de Embalagens de Material Plástico#...,Fabricação de Produtos de Borracha e de Materi...,Fabricação de Produtos de Material Plástico# G...,Indústrias de Transformação# Eletricidade e Gás,Fabricação de Embalagens de Material Plástico#...,VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME SOL...,{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.008857...,,1,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,,,0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26,jurisprudencia,1800936103547502600,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...,25


In [162]:
df['colecao'].value_counts()

colecao
jurisprudencia    9518
Name: count, dtype: int64

In [163]:
df = df.drop(columns=['colecao', 'id_colecao'])

In [164]:
df['diferenca_dias'].value_counts() #talvez seja interessante ver a distribuição dessa coluna

diferenca_dias
14      307
13      229
15      220
21      207
18      206
       ... 
1390      1
3257      1
945       1
3773      1
7278      1
Name: count, Length: 2339, dtype: int64

In [165]:
pd.set_option('display.max_columns', None)  
df.head(5) 

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_ordem,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_tipo_protocolo,descricao_especificacao,data_processo,_version_,corpo_texto,qtd_acesso,decisao_tribunal,conteudo,diferenca_dias
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,1970-01-01,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,Documento Interno,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,1800936057604145200,,0,,SEI/CADE - 1390607 - Voto Processo Administrat...,1714
1,6b5bb7a0-9ad6-438f-96af-8eb3165fabaa,jurisprudencia__1389600,1389600,2024,Outras,Nota Técnica SG,Processo Administrativo,08700.004914/2021-05,110000983.0,CGAA7,Coordenação-Geral de Análise Antitruste 7,1970-01-01,2024-05-21,Fornecimento e Gestão de Recursos Humanos para...,Fornecimento e Gestão de Recursos Humanos para...,"Seleção, Agenciamento e Locação de Mão-de-Obra",Fornecimento e Gestão de Recursos Humanos para...,Atividades Administrativas e Serviços Compleme...,Fornecimento e Gestão de Recursos Humanos para...,A R C - CONSULTORIA LTDA; AGENCIA FATO PUBLICI...,{A R C - CONSULTORIA LTDA:08700.004914/2021-05...,,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Serviços Terceirizados,"{id_unidade:110000983,protocolo_documento:0955...",3766,Documento Interno,PA Brigadistas,2021-09-08,1800936077062570000,Processo Administrativo n&ordm;&nbsp;08700.004...,0,,SEI/CADE - 1389600 - Nota Técnica\n\n\nNota Té...,986
2,8a2483e2-0296-431e-85b2-11267caf35ec,jurisprudencia__1389754,1389754,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002236/2024-81,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Produção de Tubos de Aço com Costura,Produção de Tubos de Aço com Costura,Metalurgia,"Produção de Tubos de Aço, exceto Tubos Sem Cos...",Indústrias de Transformação,Produção de Tubos de Aço com Costura,ARCELORMITTAL S.A.; NORTH STAR PARTNERS SCSP; ...,{ARCELORMITTAL S.A.:08700.002236/2024-81};{NOR...,Aprovação sem restrições,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"Mercados de (i) tarugos, (ii) tubos de aço com...",,0,Documento Interno,ArcelorMittal / North Star Partners SCSp / Jun...,2024-04-08,1800936103293747200,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389754 - Parecer\n\n\n\r\n\t\r\n\t...,43
3,ba09f364-3ee5-4e28-bba3-c422d53b4ae2,jurisprudencia__1389765,1389765,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002736/2024-12,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Amidos e Féculas de Vegetais e d...,Fabricação de Produtos Alimenttícios,"Moagem, Fabricação de Produtos Amiláceos e de ...",Indústrias de Transformação,Fabricação de Amidos e Féculas de Vegetais,TOTALMIX INDUSTRIA E COMERCIO LTDA; LAR COOPER...,{TOTALMIX INDUSTRIA E COMERCIO LTDA:08700.0037...,Aprovação sem restrições,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado de produção de amidos e féculas de mil...,,0,Documento Interno,Totalmix Indústria e Comércio / Lar Cooperativ...,2024-04-24,1800936103526531000,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389765 - Parecer\n\n\n\r\n\t\r\n\t...,27
4,46dc8fec-b850-414f-babc-8cd0e1595ec5,jurisprudencia__1389787,1389787,2024,Outras,Parecer,Ato de Concentração Sumário,08700.002774/2024-75,110000980.0,CGAA5,Coordenação-Geral de Análise Antitruste 5,1970-01-01,2024-05-21,Fabricação de Embalagens de Material Plástico#...,Fabricação de Embalagens de Material Plástico#...,Fabricação de Produtos de Borracha e de Materi...,Fabricação de Produtos de Material Plástico# G...,Indústrias de Transformação# Eletricidade e Gás,Fabricação de Embalagens de Material Plástico#...,VALGROUP RJ INDUSTRIA R-PET LTDA; BON NOME SOL...,{VALGROUP RJ INDUSTRIA R-PET LTDA:08700.008857...,,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,,,0,Documento Interno,Valgroup RJ Indústria R-Pet / Bon Nome Solar /...,2024-04-26,1800936103547502600,\r\n\t\r\n\t\t\r\n\t\t\t\r\n\t\t\tPARECER N&or...,0,,SEI/CADE - 1389787 - Parecer\n\n\n\r\n\t\r\n\t...,25


In [166]:
df['decisao_tribunal'] = df['decisao_tribunal'].cat.rename_categories({
    'Condenação': 'condenacao',
    'Arquivamento': 'arquivamento',
    '': 'vazio'
})

df['mercado_relevante'] = df['mercado_relevante'].cat.rename_categories({
    '': 'vazio'
})

setor_eco = [ 'setor_economico', 'setor_economico_classe', 'setor_economico_divisao', 'setor_economico_grupo', 'setor_economico_secao', 'setor_economico_sub_classe']
for col in setor_eco:
    df[col] = df[col].cat.rename_categories({
        '': 'vazio'
    })

In [167]:
linhas, colunas = df.shape
print(f"Quantidade de linhas: {linhas}")
print(f"Quantidade de colunas: {colunas}")

Quantidade de linhas: 9518
Quantidade de colunas: 35


In [168]:
df['descricao_tipo_protocolo'].value_counts()

descricao_tipo_protocolo
Documento Interno    9129
Name: count, dtype: int64

In [169]:
df = df.drop(columns='descricao_tipo_protocolo')

In [170]:
df['data_ordem'].value_counts()

data_ordem
1970-01-01    9518
Name: count, dtype: int64

In [171]:
df = df.drop(columns='data_ordem')

In [172]:
df['decisao_sg'].value_counts()

decisao_sg
Aprovação sem restrições                                                                         4647
                                                                                                 1808
Condenação                                                                                       1293
Arquivamento                                                                                      665
Homologação                                                                                       511
Impugnação ao Tribunal                                                                            346
Não conhecimento                                                                                  162
Recomendação de Gun Jumping - Lei 12.529/2011                                                      48
Recomendação de Gun Jumping - Lei 12.529/2011# Necessidade de notificação do AC                    24
Necessidade de notificação do AC                                       

In [173]:
df['setor_economico_secao'].value_counts().head(30)

setor_economico_secao
Indústrias de Transformação                                                                                         1837
Comércio, Reparação de Veículos Automotores e Motocicletas                                                          1191
vazio                                                                                                                868
Transporte, Armazenagem e Correio                                                                                    618
Construção                                                                                                           563
Eletricidade e Gás                                                                                                   554
Informação e Comunicação                                                                                             479
Atividades Financeiras, de Seguros e Serviços Relacionados                                                           469
Saúde Huma

In [174]:
df = df.loc[df['sigla_unidade'] != 'Outras']

In [175]:
df_limpo = df

Filtro por Voto

In [176]:
tipos_validos = [
    "Voto",
    "Voto Processo Administrativo",
    "Voto Embargos de Declaração"
]

df_votos_filtrados = df_limpo.loc[
    (df_limpo["descricao_tipo_documento"].isin(tipos_validos)) &
    (df_limpo["descricao_tipo_processo"] == "Processo Administrativo")
]

counts = df_votos_filtrados["decisao_tribunal"].value_counts()
total = counts.sum()
print(total)


739


In [177]:
from feature_engine.encoding import RareLabelEncoder

# Configurar encoder para consolidar categorias <2%
encoder = RareLabelEncoder(
    tol=0.02,
    n_categories=5,
    replace_with='Outros',
    variables=['setor_economico_secao']
)

df_votos_filtrados = encoder.fit_transform(df_votos_filtrados)

### NECESSARIO PARA O DASHBOARD

df_preparado.csv

In [178]:
df_votos_filtrados.to_csv("../dados/df_preparado.csv", index=False) #NECESSARIO PARA O DASHBOARD


### Criando uma amostra do DataFrame

Para facilitar o processamento e análise, foi criada uma amostra do DataFrame original `df_ana` contendo apenas as 200 primeiras linhas. Essa amostra será utilizada nas etapas subsequentes do notebook.

In [179]:
df_ana200 = df_votos_filtrados.head(200)


### Importação de Bibliotecas e Configuração Inicial

Nesta etapa, são importadas todas as bibliotecas necessárias para o processamento, logging, manipulação de dados e uso da API do Gemini. 

Além disso, são carregadas variáveis de ambiente, como a chave da API, e configurado o sistema de logging para registrar mensagens tanto no terminal quanto em arquivo, garantindo rastreabilidade e monitoramento do processo.


In [180]:
import os
import json
import logging
import jsonschema
import pandas as pd
from dotenv import load_dotenv
from tqdm.auto import tqdm
import google.generativeai as genai
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from typing import Dict, Any, Optional


load_dotenv()
API_KEY = os.getenv("GOOGLE_API_KEY")
genai.configure(api_key=API_KEY)

# Configuração de logging detalhada
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('processamento_juridico.log'),
        logging.StreamHandler()
    ]
)


### Sistema de Cache e Schema Jurídico

#### Sistema de Cache
**O que faz:**  
Cria um sistema de cache em disco para armazenar respostas da API e evitar reprocessamento de documentos já analisados.

**Benefícios:**  
- Reduz o número de chamadas à API  
- Acelera reprocessamentos  
- Mantém histórico por 7 dias (`expire=60*60*24*7`)  

---

#### Elementos Principais do Schema Jurídico

| **Propriedade**           | **Descrição**                                                                 |
|----------------------------|-----------------------------------------------------------------------------|
| `decisao_tribunal`         | Enumeração com os possíveis resultados do processo                          |
| `seguiu_nota_tecnica`      | Indica adesão a pareceres técnicos (booleano ou nulo)                       |
| `multa`                    | Existência de sanção financeira (booleano obrigatório)                      |
| `tipo_de_multa`            | Natureza da penalidade econômica aplicada                                   |

**Validação Cruzada:**  
Garante que campos relacionados sejam preenchidos de forma consistente.

---

#### Regras de Validação Especiais

**Campos Obrigatórios:**  
```json
"required": ["decisao_tribunal", ...]
```
Garante preenchimento mínimo essencial.

**Dependências entre Campos:**  
```json
"dependentRequired": {
    "multa": ["tipo_de_multa"],
    "tipo_de_multa": ["valor_multa_reais", "percentual_faturamento"]
}
```
Se existir multa (`multa: true`), deve especificar tipo e valores.

**Validação Condicional:**  
```json
"if": {"properties": {"multa": {"const": false}}},
"then": {
    "properties": {
        "tipo_de_multa": {"const": null},
        // outros campos null
    }
}
```
Se `multa: false`, campos relacionados devem ser `null`.

---

#### Por que isso é importante?
Esta estrutura garante que:  
- Todos os documentos sejam analisados de forma consistente  
- As relações lógicas entre os campos sejam preservadas  
- Os resultados possam ser integrados diretamente em sistemas downstream

In [181]:
from diskcache import Cache
# Cache para evitar reprocessamento
cache = Cache("cache_processamento")

SCHEMA_JURIDICO = {
    "$schema": "http://json-schema.org/draft-07/schema#",
    "type": "object",
    "properties": {
        "decisao_tribunal": {
            "enum": ["Condenação", "Arquivamento", None],
            "description": "Decisão final do tribunal"
        },
        "seguiu_nota_tecnica": {
            "type": ["boolean", "null"],
            "description": "Indica se seguiu nota técnica"
        },
        "tipo_infracao_concorrencial": {
            "type": ["string", "null"],
            "description": "Tipo de infração concorrencial"
        },
        "multa": {
            "type": "boolean",
            "description": "Existência de multa"
        },
        "tipo_de_multa": {
            "enum": ["valor_fixo", "percentual", "ambos", None],
            "description": "Tipo de multa aplicada"
        },
        "valor_multa_reais": {
            "type": ["number", "null"],
            "minimum": 0,
            "description": "Valor em reais da multa"
        },
        "percentual_faturamento": {
            "type": ["number", "null"],
            "minimum": 0,
            "maximum": 100,
            "description": "Percentual sobre faturamento"
        }
    },
    "required": [
        "decisao_tribunal", "seguiu_nota_tecnica", "multa",
        "tipo_de_multa", "valor_multa_reais", "percentual_faturamento"
    ],
    "additionalProperties": False,
    "dependentRequired": {
        "multa": ["tipo_de_multa"],
        "tipo_de_multa": ["valor_multa_reais", "percentual_faturamento"]
    },
    "if": {
        "properties": {"multa": {"const": False}},
        "then": {
            "properties": {
                "tipo_de_multa": {"const": None},
                "valor_multa_reais": {"const": None},
                "percentual_faturamento": {"const": None}
            }
        }
    }
}

### Configuração do Modelo Gemini

#### O que este código faz?

**`generation_config`**  
Define as configurações de geração de texto para o modelo Gemini:  
- **`temperature=0.0`**: Garante respostas determinísticas (sem aleatoriedade).  
- **`top_p=0.95`**: Controla a diversidade das respostas, mantendo apenas as mais prováveis.  
- **`response_mime_type="application/json"`**: Solicita que o modelo retorne as respostas em formato JSON.

**`modelo`**  
Cria uma instância do modelo Gemini 2.5 Flash Preview utilizando as configurações definidas acima.


### Escolha do Modelo Gemini 2.5 Flash Preview

#### Por que este modelo foi escolhido?
O modelo **Gemini 2.5 Flash Preview** foi selecionado com base em sua eficiência de custo, desempenho superior e adequação ao processamento de textos jurídicos. Abaixo estão os principais motivos:

---

#### **Custo Extremamente Baixo**
| **Parâmetro**       | **Preço (USD por 1M tokens)** | **Comparação com Outros Modelos**       |
|----------------------|------------------------------|-----------------------------------------|
| Entrada (texto)      | $0.15                        | 80% mais barato que o Gemini 1.5 Pro   |
| Saída (sem thinking) | $0.60                        | 50% mais barato que GPT-4 Turbo        |
| **Custo Total para 1.000 Docs** | **~$0.45*** | **Economia de ~$3.50 vs Gemini 2.5 Pro** |

*Estimativa para documentos médios:  
- 1.000 tokens/doc de entrada (1M tokens total): $0.15  
- 500 tokens/doc de saída (500k tokens total): $0.30  

---

#### **Velocidade de Processamento**
| **Métrica**          | **Gemini 2.5 Flash** | **Gemini 1.5 Pro** |
|-----------------------|----------------------|--------------------|
| Tokens/s (saída)      | 275-326 tokens/s    | 120-150 tokens/s   |
| Latência (TTFT)       | 0.29-0.38s          | 0.8-1.2s          |
| Tempo para 1.000 Docs | ~15-30 minutos**    | ~50-70 minutos    |

*Considerando processamento paralelo e tamanho médio de documentos.

---

#### **Vantagens Adicionais para o Caso de Uso**
- **Context Window de 1M Tokens**  
    - Processa documentos jurídicos longos sem truncar texto.  
    - Mantém o contexto completo para análise precisa.  

- **Saída em JSON Estruturado**  
    - Garante consistência nas colunas do DataFrame.  
    - Reduz pós-processamento manual.  

- **Confiabilidade em Campos Obrigatórios**  
    - Validação integrada via `jsonschema`.  
    - Preenchimento automático de `null` para dados ausentes.  

---

#### **Tabela Comparativa de Modelos**
| **Modelo**           | **Custo (1M docs)** | **Velocidade** | **Contexto** | **Adequação Jurídica** |
|-----------------------|---------------------|----------------|--------------|------------------------|
| Gemini 2.5 Flash      | $450               | ⚡⚡⚡⚡          | 1M tokens    | Alta                   |
| GPT-4 Turbo           | $3,200             | ⚡⚡            | 128k         | Média                  |
| Claude 3 Opus         | $4,800             | ⚡             | 200k         | Alta                   |
| Gemini 1.5 Pro        | $2,500             | ⚡⚡            | 1M           | Alta                   |

---

#### **Conclusão**
O **Gemini 2.5 Flash Preview** é a escolha ideal porque:  
- Reduz custos em **82%** em comparação com alternativas de mesma capacidade.  
- Processa **1.000 documentos em ~20 minutos**, enquanto outros modelos levam horas.  
- Garante estrutura de dados perfeita para o DataFrame com validação automática.  

Para escalar para **10.000+ documentos**, o custo seria de **~$4.50** e o tempo de processamento **~3-5 horas**, mantendo alta precisão e eficiência.


In [182]:
generation_config = genai.GenerationConfig(
    temperature=0.0,
    top_p=0.95,
    response_mime_type="application/json"
)

modelo = genai.GenerativeModel(
    model_name="models/gemini-2.5-flash-preview-05-20",
    generation_config=generation_config
)


### Detalhes do Processo de Extração de Informações Jurídicas

#### **Retentativas Automáticas**
- Implementado um sistema de retentativas automáticas para garantir robustez no processamento.
- Em caso de erro de decodificação JSON ou validação do schema, o sistema tenta novamente até **3 vezes**.
- Utiliza espera exponencial entre as tentativas para minimizar falhas consecutivas.

---

#### **Prompt Detalhado**
O prompt enviado ao modelo Gemini foi cuidadosamente elaborado para garantir precisão e consistência:
1. **Identificação Completa:**  
    - Instrui o modelo a identificar todos os campos do schema jurídico.
2. **Análise Integral:**  
    - Analisa o texto completo, sem cortes ou divisões.
3. **Retorno Estruturado:**  
    - Exige que o modelo sempre retorne um JSON válido, mesmo que algum valor esteja ausente (usar `null`).

---

#### **Validação Estrita**
- Após receber a resposta do modelo, o JSON é validado rigorosamente contra o schema definido (`SCHEMA_JURIDICO`).
- Apenas dados que atendem às regras do schema são considerados válidos e retornados para uso.

---

#### **Tratamento de Erros**
- Em caso de erro durante o processamento:
  - O sistema registra uma mensagem de log detalhada, incluindo o tamanho do texto e um trecho do erro.
  - Retorna `None` para que o processamento continue sem interrupções.


In [183]:
@cache.memoize(expire=60*60*24*7)
@retry(
    stop=stop_after_attempt(3),
    wait=wait_exponential(multiplier=1, min=2, max=10),
    retry=retry_if_exception_type((json.JSONDecodeError, jsonschema.ValidationError))
)
def extrair_informacoes_juridicas(texto: str) -> Optional[Dict[str, Any]]:
    try:
        prompt = f"""
        Analise COMPLETAMENTE o documento jurídico abaixo seguindo:
        1. Identifique todos os elementos do schema
        2. Mantenha o texto integral sem divisões
        3. Retorne JSON válido mesmo para valores ausentes

        Documento:
        \"\"\"{texto}\"\"\"
        
        Formato de resposta exigido (JSON válido):
        {json.dumps(SCHEMA_JURIDICO, indent=2)}
        """
        resposta = modelo.generate_content(prompt)
        json_str = resposta.text.strip().replace('``````', '')
        data = json.loads(json_str)
        
        jsonschema.validate(instance=data, schema=SCHEMA_JURIDICO)

        return data

    except Exception as e:
        logging.error(f"Erro no documento de {len(texto)} caracteres: {str(e)[:200]}...")
        return None


### 🚀 Processamento Paralelo Inteligente

#### **O que esta função faz?**

##### **Processamento Paralelo Inteligente**
- Utiliza `ThreadPoolExecutor` para processar múltiplos documentos simultaneamente.
- Por padrão, executa **5 processamentos em paralelo** (`workers=5`).
- Reduz significativamente o tempo total de processamento, ideal para grandes volumes de dados.

##### **Barra de Progresso Personalizada**
- Mostra progresso em tempo real com emoji 📄.
- Formato customizado da barra para melhor visualização.
- Informa quantos documentos foram processados vs total, garantindo transparência no andamento.

##### **Tratamento Robusto de Dados**
- Garante que todos os resultados tenham a mesma estrutura, mesmo em caso de falhas.
- Para documentos que falharam, preenche com valores `None` em todos os campos do `SCHEMA_JURIDICO`.
- Evita quebra do DataFrame por dados inconsistentes, mantendo a integridade dos resultados.

##### **Integração Perfeita**
- Adiciona sufixo `_ia` a todas as novas colunas geradas pelo modelo.
- Concatena os resultados com o DataFrame original, preservando o alinhamento de índices.
- Facilita a análise ao integrar os dados processados diretamente ao pipeline.

---

#### 📊 **Benefícios de Performance**

| **Cenário**          | **Processamento Sequencial** | **Processamento Paralelo (5 workers)** |
|-----------------------|-----------------------------|----------------------------------------|
| **100 documentos**    | ~5 minutos                 | ~1 minuto                              |
| **1.000 documentos**  | ~50 minutos                | ~10 minutos                            |
| **10.000 documentos** | ~8 horas                   | ~1.5 horas                             |

---

#### 🔧 **Como usar**

```python
# Processar DataFrame completo
df_processado = processar_em_lote(df_ana, 'conteudo')

# Ou com mais workers para maior velocidade
df_processado = processar_em_lote(df_ana, 'conteudo', workers=10)
```

---

#### **Por que esta função é essencial?**
Esta função é o coração do pipeline de processamento, garantindo:
- **Eficiência:** Reduz o tempo de análise de grandes volumes de textos jurídicos.
- **Robustez:** Trata erros e inconsistências automaticamente.
- **Facilidade de Uso:** Integra os resultados diretamente ao DataFrame original, pronto para análise.

Combinando **paralelismo**, **tratamento robusto de dados** e **integração perfeita**, esta função é indispensável para análise de documentos jurídicos em escala.

In [184]:
from concurrent.futures import ThreadPoolExecutor

def processar_em_lote(df: pd.DataFrame, coluna_texto: str, workers: int = 5) -> pd.DataFrame:
    """Processamento paralelo otimizado para grandes volumes."""
    textos = df[coluna_texto].tolist()
    
    with ThreadPoolExecutor(max_workers=workers) as executor:
        resultados = list(tqdm(
            executor.map(extrair_informacoes_juridicas, textos),
            total=len(textos),
            desc="📄 Processando Documentos",
            bar_format='{l_bar}{bar:20}{r_bar}{bar:-20b}'
        ))
    
    # Garante todas as colunas mesmo com resultados nulos
    dados_normalizados = []
    for resultado in resultados:
        if resultado:
            dados_normalizados.append(resultado)
        else:
            dados_normalizados.append({k: None for k in SCHEMA_JURIDICO['properties']})
    
    df_resultados = pd.json_normalize(dados_normalizados).add_suffix('_ia')
    
    return pd.concat([df.reset_index(drop=True), df_resultados], axis=1)

In [185]:
df_output = processar_em_lote(df_ana200, 'conteudo', workers=5)
df_output.to_csv("output.csv", index=False)

# Estatísticas
print("\n✅ Processamento concluído!")
print("📊 Estatísticas das novas colunas:")
print(df_output.filter(like='_ia').info())

📄 Processando Documentos: 100%|████████████████████| 200/200 [00:00<00:00, 3606.50it/s]


✅ Processamento concluído!
📊 Estatísticas das novas colunas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   decisao_tribunal_ia             190 non-null    object 
 1   seguiu_nota_tecnica_ia          138 non-null    object 
 2   tipo_infracao_concorrencial_ia  183 non-null    object 
 3   multa_ia                        199 non-null    object 
 4   tipo_de_multa_ia                139 non-null    object 
 5   valor_multa_reais_ia            97 non-null     float64
 6   percentual_faturamento_ia       42 non-null     float64
dtypes: float64(2), object(5)
memory usage: 11.1+ KB
None





In [186]:
df_output.head()

Unnamed: 0,id,id_unique,numero_sei,ano_documento,assinaturas,descricao_tipo_documento,descricao_tipo_processo,numero_processo,id_unidade,sigla_unidade,descricao_unidade,data_documento,setor_economico,setor_economico_classe,setor_economico_divisao,setor_economico_grupo,setor_economico_secao,setor_economico_sub_classe,partes_processos_like,partes_processos,decisao_sg,link_documento,mercado_relevante,documentos_relacionados,qtd_acesso_processo,descricao_especificacao,data_processo,_version_,corpo_texto,qtd_acesso,decisao_tribunal,conteudo,diferenca_dias,decisao_tribunal_ia,seguiu_nota_tecnica_ia,tipo_infracao_concorrencial_ia,multa_ia,tipo_de_multa_ia,valor_multa_reais_ia,percentual_faturamento_ia
0,abbdc450-7ff1-4990-9bcc-8ae4386592f0,jurisprudencia__1390607,1390607,2024,Outras,Voto Processo Administrativo,Processo Administrativo,08700.004558/2019-05,110000967.0,GAB1,Gabinete do Conselheiro 1,2024-05-23,Fabricação de Peças e Acessórios para o Sistem...,Fabricação de Peças e Acessórios para o Sistem...,"Fabricação de Veículos Automotores, Reboques e...",Fabricação de Peças e Acessórios para Veículos...,Indústrias de Transformação,Fabricação de Peças e Acessórios para o Sistem...,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{BERND BRÜNIG:08700.004558/2019-05};{FAUSTINO ...,Condenação,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,"pistões de motor, bronzinas, camisas, pinos, b...","{id_unidade:110000967,protocolo_documento:1085...",604,"- Desmembrado Bernd Brünig, Faustino Luigi Mi...",2019-09-13,1800936057604145200,,0,vazio,SEI/CADE - 1390607 - Voto Processo Administrat...,1714,Condenação,True,CARTEL de peças automotivas,True,valor_fixo,324116.21,1.8
1,b41e8f1f-449e-4d28-a574-18f365d32b6f,jurisprudencia__1384594,1384594,2024,Gustavo Augusto Freitas de Lima,Voto Processo Administrativo,Processo Administrativo,08700.004974/2015-71,110000969.0,GAB3,Gabinete do Conselheiro 3,2024-05-09,Gestão e Administração da Propriedade Imobiliária,Gestão e Administração da Propriedade Imobiliária,Atividades Imobiliárias,Atividades Imobiliárias por Contrato ou Comissão,Outros,Gestão e Administração da Propriedade Imobiliária,CONSELHO ADMINISTRATIVO DE DEFESA ECONOMICA-CA...,{CONSELHO FEDERAL DE CORRETORES DE IMOVEIS:087...,Condenação,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Mercado imobiliário,"{id_unidade:110000969,protocolo_documento:0257...",8751,Influencia de conduta uniforme - COFECI,2015-05-21,1800936002855895000,,0,condenacao,SEI/CADE - 1384594 - Voto Processo Administrat...,3276,Condenação,True,Imposição de preços mínimos,True,valor_fixo,100000.0,
2,adec625d-4f5e-4514-b938-a295fdc1e8a4,jurisprudencia__1384685,1384685,2024,Outras,Voto,Processo Administrativo,08700.005915/2022-40,110001021.0,DIAP,Divisão de Acompanhamento Processual,2024-05-09,"Comércio Atacadista de Combustíveis Sólidos, L...","Comércio Atacadista de Combustíveis Sólidos, L...","Comércio por Atacado, Exceto Veículos Automoto...",Comércio Atacadista Especializado em Outros Pr...,"Comércio, Reparação de Veículos Automotores e ...","Comércio Atacadista de Álcool Carburante, Biod...",ALAIM ROCHA JUNIOR; ANTONIO CAMPOS ROCHA JUNIO...,{ALAIM ROCHA JUNIOR:08700.005915/2022-40};{ANT...,Arquivamento,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,Postos de gasolina,"{id_unidade:110001021,protocolo_documento:1100...",975,Ministério Público do Estado de Minas Gerais,2022-08-08,1800936088917770200,voto\r\n\r\nI. BREVE RESUMO DO PROCESSO&nbsp;\...,0,arquivamento,SEI/CADE - 1384685 - Voto\n\n\nProcesso nº 087...,640,Arquivamento,True,Cartel,False,,,
3,c8499708-5778-45d9-8914-9ab97b77c1fd,jurisprudencia__1377990,1377990,2024,Alexandre Cordeiro Macedo,Voto Processo Administrativo,Processo Administrativo,08700.007776/2016-41,110000955.0,GAB-PRES,Gabinete da Presidência,2024-04-23,Construção de Edifícios# Construção de Rodovia...,Construção de Edifícios# Construção de Rodovia...,Construção de Edifícios# Obras de Infra-Estrutura,Construção de Edifícios# Construção de Rodovia...,Construção,Construção de Edifícios# Construção de Rodovia...,ANDRADE GUTIERREZ ENGENHARIA S/A; CAENGE S.A -...,{ANDRADE GUTIERREZ ENGENHARIA S/A:08700.003679...,Condenação,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,obras de engenharia civil# Construção de infra...,"{id_unidade:110000955,protocolo_documento:0273...",39688,PAC Favelas - AL 09/2016 - Favelas,2016-11-22,1800936018528960500,,0,condenacao,SEI/CADE - 1377990 - Voto Processo Administrat...,2709,Condenação,False,Cartel,True,percentual,22820827.32,18.0
4,29758e3d-7047-4c5a-8ac6-b6815c67ec3d,jurisprudencia__1377023,1377023,2024,Gustavo Augusto Freitas de Lima,Voto Processo Administrativo,Processo Administrativo,08700.007776/2016-41,110000969.0,GAB3,Gabinete do Conselheiro 3,2024-04-23,Construção de Edifícios# Construção de Rodovia...,Construção de Edifícios# Construção de Rodovia...,Construção de Edifícios# Obras de Infra-Estrutura,Construção de Edifícios# Construção de Rodovia...,Construção,Construção de Edifícios# Construção de Rodovia...,ANDRADE GUTIERREZ ENGENHARIA S/A; CAENGE S.A -...,{ANDRADE GUTIERREZ ENGENHARIA S/A:08700.003679...,Condenação,http://sei.cade.gov.br/sei//modulos/pesquisa/m...,obras de engenharia civil# Construção de infra...,"{id_unidade:110000969,protocolo_documento:0273...",39688,PAC Favelas - AL 09/2016 - Favelas,2016-11-22,1800936018619138000,,0,condenacao,SEI/CADE - 1377023 - Voto Processo Administrat...,2709,Condenação,False,Cartel de licitação,True,percentual,,



### Geração do Relatório de Estatísticas

Nesta etapa, foi gerado um arquivo chamado `relatorio.csv`, localizado no mesmo diretório do código fonte. Este arquivo contém as seguintes informações:

1. **Porcentagem de documentos contendo votos de condenação em processos administrativos**  
    - Calculado com base nos documentos de processos administrativos que possuem decisão de condenação.

2. **Média do valor em reais das condenações**  
    - Representa a média dos valores das multas aplicadas nos processos administrativos com decisão de condenação.

3. **Média de porcentagem do faturamento das pessoas jurídicas condenadas utilizado para a definição da multa na dosimetria**  
    - Calculado com base nos processos administrativos com decisão de condenação.



In [187]:
pca = df_output[df_output['descricao_tipo_processo']=='Processo Administrativo']

vc = pca[pca['decisao_tribunal_ia']=='Condenação']

porcentagem = len(vc) / len(pca) * 100
print(f"procentagem de processos administrativos com decisão de condenação: {porcentagem}%" )

procentagem de processos administrativos com decisão de condenação: 72.5%


In [188]:
media_valor_multa = vc['valor_multa_reais_ia'].mean()
print(f"Média do valor da multa: R$ {media_valor_multa:.2f}")

Média do valor da multa: R$ 62658840.92


In [189]:
percentual_faturamento_medio = vc['percentual_faturamento_ia'].mean()
print(f"Média do percentual de faturamento: {percentual_faturamento_medio:.2f}%")

Média do percentual de faturamento: 14.59%


In [190]:
# Criar um DataFrame com as estatísticas calculadas
estatisticas = pd.DataFrame({
    'Métrica': [
        'Porcentagem de processos administrativos com condenação',
        'Média do valor da multa (R$)',
        'Média do percentual de faturamento (%)'
    ],
    'Valor': [
        f'{porcentagem:.1f}%',
        f'{media_valor_multa:.2f}',
        f'{percentual_faturamento_medio:.2f}%'
    ]
})

# Exportar as estatísticas
estatisticas.to_csv('relatorio.csv', index=False, encoding='utf-8')
