#

# üìä NOTEBOOK 1: COLETA E PREPARA√á√ÉO DE DADOS
**An√°lise de Sentimento em Decis√µes Judiciais - TJCE**

## üîß 1. CONFIGURA√á√ÉO DO AMBIENTE

### 1.1 Instala√ß√£o de Depend√™ncias
**Descri√ß√£o**: Instala√ß√£o das bibliotecas Python necess√°rias.

In [None]:
# Instalar bibliotecas necess√°rias
!pip install -r requirements.txt



### 1.2 Importa√ß√£o de Bibliotecas

In [None]:
import pandas as pd
import json
from collections import Counter
import requests
import csv

## üì• 2. COLETA DE DADOS VIA API CNJ *DATAJUD*


### 2.1 Configura√ß√£o da API e Par√¢metros de Busca

 **Descri√ß√£o**: Configura√ß√£o da requisi√ß√£o √† API p√∫blica do CNJ. O c√≥digo de assunto 12487 refere-se a "Fornecimento de medicamentos", encontrado no site oficial do CNJ (https://www.cnj.jus.br/sgt/consulta_publica_assuntos.php).

 Para encontrar o c√≥digo no site do cnj:
   1. Procure por "Medicamentos"
   2. Selecione a 4¬™ op√ß√£o: `Fornecimento de medicamentos`
   3. Verifique o c√≥digo que aparece, `12487 Fornecimento de medicamentos`

In [None]:
url = "https://api-publica.datajud.cnj.jus.br/api_publica_tjce/_search"
api_key = "APIKey cDZHYzlZa0JadVREZDJCendQbXY6SkJlTzNjLV9TRENyQk1RdnFKZGRQdw=="

payload = json.dumps({
    "size": 10000,
    "query": {"match": {"assuntos.codigo": "12487"}},  # C√≥digo: Fornecimento de medicamentos
    "sort": [{"dataAjuizamento": {"order": "desc"}}]
})

headers = {
    'Authorization': api_key,
    'Content-Type': 'application/json'
}

### 2.2 Requisi√ß√£o e Valida√ß√£o dos Dados
**Descri√ß√£o**: Execu√ß√£o da requisi√ß√£o HTTP POST para a API e valida√ß√£o inicial do volume de dados retornados.

In [None]:
response = requests.request("POST", url, headers=headers, data=payload)
dados_dict = response.json()
print(f"Total de processos encontrados na API: {dados_dict['hits']['total']['value']}")
print(f"Processos retornados nesta consulta: {len(dados_dict['hits']['hits'])}")

Total de processos encontrados na API: 6046
Processos retornados nesta consulta: 6046


## üîÑ 3. PROCESSAMENTO E ESTRUTURA√á√ÉO DOS DADOS

### 3.1 Extra√ß√£o de Campos Essenciais
**Descri√ß√£o**: Extra√ß√£o dos campos essenciais de cada processo (n√∫mero, grau de jurisdi√ß√£o, data de ajuizamento e movimentos processuais) e cria√ß√£o do DataFrame principal.

In [None]:
processos = []

for hit in dados_dict['hits']['hits']:
    processo = hit['_source']

    numero_processo = processo['numeroProcesso']
    grau = processo['grau']
    data_ajuizamento = processo['dataAjuizamento']
    movimentos = processo.get('movimentos', [])

    processos.append([
        numero_processo,
        grau,
        data_ajuizamento,
        movimentos
    ])

df = pd.DataFrame(
    processos,
    columns=[
        'numero_processo',
        'grau',
        'data_ajuizamento',
        'movimentos'
    ]
)

print(f"Total de processos no DataFrame: {len(df)}")
df.sample(5)

Total de processos no DataFrame: 6046


Unnamed: 0,numero_processo,grau,data_ajuizamento,movimentos
5042,6370019320218060000,G2,20211117000000,"[{'complementosTabelados': [{'codigo': 4, 'val..."
5726,6285978720208060000,G2,20200625000000,"[{'complementosTabelados': [{'codigo': 3, 'val..."
5496,507452820218060091,G1,20210403000000,"[{'codigo': 1051, 'nome': 'Decurso de Prazo', ..."
4923,2000199420228060038,G1,20220113000000,"[{'complementosTabelados': [{'codigo': 18, 'va..."
1701,2082644020248060001,G1,20240207000000,"[{'complementosTabelados': [{'codigo': 4, 'val..."


## üîç 4. IDENTIFICA√á√ÉO E AN√ÅLISE DE DECIS√ïES

### 4.1 Defini√ß√£o de Termos de Decis√£o
**Descri√ß√£o**: Defini√ß√£o dos termos-chave que caracterizam decis√µes judiciais relevantes para a an√°lise.

In [None]:
from collections import Counter

termos_decisao = [
    "Proced√™ncia",
    "Improced√™ncia",
    "Improced√™ncia do pedido e improced√™ncia do pedido contraposto",
    "Proced√™ncia do pedido e proced√™ncia do pedido contraposto",
    "Deferido",
    "Indeferido",
]

### 4.2 Extra√ß√£o de Decis√µes dos Movimentos Processuais
**Descri√ß√£o**: Busca sistem√°tica nos movimentos processuais por termos de decis√£o.

**Importante**: Filtra apenas processos de primeira inst√¢ncia (grau G1) para garantir homogeneidade na an√°lise.

In [None]:
decisoes_por_processo = []
tipos_decisao_contagem = []

for _, row in df.iterrows():
    numero = row['numero_processo']
    movimentos = row['movimentos']
    grau = row['grau']
    data_ajuizamento = row['data_ajuizamento']

    decisoes_encontradas = []

    if movimentos:
        for mov in movimentos:
            nome_mov = mov.get('nome', '')

            # Filtrar apenas decis√µes de primeira inst√¢ncia (G1)
            if any(termo in nome_mov for termo in termos_decisao) and grau == 'G1':
                decisoes_encontradas.append(nome_mov)
                tipos_decisao_contagem.append(nome_mov)

    if decisoes_encontradas:
        decisoes_por_processo.append({
            'numero_processo': numero,
            'data_ajuizamento': data_ajuizamento,
            'decisoes': decisoes_encontradas
        })

print(f"Processos com decis√µes: {len(decisoes_por_processo)} de {len(df)}")
print("\nTipos de decis√µes encontradas:")
for tipo, count in Counter(tipos_decisao_contagem).most_common(10):
    print(f"  {tipo}: {count}")

Processos com decis√µes: 1799 de 6046

Tipos de decis√µes encontradas:
  Proced√™ncia: 1284
  Proced√™ncia em Parte: 259
  Improced√™ncia: 222
  Proced√™ncia em parte do pedido e improced√™ncia do pedido contraposto: 30
  Improced√™ncia do pedido e improced√™ncia do pedido contraposto: 14
  Proced√™ncia do pedido e improced√™ncia do pedido contraposto: 5
  Proced√™ncia do Pedido - Reconhecimento pelo r√©u: 3
  Proced√™ncia em parte do pedido e proced√™ncia do pedido contraposto: 1
  Proced√™ncia do pedido e proced√™ncia do pedido contraposto: 1


### 4.3 Cria√ß√£o de DataFrame de Decis√µes
**Descri√ß√£o**: Cria√ß√£o de um DataFrame espec√≠fico para decis√µes, removendo duplicatas por processo (mant√©m apenas a primeira decis√£o encontrada).

In [None]:
decisoes_lista = []

for item in decisoes_por_processo:
    for decisao in item['decisoes']:
        decisoes_lista.append({
            'numero_processo': item['numero_processo'],
            'tipo_decisao': decisao,
        })

df_decisoes = pd.DataFrame(decisoes_lista)
df_decisoes = df_decisoes.drop_duplicates(subset='numero_processo', keep='first')
df_decisoes.head(10)

Unnamed: 0,numero_processo,tipo_decisao
0,30039390220258060071,Improced√™ncia
1,02187331420258060001,Proced√™ncia
2,30465508320258060001,Proced√™ncia em Parte
3,30415587920258060001,Proced√™ncia em Parte
4,30048329320258060167,Proced√™ncia
5,02162085920258060001,Proced√™ncia
6,30355412720258060001,Proced√™ncia
7,30022788520258060071,Proced√™ncia
8,30303751420258060001,Proced√™ncia em Parte
9,30292622520258060001,Proced√™ncia


## üìä 5. SEGMENTA√á√ÉO POR TIPO DE DECIS√ÉO

### 5.1 Separa√ß√£o por Categorias de Decis√£o
**Descri√ß√£o**: Segmenta√ß√£o do dataset em categorias de decis√£o para an√°lise comparativa posterior.

In [None]:
# Separar decis√µes por tipo
df_procedencia = df_decisoes[df_decisoes['tipo_decisao'] == 'Proced√™ncia'].copy()
df_improcedencia = df_decisoes[df_decisoes['tipo_decisao'] == 'Improced√™ncia'].copy()
df_improcedencia_contraposto = df_decisoes[df_decisoes['tipo_decisao'] == 'Improced√™ncia do pedido e improced√™ncia do pedido contraposto'].copy()
df_procedencia_contraposto = df_decisoes[df_decisoes['tipo_decisao'] == 'Proced√™ncia do pedido e proced√™ncia do pedido contraposto'].copy()

df_decisoes_completo = pd.concat([
    df_procedencia,
    df_improcedencia,
    df_improcedencia_contraposto,
    df_procedencia_contraposto
])

print(f"\n=== TODOS OS REGISTROS COM DECIS√ÉO ===")
print(f"Total de registros: {len(df_decisoes_completo)}")
print(f"\nDistribui√ß√£o por tipo:")
print(f"  - Proced√™ncia: {len(df_procedencia)}")
print(f"  - Improced√™ncia: {len(df_improcedencia)}")
print(f"  - Improced√™ncia (contraposto): {len(df_improcedencia_contraposto)}")
print(f"  - Proced√™ncia (contraposto): {len(df_procedencia_contraposto)}")

df_decisoes_completo


=== TODOS OS REGISTROS COM DECIS√ÉO ===
Total de registros: 1497

Distribui√ß√£o por tipo:
  - Proced√™ncia: 1264
  - Improced√™ncia: 219
  - Improced√™ncia (contraposto): 13
  - Proced√™ncia (contraposto): 1


Unnamed: 0,numero_processo,tipo_decisao
1,02187331420258060001,Proced√™ncia
4,30048329320258060167,Proced√™ncia
5,02162085920258060001,Proced√™ncia
6,30355412720258060001,Proced√™ncia
7,30022788520258060071,Proced√™ncia
...,...,...
844,02047761420238060001,Improced√™ncia do pedido e improced√™ncia do ped...
1070,02063489420228060112,Improced√™ncia do pedido e improced√™ncia do ped...
1247,02006673320228060181,Improced√™ncia do pedido e improced√™ncia do ped...
1621,02226629420218060001,Improced√™ncia do pedido e improced√™ncia do ped...


## üßπ 6. LIMPEZA E CONSOLIDA√á√ÉO DO DATASET

### 6.1 Unifica√ß√£o dos DataFrames
**Descri√ß√£o**: Integra√ß√£o da coluna de tipo de decis√£o ao DataFrame principal.

In [None]:
df['tipo_decisao'] = df_decisoes_completo['tipo_decisao']
display(df.head(4))

Unnamed: 0,numero_processo,grau,data_ajuizamento,movimentos,tipo_decisao
0,30854495320258060001,G1,20250930000000,"[{'complementosTabelados': [{'codigo': 2, 'val...",Improced√™ncia
1,02257145920258060001,G1,20250930000000,"[{'complementosTabelados': [{'codigo': 2, 'val...",Proced√™ncia
2,30052433620258060071,G1,20250927000000,"[{'complementosTabelados': [{'codigo': 3, 'val...",
3,02068081820258060293,G1,20250926000000,"[{'complementosTabelados': [{'codigo': 19, 'va...",


### 6.2 Remo√ß√£o de Valores Nulos

In [None]:
# Removendo registros NaN
df = df.dropna(subset=['tipo_decisao'])
display(df.head(4))

Unnamed: 0,numero_processo,grau,data_ajuizamento,movimentos,tipo_decisao
0,30854495320258060001,G1,20250930000000,"[{'complementosTabelados': [{'codigo': 2, 'val...",Improced√™ncia
1,02257145920258060001,G1,20250930000000,"[{'complementosTabelados': [{'codigo': 2, 'val...",Proced√™ncia
4,30834471320258060001,G1,20250925000000,"[{'codigo': 1061, 'nome': 'Disponibiliza√ß√£o no...",Proced√™ncia
5,30034125320258060070,G1,20250925000000,"[{'complementosTabelados': [{'codigo': 19, 'va...",Proced√™ncia


### 6.3 Remo√ß√£o de Colunas Intermedi√°rias

In [None]:
# Removendo colunas intermedi√°rias
df = df.drop(columns=['grau', 'movimentos', 'tipo_decisao'])
display(df.head(4))

Unnamed: 0,numero_processo,data_ajuizamento
0,30854495320258060001,20250930000000
1,02257145920258060001,20250930000000
4,30834471320258060001,20250925000000
5,30034125320258060070,20250925000000


### 6.4 Reset de √çndice

In [None]:
# Resetando index para manter organiza√ß√£o do dataframe
df = df.reset_index(drop=True)
display(df.head(4))

Unnamed: 0,numero_processo,data_ajuizamento
0,30854495320258060001,20250930000000
1,02257145920258060001,20250930000000
2,30834471320258060001,20250925000000
3,30034125320258060070,20250925000000


## üìÖ 7. EXTRA√á√ÉO DE FEATURES TEMPORAIS

### 7.1 Extra√ß√£o de Dia da Semana e Ano
**Descri√ß√£o**: Cria√ß√£o de features temporais (dia da semana e ano) para an√°lise de padr√µes temporais nas decis√µes judiciais.

In [None]:
import pandas as pd

# Converter data_ajuizamento para datetime
df['data_ajuizamento_dt'] = pd.to_datetime(
    df['data_ajuizamento'],
    format='%Y%m%d%H%M%S'
)

dias_semana = {0: "Segunda", 1: "Ter√ßa", 2: "Quarta", 3: "Quinta", 4: "Sexta"}

# Extrair dia da semana (segunda = 0 | ter√ßa = 1 | ... | sexta = 4)
df['dia_semana'] = df['data_ajuizamento_dt'].dt.weekday.map(dias_semana)
df['ano'] = df['data_ajuizamento_dt'].dt.year

# Excluir coluna intermedi√°ria
df = df.drop(columns=['data_ajuizamento', 'data_ajuizamento_dt'])

df

Unnamed: 0,numero_processo,dia_semana,ano
0,30854495320258060001,Ter√ßa,2025
1,02257145920258060001,Ter√ßa,2025
2,30834471320258060001,Quinta,2025
3,30034125320258060070,Quinta,2025
4,30830790420258060001,Quarta,2025
...,...,...,...
1492,02004050620228060045,Quinta,2024
1493,02018139620248060001,Quinta,2024
1494,30001654020238060036,Quinta,2024
1495,02019870820248060001,Quinta,2024


### 7.2 Verificando ano m√≠nimo e m√°ximo do conjunto de dados

In [None]:
min = df['ano'].min()
max = df['ano'].max()

print(f"Ano m√≠nimo: {min}")
print(f"Ano m√°ximo: {max}")

Ano m√≠nimo: 2024
Ano m√°ximo: 2025


## üíæ 8. EXPORTA√á√ÉO DE DADOS INTERMEDI√ÅRIOS

### 8.1 Exporta√ß√£o para CSV
**Descri√ß√£o**: Exporta√ß√£o dos dados processados para uso posterior:

*  processos_decisao_dia_ano.csv: Dataset completo com decis√µes e features temporais
*  numeros_processos.csv: Lista √∫nica de n√∫meros de processo para scraping de PDFs




In [None]:
df.to_csv("processos_dia_ano.csv", sep=';', index=False)
df['numero_processo'].drop_duplicates().to_csv("numeros_processos.csv", index=False)

print("\n=== ARQUIVOS EXPORTADOS ===")
print("  - processos_dia_ano.csv")
print("  - numeros_processos.csv")


=== ARQUIVOS EXPORTADOS ===
  - processos_dia_ano.csv
  - numeros_processos.csv


## üìÑ 9. INSTRU√á√ïES PARA COLETA DE DOCUMENTOS COMPLETOS

### 9.1 Scraping de PDFs (Executar Localmente)
**Pr√©-requisitos:**
1. Clone o reposit√≥rio: `git clone https://github.com/GiovanniBrigido/trabalho-final-deep-learning.git`
2. Navegue at√© o diret√≥rio do projeto
3. Execute os seguintes comandos:

**Comandos:**
```bash
python -m venv venv
pip install -r requirements.txt
playwright install chromium
python ./scraper_pdf_tjce.py
```

O que o script faz:

*   L√™ o arquivo numeros_processos.csv
*   Acessa o site do TJCE
*   Baixa os PDFs das senten√ßas completas
*   Salva os arquivos na pasta data/decisoes





### 9.2 Extra√ß√£o de Texto dos PDFs (Executar Localmente)
Ap√≥s gerar os arquivos b√°sicos acima, execute o script `scraper_pdf_tjce.py` para realizar a extra√ß√£o de PDF's.

**Execute:**
```bash
python ./extrair_decisoes.py
```
**O que o script faz**:

* L√™ todos os PDFs baixados
* Extrai o texto completo de cada senten√ßa com a bib PyPDF2
* Gera o arquivo decisoes_extraidas.csv com:
   * N√∫mero do processo
   * Texto completo da decis√£o
   * Metadados adicionais

**Arquivo gerado:**

*  decisoes_extraidas.csv
* **!! SER√Å USADO NO NOTEBOOK 2 !!**