# Curso Pr√°tico de Jurimetria - Recupera√ß√£o Judicial

## Notebook 01: An√°lise Explorat√≥ria de Dados

Bem-vindo ao primeiro notebook do curso! Aqui voc√™ vai aprender a:

1. Carregar dados consolidados
2. Explorar estat√≠sticas descritivas
3. Visualizar distribui√ß√µes de flags
4. Identificar padr√µes em processos de recupera√ß√£o judicial

## üìö Importar Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configurar estilo dos gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

print('‚úÖ Bibliotecas importadas com sucesso!')

## üìÇ Carregar Dados Consolidados

Vamos carregar o arquivo CSV gerado pelo pipeline.

In [None]:
# Definir caminho do arquivo
data_path = Path('../outputs/consolidado_flags.csv')

# Verificar se o arquivo existe
if not data_path.exists():
    print('‚ö†Ô∏è  Arquivo n√£o encontrado!')
    print('Execute primeiro: python starter_scripts/01_pipeline_responder_14_questoes.py')
else:
    # Carregar dados
    df = pd.read_csv(data_path)
    print(f'‚úÖ Dados carregados: {len(df)} processos')
    print(f'üìä Colunas: {df.shape[1]}')

## üîç Primeiras Linhas dos Dados

In [None]:
# Visualizar primeiras linhas
df.head()

## üìä Estat√≠sticas Descritivas

In [None]:
# Informa√ß√µes gerais
df.info()

In [None]:
# Estat√≠sticas de colunas num√©ricas
df.describe()

## üèÅ An√°lise das Flags

Vamos analisar as flags booleanas que identificam caracter√≠sticas dos processos.

In [None]:
# Identificar colunas de flags (booleanas)
flag_columns = [
    'tem_recurso', 'tem_agravo', 'tem_apelacao', 'tem_embargos',
    'tem_liminar', 'tem_decisao_monocr√°tica', 'tem_sentenca', 'tem_acordao',
    'processo_ativo', 'processo_arquivado', 'processo_suspenso',
    'valor_causa_alto', 'valor_causa_baixo', 'tempo_tramitacao_longo'
]

# Filtrar apenas flags que existem no DataFrame
existing_flags = [col for col in flag_columns if col in df.columns]

# Contar ocorr√™ncias de cada flag
flag_counts = df[existing_flags].sum().sort_values(ascending=False)

print('\nüìà Contagem de Flags:')
print('=' * 50)
for flag, count in flag_counts.items():
    percentage = (count / len(df)) * 100
    print(f'{flag:30s}: {count:4d} ({percentage:5.1f}%)')

## üìä Visualiza√ß√£o: Distribui√ß√£o das Flags

In [None]:
# Criar gr√°fico de barras
plt.figure(figsize=(12, 8))
flag_counts.plot(kind='barh', color='steelblue')
plt.title('Distribui√ß√£o das Flags nos Processos de Recupera√ß√£o Judicial', 
          fontsize=14, fontweight='bold')
plt.xlabel('Quantidade de Processos', fontsize=12)
plt.ylabel('Flag', fontsize=12)
plt.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

## üí∞ An√°lise do Valor da Causa

In [None]:
if 'valor_causa' in df.columns:
    # Remover valores nulos
    valores = df['valor_causa'].dropna()
    
    if len(valores) > 0:
        print(f'\nüí∞ Estat√≠sticas do Valor da Causa:')
        print('=' * 50)
        print(f'M√©dia: R$ {valores.mean():,.2f}')
        print(f'Mediana: R$ {valores.median():,.2f}')
        print(f'M√≠nimo: R$ {valores.min():,.2f}')
        print(f'M√°ximo: R$ {valores.max():,.2f}')
        print(f'Desvio Padr√£o: R$ {valores.std():,.2f}')
        
        # Visualiza√ß√£o
        fig, axes = plt.subplots(1, 2, figsize=(14, 5))
        
        # Histograma
        axes[0].hist(valores, bins=20, color='skyblue', edgecolor='black')
        axes[0].set_title('Distribui√ß√£o do Valor da Causa', fontweight='bold')
        axes[0].set_xlabel('Valor (R$)')
        axes[0].set_ylabel('Frequ√™ncia')
        axes[0].grid(alpha=0.3)
        
        # Boxplot
        axes[1].boxplot(valores, vert=True)
        axes[1].set_title('Boxplot do Valor da Causa', fontweight='bold')
        axes[1].set_ylabel('Valor (R$)')
        axes[1].grid(alpha=0.3)
        
        plt.tight_layout()
        plt.show()
else:
    print('‚ö†Ô∏è  Coluna "valor_causa" n√£o encontrada')

## ‚è±Ô∏è An√°lise do Tempo de Tramita√ß√£o

In [None]:
if 'data_distribuicao' in df.columns:
    # Converter para datetime
    df['data_distribuicao'] = pd.to_datetime(df['data_distribuicao'], errors='coerce')
    
    # Calcular dias de tramita√ß√£o
    df['dias_tramitacao'] = (pd.Timestamp.now() - df['data_distribuicao']).dt.days
    
    # Remover valores inv√°lidos
    dias_validos = df['dias_tramitacao'].dropna()
    
    if len(dias_validos) > 0:
        print(f'\n‚è±Ô∏è  Estat√≠sticas do Tempo de Tramita√ß√£o:')
        print('=' * 50)
        print(f'M√©dia: {dias_validos.mean():.0f} dias')
        print(f'Mediana: {dias_validos.median():.0f} dias')
        print(f'M√≠nimo: {dias_validos.min():.0f} dias')
        print(f'M√°ximo: {dias_validos.max():.0f} dias')
        
        # Visualiza√ß√£o
        plt.figure(figsize=(10, 6))
        plt.hist(dias_validos, bins=30, color='coral', edgecolor='black')
        plt.title('Distribui√ß√£o do Tempo de Tramita√ß√£o', fontsize=14, fontweight='bold')
        plt.xlabel('Dias')
        plt.ylabel('Frequ√™ncia')
        plt.axvline(dias_validos.mean(), color='red', linestyle='--', label=f'M√©dia: {dias_validos.mean():.0f} dias')
        plt.axvline(dias_validos.median(), color='green', linestyle='--', label=f'Mediana: {dias_validos.median():.0f} dias')
        plt.legend()
        plt.grid(alpha=0.3)
        plt.tight_layout()
        plt.show()
else:
    print('‚ö†Ô∏è  Coluna "data_distribuicao" n√£o encontrada')

## üîó Correla√ß√£o entre Flags

Vamos verificar se h√° correla√ß√£o entre diferentes flags.

In [None]:
if len(existing_flags) > 1:
    # Calcular matriz de correla√ß√£o
    correlation_matrix = df[existing_flags].astype(int).corr()
    
    # Visualizar heatmap
    plt.figure(figsize=(12, 10))
    sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, square=True, linewidths=1)
    plt.title('Matriz de Correla√ß√£o entre Flags', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()
else:
    print('‚ö†Ô∏è  Flags insuficientes para an√°lise de correla√ß√£o')

## üí° Pr√≥ximos Passos

Ap√≥s esta an√°lise explorat√≥ria, voc√™ pode:

1. **Adicionar mais dados** na pasta `data/` e executar o pipeline novamente
2. **Criar modelos preditivos** para classificar resultados de recupera√ß√µes
3. **An√°lise de sobreviv√™ncia** (Kaplan-Meier, Cox) para tempo at√© decis√£o
4. **Web scraping** para coletar mais dados de tribunais
5. **Dashboard interativo** com Dash ou Streamlit

---

**Parab√©ns!** üéâ Voc√™ completou o primeiro notebook do curso de jurimetria.

## üìù Exerc√≠cios

1. Crie uma nova flag personalizada baseada em crit√©rios pr√≥prios
2. Calcule a propor√ß√£o de processos com valor de causa acima da mediana
3. Identifique processos que est√£o tramitando h√° mais de 3 anos
4. Crie um gr√°fico de pizza mostrando a distribui√ß√£o de situa√ß√µes dos processos