In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
import warnings
warnings.filterwarnings('ignore')

# Tentar diferentes abordagens para carregar o CSV problem√°tico
print("Tentando carregar o dataset...")

# M√©todo 1: Tentar com error_bad_lines para pular linhas problem√°ticas
try:
    df = pd.read_csv('csv_longo/projetos_resultados_pessoas_valores.csv', 
                     encoding='UTF-8', 
                     low_memory=False,
                     sep=';',  # Garantir que est√° usando v√≠rgula
                     quotechar='"')  # Tratar aspas
    print("‚úì Dados carregados")
except Exception as e:
    print(f"Erro no m√©todo 1: {e}")
    
    # M√©todo 2: Ler linha por linha para identificar o problema
    try:
        # Primeiro, descobrir quantas colunas deveria ter
        with open('csv_longo/projetos_resultados_pessoas_valores.csv', 'r', encoding='latin-1') as f:
            header = f.readline()
            n_cols = len(header.split(','))
            print(f"N√∫mero esperado de colunas: {n_cols}")
        
        # Carregar pulando linhas ruins
        df = pd.read_csv('csv_longo/projetos_resultados_pessoas_valores.csv',
                        encoding='latin-1',
                        low_memory=False,
                        on_bad_lines='warn',
                        engine='python',
                        sep=',',
                        quotechar='"',
                        escapechar='\\')
        print("‚úì Dados carregados com engine='python'")
    except:
        # M√©todo 3: √öltima tentativa - ler em chunks
        chunks = []
        chunk_size = 10000
        problematic_lines = []
        
        for i, chunk in enumerate(pd.read_csv('csv_longo/projetos_resultados_pessoas_valores.csv',
                                             encoding='latin-1',
                                             low_memory=False,
                                             on_bad_lines='skip',
                                             chunksize=chunk_size)):
            chunks.append(chunk)
            print(f"  Chunk {i+1} carregado ({len(chunk)} linhas)")
            
        df = pd.concat(chunks, ignore_index=True)
        print("‚úì Dados carregados em chunks")

print("\n" + "="*80)
print("DADOS CARREGADOS COM SUCESSO")
print("="*80)
print(f"Total de registros: {len(df):,}")
print(f"Total de colunas: {df.shape[1]}")

# ============================================================
# FILTRO CR√çTICO: REMOVER DADOS DE 2023 (DADOS INCOMPLETOS)
# ============================================================
print("\n" + "="*80)
print("APLICANDO FILTRO CR√çTICO - REMOVENDO 2023")
print("="*80)

# Verificar distribui√ß√£o antes do filtro
if 'ano_referencia' in df.columns:
    print(f"Registros por ano ANTES do filtro:")
    print(df['ano_referencia'].value_counts().sort_index())
    
    # Contagem antes
    total_antes = len(df)
    registros_2023 = (df['ano_referencia'] == 2023).sum()
    
    # APLICAR FILTRO - REMOVER 2023
    df = df[df['ano_referencia'] != 2023].copy()
    
    print(f"\n‚úì Removidos {registros_2023:,} registros de 2023 ({registros_2023/total_antes*100:.1f}%)")
    print(f"‚úì Dataset filtrado: {len(df):,} registros (2018-2022)")
    
    print(f"\nRegistros por ano AP√ìS filtro:")
    print(df['ano_referencia'].value_counts().sort_index())
else:
    print("‚ö†Ô∏è Coluna 'ano_referencia' n√£o encontrada - verificar estrutura dos dados")

print("="*80)

# Verificar colunas esperadas
colunas_esperadas = ['id_projeto', 'ano_referencia', 'empresa_razao_social', 'cnpj', 
                     'nome_projeto', 'descricao_projeto', 'tipo_projeto', 'natureza',
                     'elemento_tecnologico', 'desafio_tecnologico', 'metodologia',
                     'setor_analise', 'ciclo_maior_1_ano']

colunas_faltando = [col for col in colunas_esperadas if col not in df.columns]
if colunas_faltando:
    print(f"\n‚ö†Ô∏è Colunas faltando: {colunas_faltando}")
    print("Colunas dispon√≠veis:")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:3d}. {col}")
else:
    print("‚úì Todas as colunas esperadas encontradas")

# Continuar com a an√°lise se temos as colunas principais
if all(col in df.columns for col in ['cnpj', 'ano_referencia', 'nome_projeto']):
    print(f"\nEmpresas √∫nicas: {df['cnpj'].nunique():,}")
    print(f"Anos dispon√≠veis: {sorted(df['ano_referencia'].dropna().unique())}")
    
    # An√°lise de projetos multianuais
    if 'ciclo_maior_1_ano' in df.columns:
        df['projeto_multianual'] = df['ciclo_maior_1_ano'] == 'Sim'
        print(f"\nProjetos multianuais: {df['projeto_multianual'].sum():,} ({df['projeto_multianual'].mean()*100:.1f}%)")
    else:
        print("\n‚ö†Ô∏è Coluna 'ciclo_maior_1_ano' n√£o encontrada")
    
    # Criar identificador √∫nico para rastrear projetos entre anos
    df['projeto_chave'] = df['cnpj'].astype(str) + '_' + df['nome_projeto'].fillna('').astype(str).str[:50]
    
    # Distribui√ß√£o por setor
    if 'setor_analise' in df.columns:
        print("\nDistribui√ß√£o por setor:")
        print(df['setor_analise'].value_counts())
    else:
        print("\n‚ö†Ô∏è Coluna 'setor_analise' n√£o encontrada")
    
    # Verificar anos com dados
    print("\nProjetos por ano:")
    print(df['ano_referencia'].value_counts().sort_index())
else:
    print("\n‚ùå Colunas essenciais n√£o encontradas. Verifique o arquivo CSV.")

# Mostrar informa√ß√µes sobre o dataset
print("\n" + "="*80)
print("INFORMA√á√ïES DO DATASET")
print("="*80)
print(df.info())

# Verificar primeiras linhas
print("\nPrimeiras 3 linhas do dataset:")
print(df.head(3))

Tentando carregar o dataset...
‚úì Dados carregados

DADOS CARREGADOS COM SUCESSO
Total de registros: 74,502
Total de colunas: 26

APLICANDO FILTRO CR√çTICO - REMOVENDO 2023
Registros por ano ANTES do filtro:
ano_referencia
2018    10876
2019    12168
2020    11660
2021    13198
2022    13786
2023    12814
Name: count, dtype: int64

‚úì Removidos 12,814 registros de 2023 (17.2%)
‚úì Dataset filtrado: 61,688 registros (2018-2022)

Registros por ano AP√ìS filtro:
ano_referencia
2018    10876
2019    12168
2020    11660
2021    13198
2022    13786
Name: count, dtype: int64
‚úì Todas as colunas esperadas encontradas

Empresas √∫nicas: 4,885
Anos dispon√≠veis: [np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022)]

Projetos multianuais: 46,238 (75.0%)

Distribui√ß√£o por setor:
setor_analise
TIC                          16272
Qu√≠mica e Farm√°cia           11708
Mec√¢nica e Transporte         7990
Agroind√∫stria e Alimentos     7499
Transversal                   70

In [3]:
# ============================================================
# CHUNK 2: AN√ÅLISE DEFINITIVA COM GRANITE - THRESHOLD 0.85
# ============================================================

import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm
import warnings
warnings.filterwarnings('ignore')

print("="*80)
print("AN√ÅLISE DE SIMILARIDADE COM GRANITE IBM - THRESHOLD 0.85")
print("="*80)

# Filtrar dados
print("\nFiltrando dados de Eletroeletr√¥nica - 2021 - Processo...")
filtro = (
    (df['setor_analise'] == 'Eletroeletr√¥nica') & 
    (df['ano_referencia'] == 2021) & 
    (df['natureza'] == 'Processo')
)

eletr_2021_proc = df[filtro].copy()
print(f"‚úì Projetos filtrados: {len(eletr_2021_proc)}")

# ============================================================
# PREPARA√á√ÉO DOS TEXTOS
# ============================================================

print("\n" + "="*80)
print("PREPARA√á√ÉO DOS DADOS")
print("="*80)

# Campos de texto principais
campos_texto = ['nome_projeto', 'elemento_tecnologico', 'desafio_tecnologico', 
                'metodologia', 'descricao_projeto']

# Limpar valores nulos
for campo in campos_texto:
    if campo in eletr_2021_proc.columns:
        eletr_2021_proc[campo] = eletr_2021_proc[campo].fillna('').astype(str)

# Criar texto completo sem truncamento
def criar_texto_completo(row):
    """Concatena todos os campos dispon√≠veis"""
    partes = []
    for campo in campos_texto:
        if campo in row and row[campo] and str(row[campo]).strip():
            partes.append(str(row[campo]).strip())
    return " ".join(partes)

eletr_2021_proc['texto_completo'] = eletr_2021_proc.apply(criar_texto_completo, axis=1)

# Estat√≠sticas dos textos
comprimentos = eletr_2021_proc['texto_completo'].str.len()
print(f"\nEstat√≠sticas dos textos:")
print(f"  - Total de projetos: {len(eletr_2021_proc)}")
print(f"  - Comprimento m√©dio: {comprimentos.mean():.0f} caracteres")
print(f"  - Comprimento m√≠nimo: {comprimentos.min():.0f} caracteres")
print(f"  - Comprimento m√°ximo: {comprimentos.max():.0f} caracteres")

# Verificar e remover textos vazios
textos_vazios = (comprimentos == 0).sum()
if textos_vazios > 0:
    print(f"  ‚ö†Ô∏è Removendo {textos_vazios} projetos sem texto")
    eletr_2021_proc = eletr_2021_proc[comprimentos > 0].copy()

# ============================================================
# GERAR EMBEDDINGS COM GRANITE
# ============================================================

print("\n" + "="*80)
print("GERANDO EMBEDDINGS COM GRANITE IBM")
print("="*80)

# Carregar modelo Granite
print("Carregando modelo ibm-granite/granite-embedding-278m-multilingual...")
try:
    model = SentenceTransformer('ibm-granite/granite-embedding-278m-multilingual')
    print("‚úì Modelo Granite carregado com sucesso")
except:
    print("‚ö†Ô∏è Usando modelo alternativo multil√≠ngue...")
    model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
    print("‚úì Modelo alternativo carregado")

# Preparar textos
textos = eletr_2021_proc['texto_completo'].tolist()
ids_projetos = eletr_2021_proc['id_projeto'].tolist() if 'id_projeto' in eletr_2021_proc.columns else eletr_2021_proc.index.tolist()
nomes_projetos = eletr_2021_proc['nome_projeto'].tolist()

print(f"\nGerando embeddings para {len(textos)} projetos...")

# Gerar embeddings
embeddings = model.encode(
    textos,
    batch_size=16,
    show_progress_bar=True,
    normalize_embeddings=True,
    convert_to_numpy=True
)

print(f"‚úì Embeddings gerados: shape {embeddings.shape}")

# ============================================================
# CALCULAR MATRIZ DE SIMILARIDADE
# ============================================================

print("\n" + "="*80)
print("CALCULANDO SIMILARIDADES")
print("="*80)

# Calcular matriz de similaridade
print("Calculando matriz de similaridade...")
similarity_matrix = cosine_similarity(embeddings)

# Estat√≠sticas gerais
upper_triangle = np.triu(similarity_matrix, k=1)
all_similarities = upper_triangle[upper_triangle > 0]

print(f"\n‚úì Matriz calculada: {similarity_matrix.shape}")
print(f"  - Total de compara√ß√µes √∫nicas: {len(all_similarities):,}")
print(f"\nEstat√≠sticas de similaridade:")
print(f"  - M√©dia: {all_similarities.mean():.4f}")
print(f"  - Desvio padr√£o: {all_similarities.std():.4f}")
print(f"  - M√≠nima: {all_similarities.min():.4f}")
print(f"  - M√°xima: {all_similarities.max():.4f}")
print(f"  - Mediana: {np.median(all_similarities):.4f}")

# Percentis importantes
percentis = [75, 80, 85, 90, 95, 99]
print(f"\nPercentis:")
for p in percentis:
    valor = np.percentile(all_similarities, p)
    print(f"  - {p}%: {valor:.4f}")

# ============================================================
# IDENTIFICAR PARES SIMILARES (>= 0.85)
# ============================================================

print("\n" + "="*80)
print("IDENTIFICANDO PARES SIMILARES (THRESHOLD >= 0.85)")
print("="*80)

threshold = 0.85
pares_similares = []

# Iterar sobre triangular superior para evitar duplicatas
print("Procurando pares com similaridade >= 0.85...")
for i in range(len(ids_projetos)):
    for j in range(i + 1, len(ids_projetos)):
        similaridade = similarity_matrix[i, j]
        
        if similaridade >= threshold:
            # Coletar informa√ß√µes adicionais se dispon√≠veis
            registro = {
                'IdProjeto_1': ids_projetos[i],
                'NomeProjeto_1': nomes_projetos[i],
                'IdProjeto_2': ids_projetos[j],
                'NomeProjeto_2': nomes_projetos[j],
                'Similaridade_score': float(similaridade)
            }
            
            # Adicionar informa√ß√µes de empresa se dispon√≠veis
            if 'empresa_razao_social' in eletr_2021_proc.columns:
                registro['Empresa_1'] = eletr_2021_proc.iloc[i]['empresa_razao_social']
                registro['Empresa_2'] = eletr_2021_proc.iloc[j]['empresa_razao_social']
                registro['Mesma_Empresa'] = registro['Empresa_1'] == registro['Empresa_2']
            
            if 'cnpj' in eletr_2021_proc.columns:
                registro['CNPJ_1'] = eletr_2021_proc.iloc[i]['cnpj']
                registro['CNPJ_2'] = eletr_2021_proc.iloc[j]['cnpj']
            
            pares_similares.append(registro)

# Criar DataFrame com pares similares
eletr_2021_proc_similar = pd.DataFrame(pares_similares)

if len(eletr_2021_proc_similar) > 0:
    # Ordenar por similaridade
    eletr_2021_proc_similar = eletr_2021_proc_similar.sort_values('Similaridade_score', ascending=False)
    
    print(f"\n‚úì Pares encontrados: {len(eletr_2021_proc_similar)}")
    
    # Estat√≠sticas dos pares
    print(f"\nEstat√≠sticas dos pares similares:")
    print(f"  - Similaridade m√°xima: {eletr_2021_proc_similar['Similaridade_score'].max():.4f}")
    print(f"  - Similaridade m√©dia: {eletr_2021_proc_similar['Similaridade_score'].mean():.4f}")
    print(f"  - Similaridade m√≠nima: {eletr_2021_proc_similar['Similaridade_score'].min():.4f}")
    
    # An√°lise por faixas
    print(f"\nDistribui√ß√£o por faixas:")
    faixas = [(0.98, 1.00), (0.95, 0.98), (0.90, 0.95), (0.85, 0.90)]
    for min_val, max_val in faixas:
        if max_val == 1.00:
            count = (eletr_2021_proc_similar['Similaridade_score'] >= min_val).sum()
        else:
            count = ((eletr_2021_proc_similar['Similaridade_score'] >= min_val) & 
                    (eletr_2021_proc_similar['Similaridade_score'] < max_val)).sum()
        pct = count / len(eletr_2021_proc_similar) * 100 if len(eletr_2021_proc_similar) > 0 else 0
        print(f"  - [{min_val:.2f}, {max_val:.2f}): {count} pares ({pct:.1f}%)")
    
    # Top 10 pares mais similares
    print(f"\nTop 10 pares mais similares:")
    print("-" * 80)
    for idx, row in eletr_2021_proc_similar.head(10).iterrows():
        print(f"\nSimilaridade: {row['Similaridade_score']:.4f}")
        print(f"  Projeto 1: [{row['IdProjeto_1']}] {row['NomeProjeto_1'][:50]}...")
        print(f"  Projeto 2: [{row['IdProjeto_2']}] {row['NomeProjeto_2'][:50]}...")
        if 'Mesma_Empresa' in row:
            tipo = "MESMA EMPRESA" if row['Mesma_Empresa'] else "EMPRESAS DIFERENTES"
            print(f"  Tipo: {tipo}")
    
    # An√°lise por empresa se dispon√≠vel
    if 'Mesma_Empresa' in eletr_2021_proc_similar.columns:
        mesma_empresa = eletr_2021_proc_similar['Mesma_Empresa'].sum()
        diferentes = len(eletr_2021_proc_similar) - mesma_empresa
        print(f"\n" + "="*80)
        print("AN√ÅLISE POR TIPO DE PAR")
        print("="*80)
        print(f"  - Pares da mesma empresa: {mesma_empresa} ({mesma_empresa/len(eletr_2021_proc_similar)*100:.1f}%)")
        print(f"  - Pares entre empresas diferentes: {diferentes} ({diferentes/len(eletr_2021_proc_similar)*100:.1f}%)")
        
        # Empresas com mais pares similares
        if 'Empresa_1' in eletr_2021_proc_similar.columns:
            print(f"\nEmpresas com mais projetos similares:")
            todas_empresas = pd.concat([
                eletr_2021_proc_similar['Empresa_1'],
                eletr_2021_proc_similar['Empresa_2']
            ])
            top_empresas = todas_empresas.value_counts().head(5)
            for empresa, count in top_empresas.items():
                print(f"  - {empresa[:50]}: {count} apari√ß√µes em pares similares")
else:
    print(f"\n‚ö†Ô∏è Nenhum par encontrado com similaridade >= {threshold}")

# ============================================================
# SALVAR RESULTADOS EM CSV
# ============================================================

print("\n" + "="*80)
print("SALVANDO RESULTADOS")
print("="*80)

# Remover coluna tempor√°ria antes de salvar
if 'texto_completo' in eletr_2021_proc.columns:
    eletr_2021_proc_export = eletr_2021_proc.drop(columns=['texto_completo'])
else:
    eletr_2021_proc_export = eletr_2021_proc.copy()

# Salvar dataset filtrado
arquivo_projetos = 'eletr_2021_proc.csv'
eletr_2021_proc_export.to_csv(arquivo_projetos, index=False, encoding='utf-8-sig', sep=';')
print(f"‚úì Dataset filtrado salvo: {arquivo_projetos}")
print(f"  - Total de projetos: {len(eletr_2021_proc_export)}")
print(f"  - Total de colunas: {eletr_2021_proc_export.shape[1]}")

# Salvar pares similares
if len(eletr_2021_proc_similar) > 0:
    # Selecionar colunas essenciais para o CSV
    colunas_essenciais = ['IdProjeto_1', 'NomeProjeto_1', 'IdProjeto_2', 'NomeProjeto_2', 'Similaridade_score']
    colunas_extras = ['Empresa_1', 'Empresa_2', 'Mesma_Empresa', 'CNPJ_1', 'CNPJ_2']
    
    # Adicionar colunas extras se existirem
    colunas_export = colunas_essenciais + [col for col in colunas_extras if col in eletr_2021_proc_similar.columns]
    eletr_2021_proc_similar_export = eletr_2021_proc_similar[colunas_export]
    
    arquivo_similares = 'eletr_2021_proc_similar.csv'
    eletr_2021_proc_similar_export.to_csv(arquivo_similares, index=False, encoding='utf-8-sig', sep=';')
    print(f"\n‚úì Pares similares salvos: {arquivo_similares}")
    print(f"  - Total de pares: {len(eletr_2021_proc_similar_export)}")
    print(f"  - Colunas inclu√≠das: {', '.join(colunas_export)}")
else:
    # Criar arquivo vazio com estrutura b√°sica
    df_vazio = pd.DataFrame(columns=['IdProjeto_1', 'NomeProjeto_1', 'IdProjeto_2', 'NomeProjeto_2', 'Similaridade_score'])
    df_vazio.to_csv('eletr_2021_proc_similar.csv', index=False, encoding='utf-8-sig', sep=';')
    print(f"\n‚úì Arquivo de pares similares criado (vazio - nenhum par acima do threshold)")

# ============================================================
# RESUMO FINAL
# ============================================================

print("\n" + "="*80)
print("AN√ÅLISE CONCLU√çDA COM SUCESSO")
print("="*80)

print(f"\nüìä RESUMO EXECUTIVO:")
print(f"  ‚Ä¢ Modelo utilizado: Granite IBM Multilingual")
print(f"  ‚Ä¢ Projetos analisados: {len(eletr_2021_proc)}")
print(f"  ‚Ä¢ Threshold aplicado: {threshold}")
print(f"  ‚Ä¢ Pares similares identificados: {len(eletr_2021_proc_similar)}")

if len(eletr_2021_proc_similar) > 0:
    taxa = len(eletr_2021_proc_similar) / (len(eletr_2021_proc) * (len(eletr_2021_proc) - 1) / 2) * 100
    print(f"  ‚Ä¢ Taxa de pares similares: {taxa:.3f}%")

print(f"\nüìÅ Arquivos gerados:")
print(f"  1. eletr_2021_proc.csv - Base completa filtrada")
print(f"  2. eletr_2021_proc_similar.csv - Pares com similaridade >= 0.85")

AN√ÅLISE DE SIMILARIDADE COM GRANITE IBM - THRESHOLD 0.85

Filtrando dados de Eletroeletr√¥nica - 2021 - Processo...
‚úì Projetos filtrados: 366

PREPARA√á√ÉO DOS DADOS

Estat√≠sticas dos textos:
  - Total de projetos: 366
  - Comprimento m√©dio: 8058 caracteres
  - Comprimento m√≠nimo: 1077 caracteres
  - Comprimento m√°ximo: 16166 caracteres

GERANDO EMBEDDINGS COM GRANITE IBM
Carregando modelo ibm-granite/granite-embedding-278m-multilingual...
‚úì Modelo Granite carregado com sucesso

Gerando embeddings para 366 projetos...


Batches:   0%|          | 0/23 [00:00<?, ?it/s]

‚úì Embeddings gerados: shape (366, 768)

CALCULANDO SIMILARIDADES
Calculando matriz de similaridade...

‚úì Matriz calculada: (366, 366)
  - Total de compara√ß√µes √∫nicas: 66,795

Estat√≠sticas de similaridade:
  - M√©dia: 0.6096
  - Desvio padr√£o: 0.0578
  - M√≠nima: 0.4090
  - M√°xima: 1.0000
  - Mediana: 0.6069

Percentis:
  - 75%: 0.6459
  - 80%: 0.6556
  - 85%: 0.6678
  - 90%: 0.6831
  - 95%: 0.7071
  - 99%: 0.7563

IDENTIFICANDO PARES SIMILARES (THRESHOLD >= 0.85)
Procurando pares com similaridade >= 0.85...

‚úì Pares encontrados: 70

Estat√≠sticas dos pares similares:
  - Similaridade m√°xima: 1.0000
  - Similaridade m√©dia: 0.9478
  - Similaridade m√≠nima: 0.8500

Distribui√ß√£o por faixas:
  - [0.98, 1.00): 33 pares (47.1%)
  - [0.95, 0.98): 10 pares (14.3%)
  - [0.90, 0.95): 8 pares (11.4%)
  - [0.85, 0.90): 19 pares (27.1%)

Top 10 pares mais similares:
--------------------------------------------------------------------------------

Similaridade: 1.0000
  Projeto 1: [68

In [5]:
# ============================================================
# CHUNK 3: VALIDA√á√ÉO ASS√çNCRONA COM LLM LOCAL (OLLAMA)
# ============================================================

import pandas as pd
import numpy as np
import aiohttp
import asyncio
import json
from tqdm.asyncio import tqdm
import time
import warnings
warnings.filterwarnings('ignore')

print("="*80)
print("VALIDA√á√ÉO ASS√çNCRONA DE SIMILARIDADE COM LLM LOCAL (OLLAMA)")
print("="*80)

# Carregar os dados
print("\nCarregando dados...")
eletr_2021_proc = pd.read_csv('eletr_2021_proc.csv', sep=';', encoding='utf-8-sig')
eletr_2021_proc_similar = pd.read_csv('eletr_2021_proc_similar.csv', sep=';', encoding='utf-8-sig')

print(f"‚úì Projetos carregados: {len(eletr_2021_proc)}")
print(f"‚úì Pares similares carregados: {len(eletr_2021_proc_similar)}")

# ============================================================
# CONFIGURA√á√ÉO DO OLLAMA
# ============================================================

print("\n" + "="*80)
print("CONFIGURA√á√ÉO DO OLLAMA")
print("="*80)

# Configura√ß√£o do endpoint
OLLAMA_URL = "http://localhost:11434/api/generate"
MODEL = "gpt-oss:120b-cloud"
BATCH_SIZE = 5  # Processar 5 requisi√ß√µes simult√¢neas

# ============================================================
# DEFINIR CRIT√âRIOS DE AVALIA√á√ÉO
# ============================================================

print("\n" + "="*80)
print("CRIT√âRIOS DE INOVA√á√ÉO - LEI DO BEM")
print("="*80)

criterios_avaliacao = """
CRIT√âRIOS DE AVALIA√á√ÉO DE INOVA√á√ÉO (Lei 11.196/2005):

1. **Novidade ou Aperfei√ßoamento** - O projeto introduz algo novo ou melhora significativamente algo existente?
2. **Risco Tecnol√≥gico** - Existe incerteza quanto √† viabilidade t√©cnica?
3. **Incremento Tecnol√≥gico** - H√° avan√ßo no conhecimento ou capacita√ß√£o tecnol√≥gica?
4. **Aplica√ß√£o Industrial** - O resultado pode ser aplicado em processos produtivos?
5. **Esfor√ßo Tecnol√≥gico** - Demanda conhecimento t√©cnico-cient√≠fico especializado?

CLASSIFICA√á√ÉO DE SIMILARIDADE:
- ID√äNTICOS: Mesma solu√ß√£o t√©cnica, mesmo problema, mesma abordagem
- MUITO SIMILARES: Problema similar, solu√ß√µes compar√°veis, mesmo n√≠vel de inova√ß√£o
- SIMILARES: Mesma √°rea tecnol√≥gica, complexidade equivalente
- DISTINTOS: Apesar de vocabul√°rio similar, s√£o projetos tecnicamente diferentes
"""

print(criterios_avaliacao)

# ============================================================
# FUN√á√ÉO ASS√çNCRONA PARA AN√ÅLISE VIA LLM
# ============================================================

async def analisar_par_projetos(session, projeto1_data, projeto2_data, empresa1, empresa2, par_id):
    """
    Analisa um par de projetos usando o LLM local (ass√≠ncrono)
    """
    
    # Montar o prompt estruturado
    prompt = f"""
Voc√™ √© um especialista em avalia√ß√£o de projetos de P&D para a Lei do Bem (Lei 11.196/2005). 
Analise os dois projetos abaixo e determine se devem ser tratados com os mesmos crit√©rios de avalia√ß√£o.

{criterios_avaliacao}

**PROJETO 1** - Empresa: {empresa1}
Nome: {projeto1_data['nome_projeto']}
Elemento Tecnol√≥gico: {projeto1_data['elemento_tecnologico'][:1000]}
Desafio Tecnol√≥gico: {projeto1_data['desafio_tecnologico'][:1000]}
Metodologia: {projeto1_data['metodologia'][:800]}

**PROJETO 2** - Empresa: {empresa2}
Nome: {projeto2_data['nome_projeto']}
Elemento Tecnol√≥gico: {projeto2_data['elemento_tecnologico'][:1000]}
Desafio Tecnol√≥gico: {projeto2_data['desafio_tecnologico'][:1000]}
Metodologia: {projeto2_data['metodologia'][:800]}

RESPONDA EM FORMATO JSON:
{{
    "classificacao": "ID√äNTICOS|MUITO_SIMILARES|SIMILARES|DISTINTOS",
    "mesmo_tratamento": true/false,
    "justificativa": "explica√ß√£o breve",
    "nivel_inovacao_proj1": 1-5,
    "nivel_inovacao_proj2": 1-5,
    "risco_tecnologico_similar": true/false,
    "area_tecnologica": "descri√ß√£o da √°rea",
    "alerta_duplicacao": true/false
}}
"""
    
    try:
        async with session.post(
            OLLAMA_URL,
            json={
                "model": MODEL,
                "prompt": prompt,
                "stream": False,
                "temperature": 0.1,
                "max_tokens": 500
            },
            timeout=aiohttp.ClientTimeout(total=120)
        ) as response:
            
            if response.status == 200:
                result = await response.json()
                response_text = result.get('response', '')
                
                # Tentar extrair JSON da resposta
                try:
                    import re
                    json_match = re.search(r'\{.*\}', response_text, re.DOTALL)
                    if json_match:
                        json_str = json_match.group()
                        parsed_json = json.loads(json_str)
                        parsed_json['par_id'] = par_id
                        return parsed_json
                    else:
                        return {"erro": "JSON n√£o encontrado", "par_id": par_id}
                except json.JSONDecodeError:
                    return {"erro": "Erro ao decodificar JSON", "par_id": par_id}
            else:
                return {"erro": f"Status HTTP: {response.status}", "par_id": par_id}
                
    except asyncio.TimeoutError:
        return {"erro": "Timeout", "par_id": par_id}
    except Exception as e:
        return {"erro": str(e), "par_id": par_id}

# ============================================================
# PROCESSAR LOTES DE PARES ASSINCRONAMENTE
# ============================================================

async def processar_lote(session, lote_pares, eletr_2021_proc):
    """
    Processa um lote de pares simultaneamente
    """
    tarefas = []
    
    for idx, row in lote_pares.iterrows():
        try:
            # Buscar dados completos dos projetos
            if 'id_projeto' in eletr_2021_proc.columns:
                proj1_data = eletr_2021_proc.loc[row['IdProjeto_1']]
                proj2_data = eletr_2021_proc.loc[row['IdProjeto_2']]
            else:
                proj1_data = eletr_2021_proc[eletr_2021_proc['nome_projeto'] == row['NomeProjeto_1']].iloc[0]
                proj2_data = eletr_2021_proc[eletr_2021_proc['nome_projeto'] == row['NomeProjeto_2']].iloc[0]
            
            empresa1 = row.get('Empresa_1', 'Empresa 1')[:50] if 'Empresa_1' in row else 'Empresa 1'
            empresa2 = row.get('Empresa_2', 'Empresa 2')[:50] if 'Empresa_2' in row else 'Empresa 2'
            
            # Criar tarefa ass√≠ncrona
            tarefa = analisar_par_projetos(
                session, proj1_data, proj2_data, 
                empresa1, empresa2, idx
            )
            tarefas.append((idx, row, tarefa))
            
        except Exception as e:
            print(f"Erro ao preparar par {idx}: {e}")
    
    # Executar todas as tarefas do lote simultaneamente
    resultados = []
    for idx, row, tarefa in tarefas:
        resultado = await tarefa
        
        # Adicionar informa√ß√µes do par
        resultado.update({
            'id_projeto_1': row['IdProjeto_1'],
            'id_projeto_2': row['IdProjeto_2'],
            'nome_projeto_1': row['NomeProjeto_1'],
            'nome_projeto_2': row['NomeProjeto_2'],
            'similaridade_coseno': row['Similaridade_score'],
            'mesma_empresa': row.get('Mesma_Empresa', False)
        })
        resultados.append(resultado)
    
    return resultados

async def processar_todos_pares():
    """
    Fun√ß√£o principal para processar todos os pares em lotes
    """
    print("\n" + "="*80)
    print("INICIANDO AN√ÅLISE ASS√çNCRONA DOS PARES")
    print("="*80)
    
    # Preparar √≠ndice para busca
    if 'id_projeto' in eletr_2021_proc.columns:
        eletr_2021_proc.set_index('id_projeto', inplace=True)
    
    # Limitar an√°lise para teste
    MAX_ANALISES = min(20, len(eletr_2021_proc_similar))
    pares_para_analisar = eletr_2021_proc_similar.head(MAX_ANALISES)
    
    print(f"\nAnalisando {MAX_ANALISES} pares em lotes de {BATCH_SIZE}...")
    
    # Criar sess√£o HTTP ass√≠ncrona
    async with aiohttp.ClientSession() as session:
        # Testar conex√£o primeiro
        try:
            async with session.post(
                OLLAMA_URL,
                json={"model": MODEL, "prompt": "OK", "stream": False},
                timeout=aiohttp.ClientTimeout(total=10)
            ) as response:
                if response.status == 200:
                    print(f"‚úì Conex√£o estabelecida com modelo {MODEL}")
                else:
                    print(f"‚ö†Ô∏è Erro na conex√£o. Status: {response.status}")
                    return []
        except Exception as e:
            print(f"‚ùå Erro ao conectar: {e}")
            print("Certifique-se que o Ollama est√° rodando: ollama serve")
            return []
        
        # Dividir em lotes
        n_lotes = (len(pares_para_analisar) + BATCH_SIZE - 1) // BATCH_SIZE
        todos_resultados = []
        
        # Processar cada lote
        for i in range(n_lotes):
            inicio = i * BATCH_SIZE
            fim = min(inicio + BATCH_SIZE, len(pares_para_analisar))
            lote = pares_para_analisar.iloc[inicio:fim]
            
            print(f"\nProcessando lote {i+1}/{n_lotes} (pares {inicio+1}-{fim})...")
            
            # Processar lote assincronamente
            resultados_lote = await processar_lote(session, lote, eletr_2021_proc)
            todos_resultados.extend(resultados_lote)
            
            # Mostrar progresso
            for res in resultados_lote:
                if 'erro' not in res:
                    print(f"  ‚úì Par analisado: {res.get('classificacao', 'N/A')}")
                else:
                    print(f"  ‚ùå Erro no par: {res.get('erro')}")
            
            # Pequena pausa entre lotes para n√£o sobrecarregar
            if i < n_lotes - 1:
                await asyncio.sleep(1)
        
        return todos_resultados

# ============================================================
# EXECUTAR AN√ÅLISE ASS√çNCRONA
# ============================================================

print("\nIniciando processamento ass√≠ncrono...")

# Em Jupyter Notebook, usar await diretamente
resultados_analise = await processar_todos_pares()

# ============================================================
# AN√ÅLISE DOS RESULTADOS
# ============================================================

print("\n" + "="*80)
print("AN√ÅLISE DOS RESULTADOS DA VALIDA√á√ÉO")
print("="*80)

if resultados_analise:
    # Converter para DataFrame
    df_resultados = pd.DataFrame(resultados_analise)
    
    # An√°lise se tivermos resultados v√°lidos
    if 'classificacao' in df_resultados.columns:
        # Remover linhas com erro
        df_validos = df_resultados[~df_resultados['classificacao'].isna()]
        
        print(f"\nResultados v√°lidos: {len(df_validos)}/{len(df_resultados)}")
        
        # Estat√≠sticas de classifica√ß√£o
        print("\nDistribui√ß√£o de Classifica√ß√µes:")
        classificacao_counts = df_validos['classificacao'].value_counts()
        for classif, count in classificacao_counts.items():
            print(f"  - {classif}: {count} ({count/len(df_validos)*100:.1f}%)")
        
        # An√°lise de tratamento similar
        if 'mesmo_tratamento' in df_validos.columns:
            mesmo_trat = df_validos['mesmo_tratamento'].sum()
            print(f"\nProjetos que devem ter MESMO tratamento: {mesmo_trat}/{len(df_validos)} ({mesmo_trat/len(df_validos)*100:.1f}%)")
        
        # Alertas de duplica√ß√£o
        if 'alerta_duplicacao' in df_validos.columns:
            alertas = df_validos['alerta_duplicacao'].sum()
            print(f"Alertas de poss√≠vel duplica√ß√£o: {alertas}")
        
        # Top pares cr√≠ticos
        print("\nPares mais cr√≠ticos:")
        criticos = df_validos[
            (df_validos.get('classificacao', '') == 'ID√äNTICOS') | 
            (df_validos.get('alerta_duplicacao', False) == True)
        ]
        
        for _, row in criticos.head(5).iterrows():
            print(f"\n  ‚Ä¢ {row['nome_projeto_1'][:40]}...")
            print(f"    vs {row['nome_projeto_2'][:40]}...")
            print(f"    Classifica√ß√£o: {row.get('classificacao', 'N/A')}")
            print(f"    Similaridade: {row['similaridade_coseno']:.3f}")
    
    # ============================================================
    # SALVAR RESULTADOS
    # ============================================================
    
    print("\n" + "="*80)
    print("SALVANDO RESULTADOS")
    print("="*80)
    
    arquivo_validacao = 'validacao_llm_pares_similares.csv'
    df_resultados.to_csv(arquivo_validacao, index=False, encoding='utf-8-sig', sep=';')
    print(f"‚úì Resultados salvos em: {arquivo_validacao}")
    
    print("\nüìä RESUMO EXECUTIVO:")
    print(f"  Total processado: {len(df_resultados)}")
    print(f"  Processamento bem-sucedido: {len(df_validos) if 'df_validos' in locals() else 0}")
    print(f"  Erros: {(df_resultados['erro'].notna()).sum() if 'erro' in df_resultados.columns else 0}")
    
else:
    print("‚ùå Nenhum resultado obtido. Verifique a conex√£o com Ollama.")

print("\n" + "="*80)
print("AN√ÅLISE ASS√çNCRONA CONCLU√çDA")
print("="*80)

VALIDA√á√ÉO ASS√çNCRONA DE SIMILARIDADE COM LLM LOCAL (OLLAMA)

Carregando dados...
‚úì Projetos carregados: 366
‚úì Pares similares carregados: 70

CONFIGURA√á√ÉO DO OLLAMA

CRIT√âRIOS DE INOVA√á√ÉO - LEI DO BEM

CRIT√âRIOS DE AVALIA√á√ÉO DE INOVA√á√ÉO (Lei 11.196/2005):

1. **Novidade ou Aperfei√ßoamento** - O projeto introduz algo novo ou melhora significativamente algo existente?
2. **Risco Tecnol√≥gico** - Existe incerteza quanto √† viabilidade t√©cnica?
3. **Incremento Tecnol√≥gico** - H√° avan√ßo no conhecimento ou capacita√ß√£o tecnol√≥gica?
4. **Aplica√ß√£o Industrial** - O resultado pode ser aplicado em processos produtivos?
5. **Esfor√ßo Tecnol√≥gico** - Demanda conhecimento t√©cnico-cient√≠fico especializado?

CLASSIFICA√á√ÉO DE SIMILARIDADE:
- ID√äNTICOS: Mesma solu√ß√£o t√©cnica, mesmo problema, mesma abordagem
- MUITO SIMILARES: Problema similar, solu√ß√µes compar√°veis, mesmo n√≠vel de inova√ß√£o
- SIMILARES: Mesma √°rea tecnol√≥gica, complexidade equivalente
- DISTINTO

In [None]:
import numpy as np
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.activations import linear, relu, sigmoid


def my_softmax(z):  
    """ Softmax converts a vector of values to a probability distribution.
    Args:
      z (ndarray (N,))  : input data, N features
    Returns:
      a (ndarray (N,))  : softmax of z
    """    
    ### START CODE HERE ### 
    ez_k = sum(np.exp(z))
    a = np.zeros(len(z))
    
    for j in range(len(z)):
        a[j] = np.exp(z[j])/ez_k
            
    
    
    ### END CODE HERE ### 
    return a


z = np.array([1., 2., 3., 4.])
a = my_softmax(z)
atf = tf.nn.softmax(z)

2025-11-17 16:02:12.363770: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-11-17 16:02:12.421713: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI AVX512_BF16 AVX512_FP16 AVX_VNNI AMX_TILE AMX_INT8 AMX_BF16 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


KeyboardInterrupt: 