# Consulta Alvo da Investigação 
## Este notebook destina-se a executar o procedimento exploratório de alvos acessando dados diretamente no Banco de Dados relacional MDM criado com os dados da árvore de sociedades

In [2]:
from sqlalchemy import create_engine
import pandas as pd

In [1]:
# cnpj_alvo=['11059149']
cnpj_alvo=['33014556']
string_conexao='postgresql+psycopg2://postgres:postgres@prata04.cnj.jus.br:5432/MDM'
symilarity_threshold = .9

In [3]:
# Monta querys CNPJs Alvos
def monta_query_cnpj_alvo(cnpj_alvo):
    # Transformando a lista cnpj_alvo em uma string adequada para a cláusula IN
    cnpj_alvo_str = "', '".join(cnpj_alvo)
    query = f"""
    SELECT edges.src, edges.dst, 
           nodes_src.cep AS src_cep, 
           nodes_dst.cep AS dst_cep,
           nodes_dst.id_tipopessoa,
           nodes_src.id_tipopessoa AS src_id_tipopessoa,
           nodes_src.te_dados_es->>'nomeFantasia' AS src_nome,
           nodes_dst.te_dados_es->>'nomeFantasia' AS dst_nome,
           nodes_src.te_dados_em->>'nomeEmpresarial' AS src_nome_em,
           nodes_dst.te_dados_em->>'nomeEmpresarial' AS dst_nome_em
    FROM edges
    INNER JOIN nodes AS nodes_src ON nodes_src.id = edges.src
    INNER JOIN nodes AS nodes_dst ON nodes_dst.id = edges.dst
    WHERE edges.dst IN ('{cnpj_alvo_str}') OR edges.src IN ('{cnpj_alvo_str}');
    """
    return query

In [4]:
# Query para consultar todas empresas por CEP
def monta_query_universo_cep(cep):
    cep_str = "', '".join(cep)
    query = f"""
    SELECT * 
    FROM nodes
    WHERE nodes.CEP IN ('{cep_str}')
    """ 
    return query

In [5]:
# Query para consultar todas embeddings de empresas por CEP
def monta_query_universo_embeddings(cep):
    cep_str = "', '".join(cep)
    query = f"""
    SELECT embeddings.id,
           embeddings.nomefantasia,
           embeddings.embeddings
    FROM embeddings
    INNER JOIN nodes ON embeddings.id = nodes.id
    WHERE nodes.CEP IN ('{cep_str}')
    """ 
    return query

In [6]:
# Query para consultar todas embeddings na lista de IDs
def monta_query_embeddings(ids):
    ids_str = "', '".join(ids)
    query = f"""
    SELECT embeddings.id,
           embeddings.nomefantasia,
           embeddings.embeddings
    FROM embeddings
    WHERE embeddings.id IN ('{ids_str}')
    """ 
    return query

In [7]:
# Query para consultar todas empresas em um alista de ID
def monta_query_nodes(id):
    id_str = "', '".join(id)
    query = f"""
    SELECT *
    FROM nodes
    WHERE nodes.id IN ('{id_str}')
    """ 
    return query

In [8]:
# Recupera conexão de banco
engine = create_engine(string_conexao)

## Começa investigação do CNPJ alvo
O fluxosegue nessa ordem:
1. Consulta sócios dos CNPJs alvos para formar a lista de Sócios Alvo, junto consulta-se o nome fantasia. Os sócios alvos, na regra atual, são todas as empresa que são sócias dos CNPJs informados como alvos.
2. __Montas-se o Cluster de empresas pelo CEP__ - constroi um universo de CNPJs que tem como CEP um dos CPS da empresas alvo
3. Leitura dos vetores do embedding dos nomes fantasias do universo de empresas a serem pesquisadas.
4. Recupera os embeddings dos nomesFantasia de empresas alvo
5. Gera a matriz de similaridade comparando os Embeddings de nomes de empresas Alvo com o universo de embeddings gerados

In [9]:
# Consulta todos sócios do alvo
socios_alvo = pd.read_sql_query(monta_query_cnpj_alvo(cnpj_alvo), engine)

In [10]:
socios_alvo

Unnamed: 0,src,dst,src_cep,dst_cep,id_tipopessoa,src_id_tipopessoa,src_nome,dst_nome,src_nome_em,dst_nome_em
0,1783889,33014556,20221160,20081902.0,1,1,,,REPORT ADMINISTRACAO E PARTICIPACOES LTDA,LOJAS AMERICANAS S.A.
1,29775079,33014556,20221160,20081902.0,1,1,,,LOJAS AMERICANAS HOME SHOPPING LTDA,LOJAS AMERICANAS S.A.
2,33014556,326412735,20081902,,2,1,,,LOJAS AMERICANAS S.A.,
3,33014556,2532597704,20081902,,2,1,,,LOJAS AMERICANAS S.A.,
4,33014556,4283339822,20081902,,2,1,,,LOJAS AMERICANAS S.A.,
5,33014556,84387220759,20081902,,2,1,,,LOJAS AMERICANAS S.A.,
6,36073955,33014556,20221160,20081902.0,1,1,,,AGRO-LASA COMERCIO LTDA,LOJAS AMERICANAS S.A.
7,39109038,33014556,20221160,20081902.0,1,1,,,LASA TAXI AEREO LTDA,LOJAS AMERICANAS S.A.


In [11]:
# Separa somente sócios do tipo CNPJ tanto na origem como no destino
condicao_1 = socios_alvo[socios_alvo['src_id_tipopessoa'] == 1][['src', 'src_nome', 'src_cep', 'src_nome_em']].rename(columns={
    'src': 'id',
    'src_nome': 'nomeFantasia',
    'src_cep': 'cep',
    'src_nome_em': 'nomeEmpresarial'
})
condicao_2 = socios_alvo[socios_alvo['id_tipopessoa'] == 1][['dst', 'dst_nome', 'dst_cep', 'dst_nome_em']].rename(columns={
    'dst': 'id',
    'dst_nome': 'nomeFantasia',
    'dst_cep': 'cep',
    'dst_nome_em': 'nomeEmpresarial'
})

# Juntar as duas condições e remover linhas duplicadas
socios_alvo_final = pd.concat([condicao_1, condicao_2]).drop_duplicates().reset_index(drop=True)

In [12]:
socios_alvo_final

Unnamed: 0,id,nomeFantasia,cep,nomeEmpresarial
0,1783889,,20221160,REPORT ADMINISTRACAO E PARTICIPACOES LTDA
1,29775079,,20221160,LOJAS AMERICANAS HOME SHOPPING LTDA
2,33014556,,20081902,LOJAS AMERICANAS S.A.
3,36073955,,20221160,AGRO-LASA COMERCIO LTDA
4,39109038,,20221160,LASA TAXI AEREO LTDA


In [13]:
# Monta lista de CEPs únicos e monta universo
cep_distintos = socios_alvo_final['cep'].drop_duplicates().tolist()
embeddings_universo = pd.read_sql_query(monta_query_universo_embeddings(cep_distintos), engine)

In [14]:
cep_distintos

['20221160', '20081902']

In [15]:
# Recupera nomes Alvo para crusamento
# socios_alvo_final_nome = socios_alvo_final.dropna(subset=['nomeFantasia'])
# socios_alvo_final_nome = socios_alvo_final_nome[socios_alvo_final_nome['nomeFantasia'].str.strip() != '']
# nomes_alvo = socios_alvo_final_nome['nomeFantasia'].tolist()
# nomes_alvo = [nome for nome in socios_alvo_final['nomeFantasia'].tolist() if nome and nome.strip()]
# ids_alvo = socios_alvo_final[socios_alvo_final['nomeFantasia'].str.strip() != '']['id'].tolist()
ids_alvo = socios_alvo_final['id'].tolist()

In [16]:
ids_alvo

['01783889', '29775079', '33014556', '36073955', '39109038']

In [53]:
# Recuperando embeddings para nomes_Alvos
# from sentence_transformers import SentenceTransformer
# model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
# embeddings_alvo = model.encode(nomes_alvo)

In [17]:
df_embeddings_alvo = pd.read_sql_query(monta_query_embeddings(ids_alvo), engine)

In [18]:
df_embeddings_alvo

Unnamed: 0,id,nomefantasia,embeddings
0,1783889,REPORT ADMINISTRACAO E PARTICIPACOES LTDA,"[-0.04067182540893555, -0.026565568521618843, ..."
1,29775079,LOJAS AMERICANAS HOME SHOPPING LTDA,"[0.2041993886232376, 0.016466766595840454, -0...."
2,33014556,LOJAS AMERICANAS S.A.,"[-0.07776572555303574, 0.12132325768470764, -0..."
3,36073955,AGRO-LASA COMERCIO LTDA,"[-0.046357739716768265, 0.05176754295825958, 0..."
4,39109038,LASA TAXI AEREO LTDA,"[0.3541669547557831, 0.039002425968647, -0.079..."


### Aqui gera-se a matriz de similaridade. Na matriz estão o fator de similaridade de comparação entre os nomes dos CNPJ alvo e as empresas do universo de pesquisa (n x m). No final nas abscissas da Matriz estão as empresas universo e nas ordenadas estão as empresas alvo
### Também aqui se aplica o limite de similaridade aceito

In [20]:
# Gera matriz de similiariedade com nomes localizados 
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Converter os embeddings para um formato compatível com o cosine_similarity
embeddings = np.array(embeddings_universo['embeddings'])
embeddings =  np.vstack(embeddings)
embeddings_alvo = np.array(df_embeddings_alvo['embeddings'])
embeddings_alvo = np.vstack(embeddings_alvo)
    
# Calcular a matriz de similaridade usando cosine_similarity
matriz_similaridade = cosine_similarity(embeddings_alvo, embeddings)

# Aplica limite de Similaridade
ordenadas, abscissas = np.where(matriz_similaridade > symilarity_threshold)

# Imprimir a matriz de similaridade
print(matriz_similaridade)

[[0.54397224 0.15768313 0.44134119 ... 0.34307727 0.41857051 0.36231135]
 [0.34499266 0.08272064 0.20833772 ... 0.25430709 0.27866965 0.2752958 ]
 [0.5591704  0.22985858 0.33471783 ... 0.34692727 0.44220023 0.44848518]
 [0.76148557 0.28150418 0.39921149 ... 0.48446352 0.76235023 0.6371017 ]
 [0.38431236 0.38227971 0.3459921  ... 0.3385593  0.42412179 0.34836668]]


In [21]:
# Obter os valores de similaridade a partir de matriz_similaridade utilizando as colunas ordenadas e abscissas
valores_sim = matriz_similaridade[ordenadas, abscissas]
ids_localizados = embeddings_universo.iloc[abscissas]['id'].values
ids_alvos = df_embeddings_alvo.iloc[ordenadas]['id'].values

# Criar o DataFrame df_sim
df_sim = pd.DataFrame({
    'ids_localizados': ids_localizados,
    'ids_alvos': ids_alvos,
    'valor_sim': valores_sim
})

In [22]:
ids = df_sim['ids_localizados'].drop_duplicates().tolist()
df_id_localizados = pd.read_sql_query(monta_query_nodes(ids), engine)
ids = df_sim['ids_alvos'].drop_duplicates().tolist()
df_id_alvos = pd.read_sql_query(monta_query_nodes(ids), engine)

In [23]:
df_id_localizados

Unnamed: 0,id,id_estabelecimento,cep,id_tipopessoa,te_dados_em,te_dados_es
0,1783889,193,20221160,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'RJ', 'cep': '20221160', 'ddd1': '', 'd..."
1,29775079,104,20221160,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'RJ', 'cep': '20221160', 'ddd1': '', 'd..."
2,33014556,196,20081902,1,"{'porteEmpresa': '05', 'capitalSocial': '00732...","{'uf': 'RJ', 'cep': '20081902', 'ddd1': '21', ..."
3,36073955,116,20221160,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'RJ', 'cep': '20221160', 'ddd1': '', 'd..."
4,39109038,132,20221160,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'RJ', 'cep': '20221160', 'ddd1': '', 'd..."


In [24]:
# Calcula sililariedade de nome
def similariedade(df_sim, id_localizados, ids_alvos):
    # Filtrar o DataFrame df_sim pelos valores desejados de id_localizados e ids_alvos
    filtro = (df_sim['ids_localizados'] == id_localizados) & (df_sim['ids_alvos'] == ids_alvos)
    valor_sim_filtrado = df_sim.loc[filtro, 'valor_sim']

    # Verificar se há valores encontrados
    if not valor_sim_filtrado.empty:
        # Se houver valores encontrados, formatar como porcentagem
        valor_formatado = f"{valor_sim_filtrado.iloc[0] * 100:.2f}%"  # Considerando apenas o primeiro valor encontrado
        return valor_formatado
    else:
        return '-'

In [25]:
# Calcula sililariedade de nome
def similariedade_total(matriz, df_vert, df_hori, nome_chave_id, id_vert, id_hori):
    try:
        ordenada = df_vert[df_vert[nome_chave_id] == id_vert].index[0]
        abscissa = df_hori[df_hori[nome_chave_id] == id_hori].index[0]
        valor_sim = matriz_similaridade[ordenada, abscissa]
        valor_formatado = f"{valor_sim * 100:.2f}%"  # Considerando apenas o primeiro valor encontrado
    except (IndexError, KeyError, ValueError):
        valor_formatado = '-' 
    return valor_formatado

In [26]:
similariedade_total(matriz_similaridade, df_embeddings_alvo, embeddings_universo, 'id', '11059149', '0')

'-'

In [27]:
# Lista para armazenar os resultados de cada comparação
resultados = {}

# Iterar sobre cada linha de df_id_alvos
for indice_alvos, linha_alvos in df_id_alvos.iterrows():
    id_alvos = linha_alvos['id']
    te_dados_es_alvos = linha_alvos['te_dados_es']
    te_dados_em_alvos = linha_alvos['te_dados_em']
    nome_alvo = te_dados_es_alvos['nomeFantasia']
    
    # DataFrame para armazenar os resultados desta linha de df_id_alvos
    df_resultado = {'id': [], 'cep': [], 'logradouro': [], 'cpfResponsavel': [], 'telefone1': [], 'email': [], 'cnae': [], 'nomeSim': [], 'nomeFantasia': []}    
    # Iterar sobre cada linha de df_id_localizados para comparar com a linha atual de df_id_alvos
    for indice_localizados, linha_localizados in df_id_localizados.iterrows():
        id_localizados = linha_localizados['id']
        te_dados_es_localizados = linha_localizados['te_dados_es']
        te_dados_em_localizados = linha_localizados['te_dados_em']
        
        # Comparar os campos desejados
        resultado_cep = '✔️' if te_dados_es_alvos['cep'] == te_dados_es_localizados['cep'] else '❌'
        resultado_logradouro = '✔️' if te_dados_es_alvos['logradouro'] == te_dados_es_localizados['logradouro'] else '❌'
        resultado_cpf = '✔️' if te_dados_em_alvos['cpfResponsavel'] == te_dados_em_localizados['cpfResponsavel'] else '❌'
        resultado_telefone = '✔️' if te_dados_es_alvos['telefone1'] == te_dados_es_localizados['telefone1'] else '❌'
        resultado_email = '✔️' if te_dados_es_alvos['email'] == te_dados_es_localizados['email'] else '❌'
        resultado_cnae = '✔️' if te_dados_es_alvos['cnaeFiscal'] == te_dados_es_localizados['cnaeFiscal'] else '❌'
        resultado_nomeSim = similariedade_total(matriz_similaridade, df_embeddings_alvo, embeddings_universo, 'id', id_alvos, id_localizados)
        resultado_nomeFantasia =  te_dados_es_localizados['nomeFantasia']
        
        # Adicionar resultados à lista
        df_resultado['id'].append(id_localizados)
        df_resultado['cep'].append(resultado_cep)
        df_resultado['logradouro'].append(resultado_logradouro)
        df_resultado['cpfResponsavel'].append(resultado_cpf)
        df_resultado['telefone1'].append(resultado_telefone)
        df_resultado['email'].append(resultado_email)
        df_resultado['cnae'].append(resultado_cnae)
        df_resultado['nomeSim'].append(resultado_nomeSim)
        df_resultado['nomeFantasia'].append(resultado_nomeFantasia)
    
    # Criar DataFrame com os resultados desta linha de df_id_alvos
    df_resultado = pd.DataFrame(df_resultado)
    
    # Adicionar à lista de resultados com o título correspondente
    titulo = f"Alvo = {id_alvos} - {nome_alvo}"
    resultados[titulo] = df_resultado

# Acessar os DataFrames resultantes pelo título correspondente
for titulo, df_resultado in resultados.items():
    display(f"{titulo}")
    display(df_resultado)

'Alvo = 01783889 - '

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,1783889,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,
1,29775079,✔️,✔️,❌,✔️,✔️,❌,31.69%,
2,33014556,❌,✔️,❌,❌,❌,❌,47.11%,
3,36073955,✔️,✔️,❌,✔️,✔️,❌,49.70%,
4,39109038,✔️,✔️,❌,✔️,✔️,❌,31.46%,


'Alvo = 29775079 - '

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,1783889,✔️,✔️,❌,✔️,✔️,❌,31.69%,
1,29775079,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,
2,33014556,❌,✔️,❌,❌,❌,❌,62.77%,
3,36073955,✔️,✔️,✔️,✔️,✔️,❌,32.03%,
4,39109038,✔️,✔️,✔️,✔️,✔️,❌,44.81%,


'Alvo = 33014556 - '

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,1783889,❌,✔️,❌,❌,❌,❌,47.11%,
1,29775079,❌,✔️,❌,❌,❌,❌,62.77%,
2,33014556,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,
3,36073955,❌,✔️,❌,❌,❌,❌,49.20%,
4,39109038,❌,✔️,❌,❌,❌,❌,42.98%,


'Alvo = 36073955 - '

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,1783889,✔️,✔️,❌,✔️,✔️,❌,49.70%,
1,29775079,✔️,✔️,✔️,✔️,✔️,❌,32.03%,
2,33014556,❌,✔️,❌,❌,❌,❌,49.20%,
3,36073955,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,
4,39109038,✔️,✔️,✔️,✔️,✔️,❌,48.29%,


'Alvo = 39109038 - '

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,1783889,✔️,✔️,❌,✔️,✔️,❌,31.46%,
1,29775079,✔️,✔️,✔️,✔️,✔️,❌,44.81%,
2,33014556,❌,✔️,❌,❌,❌,❌,42.98%,
3,36073955,✔️,✔️,✔️,✔️,✔️,❌,48.29%,
4,39109038,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,


In [None]:
## Monta Dicionário co