# Consulta Alvo da Investigação 
## Este notebook destina-se a executar o procedimento exploratório de alvos acessando dados diretamente no Banco de Dados relacional MDM criado com os dados da árvore de sociedades

In [41]:
from sqlalchemy import create_engine
import pandas as pd

In [42]:
cnpj_alvo=['11059149']
string_conexao='postgresql+psycopg2://postgres:postgres@prata04.cnj.jus.br:5432/MDM'
symilarity_threshold = .9

In [43]:
# Monta querys CNPJs Alvos
def monta_query_cnpj_alvo(cnpj_alvo):
    # Transformando a lista cnpj_alvo em uma string adequada para a cláusula IN
    cnpj_alvo_str = "', '".join(cnpj_alvo)
    query = f"""
    SELECT edges.src, edges.dst, 
           nodes_src.cep AS src_cep, 
           nodes_dst.cep AS dst_cep,
           nodes_dst.id_tipopessoa,
           nodes_src.id_tipopessoa AS src_id_tipopessoa,
           nodes_src.te_dados_es->>'nomeFantasia' AS src_nome,
           nodes_dst.te_dados_es->>'nomeFantasia' AS dst_nome,
           nodes_src.te_dados_em->>'nomeEmpresarial' AS src_nome_em,
           nodes_dst.te_dados_em->>'nomeEmpresarial' AS dst_nome_em
    FROM edges
    INNER JOIN nodes AS nodes_src ON nodes_src.id = edges.src
    INNER JOIN nodes AS nodes_dst ON nodes_dst.id = edges.dst
    WHERE edges.dst IN ('{cnpj_alvo_str}') OR edges.src IN ('{cnpj_alvo_str}');
    """
    return query

In [44]:
# Query para consultar todas empresas por CEP
def monta_query_universo_cep(cep):
    cep_str = "', '".join(cep)
    query = f"""
    SELECT * 
    FROM nodes
    WHERE nodes.CEP IN ('{cep_str}')
    """ 
    return query

In [45]:
# Query para consultar todas embeddings de empresas por CEP
def monta_query_universo_embeddings(cep):
    cep_str = "', '".join(cep)
    query = f"""
    SELECT embeddings.id,
           embeddings.nomefantasia,
           embeddings.embeddings
    FROM embeddings
    INNER JOIN nodes ON embeddings.id = nodes.id
    WHERE nodes.CEP IN ('{cep_str}')
    """ 
    return query

In [46]:
# Query para consultar todas empresas em um alista de ID
def monta_query_nodes(id):
    id_str = "', '".join(id)
    query = f"""
    SELECT *
    FROM nodes
    WHERE nodes.id IN ('{id_str}')
    """ 
    return query

In [47]:
# Recupera conexão de banco
engine = create_engine(string_conexao)

## Começa investigação do CNPJ alvo
O fluxosegue nessa ordem:
1. Consulta sócios dos CNPJs alvos para formar a lista de Sócios Alvo, junto consulta-se o nome fantasia. Os sócios alvos, na regra atual, são todas as empresa que são sócias dos CNPJs informados como alvos.
2. __Montas-se o Cluster de empresas pelo CEP__ - constroi um universo de CNPJs que tem como CEP um dos CPS da empresas alvo
3. Leitura dos vetores do embedding dos nomes fantasias do universo de empresas a serem pesquisadas.
4. Recupera os embeddings dos nomesFantasia de empresas alvo
5. Gera a matriz de similaridade comparando os Embeddings de nomes de empresas Alvo com o universo de embeddings gerados

In [48]:
# Consulta todos sócios do alvo
socios_alvo = pd.read_sql_query(monta_query_cnpj_alvo(cnpj_alvo), engine)

In [49]:
socios_alvo

Unnamed: 0,src,dst,src_cep,dst_cep,id_tipopessoa,src_id_tipopessoa,src_nome,dst_nome,src_nome_em,dst_nome_em
0,11059149,1350953105,72035520,,2,1,CONSTROI,,GSA CORP INCORPORACOES IMOBILIARIAS LTDA,
1,11059149,2348043190,72035520,,2,1,CONSTROI,,GSA CORP INCORPORACOES IMOBILIARIAS LTDA,
2,11257776,11059149,72035520,72035520.0,1,1,,CONSTROI,BORGONHA INVESTIMENTOS IMOBILIARIOS LTDA.,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
3,12743113,11059149,72035520,72035520.0,1,1,GSA,CONSTROI,GSA INCORPORACOES IMOBILIARIAS LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
4,15148477,11059149,72035520,72035520.0,1,1,GSA INCORPORACOES 03,CONSTROI,GSA INCORPORACOES IMOBILIARIAS 03 LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
5,19781775,11059149,72035520,72035520.0,1,1,GSA INCORPORACOES 04,CONSTROI,GSA INCORPORACOES IMOBILIARIAS 04 LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
6,27904108,11059149,72035520,72035520.0,1,1,GSA INCORPORACOES 01,CONSTROI,GSA INCORPORACOES IMOBILIARIAS 01 LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
7,28481367,11059149,71200260,72035520.0,1,1,,CONSTROI,TRENITALIA AIR COMERCIO DE AERONAVES LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
8,29148671,11059149,72035520,72035520.0,1,1,GSA INCORPORACOES 05,CONSTROI,GSA INCORPORACOES IMOBILIARIAS 05 LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA
9,41720770,11059149,72035520,72035520.0,1,1,AJB CONSTRUCAO E INCORPORACAO,CONSTROI,AJB CONSTRUCAO E INCORPORACAO SPE LTDA,GSA CORP INCORPORACOES IMOBILIARIAS LTDA


In [50]:
# Separa somente sócios do tipo CNPJ tanto na origem como no destino
condicao_1 = socios_alvo[socios_alvo['src_id_tipopessoa'] == 1][['src', 'src_nome', 'src_cep', 'src_nome_em']].rename(columns={
    'src': 'id',
    'src_nome': 'nomeFantasia',
    'src_cep': 'cep',
    'src_nome_em': 'nomeEmpresarial'
})
condicao_2 = socios_alvo[socios_alvo['id_tipopessoa'] == 1][['dst', 'dst_nome', 'dst_cep', 'dst_nome_em']].rename(columns={
    'dst': 'id',
    'dst_nome': 'nomeFantasia',
    'dst_cep': 'cep',
    'dst_nome_em': 'nomeEmpresarial'
})

# Juntar as duas condições e remover linhas duplicadas
socios_alvo_final = pd.concat([condicao_1, condicao_2]).drop_duplicates()

In [51]:
# Monta lista de CEPs únicos e monta universo
cep_distintos = socios_alvo_final['cep'].drop_duplicates().tolist()
embeddings_universo = pd.read_sql_query(monta_query_universo_embeddings(cep_distintos), engine)

In [52]:
# Recupera nomes Alvo para crusamento
socios_alvo_final_nome = socios_alvo_final.dropna(subset=['nomeFantasia'])
socios_alvo_final_nome = socios_alvo_final_nome[socios_alvo_final_nome['nomeFantasia'].str.strip() != '']
nomes_alvo = socios_alvo_final_nome['nomeFantasia'].tolist()

In [53]:
# Recuperando embeddings para nomes_Alvos
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
embeddings_alvo = model.encode(nomes_alvo)

### Aqui gera-se a matriz de similaridade. Na matriz estão o fator de similaridade de comparação entre os nomes dos CNPJ alvo e as empresas do universo de pesquisa (n x m). No final nas abscissas da Matriz estão as empresas universo e nas ordenadas estão as empresas alvo
### Também aqui se aplica o limite de similaridade aceito

In [54]:
# Gera matriz de similiariedade com nomes localizados 
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Converter os embeddings para um formato compatível com o cosine_similarity
embeddings = np.array(embeddings_universo['embeddings'])
embeddings =  np.vstack(embeddings)

# Calcular a matriz de similaridade usando cosine_similarity
matriz_similaridade = cosine_similarity(embeddings_alvo, embeddings)

# Aplica limite de Similaridade
ordenadas, abscissas = np.where(matriz_similaridade > symilarity_threshold)

# Imprimir a matriz de similaridade
# print(matriz_similaridade)

In [55]:
# Obter os valores de similaridade a partir de matriz_similaridade utilizando as colunas ordenadas e abscissas
valores_sim = matriz_similaridade[ordenadas, abscissas]
ids_localizados = embeddings_universo.iloc[abscissas]['id'].values
ids_alvos = socios_alvo_final_nome.iloc[ordenadas]['id'].values

# Criar o DataFrame df_sim
df_sim = pd.DataFrame({
    'ids_localizados': ids_localizados,
    'ids_alvos': ids_alvos,
    'valor_sim': valores_sim
})

In [56]:
ids = df_sim['ids_localizados'].drop_duplicates().tolist()
df_id_localizados = pd.read_sql_query(monta_query_nodes(ids), engine)
ids = df_sim['ids_alvos'].drop_duplicates().tolist()
df_id_alvos = pd.read_sql_query(monta_query_nodes(ids), engine)

In [57]:
df_id_localizados


Unnamed: 0,id,id_estabelecimento,cep,id_tipopessoa,te_dados_em,te_dados_es
0,11059149,162,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
1,12743113,166,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
2,15148477,196,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
3,19367533,134,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
4,19781775,170,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00001...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
5,27904108,165,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00001...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
6,29148671,186,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
7,37263839,122,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
8,41720770,196,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."
9,53280201,156,72035520,1,"{'porteEmpresa': '05', 'capitalSocial': '00000...","{'uf': 'DF', 'cep': '72035520', 'ddd1': '61', ..."


In [58]:
# Calcula sililariedade de nome
def similariedade(df_sim, id_localizados, ids_alvos):
    # Filtrar o DataFrame df_sim pelos valores desejados de id_localizados e ids_alvos
    filtro = (df_sim['ids_localizados'] == id_localizados) & (df_sim['ids_alvos'] == ids_alvos)
    valor_sim_filtrado = df_sim.loc[filtro, 'valor_sim']

    # Verificar se há valores encontrados
    if not valor_sim_filtrado.empty:
        # Se houver valores encontrados, formatar como porcentagem
        valor_formatado = f"{valor_sim_filtrado.iloc[0] * 100:.2f}%"  # Considerando apenas o primeiro valor encontrado
        return valor_formatado
    else:
        return '-'

In [59]:
similariedade(df_sim, '12743113', '11059149')

'-'

In [60]:
# Lista para armazenar os resultados de cada comparação
resultados = {}

# Iterar sobre cada linha de df_id_alvos
for indice_alvos, linha_alvos in df_id_alvos.iterrows():
    id_alvos = linha_alvos['id']
    te_dados_es_alvos = linha_alvos['te_dados_es']
    te_dados_em_alvos = linha_alvos['te_dados_em']
    nome_alvo = te_dados_es_alvos['nomeFantasia']
    
    # DataFrame para armazenar os resultados desta linha de df_id_alvos
    df_resultado = {'id': [], 'cep': [], 'logradouro': [], 'cpfResponsavel': [], 'telefone1': [], 'email': [], 'cnae': [], 'nomeSim': [], 'nomeFantasia': []}    
    # Iterar sobre cada linha de df_id_localizados para comparar com a linha atual de df_id_alvos
    for indice_localizados, linha_localizados in df_id_localizados.iterrows():
        id_localizados = linha_localizados['id']
        te_dados_es_localizados = linha_localizados['te_dados_es']
        te_dados_em_localizados = linha_localizados['te_dados_em']
        
        # Comparar os campos desejados
        resultado_cep = '✔️' if te_dados_es_alvos['cep'] == te_dados_es_localizados['cep'] else '❌'
        resultado_logradouro = '✔️' if te_dados_es_alvos['logradouro'] == te_dados_es_localizados['logradouro'] else '❌'
        resultado_cpf = '✔️' if te_dados_em_alvos['cpfResponsavel'] == te_dados_em_localizados['cpfResponsavel'] else '❌'
        resultado_telefone = '✔️' if te_dados_es_alvos['telefone1'] == te_dados_es_localizados['telefone1'] else '❌'
        resultado_email = '✔️' if te_dados_es_alvos['email'] == te_dados_es_localizados['email'] else '❌'
        resultado_cnae = '✔️' if te_dados_es_alvos['cnaeFiscal'] == te_dados_es_localizados['cnaeFiscal'] else '❌'
        resultado_nomeSim = similariedade(df_sim, id_localizados, id_alvos)
        resultado_nomeFantasia =  te_dados_es_localizados['nomeFantasia']
        
        # Adicionar resultados à lista
        df_resultado['id'].append(id_localizados)
        df_resultado['cep'].append(resultado_cep)
        df_resultado['logradouro'].append(resultado_logradouro)
        df_resultado['cpfResponsavel'].append(resultado_cpf)
        df_resultado['telefone1'].append(resultado_telefone)
        df_resultado['email'].append(resultado_email)
        df_resultado['cnae'].append(resultado_cnae)
        df_resultado['nomeSim'].append(resultado_nomeSim)
        df_resultado['nomeFantasia'].append(resultado_nomeFantasia)
    
    # Criar DataFrame com os resultados desta linha de df_id_alvos
    df_resultado = pd.DataFrame(df_resultado)
    
    # Adicionar à lista de resultados com o título correspondente
    titulo = f"Alvo = {id_alvos} - {nome_alvo}"
    resultados[titulo] = df_resultado

# Acessar os DataFrames resultantes pelo título correspondente
for titulo, df_resultado in resultados.items():
    display(f"{titulo}")
    display(df_resultado)

'Alvo = 11059149 - CONSTROI'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,CONSTROI
1,12743113,✔️,✔️,✔️,✔️,❌,✔️,-,GSA
2,15148477,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 03
3,19367533,✔️,❌,✔️,❌,❌,❌,-,GSA INCORPORACOES 02
4,19781775,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 04
5,27904108,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,-,GSA INCORPORACOES 05
7,37263839,✔️,✔️,✔️,✔️,✔️,❌,100.00%,CONSTROI
8,41720770,✔️,❌,✔️,✔️,✔️,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 12743113 - GSA'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,✔️,✔️,✔️,❌,✔️,-,CONSTROI
1,12743113,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,GSA
2,15148477,✔️,❌,✔️,❌,✔️,✔️,-,GSA INCORPORACOES 03
3,19367533,✔️,❌,✔️,❌,✔️,❌,-,GSA INCORPORACOES 02
4,19781775,✔️,❌,✔️,❌,✔️,✔️,-,GSA INCORPORACOES 04
5,27904108,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,-,GSA INCORPORACOES 05
7,37263839,✔️,✔️,✔️,✔️,❌,❌,-,CONSTROI
8,41720770,✔️,❌,✔️,✔️,❌,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 15148477 - GSA INCORPORACOES 03'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,❌,✔️,❌,❌,✔️,-,CONSTROI
1,12743113,✔️,❌,✔️,❌,✔️,✔️,-,GSA
2,15148477,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,GSA INCORPORACOES 03
3,19367533,✔️,❌,✔️,❌,✔️,❌,97.57%,GSA INCORPORACOES 02
4,19781775,✔️,✔️,✔️,✔️,✔️,✔️,94.50%,GSA INCORPORACOES 04
5,27904108,✔️,❌,✔️,✔️,❌,✔️,97.91%,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,98.16%,GSA INCORPORACOES 05
7,37263839,✔️,❌,✔️,❌,❌,❌,-,CONSTROI
8,41720770,✔️,❌,✔️,❌,❌,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,✔️,✔️,✔️,❌,✔️,91.95%,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 19781775 - GSA INCORPORACOES 04'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,❌,✔️,❌,❌,✔️,-,CONSTROI
1,12743113,✔️,❌,✔️,❌,✔️,✔️,-,GSA
2,15148477,✔️,✔️,✔️,✔️,✔️,✔️,94.50%,GSA INCORPORACOES 03
3,19367533,✔️,❌,✔️,❌,✔️,❌,95.22%,GSA INCORPORACOES 02
4,19781775,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,GSA INCORPORACOES 04
5,27904108,✔️,❌,✔️,✔️,❌,✔️,92.90%,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,95.88%,GSA INCORPORACOES 05
7,37263839,✔️,❌,✔️,❌,❌,❌,-,CONSTROI
8,41720770,✔️,❌,✔️,❌,❌,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,✔️,✔️,✔️,❌,✔️,91.00%,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 27904108 - GSA INCORPORACOES 01'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,❌,✔️,❌,❌,✔️,-,CONSTROI
1,12743113,✔️,❌,✔️,❌,❌,✔️,-,GSA
2,15148477,✔️,❌,✔️,✔️,❌,✔️,97.91%,GSA INCORPORACOES 03
3,19367533,✔️,✔️,✔️,❌,❌,❌,98.18%,GSA INCORPORACOES 02
4,19781775,✔️,❌,✔️,✔️,❌,✔️,92.90%,GSA INCORPORACOES 04
5,27904108,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,97.83%,GSA INCORPORACOES 05
7,37263839,✔️,❌,✔️,❌,❌,❌,-,CONSTROI
8,41720770,✔️,❌,✔️,❌,❌,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,❌,✔️,✔️,✔️,✔️,91.98%,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 29148671 - GSA INCORPORACOES 05'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,❌,❌,❌,❌,✔️,-,CONSTROI
1,12743113,✔️,❌,❌,❌,❌,✔️,-,GSA
2,15148477,✔️,❌,❌,❌,❌,✔️,98.16%,GSA INCORPORACOES 03
3,19367533,✔️,❌,❌,❌,❌,❌,98.22%,GSA INCORPORACOES 02
4,19781775,✔️,❌,❌,❌,❌,✔️,95.88%,GSA INCORPORACOES 04
5,27904108,✔️,❌,❌,❌,❌,✔️,97.83%,GSA INCORPORACOES 01
6,29148671,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,GSA INCORPORACOES 05
7,37263839,✔️,❌,❌,❌,❌,❌,-,CONSTROI
8,41720770,✔️,❌,❌,❌,❌,✔️,-,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,❌,❌,❌,❌,✔️,94.16%,GSA INCORPORACOES IMOBILIARIAS 06


'Alvo = 41720770 - AJB CONSTRUCAO E INCORPORACAO'

Unnamed: 0,id,cep,logradouro,cpfResponsavel,telefone1,email,cnae,nomeSim,nomeFantasia
0,11059149,✔️,❌,✔️,✔️,✔️,✔️,-,CONSTROI
1,12743113,✔️,❌,✔️,✔️,❌,✔️,-,GSA
2,15148477,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 03
3,19367533,✔️,❌,✔️,❌,❌,❌,-,GSA INCORPORACOES 02
4,19781775,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 04
5,27904108,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES 01
6,29148671,✔️,❌,❌,❌,❌,✔️,-,GSA INCORPORACOES 05
7,37263839,✔️,❌,✔️,✔️,✔️,❌,-,CONSTROI
8,41720770,✔️,✔️,✔️,✔️,✔️,✔️,100.00%,AJB CONSTRUCAO E INCORPORACAO
9,53280201,✔️,❌,✔️,❌,❌,✔️,-,GSA INCORPORACOES IMOBILIARIAS 06


In [None]:
## Monta Dicionário co