In [1]:
import logging
import sys
import llama_index
import pandas as pd
import time
import psycopg2
from sqlalchemy import create_engine, text
import json
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)

In [None]:
import pyspark
from pyspark.sql import SparkSession
# Inicializar a sessão Spark
spark = SparkSession.builder.appName("CNPJ").getOrCreate()

In [None]:
!pip install pyspark

In [2]:
#Funções para realizar limpezas nos dados retornados pela API
def remove_newlines(query):
    return query.replace('\\n', ' ')

def remove_newlines2(query):
    return query.replace('\n', ' ')

In [3]:
#Detalhes das tabelas
table_details = {
    "ESTABELECIMENTOS": (
        "Contém informações detalhadas sobre os estabelecimentos de empresas, categorizados como matrizes ou filiais. "
        "Cada estabelecimento é identificado por um CNPJ único e registrado como MATRIZ (sede principal), FILIAL (unidade secundária) ou NÃO INFORMADO (quando a informação não está disponível). "
        "A situação cadastral do estabelecimento pode ser NULA (sem atividade), ATIVA (operacional), SUSPENSA (atividades temporariamente cessadas), INAPTA (irregularidades fiscais), BAIXADA (encerrada) ou NÃO INFORMADO. "
        "O campo CNAEFISCALPRINCIPAL descreve a atividade econômica principal, o texto do CNAE mesmo,conforme a tabela do CONCLA, padronizando a classificação das atividades empresariais."
        "Quando questionado se o CNAEFISCALPRINCIPAL é algum 'texto' use o comando LIKE com % % e não use o = "
    ),
    "SOCIOS": (
        "Inclui informações sobre os sócios de empresas, que podem ser PESSOA JURÍDICA (outras empresas ou entidades legais), PESSOA FÍSICA (indivíduos), ESTRANGEIRO (sócios não residentes) ou NÃO INFORMADO. "
        "Este campo ajuda a identificar a natureza da propriedade e gestão da empresa. "
        "O campo FAIXAETARIA detalha a idade dos sócios, se pessoas físicas, categorizada em intervalos: 0-12, 13-20, 21-30, 31-40, 41-50, 51-60, 61-70, 71-80, e 81+ anos, permitindo análises demográficas dos investidores."
    ),
    "SIMPLES": (
        "Armazena informações sobre a adesão das empresas aos regimes tributários simplificados Simples Nacional ou MEI (Microempreendedor Individual). "
        "Estes campos indicam se a empresa optou pelo regime com valores 'SIM' para adesão e 'NÃO' para não-adesão, simplificando o entendimento das obrigações fiscais da empresa."
    ),
    "EMPRESAS": (
        "Contém informações corporativas sobre cada empresa registrada, com um CNPJ básico como identificador principal. "
        "Os dados incluem a razão social e o capital social, fundamental para entender a estrutura financeira da empresa. "
        "O Campo cnpjbasico não se repete na tabela empresas"
        "O PORTE DA EMPRESA é categorizado como MICRO EMPRESA, EMPRESA DE PEQUENO PORTE, DEMAIS (grandes empresas) ou NÃO INFORMADO, o que é crucial para a segmentação de mercado e análise econômica."
    )
}



In [None]:
import psycopg2
from sqlalchemy import create_engine, text,inspect

In [None]:
db_user = "postgres"
db_password = "admin"
db_host = "localhost:5432"
db_name = "CNPJNL2SQL"
db_schema = "public"

In [None]:
#Conectando ao POstgreSQL para retornar a modelagem de dados.
connection_string = f"postgresql+psycopg2://{db_user}:{db_password}@{db_host}/{db_name}"

# Create an engine instance
engine = create_engine(connection_string)

In [None]:
# Consulta SQL para testar a conexão
# Consulta SQL para testar a conexão
test_query = text('SELECT count(*) from "public"."SIMPLES"')
with engine.connect() as connection:
    result = connection.execute(test_query).scalar()
    print(f"Test query result: {result}")


In [None]:
from llama_index.core import SQLDatabase

sql_database = SQLDatabase(engine, sample_rows_in_table_info=2000)
sql_database
list(sql_database._all_tables)

In [None]:
methods = dir(sql_database)
print(methods)

In [None]:
# Obtenha as colunas da tabela
columns = sql_database.get_table_columns('ESTABELECIMENTOS')

# Liste as colunas
print("Colunas da tabela", table_name, ":")
for column in columns:
    print(column)

In [None]:
import os
import openai
os.environ["OPENAI_API_KEY"] = ""
openai.api_key = os.environ["OPENAI_API_KEY"]

In [None]:
import tiktoken
from llama_index.core.callbacks import CallbackManager, TokenCountingHandler
from llama_index.llms.openai import OpenAI
from llama_index.core import Settings, ServiceContext


token_counter = TokenCountingHandler(
    tokenizer=tiktoken.encoding_for_model("gpt-3.5-turbo").encode
)

llm = OpenAI(model="gpt-3.5-turbo", temperature=0.2)
callback_manager = CallbackManager([token_counter])

In [None]:
from llama_index.core.indices.struct_store.sql_query import NLSQLTableQueryEngine

In [None]:
service_context = ServiceContext.from_defaults(
  llm=llm,callback_manager=callback_manager
)

prompt = f"""
        Atenção: Você está atuando apenas em modo de leitura e não deve modificar nenhum dado.
        NÃO INVENTE DADOS. Se você não souber a resposta para uma pergunta, simplesmente diga "Eu não sei".
        Para todas as consultas que envolvam texto, utilize UPPER(CAMPO) no WHERE em maiúsculo.
        Utilize apenas as seguintes tabelas: EMPRESAS, ESTABELECIMENTOS, SOCIOS e SIMPLES.
        Quando for questionado sobre um evento até algum ano ou após algum ano, extrair o ano da data e comparar.
        **Detalhes das Tabelas:**
        - EMPRESAS:
            - O campo CNAE está em texto. Considere consulte o nome do CNAE em maiúsculo, com o UPPER no campo. Quando é perguntado se a empresa é de um setor, traduzir como se ela tem o setor no nome.
            - O campo PORTE possui os seguintes valores: 'NÃO INFORMADO', 'MICRO EMPRESA', 'EMPRESA DE PEQUENO PORTE', 'DEMAIS'.
        - ESTABELECIMENTOS:
            - Dados de endereço (UF, Município, etc) estão na tabela ESTABELECIMETNOS, em maiúsculo.
            - O campo IDENTIFICADORMATRIZFILIAL possui os valores: 'MATRIZ', 'FILIAL'.
            - O campo SITUACAOCADASTRAL possui os valores: 'NULA', 'ATIVA', 'SUSPENSA', 'INAPTA', 'BAIXADA'.
        - SOCIOS:
            - O campo IDENTIFICADORSOCIO pode ser: 'PESSOA JURÍDICA', 'PESSOA FÍSICA', 'ESTRANGEIRO'.
            - O campo que identifica o sócio de forma unívoca a ser considerado é o nomesociorazaosocial.
            - O campo PAIS contém os nomes dos países em maiúsculo.
            - O campo FAIXAETARIA possui os valores: '0-12', '13-20', '21-30', '31-40', '41-50', '51-60', '61-70', '71-80', '81+'.
            - A qualificação do Sócio pode ser: 'Administrador', 'Administrador Judicial', 'Diretor', 'Gerente', etc.
            - Sócios estrangeiros são aqueles que o país não é BRASIL.
            - O campo que 
        - SIMPLES:
            - Os campos OPCAOPELOMEI e OPCAOPELOSIMPLES possuem os valores: 'SIM', 'NÃO'.
        **Relacionamentos:**
        - Uma empresa possui um CNPJBASICO e pode ter vários estabelecimentos.
        - Apenas os estabelecimentos possuem a situação cadastral das empresas.
        - O campo "Ente Federativo" está na tabela EMPRESAS.
        """


query_engine = NLSQLTableQueryEngine(
    sql_database=sql_database,
    service_context=service_context,
    context_str_prefix=prompt
)
     

In [None]:
query_str = "Quantos empresas tem sócio administrador?"
response = query_engine.query(query_str)
print(response.metadata['sql_query'])

In [None]:
result = spark.sql(response.metadata['sql_query']).collect()

In [None]:
#CARRETANDO AS TABELAS COM OS DADOS EM EM CACHE
caminho = "gs://dataproc-staging-us-central1-574457499229-8awbbdyx/notebooks/jupyter/DADOS/DadosProcessados/"

# Função para carregar e cachear as tabelas
def carregar_tabela(nome_tabela):
    arquivo = caminho + f"{nome_tabela}.csv"
    df = spark.read.csv(arquivo, header=True, inferSchema=True, sep=";")
    df.createOrReplaceTempView(nome_tabela)
    spark.sql(f"CACHE TABLE {nome_tabela}")


In [None]:
# Carregar e cachear as tabelas
tabelas = ["EMPRESAS", "ESTABELECIMENTOS", "CNAES", "SOCIOS", "SIMPLES"]
for tabela in tabelas:
    carregar_tabela(tabela)


In [None]:
# Verificar se as tabelas estão em cache
for tabela in tabelas:
    cache_status = spark.catalog.isCached(tabela)
    print(f"Tabela {tabela} está em cache: {cache_status}")

In [None]:
#Realizando uma consulta para testar
spark.sql("SELECT pais, COUNT(*) AS quantidade_estabelecimentos FROM ESTABELECIMENTOS GROUP BY pais ORDER BY quantidade_estabelecimentos DESC").show()

In [None]:
#Lendo o arquivo que tem as queries em Linguagem Natural
import pandas as pd
import time
# Carregar o arquivo CSV
df_queries = pd.read_csv('gs://dataproc-staging-us-central1-574457499229-8awbbdyx/notebooks/jupyter/cnpjnl2sql/queries/queries_results_spark.csv')

# Inicializar as listas para armazenar os resultados e os tempos de execução do Spark
results = []
execution_times = []
generated_queries = []

In [None]:
# Adicionar colunas vazias ao DataFrame inicial
df_queries['spark_query_result_llamma_GPT'] = None
df_queries['spark_query_exec_time_llamma_GPT'] = None
df_queries['query_llamma_GPT'] = None

# Processar cada consulta descrita no DataFrame
for index, row in df_queries.iterrows():
    query_str = remove_newlines(remove_newlines2(row['description']))  # Obter a descrição da consulta
    response = query_engine.query(query_str)
    spark_query = remove_newlines(remove_newlines2(response.metadata['sql_query']))
    print(row['description'])
    valor = row['spark_query_result']
    print(remove_newlines(remove_newlines2(spark_query)))
    
    try:
        start_time = time.time()
        result = spark.sql(spark_query).collect()
        end_time = time.time()
        
        execution_time = end_time - start_time
        
        if result:
            query_result = result[0][0] if result else None
            print(result[0][0] if result else None)
        else:
            query_result = None
        
    except Exception as e:
        print(f"Error executing query for row {index}: {e}")
        query_result = None
        execution_time = None
    
    # Atualizar o DataFrame com os resultados da iteração atual
    df_queries.at[index, 'spark_query_result_llamma_GPT'] = query_result
    df_queries.at[index, 'spark_query_exec_time_llamma_GPT'] = execution_time
    df_queries.at[index, 'query_llamma_GPT'] = spark_query
    
    # Também armazenar nos arrays para possível uso posterior
    results.append(query_result)
    execution_times.append(execution_time)
    generated_queries.append(spark_query)

# Mostrar o DataFrame atualizado
print(df_queries)

In [None]:
# Exibir o DataFrame atualizado para verificar os resultados
pd.set_option('display.max_rows', None)
df_queries

In [None]:
df_queries.to_csv('gs://dataproc-staging-us-central1-574457499229-8awbbdyx/notebooks/jupyter/cnpjnl2sql/queries/queries_with_spark_llama_gpt.csv', index=False)

In [None]:
df_queries