In [1]:
from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import pandas as pd
#import data_transform_utilities.flatten as flatten
#from data_transform_utilities.text_parsers import  clean_str, extract_json, json_str_to_array, normalize_and_tokenize_text
#import matplotlib.pyplot as plt

import re
from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, StringType

import pysolr
from sqlalchemy import create_engine
import json
import requests

from sqlalchemy import create_engine, update, Table, MetaData
from sqlalchemy.orm import sessionmaker

from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

import torch
from transformers import AutoTokenizer, AutoModel, AutoModelForSequenceClassification
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
spark_conf = SparkConf()
spark_conf.set("spark.cores", "12")
spark_conf.set("spark.driver.cores", "12")
spark_conf.set("spark.speculation", False)
spark_conf.set("spark.jars.packages", "com.mysql:mysql-connector-j:9.2.0")

spark = SparkSession \
    .builder.master("local") \
    .appName("Decision data overview") \
    .config(conf=spark_conf) \
    .enableHiveSupport() \
    .getOrCreate()

:: loading settings :: url = jar:file:/home/allan/Workspace/fiap-datathon-decision/.venv/lib/python3.10/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/allan/.ivy2/cache
The jars for the packages stored in: /home/allan/.ivy2/jars
com.mysql#mysql-connector-j added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-dfa70fba-a845-429b-9f4c-4e561085fae6;1.0
	confs: [default]
	found com.mysql#mysql-connector-j;9.2.0 in central
	found com.google.protobuf#protobuf-java;4.29.0 in central
:: resolution report :: resolve 138ms :: artifacts dl 5ms
	:: modules in use:
	com.google.protobuf#protobuf-java;4.29.0 from central in [default]
	com.mysql#mysql-connector-j;9.2.0 from central in [default]
	---------------------------------------------------------------------
	|                  |            modules            ||   artifacts   |
	|       conf       | number| search|dwnlded|evicted|| number|dwnlded|
	---------------------------------------------------------------------
	|      default     |   2   |   0   |   0   |   0   ||   2   |   0   |
	-----------------------------------------

In [3]:
engine = create_engine("mysql+pymysql://decision:1234@localhost/decision?charset=utf8")
days_to_read = 1800

## Carrega os dados de vagas

In [4]:
spark.read.jdbc(
    url="jdbc:mysql://decision:1234@localhost:3306/decision?charset=utf8",
    table=f"(SELECT * FROM vacancies WHERE requested_date > DATE_ADD(current_date(), INTERVAL -{days_to_read} DAY)) AS t",
    properties={"driver": "com.mysql.cj.jdbc.Driver"}
).createOrReplaceTempView("vacancies")

25/05/10 13:53:26 WARN SparkStringUtils: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.


# Carrega os dados de candidatos

In [5]:
spark.read.jdbc(
    url="jdbc:mysql://decision:1234@localhost:3306/decision?charset=utf8",
    table=f"(SELECT * FROM applicants WHERE created_at > DATE_ADD(current_date(), INTERVAL -{days_to_read} DAY)) AS t",
    properties={"driver": "com.mysql.cj.jdbc.Driver"}
).createOrReplaceTempView("applicants")

# Carrega o modelo

In [23]:
# Carrega modelo e tokenizer
model_version = "0.0.1"
#model_name = "neuralmind/bert-base-portuguese-cased"
model_name = "../trained_model_bert_20250508"
tokenizer_name = "../tokenizer_model_bert_20250508" 
tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
model = AutoModel.from_pretrained(model_name)
model.eval()

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(29794, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

In [24]:
# Função para gerar embedding médio da sequência
def get_embedding(text, model, tokenizer):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    # Média dos embeddings dos tokens (ignorando padding)
    attention_mask = inputs["attention_mask"]
    embeddings = outputs.last_hidden_state
    mask_expanded = attention_mask.unsqueeze(-1).expand(embeddings.size()).float()
    sum_embeddings = torch.sum(embeddings * mask_expanded, 1)
    sum_mask = torch.clamp(mask_expanded.sum(1), min=1e-9)
    mean_embedding = sum_embeddings / sum_mask
    return mean_embedding.squeeze().numpy()

# Cria client do banco de Vetores

In [8]:
client = QdrantClient(host="localhost", port=6333)

# Cria as coleções no Qdrant

In [9]:
if not client.collection_exists(collection_name="applicants"):
    client.create_collection(
        collection_name="applicants",
        vectors_config=VectorParams(size=model.config.hidden_size, distance=Distance.COSINE),
    )

if not client.collection_exists(collection_name="vacancies"):
    client.create_collection(
        collection_name="vacancies",
        vectors_config=VectorParams(size=model.config.hidden_size, distance=Distance.COSINE),
    )

# Inicia a inserção no banco de Vetores

In [10]:
def insert_into_db(c, collection_name):
    client.upsert(
        collection_name=collection_name,
        points=[
            PointStruct(
                id=c["id"],
                vector=c["embeddings"],
                payload={"description": c["description"]}
            )
        ]
    )

In [14]:
def insert_batch(batch, collection_name, model, tokenizer):
    result = [insert_into_db(
        {"id": v.id, "description": v.description, 
        "embeddings": get_embedding(v.description, model, tokenizer), 
        "model_version": v.model_version}, collection_name) for v in batch]

In [25]:
vacancies = spark.sql(f"""
    SELECT
        id,
        CONCAT(
            COALESCE(main_activities, ''), '\n', 
            COALESCE(technical_and_behavioral_skills, ''), '\n',
            COALESCE(behavioral_skills, ''), '\n',
            'país: ', COALESCE(country, ''), '\n',
            'estado: ', COALESCE(state, ''), '\n',
            'cidade: ', COALESCE(city, ''), '\n'
        ) AS description,
        CURRENT_DATE() AS dt,
        '{model_version}' AS model_version
    FROM 
        vacancies v
    ORDER BY id DESC
    LIMIT 500
""").collect()



In [26]:
insert_batch(vacancies, "vacancies", model, tokenizer)

In [27]:
applicants = spark.sql(f"""
    SELECT
        id,
        CONCAT(
            COALESCE(technical_knowledge, ''), '\n',
            COALESCE(cv_pt, ''), '\n',
            'Endereço: ', COALESCE(location, '')
        ) AS description,
        CURRENT_DATE() AS dt,
        '{model_version}' AS model_version
    FROM 
        applicants a
    ORDER BY id DESC
    LIMIT 500

""").collect()

                                                                                

In [28]:
insert_batch(applicants, "applicants", model, tokenizer)

In [80]:
from qdrant_client.models import ExtendedPointId

In [35]:
ponto_a = client.retrieve(
    collection_name="applicants",
    ids=[46068],
    with_vectors=True
)[0]

In [36]:
resultados = client.query_points(
    collection_name="vacancies",
    query=ponto_a.vector, 
    limit=2
)

# Exibir resultados
for r in resultados.points:
    print(r.payload)
    #print(f"ID: {r.id} | Score: {r.score:.4f} | Descrição: {r.payload['descricao']}")

{'description': 'Recepção - Tutóia São Paulo\nRecepção - Tutóia São Paulo\n\npaís: Brasil\nestado: São Paulo\ncidade: São Paulo\n'}
{'description': 'Analista de Processos Sênior\nAnalista de Processos Sênior\n\npaís: Brasil\nestado: São Paulo\ncidade: Cajamar\n'}


In [None]:
{'description': 'Como administrador de banco de dados, você será responsável pela operação e suporte do banco de dados. Isso inclui atualizar designs de bancos de dados lógicos e físicos com alterações, gerar, configurar e otimizar o desempenho dos bancos de dados e fornecer informações sobre quaisquer decisões de design para interface ou integração de bancos de dados. Espera-se que você atue de forma independente e se torne um especialista no assunto (SME). É necessária participação ativa e contribuição nas discussões da equipe, além de fornecer soluções para problemas relacionados ao trabalho. É necessária proficiência especializada em administração do Exadata. Recomenda-se proficiência avançada em Oracle Database Administration (DBA), Database Administration e Oracle Database Cloud Services, bem como proficiência intermediária em Oracle Cloud Infrastructure (OCI) e Cloud Computing. Desenvolver e implementar estratégias de administração de banco de dados para garantir operações de banco de dados eficientes e confiáveis Monitorar e otimizar o desempenho do banco de dados, incluindo ajuste de consultas e otimização de configurações de banco de dados Solucionar e resolver problemas de banco de dados, incluindo gargalos de desempenho e problemas de integridade de dados Implementar e manter medidas de segurança de banco de dados, incluindo controles de acesso de usuários e criptografia de dados Colaborar com equipes multifuncionais para projetar e implementar soluções de banco de dados que atendam aos requisitos de negócios.\nHibrido.\n\npaís: Brasil\nestado: São Paulo\ncidade: São Paulo\n'}
{'description': '06 meses iniciais de projeto\nAtuação Hibrido, (maior parte vai ser remota com algumas poucas visitas ao cliente na cidade de São Paulo )\nProfissional com base São Paulo. Tem que ser profissionais que residam em São Paulo\n\nO que você fará?\n• Participar de todas as implementações do SAP for Insurance, desde a concepção da solução (blueprint) até as atividades de go-live e pós-go-live\n• Criação de especificações funcionais, fluxos de processo, customização, treinamento e outros documentos relacionados ao projeto\n• Realização da personalização do sistema SAP e verificação da qualidade da implementação\n• Resolver problemas específicos do módulo como pessoa de contato para o cliente relacionado ao setor financeiro (tópicos relacionados ao FS-CD)\n• Criar documentação padrão de negócios para todos os novos desenvolvimentos\n• Realizar execuções de testes (testes unitários, testes de integração do sistema) e dar suporte aos usuários nos ciclos de testes de aceitação do usuário.\n• Treinar e auxiliar os colegas mais jovens\n• Ser membro ativo da comunidade de consultoria, compartilhando conhecimento e orientando/treinando consultores juniores\nConhecimentos, habilidades e aptidões necessários:\n• Experiência profissional em SAP de mais de 1 ano na área de FS-CD, FI-CA ou solução similar (IS-T, IS-U, IS-M, IS-PS-CA (PSCD))\n• Diploma de ensino superior relevante (Economia, Tecnologia da Informação ou equivalente)\n• Conhecimento de processos financeiros e contábeis\n• Capacidade de traduzir requisitos comerciais em especificações de projeto de sistema\n• Eficiente e comunicativo, com espírito de equipe e iniciativa própria\n• Base São Paulo, mas disponibilidade para viajar\n• Excelente domínio do idioma inglês\n\nRequisitos desejáveis:\n• Conhecimento das soluções de ERP, como S4/HANA, SAP FI-CO, FI-AM, FI-GL, FI-AR. FI-AP\n• Experiência em consultoria em SAP ou outras implementações de ERP\n• Experiência em liderança de projeto (liderança de equipe)\n• Familiarizado com as metodologias de projeto SCRUM, PRINCE 2 ou ASAP\n• Conhecimento de IFR17 ou IFRS9\n\npaís: Brasil\nestado: São Paulo\ncidade: São Paulo\n'}