In [1]:
## APLICAÇÃO DO ALGORITMO BAG OF WORDS + RANQUEAMENTO UTILIZANDO PALAVRAS CHAVE ##
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Seus dados fictícios
data = pd.read_csv("csv/scrap.csv", sep=",")

# Criar um DataFrame a partir dos dados fictícios
df = pd.DataFrame(data)

# Conhecimentos, Habilidades e Atitudes
conhecimentos = ["python", "graduação", "estruturas de dados", "desenvolvimento ágil", "bancos de dados"]
habilidades = ["design escalável", "depuração", "integração de APIs", "testes de unidade", "comunicação", "liderança"]
atitudes = ["comprometimento", "aprendizado contínuo", "adaptabilidade", "trabalho em equipe", "ética"]
cha = conhecimentos + habilidades + atitudes

# Inicializar o vetorizador Bag of Words
vectorizer = CountVectorizer()

# Inicializar as colunas de pontuação
df["Pontuacao_Conhecimentos"] = 0
df["Pontuacao_Habilidades"] = 0
df["Pontuacao_Atitudes"] = 0

# Percorrer cada palavra-chave de conhecimento, habilidade e atitude
for palavra_chave in conhecimentos + habilidades + atitudes:
    # Verificar se a palavra-chave está presente nas experiências dos candidatos
    df[palavra_chave] = df["Experiencia"].str.contains(palavra_chave, case=False, regex=True).astype(int)
    
    # Atualizar a pontuação correspondente para cada candidato
    if palavra_chave in conhecimentos:
        df["Pontuacao_Conhecimentos"] += df[palavra_chave]
    elif palavra_chave in habilidades:
        df["Pontuacao_Habilidades"] += df[palavra_chave]
    elif palavra_chave in atitudes:
        df["Pontuacao_Atitudes"] += df[palavra_chave]

# Calcular a pontuação total para cada candidato
df["Classificacao"] = df["Pontuacao_Conhecimentos"] + df["Pontuacao_Habilidades"] + df["Pontuacao_Atitudes"]

# Classificar os candidatos por pontuação total em ordem decrescente
# df_classificado = df.sort_values(by="Classificacao", ascending=False)

# # Salvar o resultado em um arquivo CSV com todas as informações
# df_classificado.to_csv("csv/results/1_curriculos_classificados_com_critérios.csv", index=False)

# Criar um DataFrame com a quantidade total de conhecimento, habilidade e atitude de cada pessoa
df_total = df[["Nome", "Pontuacao_Conhecimentos", "Pontuacao_Habilidades", "Pontuacao_Atitudes", "Classificacao"]].sort_values(by="Classificacao", ascending=False)

# Salvar o resultado em um arquivo CSV separado
df_total.to_csv("csv/results/2_quantidade_total_conhecimento_habilidade_atitude.csv", index=False)

In [36]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Função para fazer o scrap e gerar um csv com todos os cadidatos pegos da página
def main():
    url = "https://scrap-example.onrender.com/scraping.html"  # Substitua pelo URL da página que você deseja acessar
    response = requests.get(url)

    # Dataframe com as colunas pré-setadas para criação do arquivo csv
    df = {'nome':[], 'idade':[], 'experiencia':[], 'email':[]}

    # Se o request for um sucesso ele entrará dentro do if para o tratamento do html
    if response.status_code == 200:
        # Gerando um objeto a partir do html pego pelo request e transformando um objeto do body inteiro em um objeto com a lista de tags td (Linhas da tabela no web)
        soup = BeautifulSoup(response.text, 'html.parser')
        soup.prettify()
        soup = soup.body.find_all('td')
        
        # print(soup.find_all('td'))

        # Adicionando as linhas de informações dos candidatos no dataframe declarado no começo e retirando as tags dos elementos
        while soup:
            df['nome'].append(soup[-4].string.replace('<td>', '').replace('/', ''))
            df['idade'].append(soup[-3].string.replace('<td>', '').replace('/', ''))
            df['experiencia'].append(soup[-2].string.replace('<td>', '').replace('/', ''))
            df['email'].append(soup[-1].string.replace('<td>', '').replace('/', ''))
            soup = soup[:-4]
            
        # print(df)
        # print(soup[-4:])
        
        # Transformando o dicionario 'df' criado com as informações em um dataframe utilizando o pandas seguido da geração do arquivo csv
        df = pd.DataFrame(df)
        df.to_csv('./csv/scrap.csv', index=False)

    # Caso o request retorne um erro ao capturar o html da página, o else a seguir retorna uma mensagem com o erro gerado
    else:
        print(f"Erro ao fazer o request. Código de status: {response.status_code}")

if __name__ == "__main__":
    main()

{'nome': ['Alexandre', 'Inês', 'Hugo', 'Marta', 'Antônio', 'Catarina', 'Guilherme', 'Diana', 'Tiago', 'Beatriz', 'Miguel', 'Isabel', 'Rui', 'Fernanda', 'André', 'Laura', 'Pedro', 'Sofia', 'Carlos', 'Ana', 'Luis', 'Maria', 'Joao'], 'idade': ['37', '23', '32', '28', '30', '27', '36', '29', '22', '33', '24', '31', '26', '35', '27', '32', '29', '25', '30', '28', '20', '34', '23'], 'experiencia': ['Senior Full Stack Developer', 'Junior UIUX Designer', 'Data Engineer', 'Product Owner', 'DevOps Engineer', 'UI Designer and Front-End Developer', 'Cloud Solutions Architect', 'Software Tester', 'Full Stack Web Developer', 'Senior Data Analyst', 'Junior Python Developer', 'Front-End Developer', 'Machine Learning Engineer', 'Database Administrator', 'Mobile App Developer', 'Product Manager', 'Data Scientist', 'UIUX Designer', 'Software Engineer and DevOps Specialist', 'Back-End Developer', 'Sr Python Developer and graduação depuração', 'Sr Python Developer', 'Front-End Developer and Python Develope