Em resumo, este código lida com a análise de habilidades de candidatos e gestores, usando o K-Means para agrupar candidatos e k-NN para encontrar os candidatos mais adequados para cada gestor dentro do mesmo grupo.

É uma ferramenta útil para auxiliar na tomada de decisões de alocação de pessoal com base em habilidades.

In [None]:

# Importes das bibliotecas que estão sendo usadas para a criação do modelo
# Biblioteca do pandas como pd, numpy como np (ambas para fazer a análise dos dados)
# matplotlib para colocar os gráficos, sklearn cluster e neghbors para a aplicação do modelo de fato
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.neighbors import NearestNeighbors

# Ler os arquivos CSV
# tabelas carregadas para a analise dos dados, 'olin-candidatos.csv' e 'olin-gestores.csv'
df_candidatos = pd.read_csv('olin-cadidatos.csv')
df_gestores = pd.read_csv('olin-gestores.csv')

# Habilidades para levar em consideração
# filtro das habilidades que estão sendo usadas para a aplicação do modelo
habilidades = ['superfit_dis', 'superfit_sin', 'superfit_cur', 'superfit_int', 'superfit_eng', 'superfit_res']

# Preparar os dados
candidatos = df_candidatos[habilidades].to_numpy()
gestores = df_gestores[habilidades].to_numpy()

# Usar K-means para clusterizar os candidatos
# Clusterizando os dados tanto dos candidatos como os dados dos gestores
kmeans = KMeans(n_clusters=len(gestores), random_state=0).fit(candidatos)
labels = kmeans.labels_

# Para cada gestor, usar k-NN para encontrar o candidato mais próximo dentro do mesmo cluster
for i, gestor in enumerate(gestores):
    cluster = np.where(labels == i)[0]
    candidatos_cluster = candidatos[cluster]

    # Aplicar k-NN que é o modelo que estamos usando (modelo supervisionado)
    knn = NearestNeighbors(n_neighbors=1).fit(candidatos_cluster)
    _, indices = knn.kneighbors([gestor])

    candidato_mais_proximo_index = indices[0][0]

    # Identificar o melhor candidato para cada gestor
    id_candidatos_cluster = df_candidatos.loc[cluster]['id'].to_numpy()
    id_melhor_candidato = id_candidatos_cluster[candidato_mais_proximo_index]
    print(f"O melhor candidato para o Gestor {i+1} (ID do Gestor: {df_gestores.loc[i, 'id']}) é o Candidato com ID {id_melhor_candidato}")

# Plotar gráficos de pares
# fig, ax = plt.subplots(len(habilidades), len(habilidades), figsize=(15, 15))

# for i, habilidade1 in enumerate(habilidades):
#     for j, habilidade2 in enumerate(habilidades):
#         ax[i, j].scatter(df_candidatos[habilidade1], df_candidatos[habilidade2], c=labels, cmap='viridis')
#         ax[i, j].scatter(df_gestores[habilidade1], df_gestores[habilidade2], c='red', marker='x')
#         ax[i, j].set_xlabel(habilidade1)
#         ax[i, j].set_ylabel(habilidade2)

# plt.show()