23/12/2024

In questo notebook provo a vedere se si può tentare un approccio AI per la valutazione dei candidati (che possa sostituire il recruiter per la valutazione) 

Utilizzo Google gemini api https://ai.google.dev/gemini-api/docs/quickstart?lang=python

https://colab.research.google.com/github/google/generative-ai-docs/blob/main/site/en/gemini-api/docs/get-started/python.ipynb (tutorial colab)

## setup (and experiments)

In [9]:
#!pip install -q -U google-generativeai

In [6]:
from IPython.display import display
from IPython.display import Markdown
import textwrap

In [4]:
def to_markdown(text):
    text = text.replace("•", "  *")
    return Markdown(textwrap.indent(text, "> ", predicate=lambda _: True))

In [1]:
import os
from dotenv import load_dotenv
load_dotenv()

API_KEY = os.environ.get("GOOGLE_API_KEY")

Plain text:

In [7]:
import google.generativeai as genai

genai.configure(api_key=API_KEY)
model = genai.GenerativeModel("gemini-1.5-flash")
#response = model.generate_content("Quali saranno i lavori del futuro?") # commento per non sprecare token
#print(response.text)
to_markdown(response.text)

> Prevedere con precisione i lavori del futuro è impossibile, ma possiamo analizzare le tendenze attuali per identificare settori e competenze probabilmente richiesti.  Questi lavori saranno influenzati da diversi fattori, tra cui l'automazione, l'intelligenza artificiale, la sostenibilità e la globalizzazione.
> 
> **Settori in crescita:**
> 
> * **Tecnologie dell'informazione e della comunicazione (ICT):**  Sviluppatori di software e applicazioni, specialisti in cybersecurity, ingegneri del cloud, analisti di dati, esperti di intelligenza artificiale (AI) e machine learning (ML), specialisti in blockchain, esperti di realtà virtuale (VR) e aumentata (AR).  La domanda per queste competenze è già alta e continuerà ad aumentare.
> 
> * **Scienze biologiche e mediche:** Bioingegneri, bioinformatici, ricercatori medici, genetisti, tecnici di laboratorio specializzati in biotecnologie, esperti di medicina personalizzata.  L'innovazione nel settore sanitario e la crescente longevità della popolazione alimenteranno la richiesta di questi profili.
> 
> * **Energia rinnovabile e sostenibilità:**  Ingegneri ambientali, esperti di energie rinnovabili (solare, eolica, idroelettrica, geotermica), specialisti in efficienza energetica, esperti di gestione dei rifiuti e di economia circolare. La transizione verso un'economia più sostenibile crea un bisogno crescente di queste figure.
> 
> * **Data science e analisi dei dati:** Data scientist, data analyst, business intelligence analyst. L'enorme quantità di dati generati richiede professionisti capaci di analizzarli ed estrarre informazioni utili per le aziende e la ricerca.
> 
> * **Robotica e automazione:**  Ingegneri robotici, tecnici di manutenzione e riparazione di robot, specialisti in automazione industriale. L'automazione sta trasformando molti settori, creando nuove necessità di competenze specializzate.
> 
> * **Industria creativa e digitale:**  Designer di UX/UI, sviluppatori di videogiochi, content creator, esperti di marketing digitale, influencer. La comunicazione e l'intrattenimento digitale sono settori in continua espansione.
> 
> 
> **Competenze trasversali sempre più richieste:**
> 
> * **Problem-solving e pensiero critico:** capacità di analizzare situazioni complesse e trovare soluzioni innovative.
> * **Adattamento e flessibilità:**  capacità di apprendere continuamente nuove competenze e adattarsi ai cambiamenti rapidi del mercato del lavoro.
> * **Collaborazione e comunicazione:**  capacità di lavorare efficacemente in team e comunicare in modo chiaro ed efficace.
> * **Creatività e innovazione:** capacità di pensare fuori dagli schemi e generare nuove idee.
> * **Digital literacy:**  conoscenza e capacità di utilizzo delle tecnologie digitali.
> 
> 
> **Attenzione:**  anche settori tradizionali richiederanno professionisti con competenze aggiornate e digitali.  Un falegname che utilizza software di progettazione assistita da computer (CAD) sarà più competitivo rispetto a uno che non lo fa.
> 
> In conclusione, il futuro del lavoro sarà caratterizzato da una crescente richiesta di competenze tecnologiche, scientifiche e di problem-solving, ma anche dalla necessità di competenze trasversali che consentono l'adattabilità e la collaborazione.  L'apprendimento continuo sarà fondamentale per navigare con successo in questo scenario in evoluzione.


Structured output (json):

In [53]:
prompt = """List a few popular cookie recipes in JSON format.

Use this JSON schema:

Recipe = {'recipe_name': str, 'ingredients': list[str]}
Return: list[Recipe]"""
#result = model.generate_content(prompt)
to_markdown(result.text)

> ```json
> [
>   {
>     "recipe_name": "Chocolate Chip Cookies",
>     "ingredients": [
>       "1 cup (2 sticks) unsalted butter, softened",
>       "1 cup granulated sugar",
>       "1 cup packed brown sugar",
>       "2 teaspoons pure vanilla extract",
>       "2 large eggs",
>       "3 cups all-purpose flour",
>       "1 teaspoon baking soda",
>       "1 teaspoon salt",
>       "2 cups chocolate chips"
>     ]
>   },
>   {
>     "recipe_name": "Oatmeal Raisin Cookies",
>     "ingredients": [
>       "1 cup (2 sticks) unsalted butter, softened",
>       "1 cup granulated sugar",
>       "1 cup packed brown sugar",
>       "2 large eggs",
>       "1 teaspoon vanilla extract",
>       "3 cups all-purpose flour",
>       "1 teaspoon baking soda",
>       "1 teaspoon ground cinnamon",
>       "1/2 teaspoon salt",
>       "3 cups rolled oats",
>       "1 cup raisins"
>     ]
>   },
>   {
>     "recipe_name": "Peanut Butter Cookies",
>     "ingredients": [
>       "1 cup creamy peanut butter",
>       "1 cup granulated sugar",
>       "1 cup packed brown sugar",
>       "2 large eggs",
>       "1 teaspoon baking soda",
>       "1/2 teaspoon salt",
>       "1 cup all-purpose flour"
>     ]
>   },
>   {
>     "recipe_name": "Snickerdoodles",
>     "ingredients": [
>       "1 cup (2 sticks) unsalted butter, softened",
>       "1 3/4 cups granulated sugar",
>       "2 large eggs",
>       "2 1/4 cups all-purpose flour",
>       "2 teaspoons cream of tartar",
>       "1 teaspoon baking soda",
>       "1/2 teaspoon salt",
>       "2 teaspoons ground cinnamon"
>     ]
>   }
> ]
> ```


## Test sui nostri dati

In [10]:
import pandas as pd

In [62]:
prompt = ""

def run_prompt():
  global prompt
  prompt = f"""Valuta i candidati che ti propongo nel database: 
  {', '.join(df_candidates['Full_text'].astype(str).to_list())}

  Rispetto alla posizione lavorativa definita in:
  {', '.join(df_vacancy['Full_text'].astype(str).to_list())}

  Il risultato deve essere un dizionario con il seguente schema JSON:
  diz = {{
    'vacancy': int, # ovvero l'id della vacancy
    'candidates': {{
      int: str  # Dove int è l'id del candidato e str è la valutazione tra "Ok", "Forse", "No"
    }}
  }}

  Per ogni candidato, valuta l'affinità con la vacancy dando una valutazione tra "Ok", "Forse" e "No". Usa un criterio oggettivo basato sulle informazioni disponibili.

  Restituisci solo il dizionario nel formato richiesto.
"""



In [71]:
folder_path = "/home/gmoro.t1@gigroup.local/workarea/smart_matching_neural_similarity/gabri/brutal_results_SM/excel_results/BRASILE/"
file_path = folder_path+"response_0.xlsx"

df_vacancy = pd.read_excel(file_path, sheet_name=0)
df_candidates = pd.read_excel(file_path, sheet_name=1)

df_vacancy["Full_text"] = df_vacancy.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_vacancy.columns), axis=1)
df_candidates["Full_text"] = df_candidates.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_candidates.columns), axis=1)

In [72]:
run_prompt()
result = model.generate_content(prompt)
to_markdown(result.text)

> ```json
> {
>   "vacancy": 6279,
>   "candidates": {
>     1065393: "Ok",
>     1113335: "Ok",
>     1664675: "Forse",
>     1085777: "Ok",
>     1113337: "Forse",
>     1085425: "Ok",
>     1065395: "Ok",
>     1127733: "Ok",
>     1398123: "Forse",
>     1116653: "Ok",
>     1656627: "Ok",
>     1498553: "Ok",
>     1648959: "Ok",
>     1646811: "Ok",
>     1138723: "Ok",
>     1086385: "Ok",
>     1356933: "Ok",
>     1095207: "Ok",
>     1493477: "Forse",
>     1182473: "Ok",
>     1582831: "Forse",
>     1524161: "No",
>     1202713: "Forse",
>     1117769: "Forse",
>     1145137: "Ok",
>     1099299: "No",
>     1674819: "Ok",
>     1136935: "Forse",
>     1077639: "No",
>     1086367: "Ok",
>     1085335: "Ok",
>     1126721: "Ok",
>     1387013: "No",
>     783811: "Ok",
>     1426613: "Forse",
>     1617945: "Forse",
>     1648665: "Forse",
>     1399119: "Ok",
>     1105285: "Ok",
>     1095857: "Ok",
>     1144129: "Ok",
>     1698149: "Forse",
>     1363535: "Ok",
>     1668689: "Ok",
>     1652877: "Ok",
>     1369851: "Ok",
>     1649985: "Ok",
>     1300029: "Forse",
>     1603463: "No",
>     1033793: "No",
>     1656873: "Ok",
>     1657221: "Forse",
>     1338865: "Forse",
>     1394325: "Ok",
>     1127225: "Forse",
>     1127733: "Ok",
>     1140049: "Ok",
>     1100195: "Ok",
>     1053955: "No",
>     1388173: "Forse",
>     1471659: "Ok",
>     1635391: "Ok",
>     1404027: "Forse",
>     1658523: "Forse",
>     1193689: "Forse",
>     1119491: "Forse",
>     1699285: "Ok",
>     1400041: "Ok",
>     1671461: "Ok",
>     985013: "Ok",
>     1359899: "Forse",
>     1100953: "Ok",
>     1638473: "Ok",
>     1048767: "No",
>     1081149: "Ok"
>   }
> }
> ```


In [75]:
folder_path = "/home/gmoro.t1@gigroup.local/workarea/smart_matching_neural_similarity/gabri/brutal_results_SM/excel_results/BRASILE/"
file_path = folder_path+"response_2.xlsx"

df_vacancy = pd.read_excel(file_path, sheet_name=0)
df_candidates = pd.read_excel(file_path, sheet_name=1)

df_vacancy["Full_text"] = df_vacancy.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_vacancy.columns), axis=1)
df_candidates["Full_text"] = df_candidates.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_candidates.columns), axis=1)

In [77]:
run_prompt()
result = model.generate_content(prompt)
to_markdown(result.text)

> ```json
> {
>   "vacancy": 5301,
>   "candidates": {
>     1717205: "Ok",
>     1637933: "Ok",
>     1097497: "Ok",
>     1551791: "Forse",
>     1050853: "Ok",
>     1079087: "No",
>     1484729: "Ok",
>     1092827: "Ok",
>     1549417: "Ok",
>     1122107: "Forse",
>     1023155: "Ok",
>     1047055: "Ok",
>     1079081: "Forse",
>     1091413: "No",
>     894065: "Ok",
>     1449937: "Ok",
>     332433: "Ok",
>     1515771: "Ok",
>     1667961: "Ok",
>     889471: "Forse",
>     989623: "Ok",
>     1583069: "Ok",
>     1172101: "No",
>     1129595: "Forse",
>     1091493: "Ok",
>     1033457: "Ok",
>     1615525: "Ok",
>     804943: "Ok",
>     1556069: "Ok",
>     1079083: "No",
>     1453311: "Ok",
>     18787: "Ok",
>     1607361: "Forse",
>     1660051: "Ok",
>     1613161: "Ok",
>     1672493: "Ok",
>     1107735: "Ok",
>     1094397: "Ok",
>     1071499: "No",
>     1079079: "No",
>     457519: "Ok",
>     1545871: "Forse",
>     1607927: "Forse",
>     1617371: "Ok",
>     1133277: "Ok",
>     1023651: "Ok",
>     1094689: "Ok",
>     1198827: "No",
>     1097853: "Ok",
>     1113623: "Ok",
>     1481405: "Ok",
>     1555179: "Ok",
>     1139165: "Ok",
>     1112975: "Ok",
>     1620789: "Ok",
>     1654269: "Ok",
>     1608303: "Ok",
>     999125: "No",
>     1626507: "Ok",
>     1092241: "Ok",
>     1597129: "Ok",
>     1596491: "Ok",
>     1113931: "Ok",
>     1608251: "Ok",
>     1607927: "Ok",
>     1563285: "Ok",
>     1583061: "Ok",
>     1625417: "Ok",
>     1625741: "Ok",
>     1110633: "Ok",
>     1037443: "Ok",
>     1097105: "Ok",
>     892805: "Ok",
>     1022843: "Ok",
>     1572155: "Ok",
>     1140203: "Ok",
>     1608251: "Ok",
>     1616253: "Ok",
>     1613817: "Ok",
>     1626783: "Ok",
>     1120755: "Ok"
>   }
> }
> ```


In [68]:
folder_path = "/home/gmoro.t1@gigroup.local/workarea/smart_matching_neural_similarity/gabri/brutal_results_SM/excel_results/POLONIA/"
file_path = folder_path+"response_192.xlsx"

df_vacancy = pd.read_excel(file_path, sheet_name=0)
df_candidates = pd.read_excel(file_path, sheet_name=1)

df_vacancy["Full_text"] = df_vacancy.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_vacancy.columns), axis=1)
df_candidates["Full_text"] = df_candidates.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_candidates.columns), axis=1)

In [44]:
run_prompt()
result = model.generate_content(prompt)
to_markdown(result.text)

> ```json
> {
>   "vacancy": 120977,
>   "candidates": {
>     996971: "Forse",
>     1241759: "No",
>     871967: "No",
>     389355: "Forse",
>     1030287: "No",
>     1419139: "Ok",
>     36199: "Forse",
>     62785: "Ok",
>     235891: "Ok",
>     660783: "Forse",
>     1150575: "No",
>     1021331: "Ok",
>     638641: "No",
>     1411113: "No",
>     1225057: "Forse",
>     891811: "Ok",
>     679051: "Ok",
>     604080: "Ok",
>     650379: "No",
>     785105: "No",
>     856179: "Ok",
>     813707: "Forse",
>     1349749: "No",
>     1226639: "Forse",
>     987281: "Ok",
>     792331: "Ok",
>     1401243: "Ok",
>     1457987: "Ok",
>     686497: "Forse",
>     1114903: "Ok",
>     1353893: "No",
>     872499: "Forse",
>     1641087: "Ok",
>     673765: "Ok",
>     996117: "Ok",
>     1034261: "Ok",
>     986583: "Ok",
>     63357: "Forse",
>     1134085: "No",
>     947271: "Forse",
>     1413195: "Ok",
>     1217461: "Ok",
>     1470675: "Forse",
>     1014805: "Ok",
>     1513791: "Ok",
>     827145: "Ok",
>     1245369: "Ok",
>     1300967: "Ok",
>     764341: "Ok",
>     659103: "Ok",
>     1137825: "Ok",
>     970043: "Ok",
>     1195155: "Ok",
>     1381221: "Ok",
>     1239733: "Forse",
>     1091209: "Ok",
>     1443223: "Forse",
>     1137821: "Ok",
>     508060: "Ok",
>     960911: "Ok",
>     65287: "Ok",
>     1646989: "Ok",
>     684633: "Forse",
>     757307: "Ok",
>     962795: "Ok",
>     475975: "No",
>     1641121: "Ok",
>     1167337: "Ok",
>     1268581: "Ok",
>     652489: "Ok",
>     1080699: "No",
>     1005301: "Forse",
>     962589: "Ok",
>     1181511: "Ok",
>     954369: "Ok",
>     817713: "Ok",
>     714861: "Ok",
>     845901: "Ok",
>     781579: "Ok",
>     952145: "Ok",
>     1038477: "Forse",
>     997259: "Forse",
>     820171: "Ok"
>   }
> }
> ```


In [78]:
folder_path = "/home/gmoro.t1@gigroup.local/workarea/smart_matching_neural_similarity/gabri/brutal_results_SM/excel_results/POLONIA/"
file_path = folder_path+"response_186.xlsx"

df_vacancy = pd.read_excel(file_path, sheet_name=0)
df_candidates = pd.read_excel(file_path, sheet_name=1)

df_vacancy["Full_text"] = df_vacancy.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_vacancy.columns), axis=1)
df_candidates["Full_text"] = df_candidates.apply(lambda row: ", ".join(f"{col}: {row[col]}" for col in df_candidates.columns), axis=1)

In [79]:
run_prompt()
result = model.generate_content(prompt)
to_markdown(result.text)

> ```json
> {
>   "vacancy": 78003,
>   "candidates": {
>     1247573: "Ok",
>     192471: "Forse",
>     147259: "Ok",
>     670005: "Ok",
>     771977: "Ok",
>     1087909: "Ok",
>     790861: "Ok",
>     982103: "Ok",
>     235657: "Ok",
>     236971: "Ok",
>     976771: "Ok",
>     238545: "Forse",
>     1188101: "Ok",
>     1395903: "Ok",
>     673553: "Ok",
>     893415: "Ok",
>     145263: "Ok",
>     54707: "Forse",
>     827585: "Ok",
>     769993: "Ok",
>     646729: "Forse",
>     1260007: "Ok",
>     1311045: "Ok",
>     1343721: "Ok",
>     1161969: "Ok",
>     1389619: "Ok",
>     1329773: "Ok",
>     851923: "Ok",
>     1468461: "Ok",
>     1047153: "Ok",
>     739357: "Ok",
>     849053: "Ok",
>     1053097: "Forse",
>     822037: "Ok",
>     1468009: "Ok",
>     1045197: "Ok",
>     891289: "Forse",
>     650197: "Ok",
>     590824: "Ok",
>     667305: "Ok",
>     1600079: "Ok",
>     1340569: "Ok",
>     975935: "Ok",
>     687077: "Ok",
>     1245747: "Ok",
>     845063: "Ok",
>     1244835: "Ok",
>     1223005: "Ok",
>     1168299: "Ok",
>     1244497: "Ok",
>     237819: "Ok",
>     240835: "Ok",
>     239095: "Ok",
>     287363: "Ok",
>     246293: "Ok",
>     1287571: "Ok",
>     1285383: "Ok",
>     1270425: "Ok",
>     855327: "Ok",
>     1195647: "Ok",
>     1168569: "Ok",
>     896031: "Ok",
>     1127701: "Ok",
>     152059: "Ok",
>     1351631: "Ok",
>     830939: "Ok",
>     1686385: "Ok",
>     1362947: "Ok",
>     265567: "Ok",
>     1245999: "Ok",
>     1688749: "Ok"
>   }
> }
> ```
