# Notebook para Reclutamiento AI
Este notebook contiene ejemplos para realizar peticiones API, extraer datos de JSON, leer PDFs de CVs e integrarse con ChatGPT usando LangChain.


## 1. Importaciones Iniciales


In [1]:
import requests
import json
import io
from pypdf import PdfReader
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from dotenv import load_dotenv
import os


## 2. Peticiones API Básicas (Ejemplos)


In [None]:
# GET con expansión de procesos
FUTURE_KEY = ''
# Agregamos "processes" al expand
url_get = f'https://www.getonbrd.com/api/v0/jobs?per_page=10&page=1&api_key={FUTURE_KEY}&expand=["questions"]'
response_get = requests.get(url_get)
if response_get.status_code == 200: 
    print(f"Status: {response_get.status_code}")
    jobs_data = response_get.json()

Status: 200


In [5]:
# Obtenemos el ID del último trabajo
ultimo_job_id = jobs_data['data'][-1]['id']
print(f"Buscando procesos para el Job: {ultimo_job_id}")

Buscando procesos para el Job: front-end-developer-neuralworks-santiago-e569


In [6]:
# Petición para obtener los procesos de este trabajo
url_processes = f'https://www.getonbrd.com/api/v0/jobs/{ultimo_job_id}/processes?api_key={API_KEY}'

response_proc = requests.get(url_processes)
if response_proc.status_code == 200:
    processes_data = response_proc.json()
    # Normalmente hay un solo proceso principal, tomamos el ID del primero
    ultimo_process_id = processes_data['data'][0]['id']
    print(f"Process ID encontrado: {ultimo_process_id}")
else:
    print(f"Error obteniendo procesos: {response_proc.status_code}")
    print(response_proc.text)

Process ID encontrado: 51490


In [7]:
# Ahora pedimos las aplicaciones usando el process_id
url_get_app = f'https://www.getonbrd.com/api/v0/applications?process_id={ultimo_process_id}&per_page=50&page=1&api_key={API_KEY}&expand=["job","phase","professional","answers","notes","messages"]'

response_get_app = requests.get(url_get_app)
if response_get_app.status_code == 200:
    applications_data = response_get_app.json()
    print(f"Se encontraron {len(applications_data['data'])} aplicaciones.")
else:
    print(f"Error en aplicaciones: {response_get_app.status_code}")

Se encontraron 50 aplicaciones.


## 3. Extracción de Nombre y CV Link desde JSON


In [9]:
postulantes = []
for app in applications_data['data']:
    attrs = app.get('attributes', {})
    prof_attrs = attrs.get('professional', {}).get('data', {}).get('attributes', {})
    nombre = prof_attrs.get('name')
    cv_info = prof_attrs.get('uploaded_cv')
    if cv_info and cv_info.get('url'):
        postulantes.append({'nombre': nombre, 'cv_link': cv_info.get('url')})

for p in postulantes: print(f'Nombre: {p["nombre"]} | CV: {p["cv_link"]}')


Nombre: Paloma Cabrillana | CV: https://getonbrd-prod.s3.amazonaws.com/uploads/cv/ea07c38c0f68a947dfb1ce71b6cad96f/paloma_cabrillana_cv%282%29.pdf?X-Amz-Expires=86400&X-Amz-Date=20260112T211036Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAJT5MYUSOEN4SITVA%2F20260112%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-SignedHeaders=host&X-Amz-Signature=55eaf3b86cafa7648f4ff9944eb82ae3eec938e8b157f0e86e7bab47a0393d42
Nombre: Cecilia Pilar | CV: https://getonbrd-prod.s3.amazonaws.com/uploads/cv/7c3d99092a8911b34608ff0b0b3f2447/Cecilia_Pilar_CV.pdf?X-Amz-Expires=86400&X-Amz-Date=20260112T211036Z&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAJT5MYUSOEN4SITVA%2F20260112%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-SignedHeaders=host&X-Amz-Signature=b09c9d35f62db2f28f0b7a23dbaf55a7bc75e30b0721cc9b1bbc8c699bf5ac49
Nombre: Claudio Andres Ulloa Castro | CV: https://getonbrd-prod.s3.amazonaws.com/uploads/cv/02aaba8dd5f4e88f53e055d6532a0ed4/Curriculum_Vitae_Claudio_Ulloa.pdf?X-Amz-Expires=86400&X-Amz

## 4. Función para extraer texto de PDF


In [10]:
def extract_text_from_pdf_url(url):
    try:
        response = requests.get(url, timeout=10)
        if response.status_code == 200:
            # Verificar si el contenido empieza con la firma de PDF (%PDF)
            if not response.content.startswith(b"%PDF"):
                return "Error: El link expiró o el contenido no es un PDF válido (posible Access Denied de S3)."
            
            with io.BytesIO(response.content) as f:
                reader = PdfReader(f)
                text = ""
                for page in reader.pages:
                    text += page.extract_text() + "\n"
                return text.strip()
        else:
            return f"Error al descargar: {response.status_code}"
    except Exception as e:
        return f"Error procesando PDF: {str(e)}"

pdf_to_text_list = {}
for p in postulantes:
    print(f'Extracting text from {p["nombre"]} CV...')
    text = extract_text_from_pdf_url(p['cv_link'])
    pdf_to_text_list[p['nombre']] = text

Extracting text from Paloma Cabrillana CV...
Extracting text from Cecilia Pilar CV...
Extracting text from Claudio Andres Ulloa Castro CV...
Extracting text from Nicolas Garcia CV...


Ignoring wrong pointing object 86 0 (offset 0)


Extracting text from Sofía Lagos Césped CV...
Extracting text from Vicente Brevis CV...
Extracting text from Pablo Abarca CV...


Ignoring wrong pointing object 141 0 (offset 0)


Extracting text from Felipe Muñoz Guerra CV...
Extracting text from miussette alfaro silva CV...
Extracting text from Rafú Quichiz Grados CV...
Extracting text from Maibeet Torres CV...
Extracting text from Deanny Carolina Bruces Molina CV...


Ignoring wrong pointing object 6 0 (offset 0)
Ignoring wrong pointing object 8 0 (offset 0)
Ignoring wrong pointing object 22 0 (offset 0)
Ignoring wrong pointing object 23 0 (offset 0)


Extracting text from Claudia Pérez Velázquez CV...
Extracting text from Brian Malave CV...
Extracting text from Benjamin rios reyes CV...
Extracting text from Lautaro Olivera CV...
Extracting text from Viviana Fajardo CV...
Extracting text from cristopher Barrientos Matamala CV...
Extracting text from Cristian Nieto Albayay CV...
Extracting text from Felipe Martínez CV...
Extracting text from Julio Andres Ramírez De Freitas CV...
Extracting text from Ángel Smith L CV...
Extracting text from ARIEL RUBILAR ALVAREZ CV...
Extracting text from Ignacio Arriagada Iriarte CV...
Extracting text from Ángel Sandoval CV...
Extracting text from Luis Faúndez Saldivia CV...
Extracting text from Mauricio Vargas CV...
Extracting text from Marcos Contreras CV...
Extracting text from Eduardo Manzanares CV...
Extracting text from Jorge Arancibia Leiva CV...
Extracting text from Beatriz Eugenia Ortega Rengifo CV...
Extracting text from Sebastián Meneses Núñez CV...
Extracting text from Sebastian Johnson CV

Ignoring wrong pointing object 11 0 (offset 0)
Ignoring wrong pointing object 18 0 (offset 0)


Extracting text from Federico Huneeus García CV...
Extracting text from Miguel Contreras Caro CV...
Extracting text from Sol Ninoska CV...
Extracting text from Paola González Guzmán CV...
Extracting text from Raúl Opazo Muñoz CV...
Extracting text from Jaicker Rafael Lozano Flores CV...
Extracting text from Marcos Flores CV...
Extracting text from Cristobal Andrade CV...
Extracting text from Carla J Matus CV...
Extracting text from Antonia Reyes CV...
Extracting text from Camila Flores Ferreira CV...
Extracting text from Manuel Michelangelli CV...
Extracting text from Anderson Núñez CV...
Extracting text from Emilio Andrich Guevara CV...


## 5. Integración LangChain + ChatGPT


In [12]:
# Buscamos el trabajo que coincida con el ID
job_attributes = None
for job in jobs_data['data']:
    if job.get('id') == ultimo_job_id:
        job_attributes = job.get('attributes')
        break

In [None]:
texto_cv = pdf_to_text_list[list(pdf_to_text_list.keys())[20]]

# Define tu API Key aquí
OPENAI_APIKEY = ""

# Configurar el modelo con la llave directa
llm = ChatOpenAI(
    model='gpt-4o-mini', 
    temperature=0,
    api_key=OPENAI_APIKEY  # Se pasa directamente aquí
)


system_prompt = """
Eres un asistente de reclutamiento que evalúa la compatibilidad entre una descripción de cargo y un CV. Eres el encargado de evaluar el CV de un postulante para un cargo en particular, y decidir si es aceptado o rechazado para la entrevista inicial.

INSTRUCCIONES IMPORTANTES
- Usa SOLO la información proporcionada en JOB_DESCRIPTION y CV. No inventes nada.
- Si falta información crítica para evaluar un requisito, márcalo como "no evidenciado" (no asumas).
- No uses ni infieras atributos sensibles (edad, género, raza, nacionalidad, religión, estado civil, salud, etc.) para decidir.
- No penalices por redacción, formato, ortografía o largo del CV.
- Si el CV contiene HTML o listas, interprétalo como texto.
- El postulante debe haber estudiado en las universidades más reconocidas de Chile.

OBJETIVO
Dado un JOB_DESCRIPTION y un CV, debes:
1) Determinar DECISION: "accept" o "reject"
2) Entregar SCORE entero de 1 a 5 (5 = muy buen match)
3) Entregar JUSTIFICACION breve y específica, basada en evidencia del CV

ESCALA DE SCORE (OBLIGATORIA)
- 5: Cumple claramente la mayoría de requisitos clave + evidencia fuerte + experiencia muy alineada.
- 4: Cumple muchos requisitos clave + pocos gaps menores.
- 3: Cumple algunos requisitos clave, pero faltan varios requisitos importantes o evidencia incompleta.
- 2: Cumple pocos requisitos clave, desalineación relevante.
- 1: No cumple requisitos clave o no hay evidencia suficiente.

REGLA DE DECISIÓN (OBLIGATORIA)
- "accept" si SCORE >= 4
- "reject" si SCORE <= 3
(Si estás indeciso, usa 3 y reject; explica qué faltó.)

FORMATO DE RESPUESTA (OBLIGATORIO)
Responde SOLO con un JSON válido, sin texto adicional, con este esquema exacto:

{{
  "decision": "accept|reject",
  "score": 1,
  "justification": "Tu justificación para la decisión",
  "evidence": [
    {{
      "requirement": "requisito del job (corto)",
      "cv_evidence": "cita o fragmento del CV que lo respalda, o 'no evidenciado'",
      "match": "strong|partial|none"
    }}
  ],
  "strengths": ["lista corta (máx 3)"],
  "gaps": ["lista corta (máx 3)"],
  "follow_up_questions": ["máx 3 preguntas para despejar dudas críticas"]
}}

CRITERIOS DE EVALUACIÓN
1) Identifica 5 a 8 requisitos clave del JOB_DESCRIPTION.
2) Busca evidencia en el CV para cada requisito.
3) Da match strong/partial/none por requisito.
4) Calcula SCORE según la escala.
5) Genera DECISION usando la regla.
""".strip()

# ... (el resto del código sigue igual)

prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt),
    ("user", "JOB_DESCRIPTION:\n\n{job_description}\n\nCV:\n\n{texto_cv}")
])

chain = prompt_template | llm

# --- Variables de entrada ---
# job_description: string con la descripción del cargo
# cv: string con el CV (puede incluir HTML)

respuesta = chain.invoke({
    "job_description": str(job_attributes),
    "texto_cv": texto_cv
})

print(respuesta.content)

```json
{
  "decision": "reject",
  "score": 3,
  "justification": "El candidato tiene experiencia relevante en desarrollo frontend y habilidades técnicas sólidas, pero no se evidencia que haya estudiado en una universidad reconocida de Chile, y su nivel de inglés no está claro.",
  "evidence": [
    {
      "requirement": "Estudios de Ingeniería Civil en Computación o similar",
      "cv_evidence": "DUOC UC, Ingeniero de Sistemas",
      "match": "none"
    },
    {
      "requirement": "Experiencia de al menos 2 años como Frontend Developer",
      "cv_evidence": "Más de 4 años de experiencia entregando plataformas SaaS, MVPs y aplicaciones intensivas en datos.",
      "match": "strong"
    },
    {
      "requirement": "Comprensión de las API RESTful",
      "cv_evidence": "Diseñé y mantuve APIs RESTful con Node.js y MongoDB",
      "match": "strong"
    },
    {
      "requirement": "Habilidad para trabajar en equipo",
      "cv_evidence": "Sólido colaborador en equipos multidiscip