#### 0. Autora
<br>
Carolina Saavedra - carolinasaavedra01@gmail.com
<br>

#### 1. Título
<br>
01_Resumen_CV's
<br>

#### 2. Propósito
<br>
Este script en Python tiene como propósito automatizar la extracción de información clave desde archivos PDF que contienen currículums (CVs) de postulantes, estructurar esa información y exportarla en un archivo `.xlsx` para análisis, clasificación o gestión posterior.

- Identificar y extraer automáticamente secciones importantes como:
  - Nombre
  - Correo electrónico
  - Número de teléfono
  - Perfil de LinkedIn
  - Formación académica
  - Experiencia laboral
  - Idiomas
  - Actividades extracurriculares
- Consolidar todos los datos en un único archivo de Excel (`Resumen_Postulantes.xlsx`).

#### 3. ¿Qué hace el script?

1. **Recorre todos los archivos PDF** de una carpeta especificada.
2. **Extrae el texto completo** de cada archivo.
3. **Busca patrones específicos** con expresiones regulares para detectar:
   - Correos electrónicos (`@`)
   - Números de teléfono (con o sin +51)
   - URLs de LinkedIn
   - Secciones como “Educación”, “Experiencia”, “Idiomas” o “Voluntariados”, incluso con diferentes variantes de nombre.
4. **Crea un diccionario por CV** con todos los datos estructurados.
5. **Guarda toda la información en un DataFrame** de pandas.
6. **Exporta un archivo de Excel** con todos los datos extraídos.

#### 4. Paquetes a instalar
Instala las siguientes librerías antes de ejecutar el script:

```bash
pip install pymupdf pandas openpyxl


In [4]:
import fitz  # PyMuPDF
import os
import re
import pandas as pd

# 📁 Ruta de los PDFs
pdf_folder_path = 'C:\\Users\\CAROLINA\\Documents\\02_GitHub\\CV_Structure'

# Función: Extraer texto de un PDF
def extract_text_from_pdf(pdf_path, max_pages=300):
    try:
        doc = fitz.open(pdf_path)
        text = ""
        for page in doc[:max_pages]:
            text += page.get_text("text")
        doc.close()
        return text
    except Exception as e:
        print(f"❌ Error al abrir {pdf_path}: {e}")
        return ""

# Función: Extraer sección del texto
def extract_section(text, section_keywords):
    lines = text.split("\n")
    section_text = []
    collecting = False
    keywords = [kw.lower() for kw in section_keywords]

    for line in lines:
        line_lower = line.strip().lower()
        if any(kw in line_lower for kw in keywords):
            collecting = True
            continue
        elif collecting and any(kw in line_lower for kw in [
            "educación", "educacion", "estudios", 
            "experiencia", "idiomas", "lenguas", "lenguajes", 
            "actividades", "voluntariado", "otros"
        ]):
            break
        elif collecting:
            section_text.append(line.strip())

    return " ".join(section_text).strip()

# Función: Extraer campos clave
def extract_fields_from_text(text, filename):
    lines = text.strip().split("\n")
    lines = [line.strip() for line in lines if line.strip()]
    full_text = "\n".join(lines)

    candidate_name = lines[0] if lines else ""

    email_match = re.search(r'[\w\.-]+@[\w\.-]+\.\w+', full_text)
    phone_match = re.search(r'(\+?\d[\d\s\-]{7,20})', full_text)
    linkedin_match = re.search(r'(linkedin\.com/in/[^\s]+)', full_text)

    # ✅ Variaciones extendidas para mayor cobertura
    education_text = extract_section(full_text, [
        "educación", "educacion", "estudios", "formación académica", "formacion academica"
    ])
    experience_text = extract_section(full_text, [
        "experiencia", "experiencia laboral", "experiencia profesional", "trayectoria", "historial laboral", "EXPERIENCIA"
    ])
    language_text = extract_section(full_text, [
        "idiomas", "lenguas", "lenguajes", "competencias lingüísticas", "habilidades idiomáticas"
    ])
    extras_text = extract_section(full_text, [
        "actividades extracurriculares", "voluntariado", "voluntariados", "otros datos", "información adicional"
    ])

    fields = {
        "Nombre": candidate_name,
        "Correo": email_match.group() if email_match else "",
        "Teléfono": phone_match.group() if phone_match else "",
        "LinkedIn": linkedin_match.group() if linkedin_match else "",
        "Educación": education_text,
        "Experiencia": experience_text,
        "Idiomas": language_text,
        "Extras": extras_text,
        "Archivo": filename
    }
    return fields


# Función principal: Procesar todos los PDFs y generar CSV
def process_pdfs_to_dataframe(folder_path, max_pages=300):
    data = []
    for filename in os.listdir(folder_path):
        if filename.lower().endswith(".pdf"):
            pdf_path = os.path.join(folder_path, filename)
            text = extract_text_from_pdf(pdf_path, max_pages)
            fields = extract_fields_from_text(text, filename)
            data.append(fields)

    df = pd.DataFrame(data)
    expected_cols = ["Nombre", "Correo", "Teléfono", "LinkedIn", "Educación", "Experiencia", "Idiomas", "Extras", "Archivo"]
    for col in expected_cols:
        if col not in df.columns:
            df[col] = ""
    df = df[expected_cols]
    return df

In [5]:
df_resultado = process_pdfs_to_dataframe(pdf_folder_path)
df_resultado

Unnamed: 0,Nombre,Correo,Teléfono,LinkedIn,Educación,Experiencia,Idiomas,Extras,Archivo
0,ANA PAULINA,ana19.masias@gmail.com,+51 998314749\n,,ECONOMÍA | UNIVERSIDAD DE PIURA (UDEP). 2020 I...,comprometida con el aprendizaje continuo.,CURSOS EXTRACURRICULARES FINANZAS| CURSO DE IN...,,Ana Paulina CV.pdf
1,Antony Patiño,huayhua.patino@stud.uni-corvinus.hu,+36 705526443,linkedin.com/in/antonypatino/,Universidad Corvinus de Budapest (BCE) Septiem...,Avanzado y Power BI; JP Morgan – Banca de Inve...,▪ Skills: Eficiencia; Resolución de Problemas;...,,Antony Patino CV.pdf
2,Bruno Fabricio Florian Oliveros,bruno.florian@pucp.edu.pe,951 754 764\n,linkedin.com/in/brunoflorian/,. enero 2016 - Presente PUCP Alumno de 10 Cicl...,comercial en el área de ventas y marketing y e...,,Idioma: Inglés Intermedio Tesis Destacada: La ...,CV - Bruno Fabricio Florian Oliveros - curríc...
3,1,chris27.03@hotmail.com,934750591,,Universidad del Pacífico ...,"proyectos, análisis financiero y desarrollo ec...",● Inglés: Nivel Intermedio. Asociación Cultura...,ORGANIZACIONES ESTUDIANTILES (OE) Acción Soste...,CV - Christopher Antony Bolo Añorga.pdf
4,Carlos Alberto Soller Castillo,carlosalberto.soller23@gmail.com,984719835\n,,Economía Universidad San Ignacio de Loyola 202...,políticas públicas y proyectos de desarrollo. ..., Inglés: Avanzado (C1)  Alemán: Intermedio (...,,CV Carlos Soller.pdf
5,David Eduardo Silva Jaime,de.silvajaime99@gmail.com,+51 945 967 753,linkedin.com/in/davidsilvajaime,"UNIVERSIDAD DEL PACÍFICO Lima, PERÚ Carrera de...",PURGATORY RESORT ..., Competencias Académicas: Fundamentos de Cont...,,CV David Silva Jaime.pdf
6,FABIOLA MEDINA SURICHAQUI,fmedinasurichaqui@gmail.com,989117514\n,,Marzo 2021 – A la fecha Universidad del Pacífi...,clientes. Interés en roles con enfoque estraté...,• Inglés Avanzado (oral y escrito) – First Cer...,• Elenco de Teatro de la Universidad del Pacif...,CV Fabiola Medina_3.pdf
7,ANGELA MARÍA SAAVEDRA VITE,angelasaavedravite129@gmail.com,+51 951458295,linkedin.com/in/angelasaavedravite,2021 – Actualidad UNIVERSIDAD DE PIURA | Econo...,en gestión de activos y pasivos en restaurante...,-Inglés (Intermedio II),-Taller de Teatro Udep (2022) -Apoyo a grupos ...,CV- ANGELA SAAVEDRA VITE (2024)- OFICIAL.pdf
8,Fiorella Velasquez Rodriguez,f.velasquez@pucp.edu.pe,940209291\n,linkedin.com/in/fiorella-vel-rod/,,,Bachiller en Economía SUPERINTENDENCIA DE BANC...,,CV- Fiorella Velasquez.pdf
9,Carolina J. Saavedra Peña,carolinasaavedra01@gmail.com,+51 954156519\n,,•Universidad de Piura (UDEP) 2016-2020 Bachill...,•The Why Hub Actualidad Consultora en diseño –...,"Estadística & Ciencia de datos STATA, Python, ...",•Alianza del Pacífico Agosto - Octubre 2024 – ...,CV_Carolina_Saavedra_Español.pdf


In [6]:
df_resultado.to_excel(os.path.join(pdf_folder_path, "resumen_postulantes.xlsx"), index=False, engine='openpyxl')

In [7]:
import fitz  # PyMuPDF
import os
import re
import pandas as pd

# 📁 Ruta de los PDFs
pdf_folder_path = 'C:\\Users\\CAROLINA\\Documents\\02_GitHub\\CV_Structure'

# Función: Extraer texto de un PDF
def extract_text_from_pdf(pdf_path, max_pages=300):
    try:
        doc = fitz.open(pdf_path)
        text = ""
        for page in doc[:max_pages]:
            text += page.get_text("text")
        doc.close()
        return text
    except Exception as e:
        print(f"❌ Error al abrir {pdf_path}: {e}")
        return ""

# Función: Extraer sección del texto
def extract_section(text, section_keywords):
    lines = text.split("\n")
    section_text = []
    collecting = False
    keywords = [kw.lower() for kw in section_keywords]

    for line in lines:
        line_lower = line.strip().lower()
        if any(kw in line_lower for kw in keywords):
            collecting = True
            continue
        elif collecting and any(kw in line_lower for kw in [
            "educación", "educacion", "estudios", 
            "experiencia", "idiomas", "lenguas", "lenguajes", 
            "actividades", "voluntariado", "otros"
        ]):
            break
        elif collecting:
            section_text.append(line.strip())

    return " ".join(section_text).strip()

# Función: Extraer campos clave
def extract_fields_from_text(text, filename):
    lines = text.strip().split("\n")
    lines = [line.strip() for line in lines if line.strip()]
    full_text = "\n".join(lines)

    candidate_name = lines[0] if lines else ""

    email_match = re.search(r'[\w\.-]+@[\w\.-]+\.\w+', full_text)
    phone_match = re.search(r'(\+?\d[\d\s\-]{7,20})', full_text)
    linkedin_match = re.search(r'(linkedin\.com/in/[^\s]+)', full_text)

    education_text = extract_section(full_text, [
        "educación", "educacion", "estudios", "formación académica", "formacion academica"
    ])
    experience_text = extract_section(full_text, [
        "experiencia", "experiencia laboral", "experiencia profesional", "trayectoria", "historial laboral", "EXPERIENCIA"
    ])
    language_text = extract_section(full_text, [
        "idiomas", "lenguas", "lenguajes", "competencias lingüísticas", "habilidades idiomáticas"
    ])
    extras_text = extract_section(full_text, [
        "actividades extracurriculares", "voluntariado", "voluntariados", "otros datos", "información adicional"
    ])

    fields = {
        "Nombre": candidate_name or "",
        "Correo": email_match.group() if email_match else "",
        "Teléfono": phone_match.group() if phone_match else "",
        "LinkedIn": linkedin_match.group() if linkedin_match else "",
        "Educación": education_text or "",
        "Experiencia": experience_text or "",
        "Idiomas": language_text or "",
        "Extras": extras_text or "",
        "Archivo": filename
    }
    return fields

# Función principal: Procesar todos los PDFs y generar CSV
def process_pdfs_to_dataframe(folder_path, max_pages=300):
    data = []
    for filename in os.listdir(folder_path):
        if filename.lower().endswith(".pdf"):
            pdf_path = os.path.join(folder_path, filename)
            text = extract_text_from_pdf(pdf_path, max_pages)
            fields = extract_fields_from_text(text, filename)
            data.append(fields)

    df = pd.DataFrame(data)
    expected_cols = ["Nombre", "Correo", "Teléfono", "LinkedIn", "Educación", "Experiencia", "Idiomas", "Extras", "Archivo"]
    for col in expected_cols:
        if col not in df.columns:
            df[col] = ""
    df = df[expected_cols]
    return df

# Ejecutar
if __name__ == "__main__":
    df_resultado = process_pdfs_to_dataframe(pdf_folder_path)
    df_resultado.to_excel(os.path.join(pdf_folder_path, "resumen_postulantes.xlsx"), index=False, engine='openpyxl')
    print("✅ Excel generado con éxito: resumen_postulantes.xlsx")

✅ Excel generado con éxito: resumen_postulantes.xlsx


In [8]:
df

NameError: name 'df' is not defined