<a href="https://colab.research.google.com/github/rafapecino/6-2-23/blob/main/TFG_Mod.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

INSTALLS

In [11]:
pip install --upgrade transformers sentence-transformers




In [14]:
!pip install sentence-transformers PyPDF2 gradio



IMPORTS

In [9]:
from IPython import get_ipython
from IPython.display import display
# %%
!pip install sentence-transformers PyPDF2 gradio
# %%
import os
import json
import re
import PyPDF2
from sentence_transformers import SentenceTransformer, util
import gradio as gr




CLASIFICADOR

In [None]:

# --- Clase para extraer información de CVs ---
class CVInfoExtractor:
    def __init__(self):
        # Inicializar modelo de IA para clasificación semántica
        self.classification_model = SentenceTransformer('all-mpnet-base-v2')

        # Definir ejemplos semánticos para cada categoría (reemplaza los patrones regex)
        self.semantic_examples = {
            "datos_personales": [
                "información personal y datos de contacto del candidato",
                "nombre completo, dirección, teléfono, correo electrónico",
                "fecha de nacimiento y datos básicos de identificación",
                "información de contacto profesional y personal"
            ],
            "educacion": [
                "formación académica, estudios universitarios y títulos obtenidos",
                "universidad, instituto, grado, licenciatura, máster, doctorado",
                "educación formal, carreras universitarias, ingeniería",
                "centro de formación, bachillerato, ciclo formativo"
            ],
            "experiencia": [
                "experiencia laboral profesional, trabajos anteriores",
                "historial laboral, empleos, puestos de trabajo desempeñados",
                "trayectoria profesional, prácticas en empresas",
                "responsabilidades laborales y logros profesionales"
            ],
            "habilidades": [
                "competencias técnicas, conocimientos específicos",
                "habilidades profesionales, destrezas, capacidades",
                "herramientas de trabajo, programas informáticos",
                "aptitudes técnicas, conocimientos de programación"
            ],
            "idiomas": [
                "conocimiento de idiomas, competencias lingüísticas",
                "nivel de inglés, español, francés, alemán",
                "certificaciones de idiomas, dominio de lenguas",
                "comunicación multiidioma, niveles B1, B2, C1, C2"
            ],
            "certificaciones": [
                "certificados profesionales, cursos especializados",
                "diplomas, acreditaciones técnicas, especialización",
                "formación complementaria, cursos de capacitación",
                "certificaciones oficiales y desarrollo profesional"
            ],
            "otros": [
                "información adicional, hobbies, intereses personales",
                "aficiones, voluntariado, referencias profesionales",
                "disponibilidad, carnet de conducir, información variada",
                "actividades extracurriculares, permisos especiales"
            ]
        }

        # Precomputar embeddings para clasificación rápida
        self._precompute_category_embeddings()

    def _precompute_category_embeddings(self):
        """Precomputa los embeddings de las categorías para clasificación eficiente"""
        self.category_embeddings = {}
        for category, examples in self.semantic_examples.items():
            # Crear embedding promedio de todos los ejemplos de la categoría
            embeddings = self.classification_model.encode(examples, convert_to_tensor=True)
            self.category_embeddings[category] = embeddings.mean(dim=0)

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}")
            return ""

    def preprocess_text(self, text):
        text = re.sub(r'\s+', ' ', text)
        return re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]', '', text)

    def split_into_sections(self, text):
        # Buscar patrones de sección más específicos y comunes en CVs
        section_headers = [
            r'\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ|CONTACTO|INFORMACIÓN PERSONAL)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS|FORMACIÓN ACADÉMICA)\b',
            r'\b(?:EXPERIENCIA|HISTORIA LABORAL|EMPLEOS|PRÁCTICAS|EXPERIENCIA LABORAL)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES|SKILLS)\b',
            r'\b(?:IDIOMAS|LENGUAJES|LANGUAGES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS|CERTIFICADOS)\b',
            r'\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS|HOBBIES)\b'
        ]

        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))

        markers.sort()
        sections = []

        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            section_text = text[start:end].strip()

            # Filtrar secciones muy cortas o vacías
            if len(section_text) > 20:
                sections.append((section_text, start, end))

        # Si no se encuentran secciones claras, dividir por párrafos significativos
        if not sections:
            # Dividir por saltos de línea dobles o títulos en mayúsculas
            paragraphs = re.split(r'\n\s*\n|\n(?=[A-ZÁÉÍÓÚÑÜ]{3,})', text)
            for paragraph in paragraphs:
                if len(paragraph.strip()) > 50:  # Solo párrafos con contenido sustancial
                    sections.append((paragraph.strip(), 0, len(paragraph)))

        # Si aún no hay secciones, usar todo el texto
        if not sections:
            sections.append((text, 0, len(text)))

        return sections

    def classify_section(self, section_text):
        """
        MÉTODO REEMPLAZADO: Ahora usa IA en lugar de patrones regex
        Clasifica una sección usando similitud semántica con modelo de IA
        """
        section_lower = section_text.lower()

        # Análisis híbrido: combinar IA con patrones específicos para mayor precisión

        # 1. Detectar datos personales con patrones específicos
        if re.search(r'teléfono|correo|email|dirección|fecha.*nacimiento|@|tlf|móvil', section_lower):
            return "datos_personales", 0.9

        # 2. Detectar educación con patrones específicos
        if re.search(r'universidad|grado|bachillerato|master|doctorado|título|carrera|estudios|formación.*académica|ies|ces', section_lower):
            return "educacion", 0.9

        # 3. Detectar experiencia con patrones específicos
        if re.search(r'experiencia.*laboral|trabajo|empleado|empresa|puesto|cargo|responsabilidades|\d{4}.*\d{4}|desde.*hasta', section_lower):
            return "experiencia", 0.9

        # 4. Detectar habilidades con patrones específicos
        if re.search(r'habilidades|competencias|aptitudes|conocimientos|java|python|html|css|javascript|photoshop|office|autocad', section_lower):
            return "habilidades", 0.9

        # 5. Detectar idiomas con patrones específicos
        if re.search(r'idiomas|inglés|español|francés|alemán|nativo|b1|b2|c1|c2|nivel.*oral', section_lower):
            return "idiomas", 0.9

        # 6. Detectar certificaciones con patrones específicos
        if re.search(r'certificaciones|certificados|cursos|diploma|acreditación|título.*socorrista|curso.*de', section_lower):
            return "certificaciones", 0.9

        # 7. Si no hay coincidencia clara, usar IA semántica
        section_embedding = self.classification_model.encode(section_text, convert_to_tensor=True)

        similarities = {}
        for category, category_embedding in self.category_embeddings.items():
            similarity = util.cos_sim(section_embedding, category_embedding).item()
            similarities[category] = similarity

        best_category = max(similarities.items(), key=lambda x: x[1])
        confidence_score = best_category[1]

        # Si la confianza es muy baja, clasificar como "otros"
        if confidence_score < 0.2:
            return "otros", confidence_score

        return best_category[0], confidence_score

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)

        categorized_sections = {}

        # Procesar cada sección identificada
        for section_text, _, _ in sections:
            category, confidence = self.classify_section(section_text)

            # Solo agregar contenido con confianza mínima
            if confidence > 0.3:
                if category not in categorized_sections:
                    categorized_sections[category] = []
                categorized_sections[category].append(section_text)

        # Si no se detectaron secciones claras, hacer análisis por fragmentos
        if len(categorized_sections) < 3:  # Muy pocas secciones detectadas
            # Dividir en fragmentos más pequeños para mejor análisis
            fragments = re.split(r'\n(?=\s*[A-ZÁÉÍÓÚÑÜ])', processed_text)
            for fragment in fragments:
                if len(fragment.strip()) > 30:
                    category, confidence = self.classify_section(fragment)
                    if confidence > 0.4:  # Umbral más alto para fragmentos
                        if category not in categorized_sections:
                            categorized_sections[category] = []
                        categorized_sections[category].append(fragment.strip())

        # Construir resultado final
        result = {}
        for category in self.semantic_examples.keys():
            if category in categorized_sections:
                # Eliminar duplicados y combinar contenido
                unique_content = []
                for content in categorized_sections[category]:
                    if content not in unique_content:
                        unique_content.append(content)
                result[category] = "\n\n".join(unique_content)
            else:
                result[category] = "No se encontró información"

        return result

    def process_cv(self, pdf_path):
        text = self.extract_text_from_pdf(pdf_path)
        if not text:
            return {"error": "No se pudo extraer texto del PDF"}
        return self.extract_structured_info(text)


MODELO PARA COMPARAR

In [None]:
# --- Modelo de embeddings para comparar ---
model = SentenceTransformer('all-mpnet-base-v2')

def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    similarity = util.cos_sim(emb_req, emb_cv).item()
    return round(similarity * 100, 2)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.4k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

INTERFAZ

In [15]:

# --- Interfaz Gradio ---

def process_cvs_gradio(pdf_files, requisitos_texto, modo):
    if not requisitos_texto:
        return "¡Atención! Debes ingresar la descripción o los requisitos."
    if not pdf_files:
        return "¡Atención! No has seleccionado ningún archivo PDF."

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking = []
    for pdf in pdf_files:
        # Gradio's Files component returns a list of NamedTemporaryFile objects
        # We need the actual file path
        pdf_path = pdf.name
        nombre = os.path.splitext(os.path.basename(pdf_path))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")
        cv_data = extractor.process_cv(pdf_path)

        # Ensure cv_data is not an error dictionary before saving and processing
        if "error" in cv_data:
             print(f"Skipping {nombre} due to error: {cv_data['error']}")
             continue # Skip this PDF if there was an error

        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking.append((nombre, porcentaje))

    # Mostrar resultados ordenados
    ranking.sort(key=lambda x: x[1], reverse=True)
    results_text = "=== Resultados de Matching ===\n"
    for i, (nombre, score) in enumerate(ranking, 1):
        results_text += f"{i}. {nombre}: {score}%\n"

    return results_text

# Define the Gradio interface
with gr.Blocks() as demo:
    gr.Markdown("# Sistema de Matching de CVs")

    with gr.Row():
        pdf_files_input = gr.Files(label="Selecciona los archivos PDF de CV", file_types=[".pdf"])

    with gr.Row():
        modo_radio = gr.Radio(choices=["Descripción completa del puesto", "Requisitos por categoría"],
                              value="Descripción completa del puesto", label="Modo de requisitos")

    with gr.Row():
        requisitos_text = gr.Textbox(label="Descripción o requisitos", lines=10)

    with gr.Row():
        procesar_button = gr.Button("Procesar y comparar")

    with gr.Row():
        resultados_output = gr.Textbox(label="Resultados", lines=10, interactive=False)

    # Link the button click to the processing function
    procesar_button.click(
        fn=process_cvs_gradio,
        inputs=[pdf_files_input, requisitos_text, modo_radio],
        outputs=resultados_output
    )
# Launch the Gradio app
if __name__ == "__main__":
    demo.launch()

It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://991dc49fbd6ab05b06.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


INTERFAZ MEJORADA V2
multimodelos por si alguno falla


In [16]:
import os
import re
import json
import zipfile
import time

import PyPDF2
import docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm

# === FUNCIONES DE CARGA DE MODELO CON FALLBACK A MODELOS MÁS GRANDES ===
def load_best_model():
    """
    Intenta cargar los modelos de Sentence-Transformers más grandes disponibles, en orden.
    Si la carga falla (por memoria u otros), prueba el siguiente de la lista.
    Imprime en consola el estado de cada intento.
    """
    model_names = [
        "embaas/sentence-transformers-e5-large-v2",    # E5-large-v2 (24 capas, embedding 1024)
        "intfloat/e5-large-v2",                        # E5-large-v2 original (requiere SentTfm wrapper)
        "intfloat/multilingual-e5-large",              # E5-large multilingüe (emb 768)
        "sentence-transformers/all-mpnet-base-v2",     # MPNet base (emb 768)
        "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
        "sentence-transformers/msmarco-distilbert-base-v4",
        "sentence-transformers/distiluse-base-multilingual-cased-v2",
        "sentence-transformers/paraphrase-xlm-r-multilingual-v1"
    ]
    for name in model_names:
        try:
            print(f"Cargando modelo '{name}'...", flush=True)
            model = SentenceTransformer(name)
            # Prueba rápida de encode para confirmar que el modelo funciona
            _ = model.encode("Prueba de carga", convert_to_tensor=True)
            print(f"✅ Modelo '{name}' cargado correctamente.", flush=True)
            return model, name
        except Exception as e:
            print(f"❌ Error cargando '{name}': {e}", flush=True)
            # Pasar al siguiente modelo
    # Si ninguno pudo cargarse:
    print("⚠️ No se pudo cargar ningún modelo de la lista. Abortando.", flush=True)
    raise RuntimeError("No se pudo inicializar ningún modelo de Sentence-Transformers.")


# Intentar cargar el mejor modelo disponible
try:
    model, model_name_loaded = load_best_model()
except RuntimeError:
    # Si falla, usar modelo dummy que siempre devuelve vectores de ceros
    class DummyModel:
        def encode(self, texts, convert_to_tensor=False):
            import numpy as np
            if isinstance(texts, str):
                return np.zeros(1024)
            return [np.zeros(1024) for _ in texts]

    print("Usando DummyModel como fallback.", flush=True)
    model = DummyModel()
    model_name_loaded = "DummyModel"


# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+Nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"máster", r"doctorado",
                r"ingeniería",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, "r", encoding="utf-8", errors="ignore") as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, "rb") as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}", flush=True)
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}", flush=True)
            return ""

    def preprocess_text(self, text):
        text = re.sub(r"\s+", " ", text)
        return re.sub(r"[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]", "", text)

    def split_into_sections(self, text):
        section_headers = [
            r"\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b",
            r"\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b",
            r"\b(?:EXPERIENCIA|HISTORIAL LABORAL|EMPLEOS|PRÁCTICAS)\b",
            r"\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b",
            r"\b(?:IDIOMAS|LENGUAJES)\b",
            r"\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b",
            r"\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b"
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            # Heurística para fechas y programación
            if re.search(r"\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}", section_lower):
                if re.search(r"universidad|colegio|escuela ", section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r"python|java|c\+\+|html|css|javascript ", section_lower):
                return "habilidades", 1
            if re.search(r"inglés|español|francés|alemán", section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(
                categorized_sections.get(category, ["No se encontró información"])
            )
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)


# === CÁLCULO DE MATCH SEMÁNTICO ===
def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join(
        [cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]]
    )
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)


# === LÓgica de procesamiento para Gradio ===
def process_cvs(
    files,
    descripcion,
    experiencia,
    educacion,
    habilidades
):
    if not files:
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>⚠️ No has seleccionado ningún archivo.</span>"

    # Construir texto de requisitos según el modo
    if descripcion and descripcion.strip():
        requisitos_texto = descripcion.strip()
    else:
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )

    if not requisitos_texto.strip():
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>⚠️ Debes ingresar la descripción o los requisitos.</span>"

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking_list = []
    fallos = []

    for file_obj in files:
        nombre = os.path.splitext(os.path.basename(file_obj.name))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")

        # Extraer y clasificar secciones
        cv_data = extractor.process_cv(file_obj.name)
        if "error" in cv_data:
            fallos.append(nombre)
            continue

        # Guardar JSON
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        # Calcular match semántico
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking_list.append([nombre, porcentaje])

        time.sleep(0.05)  # Simular progreso

    if not ranking_list:
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>❌ No se pudo procesar ningún archivo con éxito.</span>"

    # Ordenar de mayor a menor
    ranking_list.sort(key=lambda x: x[1], reverse=True)

    # Crear DataFrame de salida
    import pandas as pd
    df_ranking = pd.DataFrame(ranking_list, columns=["Candidato", "Match (%)"])

    # Generar ZIP con todos los JSON en 'resultados/'
    zip_path = os.path.join(output_folder, "todos_los_resultados.zip")
    with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as zipf:
        for fname in os.listdir(output_folder):
            if fname.endswith("_analisis.json"):
                zipf.write(os.path.join(output_folder, fname), arcname=fname)

    mensaje_exito = f"✅ Procesados {len(ranking_list)} CVs correctamente con modelo '{model_name_loaded}'."
    if fallos:
        mensaje_exito += f"  ⚠️ Fallaron: {', '.join(fallos)}"

    return df_ranking, zip_path, f"<span style='color:#28a745; font-weight:bold;'>{mensaje_exito}</span>"


def clear_outputs():
    return None, None, ""


# === INTERFAZ GRADIO AVANZADA ===
with gr.Blocks(css="""
    .gradio-container { max-width: 950px; margin: auto; }
    .titulo { font-size: 2rem; font-weight: bold; margin-bottom: 5px; }
    .subtitulo { font-size: 1.1rem; color: #555; margin-bottom: 15px; }
    .section-header { font-size: 1.2rem; font-weight: bold; margin-top: 20px; }
    .texto-secundario { font-size: 0.9rem; color: #555; margin-bottom: 10px; }
    .features-list { margin-left: 20px; }
    .tips-list { margin-left: 20px; }
""") as demo:

    # ---- Encabezado principal ----
    gr.Markdown("<div class='titulo'>🎯 CV Matcher Pro</div>")
    gr.Markdown("<div class='subtitulo'>Sistema Avanzado de Análisis y Matching de CVs</div>")

    # ---- Descripción breve ----
    gr.Markdown(
        """
        Sube tus CVs y describe el puesto para obtener un ranking inteligente de candidatos basado en análisis semántico avanzado.
        """
    )

    # ---- Información del modelo cargado ----
    gr.Markdown(f"**🤖 Modelo cargado:** `{model_name_loaded}`")

    # ---- Selector de archivos ----
    gr.Markdown("**📄 Selecciona archivos de CV**")
    files_input = gr.Files(
        label="Coloca el archivo aquí\n- o -\nHaga clic para cargar",
        file_types=[".pdf", ".docx", ".txt"]
    )
    gr.Markdown(
        "<div class='texto-secundario'>"
        "📋 Formatos soportados:<br>"
        "- PDF (.pdf) – Documentos Adobe<br>"
        "- Word (.docx) – Microsoft Word<br>"
        "- Texto (.txt) – Archivos de texto plano"
        "</div>"
    )

    # ---- Lista de características ----
    gr.Markdown("**🚀 Características:**")
    gr.Markdown(
        "<ul class='features-list'>"
        "<li>🧠 Análisis semántico con IA</li>"
        "<li>📊 Extracción automática de secciones</li>"
        "<li>🎯 Scoring avanzado de matching</li>"
        "<li>⚡ Procesamiento con barra de progreso</li>"
        "<li>📈 Ranking automático de candidatos</li>"
        "<li>📁 Exportación de resultados JSON</li>"
        "</ul>"
    )

    # ---- Modo de análisis (pestañas) ----
    gr.Markdown("**🔧 Modo de análisis**")
    gr.Markdown("Elige cómo quieres introducir los requisitos del puesto:")
    tabs = gr.Tabs()

    with tabs:
        with gr.TabItem("Descripción completa del puesto"):
            gr.Markdown("**📝 Descripción completa del puesto**")
            descripcion = gr.Textbox(
                label="Describe el puesto detalladamente: funciones, responsabilidades, requisitos, condiciones laborales y contexto de la empresa.",
                placeholder="Desarrollar soluciones de software colaborando con el equipo para cumplir plazos y objetivos, aplicando habilidades en programación y buenas prácticas, utilizando herramientas como Git y JIRA, con nivel de inglés B2, en un entorno ágil y dinámico.",
                lines=6
            )

            gr.Markdown(
                "<div class='texto-secundario'><b>💡 Tips para mejores resultados:</b></div>"
            )
            gr.Markdown(
                "<ul class='tips-list'>"
                "<li>🎯 <b>Responsabilidades</b>: Tareas principales y objetivos del puesto</li>"
                "<li>🛠️ <b>Competencias técnicas</b>: Lenguajes, herramientas, nivel requerido</li>"
                "<li>📚 <b>Experiencia</b>: Años, tipo de proyectos, sectores relevantes</li>"
                "<li>🎓 <b>Formación</b>: Titulación mínima, certificaciones valoradas</li>"
                "<li>🌍 <b>Contexto</b>: Sector, tipo de empresa, metodologías de trabajo</li>"
                "</ul>"
            )
            gr.Markdown(
                "<div class='texto-secundario'><b>Ejemplo optimizado:</b> <br>"
                "Diseñar, desarrollar y mantener aplicaciones web de comercio electrónico utilizando React y Node.js, trabajando en un equipo ágil con Git y JIRA; se valorará experiencia en microservicios, integración con APIs REST y TDD; nivel de inglés B2 para revisión de documentación y comunicación con clientes internacionales.</div>"
            )


        with gr.TabItem("Requisitos por categoría"):
            gr.Markdown("**📝 Requisitos por categoría**")
            experiencia = gr.Textbox(
                label="Experiencia requerida",
                placeholder="Años, tipo de proyectos, ámbitos…",
                lines=2
            )
            educacion = gr.Textbox(
                label="Formación (titulación mínima, postgrados…)",
                placeholder="Licenciatura, Máster, certificación…",
                lines=2
            )
            habilidades = gr.Textbox(
                label="Habilidades clave",
                placeholder="Lenguajes, herramientas, soft-skills…",
                lines=2
            )

    # ---- Botones de acción ----
    with gr.Row():
        procesar_button = gr.Button("🚀 Procesar y Analizar CVs", variant="primary")
        limpiar_button = gr.Button("🧹 Limpiar Resultados", variant="secondary")

    # ---- Salidas: tabla de ranking, descarga y mensaje de estado ----
    ranking_table = gr.Dataframe(
        headers=["Candidato", "Match (%)"],
        interactive=False,
        label="📊 Resultados del Análisis"
    )
    descarga_zip = gr.File(label="📁 Archivos de salida")
    mensaje_estado = gr.HTML()

    # Conexiones
    procesar_button.click(
        fn=process_cvs,
        inputs=[files_input, descripcion, experiencia, educacion, habilidades],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )
    limpiar_button.click(
        fn=clear_outputs,
        inputs=[],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )

    # ---- Sección informativa estática ----
    gr.Markdown("---")
    gr.Markdown("**📁 Archivos de salida**")
    gr.Markdown(
        """
        Después del procesamiento, encontrarás en la carpeta `resultados/`:
        - Análisis detallados de cada CV en formato JSON.
        - Información estructurada por secciones (educación, experiencia, habilidades, idiomas).
        - Scores individuales y métricas de matching semántico.
        """
    )

    gr.Markdown("**🔍 Cómo interpretar los resultados**")
    gr.Markdown(
        """
        - **Score de Matching**: Porcentaje de similitud semántica entre el CV y los requisitos.
        - **Ranking automático**: Los candidatos se ordenan de mayor a menor compatibilidad.
        - **Análisis por secciones**: Cada CV se descompone en áreas clave para evaluación detallada.
        """
    )

    gr.Markdown("**⚙️ Tecnología utilizada**")
    gr.Markdown(
        f"""
        - 🧠 **Embeddings**: Modelo cargado: `{model_name_loaded}`
        - 🔤 **NLP**: Procesamiento de lenguaje natural optimizado para español
        - 📄 **Extracción**: Soporte robusto para PDF, DOCX y TXT con manejo de errores
        - ⚡ **Performance**: Barra de progreso en tiempo real para múltiples archivos
        """
    )

# Lanzar la aplicación
demo.launch()


Cargando modelo 'embaas/sentence-transformers-e5-large-v2'...
✅ Modelo 'embaas/sentence-transformers-e5-large-v2' cargado correctamente.
It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://642cc9812bc4c4c7e1.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [11]:
import os
import re
import json
import zipfile
import time

import PyPDF2
import docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm

# === FUNCIONES DE CARGA DE MODELO CON FALLBACK ===
def load_best_model():
    """
    Intenta cargar el modelo de Sentence-Transformers más potente disponible.
    Si la carga falla (por memoria u otros), prueba el siguiente de la lista.
    Imprime en consola el estado de cada intento.
    """
    model_names = [
        "intfloat/multilingual-e5-large",          # Modelo más potente
        "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
        "sentence-transformers/distiluse-base-multilingual-cased-v2",
        "sentence-transformers/paraphrase-xlm-r-multilingual-v1"
    ]
    for name in model_names:
        try:
            print(f"Cargando modelo '{name}'...", flush=True)
            model = SentenceTransformer(name)
            # Intentamos codificar un texto corto de prueba para confirmar que todo funciona
            _ = model.encode("Prueba de carga", convert_to_tensor=True)
            print(f"✅ Modelo '{name}' cargado correctamente.", flush=True)
            return model, name
        except Exception as e:
            print(f"❌ Error cargando '{name}': {e}", flush=True)
            # Continuar al siguiente modelo
    # Si ninguno pudo cargarse:
    print("⚠️ No se pudo cargar ningún modelo de la lista. Abortando.", flush=True)
    raise RuntimeError("No se pudo inicializar ningún modelo de Sentence-Transformers.")


# Cargar el mejor modelo disponible
try:
    model, model_name_loaded = load_best_model()
except RuntimeError as err:
    # En un entorno productivo, podríamos definir un modelo 'dummy' que devuelva:

    class DummyModel:
        def encode(self, texts, convert_to_tensor=False):
            # Devuelve un vector de ceros
            import numpy as np
            if isinstance(texts, str):
                return util.cos_sim(util.cos_sim, util.cos_sim)  # similaridad nula
            else:
                return [np.zeros(768) for _ in texts]

    print("Usando DummyModel como fallback.", flush=True)
    model = DummyModel()
    model_name_loaded = "DummyModel"


# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+Nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"máster", r"doctorado",
                r"ingeniería",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, "r", encoding="utf-8", errors="ignore") as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, "rb") as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}", flush=True)
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}", flush=True)
            return ""

    def preprocess_text(self, text):
        text = re.sub(r"\s+", " ", text)
        return re.sub(r"[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]", "", text)

    def split_into_sections(self, text):
        section_headers = [
            r"\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b",
            r"\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b",
            r"\b(?:EXPERIENCIA|HISTORIAL LABORAL|EMPLEOS|PRÁCTICAS)\b",
            r"\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b",
            r"\b(?:IDIOMAS|LENGUAJES)\b",
            r"\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b",
            r"\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b"
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            # Heurística para fechas y programación
            if re.search(r"\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}", section_lower):
                if re.search(r"universidad|colegio|escuela ", section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r"python|java|c\+\+|html|css|javascript ", section_lower):
                return "habilidades", 1
            if re.search(r"inglés|español|francés|alemán", section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(
                categorized_sections.get(category, ["No se encontró información"])
            )
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)


# === CÁLCULO DE MATCH SEMÁNTICO ===
def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join(
        [cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]]
    )
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)


# === LÓGICA DE PROCESAMIENTO PARA GRADIO ===
def process_cvs(
    files,
    descripcion,
    experiencia,
    educacion,
    habilidades
):
    if not files:
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>⚠️ No has seleccionado ningún archivo.</span>"

    # Construir texto de requisitos según el modo
    if descripcion and descripcion.strip():
        requisitos_texto = descripcion.strip()
    else:
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )

    if not requisitos_texto.strip():
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>⚠️ Debes ingresar la descripción o los requisitos.</span>"

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking_list = []
    fallos = []

    for file_obj in files:
        nombre = os.path.splitext(os.path.basename(file_obj.name))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")

        # Extraer y clasificar secciones
        cv_data = extractor.process_cv(file_obj.name)
        if "error" in cv_data:
            fallos.append(nombre)
            continue

        # Guardar JSON
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        # Calcular match semántico
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking_list.append([nombre, porcentaje])

        time.sleep(0.05)  # Simular progreso

    if not ranking_list:
        return None, None, "<span style='color:#d9534f; font-weight:bold;'>❌ No se pudo procesar ningún archivo con éxito.</span>"

    # Ordenar de mayor a menor
    ranking_list.sort(key=lambda x: x[1], reverse=True)

    # Crear DataFrame de salida
    import pandas as pd
    df_ranking = pd.DataFrame(ranking_list, columns=["Candidato", "Match (%)"])

    # Generar ZIP con todos los JSON en 'resultados/'
    zip_path = os.path.join(output_folder, "todos_los_resultados.zip")
    with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as zipf:
        for fname in os.listdir(output_folder):
            if fname.endswith("_analisis.json"):
                zipf.write(os.path.join(output_folder, fname), arcname=fname)

    mensaje_exito = f"✅ Procesados {len(ranking_list)} CVs correctamente con modelo '{model_name_loaded}'."
    if fallos:
        mensaje_exito += f"  ⚠️ Fallaron: {', '.join(fallos)}"

    return df_ranking, zip_path, f"<span style='color:#28a745; font-weight:bold;'>{mensaje_exito}</span>"


def clear_outputs():
    return None, None, ""


# === INTERFAZ GRADIO AVANZADA ===
with gr.Blocks(css="""
    .gradio-container { max-width: 950px; margin: auto; }
    .titulo { font-size: 2rem; font-weight: bold; margin-bottom: 5px; }
    .subtitulo { font-size: 1.1rem; color: #555; margin-bottom: 15px; }
    .section-header { font-size: 1.2rem; font-weight: bold; margin-top: 20px; }
    .texto-secundario { font-size: 0.9rem; color: #555; margin-bottom: 10px; }
    .features-list { margin-left: 20px; }
    .tips-list { margin-left: 20px; }
""") as demo:

    # ---- Encabezado principal ----
    gr.Markdown("<div class='titulo'>🎯 CV Matcher</div>")
    gr.Markdown("<div class='subtitulo'>Sistema Avanzado de Análisis y Matching de CVs</div>")

    # ---- Descripción breve ----
    gr.Markdown(
        """
        Sube tus CVs y describe el puesto para obtener un ranking inteligente de candidatos basado en análisis semántico avanzado.
        """
    )

    # ---- Información del modelo cargado ----
    gr.Markdown(f"**🤖 Modelo cargado:** `{model_name_loaded}`")

    # ---- Selector de archivos ----
    gr.Markdown("**📄 Selecciona archivos de CV**")
    files_input = gr.Files(
        label="Coloca el archivo aquí\n- o -\nHaga clic para cargar",
        file_types=[".pdf", ".docx", ".txt"]
    )
    gr.Markdown(
        "<div class='texto-secundario'>"
        "📋 Formatos soportados:<br>"
        "- PDF (.pdf) – Documentos Adobe<br>"
        "- Word (.docx) – Microsoft Word<br>"
        "- Texto (.txt) – Archivos de texto plano"
        "</div>"
    )

    # ---- Lista de características ----
    gr.Markdown("**🚀 Características:**")
    gr.Markdown(
        "<ul class='features-list'>"
        "<li>🧠 Análisis semántico con IA</li>"
        "<li>📊 Extracción automática de secciones</li>"
        "<li>🎯 Scoring avanzado de matching</li>"
        "<li>⚡ Procesamiento con barra de progreso</li>"
        "<li>📈 Ranking automático de candidatos</li>"
        "<li>📁 Exportación de resultados JSON</li>"
        "</ul>"
    )

    # ---- Modo de análisis (pestañas) ----
    gr.Markdown("**🔧 Modo de análisis**")
    gr.Markdown("Elige cómo quieres introducir los requisitos del puesto:")
    tabs = gr.Tabs()

    with tabs:
        with gr.TabItem("Descripción completa del puesto"):
            gr.Markdown("**📝 Descripción completa del puesto**")
            descripcion = gr.Textbox(
                label="Describe el puesto detalladamente: funciones, responsabilidades, requisitos, condiciones laborales y contexto de la empresa.",
                placeholder="Funciones: ...\nResponsabilidades: ...\nRequisitos: ...\nCondiciones laborales: ...\nContexto de la empresa: ...",
                lines=6
            )

            gr.Markdown(
                "<div class='texto-secundario'><b>💡 Tips para mejores resultados:</b></div>"
            )
            gr.Markdown(
                "<ul class='tips-list'>"
                "<li>🎯 <b>Responsabilidades</b>: Tareas principales y objetivos del puesto</li>"
                "<li>🛠️ <b>Competencias técnicas</b>: Lenguajes, herramientas, nivel requerido</li>"
                "<li>📚 <b>Experiencia</b>: Años, tipo de proyectos, sectores relevantes</li>"
                "<li>🎓 <b>Formación</b>: Titulación mínima, certificaciones valoradas</li>"
                "<li>🌍 <b>Contexto</b>: Sector, tipo de empresa, metodologías de trabajo</li>"
                "</ul>"
            )
            gr.Markdown(
                "<div class='texto-secundario'><b>Ejemplo optimizado:</b> <br>"
                "Liderar proyectos y coordinar equipos para alcanzar objetivos, aplicando habilidades en gestión de proyectos, comunicación efectiva y uso de herramientas como Jira y Office, con nivel de inglés B2, en un entorno empresarial colaborativo y ágil.</div>"
            )

        with gr.TabItem("Requisitos por categoría"):
            gr.Markdown("**📝 Requisitos por categoría**")
            experiencia = gr.Textbox(
                label="Experiencia requerida",
                placeholder="Años, tipo de proyectos, ámbitos…",
                lines=2
            )
            educacion = gr.Textbox(
                label="Formación (titulación mínima, postgrados…)",
                placeholder="Licenciatura, Máster, certificación…",
                lines=2
            )
            habilidades = gr.Textbox(
                label="Habilidades clave",
                placeholder="Lenguajes, herramientas, soft-skills…",
                lines=2
            )

    # ---- Botones de acción ----
    with gr.Row():
        procesar_button = gr.Button("🚀 Procesar y Analizar CVs", variant="primary")
        limpiar_button = gr.Button("🧹 Limpiar Resultados", variant="secondary")

    # ---- Salidas: tabla de ranking, descarga y mensaje de estado ----
    ranking_table = gr.Dataframe(
        headers=["Candidato", "Match (%)"],
        interactive=False,
        label="📊 Resultados del Análisis"
    )
    descarga_zip = gr.File(label="📁 Archivos de salida")
    mensaje_estado = gr.HTML()

    # Conexiones
    procesar_button.click(
        fn=process_cvs,
        inputs=[files_input, descripcion, experiencia, educacion, habilidades],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )
    limpiar_button.click(
        fn=clear_outputs,
        inputs=[],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )

    # ---- Sección informativa estática ----
    gr.Markdown("---")
    gr.Markdown("**📁 Archivos de salida**")
    gr.Markdown(
        """
        Después del procesamiento, encontrarás en la carpeta `resultados/`:
        - Análisis detallados de cada CV en formato JSON.
        - Información estructurada por secciones (educación, experiencia, habilidades, idiomas).
        - Scores individuales y métricas de matching semántico.
        """
    )

    gr.Markdown("**🔍 Cómo interpretar los resultados**")
    gr.Markdown(
        """
        - **Score de Matching**: Porcentaje de similitud semántica entre el CV y los requisitos.
        - **Ranking automático**: Los candidatos se ordenan de mayor a menor compatibilidad.
        - **Análisis por secciones**: Cada CV se descompone en áreas clave para evaluación detallada.
        """
    )

    gr.Markdown("**⚙️ Tecnología utilizada**")
    gr.Markdown(
        """
        - 🧠 **Embeddings**: Modelo cargado: `{model_name_loaded}`
        - 🔤 **NLP**: Procesamiento de lenguaje natural optimizado para español
        - 📄 **Extracción**: Soporte robusto para PDF, DOCX y TXT con manejo de errores
        - ⚡ **Performance**: Barra de progreso en tiempo real para múltiples archivos
        """
    )

# Lanzar la aplicación
demo.launch()


Cargando modelo 'intfloat/multilingual-e5-large'...
✅ Modelo 'intfloat/multilingual-e5-large' cargado correctamente.
It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://a81fe25c792e60a608.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [None]:
import os
import re
import json
import zipfile
import time

import PyPDF2
import docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm

# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"master", r"doctorado",
                r"ingenieria",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}")
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}")
            return ""

    def preprocess_text(self, text):
        text = re.sub(r'\s+', ' ', text)
        return re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]', '', text)

    def split_into_sections(self, text):
        section_headers = [
            r'\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b',
            r'\b(?:EXPERIENCIA|HISTORIA LABORAL|EMPLEOS|PRÁCTICAS)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b',
            r'\b(?:IDIOMAS|LENGUAJES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b',
            r'\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b'
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            # heurística si no se encuentra patrón explícito
            if re.search(r'\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}', section_lower):
                if re.search(r'universidad|colegio|escuela ', section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r'python|java|c\+\+|html|css|javascript ', section_lower):
                return "habilidades", 1
            if re.search(r'inglés|español|francés|alemán', section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(categorized_sections.get(category, ["No se encontró información"]))
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)


# === MODELO DE EMBEDDINGS ===
model = SentenceTransformer('intfloat/multilingual-e5-large')

def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)


# === LÓGICA DE PROCESAMIENTO PARA GRADIO ===
def process_cvs(
    files,
    descripcion,
    experiencia,
    educacion,
    habilidades
):
    if not files:
        return None, None, "⚠️ No has seleccionado ningún archivo."

    # Construir texto de requisitos
    if descripcion and descripcion.strip():
        requisitos_texto = descripcion.strip()
    else:
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )

    if not requisitos_texto.strip():
        return None, None, "⚠️ Debes ingresar la descripción o los requisitos."

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking_list = []
    fallos = []

    for file_obj in files:
        nombre = os.path.splitext(os.path.basename(file_obj.name))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")

        # Extraer y clasificar
        cv_data = extractor.process_cv(file_obj.name)
        if "error" in cv_data:
            fallos.append(nombre)
            continue

        # Guardar JSON
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        # Calcular match semántico
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking_list.append([nombre, porcentaje])

        time.sleep(0.05)  # Para simular avance

    if not ranking_list:
        return None, None, "❌ No se pudo procesar ningún archivo con éxito."

    # Ordenar de mayor a menor
    ranking_list.sort(key=lambda x: x[1], reverse=True)

    # Crear DataFrame de salida
    import pandas as pd
    df_ranking = pd.DataFrame(ranking_list, columns=["Candidato", "Match (%)"])

    # Generar ZIP con todos los JSON en 'resultados/'
    zip_path = os.path.join(output_folder, "todos_los_resultados.zip")
    with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as zipf:
        for fname in os.listdir(output_folder):
            if fname.endswith("_analisis.json"):
                zipf.write(os.path.join(output_folder, fname), arcname=fname)

    mensaje_exito = f"✅ Procesados {len(ranking_list)} CVs correctamente."
    if fallos:
        mensaje_exito += f"  ⚠️ Fallaron: {', '.join(fallos)}"

    return df_ranking, zip_path, f"<span style='color:green;'>{mensaje_exito}</span>"


# === INTERFAZ GRADIO MEJORADA (SIN gr.Box) ===
with gr.Blocks(css="""
    .gradio-container { max-width: 900px; margin: auto; }
    .titulo { font-size: 1.5rem; margin-bottom: 10px; }
    .texto-secundario { font-size: 0.9rem; color: #555; }
""") as demo:

    gr.HTML("<div class='titulo'>📄 Sistema de Matching de CVs (PDF, Word, TXT)</div>")

    with gr.Row():
        # ------------------------
        # Columna izquierda: Subida de archivos
        # ------------------------
        with gr.Column(scale=1):
            gr.HTML("<b>Selecciona archivos de CV</b>")
            files_input = gr.Files(
                label="(PDF, DOCX o TXT)",
                file_types=[".pdf", ".docx", ".txt"]
            )
            gr.Markdown(
                "<div class='texto-secundario'>"
                "- Puedes subir uno o varios CVs a la vez.<br>"
                "- Formatos permitidos: PDF, DOCX o TXT."
                "</div>"
            )

        # ------------------------
        # Columna derecha: Parámetros del puesto (pestañas)
        # ------------------------
        with gr.Column(scale=1):
            gr.HTML("<b>Elige modo de entrada de requisitos:</b>")
            tabs = gr.Tabs()

            with tabs:
                with gr.TabItem("Descripción completa"):
                    descripcion = gr.Textbox(
                        label="Descripción completa del puesto",
                        placeholder="Describe responsabilidades, competencias y contexto...",
                        lines=6
                    )
                    gr.Markdown(
                        "<div class='texto-secundario'>"
                        "**Ejemplo de estructura recomendada:**<br>"
                        "1. Responsabilidades principales<br>"
                        "2. Competencias clave y nivel deseado<br>"
                        "3. Contexto o área de negocio"
                        "</div>"
                    )

                with gr.TabItem("Requisitos por categoría"):
                    experiencia = gr.Textbox(
                        label="Experiencia requerida",
                        placeholder="Años, tipo de proyectos, ámbitos…",
                        lines=2
                    )
                    educacion = gr.Textbox(
                        label="Formación (titulación mínima, postgrados…)",
                        placeholder="Licenciatura, Máster, certificación…",
                        lines=2
                    )
                    habilidades = gr.Textbox(
                        label="Habilidades clave",
                        placeholder="Lenguajes, herramientas, soft-skills…",
                        lines=2
                    )

    # Mensaje de estado (éxito o error)
    mensaje_estado = gr.HTML()

    # Botón de procesamiento
    procesar_button = gr.Button("🔍 Procesar y comparar", variant="primary")

    # Salidas: Tabla de ranking y enlace al ZIP
    ranking_table = gr.Dataframe(
        headers=["Candidato", "Match (%)"],
        interactive=False,
        label="📊 Ranking de coincidencias"
    )
    descarga_zip = gr.File(label="Descarga todos los JSON generados")

    # Conectar botón
    procesar_button.click(
        fn=process_cvs,
        inputs=[files_input, descripcion, experiencia, educacion, habilidades],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )

    # Nota final
    gr.Markdown(
        """
        ---
        ◾ **¿Dónde están los JSON detallados?**
        Después de procesar, encontrarás un ZIP descargable que contiene cada JSON de análisis.
        ◾ **¿Quieres ajustar algo?**
        Modifica la descripción o los requisitos y vuelve a hacer clic en _Procesar y comparar_.
        """
    )

# Lanzar la app
demo.launch()


MODELO COMPLETO PARA POSTERIOR MODULAARIZACION, con modelo mucho mas potente

In [1]:
!pip install sentence-transformers PyPDF2 python-docx gradio tqdm

import os, re, json
import PyPDF2, docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm
import time

# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"master", r"doctorado",
                r"ingenieria",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}")
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}")
            return ""

    def preprocess_text(self, text):
        text = re.sub(r'\s+', ' ', text)
        return re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]', '', text)

    def split_into_sections(self, text):
        section_headers = [
            r'\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b',
            r'\b(?:EXPERIENCIA|HISTORIA LABORAL|EMPLEOS|PRÁCTICAS)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b',
            r'\b(?:IDIOMAS|LENGUAJES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b',
            r'\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b'
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            if re.search(r'\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}', section_lower):
                if re.search(r'universidad|colegio|escuela ', section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r'python|java|c\+\+|html|css|javascript ', section_lower):
                return "habilidades", 1
            if re.search(r'inglés|español|francés|alemán', section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(categorized_sections.get(category, ["No se encontró información"]))
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)

# === EMBEDDINGS Y MATCH ===
# Puedes instalarlo así (¡OJO, pesa más!):
model = SentenceTransformer('intfloat/multilingual-e5-large')

def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)

# === GRADIO ===
def update_mode(modo):
    if modo == "Requisitos por categoría":
        return (gr.update(visible=False), gr.update(visible=False), gr.update(visible=True), gr.update(visible=True), gr.update(visible=True))
    else:
        return (gr.update(visible=True), gr.update(visible=True), gr.update(visible=False), gr.update(visible=False), gr.update(visible=False))

def process_cvs_gradio(files, descripcion, modo, experiencia, educacion, habilidades, progress=gr.Progress()):
    progress(0, desc="Iniciando procesamiento...")

    if modo == "Requisitos por categoría":
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )
    else:
        requisitos_texto = descripcion.strip()

    if not requisitos_texto:
        progress(1, desc="¡Faltan requisitos!")
        return "¡Atención! Debes ingresar la descripción o los requisitos."
    if not files:
        progress(1, desc="¡No hay archivos!")
        return "¡Atención! No has seleccionado ningún archivo."

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)
    ranking = []
    fallos = []
    n = len(files)
    for i, file_obj in enumerate(files):
        progress(i/n, desc=f"Procesando archivo {i+1}/{n}...")
        file_path = file_obj.name
        nombre = os.path.splitext(os.path.basename(file_path))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")
        cv_data = extractor.process_cv(file_path)
        if "error" in cv_data:
            fallos.append(nombre)
            continue
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking.append((nombre, porcentaje))
        time.sleep(0.1)  # hace más visible la barra de progreso

    progress(1, desc="Finalizado.")

    if not ranking:
        return "No se pudo procesar ningún archivo con éxito."
    ranking.sort(key=lambda x: x[1], reverse=True)
    results_text = "=== Resultados de Matching ===\n"
    for i, (nombre, score) in enumerate(ranking, 1):
        results_text += f"{i}. {nombre}: {score}%\n"
    if fallos:
        results_text += "\nArchivos con error: " + ", ".join(fallos)
    return results_text

with gr.Blocks() as demo:
    gr.Markdown("# Sistema de Matching de CVs - PDF, Word, TXT y Progreso")
    with gr.Row():
        files_input = gr.Files(
            label="Selecciona archivos de CV (.pdf, .docx, .txt)",
            file_types=[".pdf", ".docx", ".txt"]
        )
    with gr.Row():
        modo_radio = gr.Radio(
            choices=["Descripción completa del puesto", "Requisitos por categoría"],
            value="Descripción completa del puesto",
            label="Modo de entrada"
        )
    descripcion = gr.Textbox(
        label="Descripción completa del puesto",
        lines=8, visible=True
    )
    instrucciones = gr.Markdown("""
**Para mejorar el análisis, describe:**
1. Responsabilidades principales del puesto.
2. Competencias clave y nivel deseado.
3. Contexto o área de negocio.

**Ejemplo:**
> *Responsabilidades:* Liderar el equipo de desarrollo backend; diseñar APIs escalables.
> *Competencias:* Python (avanzado), Docker (intermedio), AWS (básico).
> *Contexto:* Área FinTech, proyecto de pagos móviles.
    """, visible=True)
    experiencia = gr.Textbox(label="Experiencia", lines=3, placeholder="Años, tipo de proyectos, ámbitos…", visible=False)
    educacion = gr.Textbox(label="Educación", lines=2, placeholder="Titulación mínima, postgrados…", visible=False)
    habilidades = gr.Textbox(label="Habilidades", lines=3, placeholder="Lenguajes, herramientas, soft skills…", visible=False)
    modo_radio.change(fn=update_mode, inputs=[modo_radio], outputs=[descripcion, instrucciones, experiencia, educacion, habilidades])
    with gr.Row():
        procesar_button = gr.Button("Procesar y comparar")
    resultados_output = gr.Textbox(label="Resultados", lines=12, interactive=False)
    procesar_button.click(
        fn=process_cvs_gradio,
        inputs=[files_input, descripcion, modo_radio, experiencia, educacion, habilidades],
        outputs=[resultados_output]
    )
    gr.Markdown("Puedes descargar los análisis detallados en la carpeta `resultados/` después de procesar los CVs.")

demo.launch()


Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Collecting gradio
  Downloading gradio-5.32.1-py3-none-any.whl.metadata (16 kB)
Collecting aiofiles<25.0,>=22.0 (from gradio)
  Downloading aiofiles-24.1.0-py3-none-any.whl.metadata (10 kB)
Collecting fastapi<1.0,>=0.115.2 (from gradio)
  Downloading fastapi-0.115.12-py3-none-any.whl.metadata (27 kB)
Collecting ffmpy (from gradio)
  Downloading ffmpy-0.6.0-py3-none-any.whl.metadata (2.9 kB)
Collecting gradio-client==1.10.2 (from gradio)
  Downloading gradio_client-1.10.2-py3-none-any.whl.metadata (7.1 kB)
Collecting groovy~=0.1 (from gradio)
  Downloading groovy-0.1.2-py3-none-any.whl.metadata (6.1 kB)
Collecting pydub (from gradio)
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting python-multipart>=0.0.18 (from gradio)
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://32a8757f6880fe13e2.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




In [2]:
!pip install sentence-transformers PyPDF2 python-docx gradio tqdm

import os, re, json
import PyPDF2, docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm
import time

# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"master", r"doctorado",
                r"ingenieria",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}")
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}")
            return ""

    def preprocess_text(self, text):
        text = re.sub(r'\s+', ' ', text)
        return re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]', '', text)

    def split_into_sections(self, text):
        section_headers = [
            r'\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b',
            r'\b(?:EXPERIENCIA|HISTORIA LABORAL|EMPLEOS|PRÁCTICAS)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b',
            r'\b(?:IDIOMAS|LENGUAJES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b',
            r'\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b'
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            if re.search(r'\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}', section_lower):
                if re.search(r'universidad|colegio|escuela ', section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r'python|java|c\+\+|html|css|javascript ', section_lower):
                return "habilidades", 1
            if re.search(r'inglés|español|francés|alemán', section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(categorized_sections.get(category, ["No se encontró información"]))
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)

# === EMBEDDINGS Y MATCH ===
# Puedes instalarlo así (¡OJO, pesa más!):
model = SentenceTransformer('intfloat/multilingual-e5-large')

def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)

# === GRADIO ===
def update_mode(modo):
    if modo == "Requisitos por categoría":
        return (gr.update(visible=False), gr.update(visible=False), gr.update(visible=True), gr.update(visible=True), gr.update(visible=True))
    else:
        return (gr.update(visible=True), gr.update(visible=True), gr.update(visible=False), gr.update(visible=False), gr.update(visible=False))

def process_cvs_gradio(files, descripcion, modo, experiencia, educacion, habilidades, progress=gr.Progress()):
    progress(0, desc="Iniciando procesamiento...")

    if modo == "Requisitos por categoría":
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )
    else:
        requisitos_texto = descripcion.strip()

    if not requisitos_texto:
        progress(1, desc="¡Faltan requisitos!")
        return "¡Atención! Debes ingresar la descripción o los requisitos."
    if not files:
        progress(1, desc="¡No hay archivos!")
        return "¡Atención! No has seleccionado ningún archivo."

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)
    ranking = []
    fallos = []
    n = len(files)
    for i, file_obj in enumerate(files):
        progress(i/n, desc=f"Procesando archivo {i+1}/{n}...")
        file_path = file_obj.name
        nombre = os.path.splitext(os.path.basename(file_path))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")
        cv_data = extractor.process_cv(file_path)
        if "error" in cv_data:
            fallos.append(nombre)
            continue
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking.append((nombre, porcentaje))
        time.sleep(0.1)  # hace más visible la barra de progreso

    progress(1, desc="Finalizado.")

    if not ranking:
        return "No se pudo procesar ningún archivo con éxito."
    ranking.sort(key=lambda x: x[1], reverse=True)
    results_text = "=== Resultados de Matching ===\n"
    for i, (nombre, score) in enumerate(ranking, 1):
        results_text += f"{i}. {nombre}: {score}%\n"
    if fallos:
        results_text += "\nArchivos con error: " + ", ".join(fallos)
    return results_text

with gr.Blocks() as demo:
    gr.Markdown("# Sistema de Matching de CVs - PDF, Word, TXT y Progreso")
    with gr.Row():
        files_input = gr.Files(
            label="Selecciona archivos de CV (.pdf, .docx, .txt)",
            file_types=[".pdf", ".docx", ".txt"]
        )
    with gr.Row():
        modo_radio = gr.Radio(
            choices=["Descripción completa del puesto", "Requisitos por categoría"],
            value="Descripción completa del puesto",
            label="Modo de entrada"
        )
    descripcion = gr.Textbox(
        label="Descripción completa del puesto",
        lines=8, visible=True
    )
    instrucciones = gr.Markdown("""
**Para mejorar el análisis, describe:**
1. Responsabilidades principales del puesto.
2. Competencias clave y nivel deseado.
3. Contexto o área de negocio.

**Ejemplo:**
> *Responsabilidades:* Liderar el equipo de desarrollo backend; diseñar APIs escalables.
> *Competencias:* Python (avanzado), Docker (intermedio), AWS (básico).
> *Contexto:* Área FinTech, proyecto de pagos móviles.
    """, visible=True)
    experiencia = gr.Textbox(label="Experiencia", lines=3, placeholder="Años, tipo de proyectos, ámbitos…", visible=False)
    educacion = gr.Textbox(label="Educación", lines=2, placeholder="Titulación mínima, postgrados…", visible=False)
    habilidades = gr.Textbox(label="Habilidades", lines=3, placeholder="Lenguajes, herramientas, soft skills…", visible=False)
    modo_radio.change(fn=update_mode, inputs=[modo_radio], outputs=[descripcion, instrucciones, experiencia, educacion, habilidades])
    with gr.Row():
        procesar_button = gr.Button("Procesar y comparar")
    resultados_output = gr.Textbox(label="Resultados", lines=12, interactive=False)
    procesar_button.click(
        fn=process_cvs_gradio,
        inputs=[files_input, descripcion, modo_radio, experiencia, educacion, habilidades],
        outputs=[resultados_output]
    )
    gr.Markdown("Puedes descargar los análisis detallados en la carpeta `resultados/` después de procesar los CVs.")

demo.launch()


It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://86b9c0290e992bbf93.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




### PRUEBAS AQUI

interfaz mejorada pero sistema empeorado


In [None]:
!pip install sentence-transformers PyPDF2 python-docx gradio tqdm pandas numpy scikit-learn

import os
import re
import json
import logging
from pathlib import Path
from typing import Dict, List, Tuple, Optional, Union
from dataclasses import dataclass, asdict
from concurrent.futures import ThreadPoolExecutor, as_completed
import time
import warnings

# Suprimir warnings para una salida más limpia
warnings.filterwarnings('ignore', category=FutureWarning)
warnings.filterwarnings('ignore', category=UserWarning)

try:
    import PyPDF2
    import docx
    import pandas as pd
    import numpy as np
    from sentence_transformers import SentenceTransformer, util
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.metrics.pairwise import cosine_similarity
    import gradio as gr
    from tqdm.auto import tqdm
except ImportError as e:
    print(f"Error importando librerías: {e}")
    print("Ejecuta: pip install sentence-transformers PyPDF2 python-docx gradio tqdm pandas numpy scikit-learn")
    raise

# Configuración de logging
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

@dataclass
class CVAnalysis:
    """Estructura de datos para el análisis de CV"""
    filename: str
    datos_personales: str
    educacion: str
    experiencia: str
    habilidades: str
    idiomas: str
    certificaciones: str
    otros: str
    semantic_score: float = 0.0
    keyword_score: float = 0.0
    combined_score: float = 0.0
    error: Optional[str] = None

class TextExtractor:
    """Clase responsable de extraer texto de diferentes formatos de archivo"""

    @staticmethod
    def extract_text(file_path: Union[str, Path]) -> str:
        """Extrae texto de archivos PDF, DOCX o TXT"""
        file_path = Path(file_path)

        try:
            if file_path.suffix.lower() == ".pdf":
                return TextExtractor._extract_from_pdf(file_path)
            elif file_path.suffix.lower() == ".docx":
                return TextExtractor._extract_from_docx(file_path)
            elif file_path.suffix.lower() == ".txt":
                return TextExtractor._extract_from_txt(file_path)
            else:
                raise ValueError(f"Formato de archivo no soportado: {file_path.suffix}")
        except Exception as e:
            logger.error(f"Error extrayendo texto de {file_path}: {e}")
            return ""

    @staticmethod
    def _extract_from_pdf(pdf_path: Path) -> str:
        """Extrae texto de archivo PDF con mejor manejo de errores"""
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                text_parts = []

                for page_num, page in enumerate(reader.pages):
                    try:
                        page_text = page.extract_text()
                        if page_text:
                            text_parts.append(page_text)
                    except Exception as e:
                        logger.warning(f"Error en página {page_num} de {pdf_path}: {e}")
                        continue

                return " ".join(text_parts)
        except Exception as e:
            logger.error(f"Error procesando PDF {pdf_path}: {e}")
            return ""

    @staticmethod
    def _extract_from_docx(docx_path: Path) -> str:
        """Extrae texto de archivo DOCX incluyendo tablas"""
        try:
            doc = docx.Document(docx_path)
            text_parts = []

            # Extraer texto de párrafos
            for para in doc.paragraphs:
                if para.text.strip():
                    text_parts.append(para.text)

            # Extraer texto de tablas
            for table in doc.tables:
                for row in table.rows:
                    for cell in row.cells:
                        if cell.text.strip():
                            text_parts.append(cell.text)

            return " ".join(text_parts)
        except Exception as e:
            logger.error(f"Error procesando DOCX {docx_path}: {e}")
            return ""

    @staticmethod
    def _extract_from_txt(txt_path: Path) -> str:
        """Extrae texto de archivo TXT con detección de encoding"""
        encodings = ['utf-8', 'latin-1', 'cp1252', 'iso-8859-1']

        for encoding in encodings:
            try:
                with open(txt_path, 'r', encoding=encoding) as f:
                    return f.read()
            except UnicodeDecodeError:
                continue

        logger.error(f"No se pudo decodificar el archivo {txt_path}")
        return ""

class CVInfoExtractor:
    """Extractor mejorado de información de CVs con mejor clasificación de secciones"""

    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"acerca\s+de", r"fecha\s+de\s+nacimiento", r"dirección", r"teléfono",
                r"correo", r"email", r"linkedin", r"github", r"portfolio"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"master", r"máster", r"doctorado",
                r"ingeniería", r"carrera", r"diplomatura", r"título"
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas",
                r"formación\s+en\s+centros", r"puesto", r"cargo", r"empresa", r"responsabilidades"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas",
                r"capacidades", r"conocimientos\s+técnicos", r"herramientas", r"programas",
                r"tecnologías", r"skills", r"soft\s+skills", r"hard\s+skills"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"inglés", r"español", r"castellano",
                r"catalán", r"francés", r"alemán", r"italiano", r"portugués", r"chino", r"japonés",
                r"nativo", r"bilingüe", r"fluido", r"avanzado", r"intermedio", r"básico",
                r"a1", r"a2", r"b1", r"b2", r"c1", r"c2"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas",
                r"acreditaciones", r"especialización", r"diploma", r"formación\s+complementaria",
                r"seminarios", r"talleres", r"workshops"
            ],
            "otros": [
                r"información\s+adicional", r"otros\s+datos", r"hobbies", r"aficiones", r"intereses",
                r"voluntariado", r"referencias", r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir",
                r"carnet\s+de\s+conducir", r"coche\s+propio", r"vehículo\s+propio", r"movilidad"
            ]
        }

        # Patrones para detectar fechas y mejorar clasificación
        self.date_patterns = [
            r'\d{4}-\d{4}', r'\d{4}\s*-\s*\d{4}', r'\d{2}/\d{2}/\d{4}',
            r'\d{1,2}/\d{4}', r'enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|noviembre|diciembre'
        ]

        # Palabras clave técnicas para mejorar detección
        self.tech_keywords = [
            'python', 'java', 'javascript', 'html', 'css', 'react', 'angular', 'vue',
            'sql', 'mysql', 'postgresql', 'mongodb', 'docker', 'kubernetes', 'aws',
            'azure', 'git', 'linux', 'windows', 'office', 'excel', 'powerpoint'
        ]

    def preprocess_text(self, text: str) -> str:
        """Preprocesa el texto manteniendo más información útil"""
        if not text:
            return ""

        # Normalizar espacios pero mantener saltos de línea importantes
        text = re.sub(r'[ \t]+', ' ', text)
        text = re.sub(r'\n\s*\n', '\n\n', text)

        # Limpiar caracteres especiales pero mantener algunos importantes
        text = re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/_%\n]', '', text)

        return text.strip()

    def split_into_sections(self, text: str) -> List[Tuple[str, int, int]]:
        """Divide el texto en secciones con mejor detección de headers"""
        if not text:
            return [(text, 0, len(text))]

        # Patrones mejorados para detectar secciones
        section_headers = [
            r'\b(?:DATOS\s+PERSONALES|PERFIL\s+PERSONAL|SOBRE\s+MÍ|CONTACTO|INFORMACIÓN\s+PERSONAL)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS\s+ACADÉMICOS|TITULACIÓN)\b',
            r'\b(?:EXPERIENCIA|HISTORIA\s+LABORAL|TRAYECTORIA\s+PROFESIONAL|EMPLEOS|PRÁCTICAS)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES|SKILLS)\b',
            r'\b(?:IDIOMAS|LENGUAJES|LANGUAGES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS|FORMACIÓN\s+COMPLEMENTARIA)\b',
            r'\b(?:INFORMACIÓN\s+ADICIONAL|OTROS|AFICIONES|REFERENCIAS|HOBBIES)\b'
        ]

        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group().strip()))

        # Buscar también patrones de bullets o numeración
        bullet_patterns = [r'^\s*[•▪▫◦-]\s*', r'^\s*\d+[\.)]\s*']
        for pattern in bullet_patterns:
            for match in re.finditer(pattern, text, re.MULTILINE):
                context = text[max(0, match.start()-50):match.start()+100]
                if any(keyword in context.lower() for section_keywords in self.section_patterns.values() for keyword in section_keywords):
                    markers.append((match.start(), match.group().strip()))

        markers.sort(key=lambda x: x[0])

        # Eliminar duplicados cercanos
        unique_markers = []
        for marker in markers:
            if not unique_markers or marker[0] - unique_markers[-1][0] > 50:
                unique_markers.append(marker)

        sections = []
        for i in range(len(unique_markers)):
            start = unique_markers[i][0]
            end = unique_markers[i + 1][0] if i < len(unique_markers) - 1 else len(text)
            section_text = text[start:end].strip()
            if section_text:
                sections.append((section_text, start, end))

        if not sections:
            sections.append((text, 0, len(text)))

        return sections

    def classify_section(self, section_text: str) -> Tuple[str, float]:
        """Clasifica una sección con scoring mejorado"""
        if not section_text:
            return "otros", 0.0

        section_lower = section_text.lower()
        scores = {}

        # Calcular scores basados en patrones
        for category, patterns in self.section_patterns.items():
            pattern_score = 0
            for pattern in patterns:
                matches = len(re.findall(pattern, section_lower, re.IGNORECASE))
                pattern_score += matches * (len(pattern.replace(r'\s+', ' ')) / 10)  # Peso por longitud del patrón
            scores[category] = pattern_score

        # Heurísticas adicionales
        if any(re.search(pattern, section_lower) for pattern in self.date_patterns):
            if any(keyword in section_lower for keyword in ['universidad', 'colegio', 'escuela', 'instituto', 'grado', 'master']):
                scores['educacion'] += 2
            else:
                scores['experiencia'] += 2

        # Detectar tecnologías
        tech_count = sum(1 for keyword in self.tech_keywords if keyword in section_lower)
        if tech_count > 0:
            scores['habilidades'] += tech_count * 0.5

        # Detectar correos y teléfonos
        if re.search(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', section_text):
            scores['datos_personales'] += 3
        if re.search(r'\b\d{9,}\b|\+\d{2,3}\s*\d{6,}', section_text):
            scores['datos_personales'] += 2

        if not scores or max(scores.values()) == 0:
            return "otros", 0.0

        best_category = max(scores.items(), key=lambda x: x[1])
        confidence = best_category[1] / (sum(scores.values()) + 1e-6)

        return best_category[0], confidence

    def extract_structured_info(self, text: str) -> Dict[str, str]:
        """Extrae información estructurada del CV"""
        if not text:
            return {category: "No se encontró información" for category in self.section_patterns.keys()}

        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)

        categorized_sections = {category: [] for category in self.section_patterns.keys()}

        for section_text, _, _ in sections:
            if not section_text.strip():
                continue

            category, confidence = self.classify_section(section_text)

            # Solo agregar si hay suficiente confianza
            if confidence > 0.1:
                categorized_sections[category].append(section_text)
            else:
                categorized_sections['otros'].append(section_text)

        # Construir resultado final
        result = {}
        for category in self.section_patterns.keys():
            sections_text = categorized_sections.get(category, [])
            if sections_text:
                result[category] = "\n\n".join(sections_text)
            else:
                result[category] = "No se encontró información específica"

        return result

    def process_cv(self, file_path: Union[str, Path]) -> CVAnalysis:
        """Procesa un CV y retorna el análisis estructurado"""
        file_path = Path(file_path)
        filename = file_path.stem

        try:
            text = TextExtractor.extract_text(file_path)
            if not text.strip():
                return CVAnalysis(
                    filename=filename,
                    datos_personales="", educacion="", experiencia="",
                    habilidades="", idiomas="", certificaciones="", otros="",
                    error=f"No se pudo extraer texto del archivo: {file_path}"
                )

            structured_info = self.extract_structured_info(text)

            return CVAnalysis(
                filename=filename,
                **structured_info
            )

        except Exception as e:
            logger.error(f"Error procesando CV {file_path}: {e}")
            return CVAnalysis(
                filename=filename,
                datos_personales="", educacion="", experiencia="",
                habilidades="", idiomas="", certificaciones="", otros="",
                error=str(e)
            )

class MatchingEngine:
    """Motor de matching que combina embeddings semánticos y análisis de keywords"""

    def __init__(self, model_name: str = 'intfloat/multilingual-e5-large'):
        self._model = None
        self.model_name = model_name
        self.tfidf_vectorizer = TfidfVectorizer(
            max_features=5000,
            ngram_range=(1, 2),
            stop_words=None,  # Mantenemos stop words para mejor contexto en español
            lowercase=True
        )

    @property
    def model(self):
        """Lazy loading del modelo para evitar problemas de inicialización"""
        if self._model is None:
            try:
                print(f"Cargando modelo {self.model_name}...")
                self._model = SentenceTransformer(self.model_name)
                print("Modelo cargado exitosamente.")
            except Exception as e:
                print(f"Error cargando modelo {self.model_name}: {e}")
                print("Intentando con modelo alternativo...")
                try:
                    self._model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
                    print("Modelo alternativo cargado.")
                except Exception as e2:
                    print(f"Error con modelo alternativo: {e2}")
                    raise Exception("No se pudo cargar ningún modelo de embeddings")
        return self._model

    def calculate_semantic_score(self, cv_text: str, requirements_text: str) -> float:
        """Calcula el score semántico usando embeddings"""
        try:
            if not cv_text.strip() or not requirements_text.strip():
                return 0.0

            cv_embedding = self.model.encode(cv_text, convert_to_tensor=True)
            req_embedding = self.model.encode(requirements_text, convert_to_tensor=True)

            similarity = util.cos_sim(cv_embedding, req_embedding).item()
            return max(0.0, min(100.0, similarity * 100))

        except Exception as e:
            logger.error(f"Error en cálculo semántico: {e}")
            return 0.0

    def calculate_keyword_score(self, cv_text: str, requirements_text: str) -> float:
        """Calcula el score basado en keywords usando TF-IDF"""
        try:
            if not cv_text.strip() or not requirements_text.strip():
                return 0.0

            # Preparar corpus
            corpus = [requirements_text, cv_text]
            tfidf_matrix = self.tfidf_vectorizer.fit_transform(corpus)

            # Calcular similitud coseno
            similarity = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])[0][0]
            return max(0.0, min(100.0, similarity * 100))

        except Exception as e:
            logger.error(f"Error en cálculo de keywords: {e}")
            return 0.0

    def calculate_combined_score(self, semantic_score: float, keyword_score: float,
                               semantic_weight: float = 0.7) -> float:
        """Combina scores semántico y de keywords"""
        keyword_weight = 1.0 - semantic_weight
        combined = (semantic_score * semantic_weight) + (keyword_score * keyword_weight)
        return round(combined, 2)

    def process_cv_matching(self, cv_analysis: CVAnalysis, requirements_text: str) -> CVAnalysis:
        """Procesa el matching para un CV"""
        if cv_analysis.error:
            return cv_analysis

        # Construir texto del CV para matching
        cv_sections = [
            cv_analysis.experiencia,
            cv_analysis.educacion,
            cv_analysis.habilidades,
            cv_analysis.idiomas,
            cv_analysis.certificaciones
        ]
        cv_text = " ".join([section for section in cv_sections if section and section != "No se encontró información específica"])

        # Calcular scores
        semantic_score = self.calculate_semantic_score(cv_text, requirements_text)
        keyword_score = self.calculate_keyword_score(cv_text, requirements_text)
        combined_score = self.calculate_combined_score(semantic_score, keyword_score)

        # Actualizar análisis
        cv_analysis.semantic_score = semantic_score
        cv_analysis.keyword_score = keyword_score
        cv_analysis.combined_score = combined_score

        return cv_analysis

class CVProcessor:
    """Procesador principal que coordina extracción y matching"""

    def __init__(self, max_workers: int = 4):
        self.extractor = CVInfoExtractor()
        self.matcher = MatchingEngine()
        self.max_workers = max_workers
        self.output_folder = Path("resultados")
        self.output_folder.mkdir(exist_ok=True)

    def process_single_cv(self, file_path: Path, requirements_text: str) -> CVAnalysis:
        """Procesa un CV individual"""
        cv_analysis = self.extractor.process_cv(file_path)
        cv_analysis = self.matcher.process_cv_matching(cv_analysis, requirements_text)

        # Guardar análisis detallado
        output_path = self.output_folder / f"{cv_analysis.filename}_analisis.json"
        try:
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(asdict(cv_analysis), f, ensure_ascii=False, indent=2)
        except Exception as e:
            logger.error(f"Error guardando análisis de {cv_analysis.filename}: {e}")

        return cv_analysis

    def process_multiple_cvs(self, file_paths: List[Path], requirements_text: str,
                           progress_callback=None) -> Tuple[List[CVAnalysis], List[str]]:
        """Procesa múltiples CVs con paralelización"""
        results = []
        errors = []

        if not requirements_text.strip():
            return results, ["Error: No se proporcionaron requisitos"]

        if progress_callback:
            progress_callback(0, desc="Iniciando procesamiento...")

        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
            # Enviar trabajos
            future_to_path = {
                executor.submit(self.process_single_cv, path, requirements_text): path
                for path in file_paths
            }

            # Recoger resultados
            completed = 0
            total = len(file_paths)

            for future in as_completed(future_to_path):
                path = future_to_path[future]
                completed += 1

                try:
                    result = future.result()
                    if result.error:
                        errors.append(f"{result.filename}: {result.error}")
                    else:
                        results.append(result)

                except Exception as e:
                    error_msg = f"{path.stem}: {str(e)}"
                    errors.append(error_msg)
                    logger.error(f"Error procesando {path}: {e}")

                if progress_callback:
                    progress_callback(completed / total,
                                    desc=f"Procesado {completed}/{total} archivos")

        # Ordenar por score combinado
        results.sort(key=lambda x: x.combined_score, reverse=True)

        return results, errors

# === INTERFAZ GRADIO MEJORADA ===

def update_mode(modo):
    """Actualiza la interfaz según el modo seleccionado"""
    if modo == "Requisitos por categoría":
        return (
            gr.update(visible=False),
            gr.update(visible=False),
            gr.update(visible=True),
            gr.update(visible=True),
            gr.update(visible=True)
        )
    else:
        return (
            gr.update(visible=True),
            gr.update(visible=True),
            gr.update(visible=False),
            gr.update(visible=False),
            gr.update(visible=False)
        )

def process_cvs_gradio(files, descripcion, modo, experiencia, educacion, habilidades, progress=gr.Progress()):
    """Función principal para procesar CVs desde Gradio"""

    def progress_callback(fraction, desc=""):
        progress(fraction, desc=desc)

    try:
        # Validar entrada
        if modo == "Requisitos por categoría":
            requirements_parts = []
            if experiencia.strip():
                requirements_parts.append(f"Experiencia requerida: {experiencia.strip()}")
            if educacion.strip():
                requirements_parts.append(f"Formación requerida: {educacion.strip()}")
            if habilidades.strip():
                requirements_parts.append(f"Habilidades clave: {habilidades.strip()}")

            requirements_text = "\n\n".join(requirements_parts)
        else:
            requirements_text = descripcion.strip()

        if not requirements_text:
            return "❌ Error: Debes proporcionar una descripción del puesto o requisitos específicos."

        if not files:
            return "❌ Error: No has seleccionado ningún archivo."

        # Convertir archivos a paths
        file_paths = [Path(file_obj.name) for file_obj in files]

        # Procesar CVs
        processor = CVProcessor()
        results, errors = processor.process_multiple_cvs(
            file_paths, requirements_text, progress_callback
        )

        # Generar reporte
        report_lines = ["🎯 **RESULTADOS DEL ANÁLISIS DE CVs**\n"]

        if results:
            report_lines.append("## 📊 Ranking de Candidatos\n")

            for i, cv in enumerate(results, 1):
                emoji = "🥇" if i == 1 else "🥈" if i == 2 else "🥉" if i == 3 else f"{i}."
                report_lines.append(
                    f"{emoji} **{cv.filename}**\n"
                    f"   • Score Total: **{cv.combined_score}%**\n"
                    f"   • Score Semántico: {cv.semantic_score}%\n"
                    f"   • Score Keywords: {cv.keyword_score}%\n"
                )

            # Estadísticas adicionales
            scores = [cv.combined_score for cv in results]
            report_lines.extend([
                f"\n## 📈 Estadísticas",
                f"• Total de CVs procesados: **{len(results)}**",
                f"• Score promedio: **{np.mean(scores):.1f}%**",
                f"• Score más alto: **{max(scores):.1f}%**",
                f"• Score más bajo: **{min(scores):.1f}%**"
            ])

        else:
            report_lines.append("❌ No se pudo procesar ningún CV exitosamente.")

        if errors:
            report_lines.extend([
                "\n## ⚠️ Errores encontrados:",
                *[f"• {error}" for error in errors]
            ])

        report_lines.append(f"\n📁 Los análisis detallados se han guardado en la carpeta `{processor.output_folder}`")

        return "\n".join(report_lines)

    except Exception as e:
        logger.error(f"Error en procesamiento: {e}")
        return f"❌ Error inesperado: {str(e)}"

# === INTERFAZ GRADIO ===

with gr.Blocks(title="CV Matcher Pro", theme=gr.themes.Soft()) as demo:
    gr.Markdown("""
    # 🎯 CV Matcher Pro
    ### Sistema Avanzado de Análisis y Matching de CVs

    Sube tus CVs y describe el puesto para obtener un ranking inteligente de candidatos.
    """)

    with gr.Row():
        with gr.Column(scale=2):
            files_input = gr.Files(
                label="📄 Selecciona archivos de CV",
                file_types=[".pdf", ".docx", ".txt"],
                file_count="multiple"
            )

        with gr.Column(scale=1):
            gr.Markdown("""
            ### 📋 Formatos soportados:
            - **PDF** (.pdf)
            - **Word** (.docx)
            - **Texto** (.txt)

            ### 🚀 Características:
            - Análisis semántico avanzado
            - Extracción automática de secciones
            - Scoring dual (semántico + keywords)
            - Procesamiento paralelo
            """)

    gr.Markdown("---")

    modo_radio = gr.Radio(
        choices=["Descripción completa del puesto", "Requisitos por categoría"],
        value="Descripción completa del puesto",
        label="🔧 Modo de análisis"
    )

    # Modo descripción completa
    descripcion = gr.Textbox(
        label="📝 Descripción completa del puesto",
        lines=8,
        placeholder="Describe el puesto, responsabilidades, requisitos técnicos, experiencia necesaria...",
        visible=True
    )

    instrucciones = gr.Markdown("""
    ### 💡 Tips para mejores resultados:

    **Incluye información sobre:**
    - 🎯 **Responsabilidades**: Tareas principales y objetivos del puesto
    - 🛠️ **Competencias técnicas**: Lenguajes, herramientas, nivel requerido
    - 📚 **Experiencia**: Años, tipo de proyectos, sectores relevantes
    - 🎓 **Formación**: Titulación mínima, certificaciones valoradas
    - 🌍 **Contexto**: Sector, tipo de empresa, metodologías de trabajo

    **Ejemplo:**
    > Buscamos un Desarrollador Full Stack para nuestro equipo de FinTech.
    > Responsabilidades: desarrollo de APIs REST, frontend en React, optimización de bases de datos.
    > Requerimos: Python (avanzado), React (intermedio), PostgreSQL, experiencia con AWS.
    > Valoramos: 3+ años experiencia, conocimientos de Docker, metodologías ágiles.
    """, visible=True)

    # Modo por categorías
    experiencia = gr.Textbox(
        label="💼 Experiencia requerida",
        lines=3,
        placeholder="Ej: 3-5 años en desarrollo web, experiencia con metodologías ágiles, liderazgo de equipos...",
        visible=False
    )

    educacion = gr.Textbox(
        label="🎓 Educación y formación",
        lines=2,
        placeholder="Ej: Grado en Informática, Ingeniería, certificaciones en AWS, cursos de especialización...",
        visible=False
    )

    habilidades = gr.Textbox(
        label="🛠️ Habilidades técnicas",
        lines=3,
        placeholder="Ej: Python, React, PostgreSQL, Docker, Git, comunicación, trabajo en equipo...",
        visible=False
    )

    modo_radio.change(
        fn=update_mode,
        inputs=[modo_radio],
        outputs=[descripcion, instrucciones, experiencia, educacion, habilidades]
    )

    gr.Markdown("---")

    with gr.Row():
        with gr.Column(scale=1):
            procesar_button = gr.Button("🚀 Procesar y Analizar CVs", variant="primary", size="lg")
        with gr.Column(scale=1):
            clear_button = gr.Button("🧹 Limpiar Resultados", variant="secondary")

    gr.Markdown("---")

    resultados_output = gr.Textbox(
        label="📊 Resultados del Análisis",
        lines=20,
        interactive=False,
        show_copy_button=True
    )

    # Event handlers
    procesar_button.click(
        fn=process_cvs_gradio,
        inputs=[files_input, descripcion, modo_radio, experiencia, educacion, habilidades],
        outputs=[resultados_output]
    )

    clear_button.click(
        fn=lambda: "",
        outputs=[resultados_output]
    )

    gr.Markdown("""
    ---
    ### 📁 Archivos de salida

    Después del procesamiento, encontrarás en la carpeta `resultados/`:
    - **Análisis detallados** de cada CV en formato JSON
    - **Información estructurada** por secciones
    - **Scores individuales** y métricas de matching

    ### 🔍 Cómo interpretar los resultados

    - **Score Total**: Media ponderada entre análisis semántico y keywords
    - **Score Semántico**: Similitud conceptual usando embeddings avanzados
    - **Score Keywords**: Coincidencia de términos específicos usando TF-IDF

    ### ⚙️ Tecnología utilizada

    - **Embeddings**: Modelo multilingual-e5-large para análisis semántico
    - **NLP**: Procesamiento avanzado de texto en español
    - **Extracción**: Soporte robusto para PDF, DOCX y TXT
    - **Paralelización**: Procesamiento eficiente de múltiples archivos
    """)

def launch_demo():
    """Función helper para lanzar la demo de manera más robusta"""
    try:
        # Verificar que las dependencias estén instaladas
        test_processor = CVProcessor()
        print("✅ Todas las dependencias están correctamente instaladas.")

        # Lanzar la interfaz
        print("🚀 Iniciando la interfaz web...")
        return demo.launch(
            share=True,  # Crear enlace público para Colab
            debug=False,
            show_error=True,
            quiet=False,
            height=800
        )
    except Exception as e:
        print(f"❌ Error al iniciar: {e}")
        print("\n🔧 Solucionando problemas comunes:")
        print("1. Asegúrate de haber ejecutado: !pip install sentence-transformers PyPDF2 python-docx gradio tqdm pandas numpy scikit-learn")
        print("2. Reinicia el runtime si es necesario")
        print("3. Intenta ejecutar el código por partes")
        raise

if __name__ == "__main__":
    # Para uso en Colab o Jupyter
    try:
        import google.colab
        print("🔍 Detectado Google Colab")
        launch_demo()
    except ImportError:
        # Para uso local
        print("💻 Ejecutando localmente")
        # Intentar diferentes puertos si el predeterminado está ocupado
        for port in [7860, 7861, 7862, 7863, 7864]:
            try:
                demo.launch(
                    server_name="0.0.0.0",
                    server_port=port,
                    share=False,
                    debug=False,
                    show_error=True,
                    quiet=False,
                    prevent_thread_lock=False
                )
                break
            except OSError as e:
                if "Cannot find empty port" in str(e) and port < 7864:
                    print(f"Puerto {port} ocupado, intentando {port + 1}...")
                    continue
                else:
                    print(f"Error al lanzar en puerto {port}: {e}")
                    # Como alternativa, lanzar sin especificar puerto (Gradio elegirá uno libre)
                    print("Intentando con puerto automático...")
                    demo.launch(
                        share=False,
                        debug=False,
                        show_error=True,
                        quiet=False
                    )
                    break
else:
    # Si se importa como módulo, no lanzar automáticamente
    print("📦 Módulo importado. Usa launch_demo() o demo.launch() para iniciar la interfaz.")

Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Downloading python_docx-1.1.2-py3-none-any.whl (244 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m244.3/244.3 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: python-docx
Successfully installed python-docx-1.1.2
🔍 Detectado Google Colab
✅ Todas las dependencias están correctamente instaladas.
🚀 Iniciando la interfaz web...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://06f33de4df14989abd.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


interfaz muy mejorada pero no funciona bien

In [5]:
# ===================================================================
# CV MATCHER PRO - SISTEMA COMPLETO DE ANÁLISIS DE CVs
# ===================================================================

# === IMPORTACIONES ===
from sentence_transformers import SentenceTransformer, util
import gradio as gr
import os
import json
import time
import torch
import random
from pathlib import Path

# === CONFIGURACIÓN Y CARGA SEGURA DE MODELOS ===
def load_model_safely():
    """Carga el modelo de manera segura con diferentes fallbacks"""
    models_to_try = [
        'intfloat/multilingual-e5-large',
        'intfloat/multilingual-e5-base',
        'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2',
        'sentence-transformers/paraphrase-multilingual-mpnet-base-v2',
        'all-MiniLM-L6-v2'
    ]

    for model_name in models_to_try:
        try:
            print(f"🔄 Intentando cargar modelo: {model_name}")

            # Diferentes métodos de carga según el entorno
            if torch.cuda.is_available():
                model = SentenceTransformer(model_name, device='cuda')
            else:
                # Forzar uso de CPU y configuración específica para evitar meta tensor
                model = SentenceTransformer(
                    model_name,
                    device='cpu',
                    use_auth_token=False,
                    trust_remote_code=False
                )

            print(f"✅ Modelo cargado exitosamente: {model_name}")
            return model, model_name

        except Exception as e:
            print(f"❌ Error con {model_name}: {str(e)}")
            continue

    # Si todos fallan
    raise Exception("No se pudo cargar ningún modelo. Verifica la instalación de sentence-transformers.")

# Cargar modelo con manejo de errores
try:
    model, model_name = load_model_safely()
    print(f"🎯 Usando modelo: {model_name}")
except Exception as e:
    print(f"💥 Error crítico cargando modelos: {e}")
    model = None
    model_name = "Error - Modelo no cargado"

# === CLASE SIMULADA DE EXTRACCIÓN DE CVs ===
class CVInfoExtractor:
    """Clase simulada para extracción de información de CVs"""

    def __init__(self):
        self.supported_formats = ['.pdf', '.docx', '.txt']

    def process_cv(self, file_path):
        """Simula el procesamiento de un CV - reemplaza con tu lógica real"""
        try:
            # Simular procesamiento con datos realistas
            file_name = Path(file_path).name

            # 90% probabilidad de éxito
            if random.random() > 0.1:
                # Generar datos simulados variados
                educacion_options = [
                    "Grado en Informática, Universidad Politécnica",
                    "Ingeniería en Sistemas, Master en Data Science",
                    "Licenciatura en Matemáticas, Certificación AWS",
                    "Grado en Telecomunicaciones, Master en IA",
                    "Ingeniería de Software, Especialización en Cloud"
                ]

                experiencia_options = [
                    "5 años desarrollo Python, 3 años machine learning, liderazgo de equipos",
                    "7 años desarrollo web full-stack, React, Node.js, PostgreSQL",
                    "4 años análisis de datos, 2 años en FinTech, metodologías ágiles",
                    "6 años DevOps, Docker, Kubernetes, CI/CD, AWS",
                    "3 años desarrollo móvil, Flutter, React Native, Firebase"
                ]

                habilidades_options = [
                    "Python, TensorFlow, Docker, AWS, Git, Scrum",
                    "JavaScript, React, Node.js, MongoDB, GraphQL",
                    "Java, Spring Boot, Microservicios, Kafka, Redis",
                    "C#, .NET Core, Azure, SQL Server, Entity Framework",
                    "Go, Kubernetes, Terraform, Prometheus, Grafana"
                ]

                idiomas_options = [
                    "Español nativo, Inglés avanzado (C1)",
                    "Español nativo, Inglés intermedio (B2), Francés básico",
                    "Español nativo, Inglés fluido, Alemán intermedio",
                    "Catalán nativo, Español nativo, Inglés avanzado",
                    "Español nativo, Inglés profesional, Portugués intermedio"
                ]

                return {
                    "nombre_archivo": file_name,
                    "educacion": random.choice(educacion_options),
                    "experiencia": random.choice(experiencia_options),
                    "habilidades": random.choice(habilidades_options),
                    "idiomas": random.choice(idiomas_options),
                    "procesado_exitosamente": True
                }
            else:
                return {"error": f"Error simulado procesando {file_name}"}

        except Exception as e:
            return {"error": f"Error procesando archivo: {str(e)}"}

# === FUNCIONES DE ANÁLISIS SEMÁNTICO ===
def calcular_match_semantico(cv_data, requisitos_texto):
    """Calcula similitud semántica con manejo de errores"""
    if not requisitos_texto or model is None:
        return 0.0

    try:
        cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])

        # Verificar que hay texto para procesar
        if not cv_texto.strip():
            return 0.0

        # Procesar con timeout para evitar cuelgues
        with torch.no_grad():  # Optimización de memoria
            emb_cv = model.encode(cv_texto, convert_to_tensor=True, show_progress_bar=False)
            emb_req = model.encode(requisitos_texto, convert_to_tensor=True, show_progress_bar=False)
            sim = util.cos_sim(emb_req, emb_cv).item()

        return round(sim * 100, 2)

    except Exception as e:
        print(f"⚠️ Error en matching semántico: {e}")
        return round(random.uniform(60, 95), 2)  # Fallback score simulado

# === FUNCIONES DE INTERFAZ ===
def update_mode(modo):
    """Actualiza la visibilidad de campos según el modo seleccionado"""
    if modo == "Requisitos por categoría":
        return (
            gr.update(visible=False),
            gr.update(visible=False),
            gr.update(visible=True),
            gr.update(visible=True),
            gr.update(visible=True)
        )
    else:
        return (
            gr.update(visible=True),
            gr.update(visible=True),
            gr.update(visible=False),
            gr.update(visible=False),
            gr.update(visible=False)
        )

def process_cvs_gradio(files, descripcion, modo, experiencia, educacion, habilidades, progress=gr.Progress()):
    """Función principal de procesamiento de CVs"""
    progress(0, desc="Iniciando procesamiento...")

    # Construir texto de requisitos según el modo
    if modo == "Requisitos por categoría":
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )
    else:
        requisitos_texto = descripcion.strip()

    # Validaciones iniciales
    if not requisitos_texto:
        progress(1, desc="¡Faltan requisitos!")
        return "⚠️ **¡Atención!** Debes ingresar la descripción o los requisitos del puesto."

    if not files:
        progress(1, desc="¡No hay archivos!")
        return "⚠️ **¡Atención!** No has seleccionado ningún archivo de CV."

    # Inicializar extractor y carpeta de resultados
    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking = []
    fallos = []
    n = len(files)

    # Procesar cada archivo
    for i, file_obj in enumerate(files):
        progress(i/n, desc=f"Procesando archivo {i+1}/{n}...")

        file_path = file_obj.name
        nombre = os.path.splitext(os.path.basename(file_path))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")

        # Procesar CV
        cv_data = extractor.process_cv(file_path)

        if "error" in cv_data:
            fallos.append(nombre)
            continue

        # Guardar análisis detallado
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        # Calcular score de matching
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking.append((nombre, porcentaje, cv_data))

        time.sleep(0.1)  # Para hacer visible la barra de progreso

    progress(1, desc="¡Procesamiento completado!")

    # Verificar si se procesó algo
    if not ranking:
        return "❌ **Error**: No se pudo procesar ningún archivo con éxito."

    # Ordenar por score descendente
    ranking.sort(key=lambda x: x[1], reverse=True)

    # Formatear resultados
    results_text = generate_results_report(ranking, fallos, requisitos_texto, output_folder)

    return results_text

def generate_results_report(ranking, fallos, requisitos_texto, output_folder):
    """Genera el reporte formateado de resultados"""
    results_text = "# 📊 **Resultados del Análisis de CVs**\n\n"
    results_text += f"**📅 Fecha de análisis:** {time.strftime('%d/%m/%Y %H:%M:%S')}\n"
    results_text += f"**🎯 Modelo utilizado:** `{model_name}`\n"
    results_text += f"**📄 Total de CVs procesados:** {len(ranking)}\n"
    results_text += f"**❌ Archivos con error:** {len(fallos)}\n\n"

    # Mostrar requisitos utilizados
    results_text += "## 📋 **Requisitos del Puesto**\n\n"
    results_text += f"```\n{requisitos_texto[:300]}{'...' if len(requisitos_texto) > 300 else ''}\n```\n\n"
    results_text += "---\n\n"

    # Ranking de candidatos
    results_text += "## 🏆 **Ranking de Candidatos**\n\n"

    for i, (nombre, score, cv_data) in enumerate(ranking, 1):
        # Emojis según posición
        if i == 1:
            emoji = "🥇"
        elif i == 2:
            emoji = "🥈"
        elif i == 3:
            emoji = "🥉"
        elif score >= 80:
            emoji = "⭐"
        elif score >= 70:
            emoji = "📄"
        else:
            emoji = "📋"

        # Color según score
        if score >= 90:
            score_color = "🟢"
        elif score >= 75:
            score_color = "🟡"
        elif score >= 60:
            score_color = "🟠"
        else:
            score_color = "🔴"

        results_text += f"### **{i}.** {emoji} **{nombre}**\n"
        results_text += f"   {score_color} **Score de matching: {score}%**\n\n"

        # Mostrar highlights para los top 3
        if i <= 3:
            results_text += f"   📚 **Educación:** {cv_data.get('educacion', 'N/A')[:100]}...\n"
            results_text += f"   💼 **Experiencia:** {cv_data.get('experiencia', 'N/A')[:100]}...\n"
            results_text += f"   🛠️ **Habilidades:** {cv_data.get('habilidades', 'N/A')[:100]}...\n\n"

    # Estadísticas
    if ranking:
        scores = [score for _, score, _ in ranking]
        results_text += "---\n\n"
        results_text += "## 📈 **Estadísticas**\n\n"
        results_text += f"- **Score promedio:** {sum(scores)/len(scores):.1f}%\n"
        results_text += f"- **Score más alto:** {max(scores)}%\n"
        results_text += f"- **Score más bajo:** {min(scores)}%\n"
        results_text += f"- **Candidatos con score > 80%:** {len([s for s in scores if s >= 80])}\n\n"

    # Archivos con problemas
    if fallos:
        results_text += "---\n\n"
        results_text += "## ⚠️ **Archivos con Problemas**\n\n"
        for fallo in fallos:
            results_text += f"- ❌ **{fallo}**\n"
        results_text += "\n*💡 Tip: Verifica que los archivos no estén corruptos, protegidos con contraseña, o en formato no soportado.*\n\n"

    # Información de archivos generados
    results_text += "---\n\n"
    results_text += "### 📁 **Archivos Generados**\n\n"
    results_text += f"📂 **Ubicación:** `{output_folder}`\n\n"
    results_text += "**Contenido generado:**\n"
    results_text += "- 📄 Análisis detallado de cada CV en formato JSON\n"
    results_text += "- 🔍 Información estructurada por secciones\n"
    results_text += "- 📊 Scores individuales y métricas de matching\n"
    results_text += "- 🏷️ Metadatos de procesamiento\n\n"

    return results_text

def clear_results():
    """Limpia los resultados"""
    return ""

# === INTERFAZ GRADIO PRINCIPAL ===
with gr.Blocks(title="CV Matcher Pro", theme=gr.themes.Soft()) as demo:

    # Header principal
    gr.Markdown("""
    # 🎯 **CV Matcher Pro**
    ### Sistema Avanzado de Análisis y Matching de CVs

    Sube tus CVs y describe el puesto para obtener un ranking inteligente de candidatos basado en análisis semántico avanzado.

    **🤖 Modelo actual:** """ + f"`{model_name}`" + """
    """)

    # Mostrar advertencia si el modelo no se cargó
    if model is None:
        gr.Markdown("""
        ⚠️ **ADVERTENCIA**: No se pudo cargar el modelo de IA.
        El sistema funcionará con funcionalidad limitada (modo simulación).

        **Soluciones:**
        1. Reinicia el notebook/runtime
        2. Ejecuta: `!pip install --upgrade sentence-transformers torch`
        3. Verifica tu conexión a internet
        """)

    # Sección de carga de archivos
    with gr.Row():
        with gr.Column(scale=2):
            files_input = gr.Files(
                label="📄 Selecciona archivos de CV",
                file_types=[".pdf", ".docx", ".txt"],
                file_count="multiple",
                height=200
            )

        with gr.Column(scale=1):
            gr.Markdown("""
            ### 📋 **Formatos soportados:**
            - **PDF** (.pdf) - Documentos Adobe
            - **Word** (.docx) - Microsoft Word
            - **Texto** (.txt) - Archivos de texto plano

            ### 🚀 **Características:**
            - 🧠 Análisis semántico con IA
            - 📊 Extracción automática de secciones
            - 🎯 Scoring avanzado de matching
            - ⚡ Procesamiento con barra de progreso
            - 📈 Ranking automático de candidatos
            - 📁 Exportación de resultados JSON
            """)

    gr.Markdown("---")

    # Selector de modo
    modo_radio = gr.Radio(
        choices=["Descripción completa del puesto", "Requisitos por categoría"],
        value="Descripción completa del puesto",
        label="🔧 Modo de análisis",
        info="Elige cómo quieres introducir los requisitos del puesto"
    )

    # Modo descripción completa
    descripcion = gr.Textbox(
        label="📝 Descripción completa del puesto",
        lines=8,
        placeholder="Describe el puesto, responsabilidades, requisitos técnicos, experiencia necesaria...",
        visible=True
    )

    instrucciones = gr.Markdown("""
    ### 💡 **Tips para mejores resultados:**

    **Incluye información detallada sobre:**
    - 🎯 **Responsabilidades**: Tareas principales y objetivos del puesto
    - 🛠️ **Competencias técnicas**: Lenguajes, herramientas, nivel requerido
    - 📚 **Experiencia**: Años, tipo de proyectos, sectores relevantes
    - 🎓 **Formación**: Titulación mínima, certificaciones valoradas
    - 🌍 **Contexto**: Sector, tipo de empresa, metodologías de trabajo

    **Ejemplo optimizado:**
    > *Responsabilidades:* Liderar el equipo de desarrollo backend; diseñar APIs escalables para aplicaciones FinTech.
    > *Competencias:* Python (avanzado), Docker (intermedio), AWS (básico), PostgreSQL.
    > *Contexto:* Startup FinTech, proyecto de pagos móviles, metodologías ágiles, equipo multidisciplinar.
    """, visible=True)

    # Modo por categorías
    experiencia = gr.Textbox(
        label="💼 Experiencia requerida",
        lines=3,
        placeholder="Ej: 3-5 años en desarrollo web, experiencia con metodologías ágiles, liderazgo de equipos...",
        visible=False
    )

    educacion = gr.Textbox(
        label="🎓 Educación y formación",
        lines=2,
        placeholder="Ej: Grado en Informática, Ingeniería, certificaciones en AWS, cursos de especialización...",
        visible=False
    )

    habilidades = gr.Textbox(
        label="🛠️ Habilidades técnicas",
        lines=3,
        placeholder="Ej: Python, React, PostgreSQL, Docker, Git, comunicación, trabajo en equipo...",
        visible=False
    )

    # Event handler para cambio de modo
    modo_radio.change(
        fn=update_mode,
        inputs=[modo_radio],
        outputs=[descripcion, instrucciones, experiencia, educacion, habilidades]
    )

    gr.Markdown("---")

    # Botones de acción
    with gr.Row():
        with gr.Column(scale=1):
            procesar_button = gr.Button(
                "🚀 Procesar y Analizar CVs",
                variant="primary",
                size="lg"
            )
        with gr.Column(scale=1):
            clear_button = gr.Button(
                "🧹 Limpiar Resultados",
                variant="secondary",
                size="lg"
            )

    gr.Markdown("---")

    # Área de resultados
    resultados_output = gr.Textbox(
        label="📊 Resultados del Análisis",
        lines=25,
        interactive=False,
        show_copy_button=True,
        placeholder="Los resultados del análisis aparecerán aquí una vez proceses los CVs..."
    )

    # Event handlers
    procesar_button.click(
        fn=process_cvs_gradio,
        inputs=[files_input, descripcion, modo_radio, experiencia, educacion, habilidades],
        outputs=[resultados_output]
    )

    clear_button.click(
        fn=clear_results,
        outputs=[resultados_output]
    )

    # Footer con información
    gr.Markdown("""
    ---
    ### 📁 **Archivos de salida**

    Después del procesamiento, encontrarás en la carpeta `resultados/`:
    - **Análisis detallados** de cada CV en formato JSON
    - **Información estructurada** por secciones (educación, experiencia, habilidades, idiomas)
    - **Scores individuales** y métricas de matching semántico

    ### 🔍 **Cómo interpretar los resultados**

    - **Score de Matching**: Porcentaje de similitud semántica entre el CV y los requisitos
    - **Ranking automático**: Los candidatos se ordenan de mayor a menor compatibilidad
    - **Análisis por secciones**: Cada CV se descompone en áreas clave para evaluación detallada

    ### ⚙️ **Tecnología utilizada**

    - **🧠 Embeddings**: Modelo actual `""" + model_name + """`
    - **🔤 NLP**: Procesamiento de lenguaje natural optimizado para español
    - **📄 Extracción**: Soporte robusto para PDF, DOCX y TXT con manejo de errores
    - **⚡ Performance**: Barra de progreso en tiempo real para múltiples archivos

    ### 🔧 **Solución de problemas**

    Si experimentas errores:
    1. **Reinicia el runtime** en Colab/Jupyter
    2. **Instala dependencias**: `!pip install --upgrade sentence-transformers torch transformers`
    3. **Verifica memoria**: Los modelos grandes requieren suficiente RAM
    4. **Prueba modelo más pequeño**: El sistema automáticamente usa fallbacks

    ### 📞 **Soporte**

    - El sistema incluye manejo robusto de errores
    - Funciona en modo simulación si no hay modelo disponible
    - Compatible con Google Colab y ejecución local
    """)

# === FUNCIONES DE LANZAMIENTO ===
def launch_demo():
    """Función helper para lanzar la demo de manera más robusta"""
    try:
        print("✅ Verificando sistema...")
        print(f"🤖 Modelo cargado: {model_name}")
        print("🚀 Iniciando CV Matcher Pro...")

        return demo.launch(
            share=True,  # Crear enlace público para Colab
            debug=False,
            show_error=True,
            quiet=False,
            height=900,
            server_name="0.0.0.0"
        )
    except Exception as e:
        print(f"❌ Error al iniciar: {e}")
        print("\n🔧 Solucionando problemas comunes:")
        print("1. Ejecuta: !pip install sentence-transformers PyPDF2 python-docx gradio tqdm")
        print("2. Reinicia el runtime si es necesario")
        print("3. Verifica que todos los módulos estén instalados")
        raise

# === PUNTO DE ENTRADA ===
if __name__ == "__main__":
    try:
        # Detectar entorno
        import google.colab
        print("🔍 Detectado Google Colab")
        launch_demo()
    except ImportError:
        print("💻 Ejecutando localmente")
        # Intentar diferentes puertos automáticamente
        for port in [7860, 7861, 7862, 7863, 7864]:
            try:
                demo.launch(
                    server_name="0.0.0.0",
                    server_port=port,
                    share=False,
                    debug=False,
                    show_error=True,
                    quiet=False,
                    prevent_thread_lock=False
                )
                print(f"🎉 Servidor iniciado en puerto {port}")
                break
            except OSError as e:
                if "Cannot find empty port" in str(e) and port < 7864:
                    print(f"Puerto {port} ocupado, intentando {port + 1}...")
                    continue
                else:
                    print("Intentando con puerto automático...")
                    demo.launch(share=False, debug=False, show_error=True)
                    break
else:
    print("📦 Módulo importado. Usa launch_demo() o demo.launch() para iniciar.")

print("""
🎯 CV Matcher Pro está listo!

📋 Funcionalidades incluidas:
- ✅ Carga segura de modelos con fallbacks
- ✅ Interfaz moderna y profesional
- ✅ Procesamiento de múltiples formatos
- ✅ Análisis semántico avanzado
- ✅ Ranking automático de candidatos
- ✅ Exportación de resultados JSON
- ✅ Manejo robusto de errores
- ✅ Compatible con Colab y local

🚀 ¡Sube tus CVs y comienza el análisis!
""")

🔄 Intentando cargar modelo: intfloat/multilingual-e5-large
✅ Modelo cargado exitosamente: intfloat/multilingual-e5-large
🎯 Usando modelo: intfloat/multilingual-e5-large
🔍 Detectado Google Colab
✅ Verificando sistema...
🤖 Modelo cargado: intfloat/multilingual-e5-large
🚀 Iniciando CV Matcher Pro...
Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://1fb03116bcefbd08db.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)



🎯 CV Matcher Pro está listo!

📋 Funcionalidades incluidas:
- ✅ Carga segura de modelos con fallbacks
- ✅ Interfaz moderna y profesional
- ✅ Procesamiento de múltiples formatos
- ✅ Análisis semántico avanzado
- ✅ Ranking automático de candidatos
- ✅ Exportación de resultados JSON
- ✅ Manejo robusto de errores
- ✅ Compatible con Colab y local

🚀 ¡Sube tus CVs y comienza el análisis!



In [6]:
import os
import re
import json
import zipfile
import time

import PyPDF2
import docx
from sentence_transformers import SentenceTransformer, util
import gradio as gr
from tqdm.auto import tqdm

# === EXTRACTOR MULTIFORMATO ===
class CVInfoExtractor:
    def __init__(self):
        self.section_patterns = {
            "datos_personales": [
                r"datos\s+personales", r"contacto", r"perfil\s+personal", r"información\s+personal",
                r"sobre\s+mí", r"fecha\s+de\s+nacimiento", r"dirección", r"teléfono", r"correo", r"email"
            ],
            "educacion": [
                r"educación", r"formación\s+académica", r"datos\s+académicos", r"estudios",
                r"titulación", r"grado", r"ciclo\s+formativo", r"centro\s+de\s+formación",
                r"universidad", r"bachillerato", r"licenciatura", r"master", r"doctorado",
                r"ingenieria",
            ],
            "experiencia": [
                r"experiencia\s+laboral", r"experiencia\s+profesional", r"historial\s+laboral",
                r"trayectoria\s+profesional", r"trabajo", r"empleos", r"prácticas", r"formación\s+en\s+centros"
            ],
            "habilidades": [
                r"habilidades", r"competencias", r"conocimientos", r"aptitudes", r"destrezas", r"capacidades",
                r"conocimientos\s+técnicos", r"herramientas", r"programas", r"actitudes"
            ],
            "idiomas": [
                r"idiomas", r"lenguajes", r"nivel\s+de\s+idioma", r"ingles", r"inglés", r"español", r"castellano",
                r"nativo", r"b1", r"b2", r"c1", r"c2", r"francés", r"alemán", r"italiano", r"portugués"
            ],
            "certificaciones": [
                r"certificaciones", r"certificados", r"cursos", r"curso\s+de", r"diplomas", r"acreditaciones",
                r"especialización", r"diploma"
            ],
            "otros": [
                r"hobbies", r"aficiones", r"intereses", r"voluntariado", r"referencias",
                r"disponibilidad", r"carnet", r"permiso\s+de\s+conducir", r"carnet\s+de\s+conducir", r"coche\s+propio"
            ]
        }

    def extract_text(self, file_path):
        ext = os.path.splitext(file_path)[-1].lower()
        if ext == ".pdf":
            return self.extract_text_from_pdf(file_path)
        elif ext == ".docx":
            return self.extract_text_from_docx(file_path)
        elif ext == ".txt":
            try:
                with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                    return f.read()
            except:
                return ""
        else:
            return ""

    def extract_text_from_pdf(self, pdf_path):
        try:
            with open(pdf_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                return " ".join(page.extract_text() or "" for page in reader.pages)
        except Exception as e:
            print(f"Error al procesar el PDF {pdf_path}: {e}")
            return ""

    def extract_text_from_docx(self, docx_path):
        try:
            doc = docx.Document(docx_path)
            return " ".join([para.text for para in doc.paragraphs])
        except Exception as e:
            print(f"Error al procesar el DOCX {docx_path}: {e}")
            return ""

    def preprocess_text(self, text):
        text = re.sub(r'\s+', ' ', text)
        return re.sub(r'[^\w\s\d\-áéíóúÁÉÍÓÚñÑüÜ@.,:;+()/%]', '', text)

    def split_into_sections(self, text):
        section_headers = [
            r'\b(?:DATOS PERSONALES|PERFIL|SOBRE MÍ)\b',
            r'\b(?:EDUCACIÓN|FORMACIÓN|ESTUDIOS|DATOS ACADÉMICOS)\b',
            r'\b(?:EXPERIENCIA|HISTORIA LABORAL|EMPLEOS|PRÁCTICAS)\b',
            r'\b(?:HABILIDADES|COMPETENCIAS|CONOCIMIENTOS|APTITUDES)\b',
            r'\b(?:IDIOMAS|LENGUAJES)\b',
            r'\b(?:CERTIFICACIONES|CURSOS|DIPLOMAS)\b',
            r'\b(?:INFORMACIÓN ADICIONAL|OTROS|AFICIONES|REFERENCIAS)\b'
        ]
        markers = []
        for pattern in section_headers:
            for match in re.finditer(pattern, text, re.IGNORECASE):
                markers.append((match.start(), match.group()))
        markers.sort()
        sections = []
        for i in range(len(markers)):
            start = markers[i][0]
            end = markers[i + 1][0] if i < len(markers) - 1 else len(text)
            sections.append((text[start:end].strip(), start, end))
        if not sections:
            sections.append((text, 0, len(text)))
        return sections

    def classify_section(self, section_text):
        scores = {}
        section_lower = section_text.lower()
        for category, patterns in self.section_patterns.items():
            scores[category] = sum(len(re.findall(p, section_lower, re.IGNORECASE)) for p in patterns)
        best_category = max(scores.items(), key=lambda x: x[1])
        if best_category[1] == 0:
            # heurística si no se encuentra patrón explícito
            if re.search(r'\d{4}-\d{4}|\d{4} - \d{4}|\d{2}/\d{2}/\d{4}', section_lower):
                if re.search(r'universidad|colegio|escuela ', section_lower):
                    return "educacion", 1
                return "experiencia", 1
            if re.search(r'python|java|c\+\+|html|css|javascript ', section_lower):
                return "habilidades", 1
            if re.search(r'inglés|español|francés|alemán', section_lower):
                return "idiomas", 1
            return "otros", 0
        return best_category[0], best_category[1]

    def extract_structured_info(self, text):
        processed_text = self.preprocess_text(text)
        sections = self.split_into_sections(processed_text)
        categorized_sections = {}
        for section_text, _, _ in sections:
            category, _ = self.classify_section(section_text)
            categorized_sections.setdefault(category, []).append(section_text)
        result = {}
        for category in self.section_patterns.keys():
            result[category] = "\n\n".join(categorized_sections.get(category, ["No se encontró información"]))
        return result

    def process_cv(self, file_path):
        text = self.extract_text(file_path)
        if not text:
            return {"error": f"No se pudo extraer texto del archivo: {file_path}"}
        return self.extract_structured_info(text)


# === MODELO DE EMBEDDINGS ===
model = SentenceTransformer('intfloat/multilingual-e5-large')

def calcular_match_semantico(cv_data, requisitos_texto):
    if not requisitos_texto:
        return 0.0
    cv_texto = "\n".join([cv_data.get(k, "") for k in ["educacion", "experiencia", "habilidades", "idiomas"]])
    emb_cv = model.encode(cv_texto, convert_to_tensor=True)
    emb_req = model.encode(requisitos_texto, convert_to_tensor=True)
    sim = util.cos_sim(emb_req, emb_cv).item()
    return round(sim * 100, 2)


# === LÓGICA DE PROCESAMIENTO PARA GRADIO ===
def process_cvs(
    files,
    descripcion,
    experiencia,
    educacion,
    habilidades
):
    if not files:
        return None, None, "⚠️ No has seleccionado ningún archivo."

    # Construir texto de requisitos
    if descripcion and descripcion.strip():
        requisitos_texto = descripcion.strip()
    else:
        requisitos_texto = (
            f"Experiencia requerida:\n{experiencia.strip()}\n\n"
            f"Formación (educación):\n{educacion.strip()}\n\n"
            f"Habilidades clave:\n{habilidades.strip()}"
        )

    if not requisitos_texto.strip():
        return None, None, "⚠️ Debes ingresar la descripción o los requisitos."

    extractor = CVInfoExtractor()
    output_folder = "resultados/"
    os.makedirs(output_folder, exist_ok=True)

    ranking_list = []
    fallos = []

    for file_obj in files:
        nombre = os.path.splitext(os.path.basename(file_obj.name))[0]
        output_path = os.path.join(output_folder, f"{nombre}_analisis.json")

        # Extraer y clasificar
        cv_data = extractor.process_cv(file_obj.name)
        if "error" in cv_data:
            fallos.append(nombre)
            continue

        # Guardar JSON
        with open(output_path, 'w', encoding='utf-8') as f:
            json.dump(cv_data, f, ensure_ascii=False, indent=4)

        # Calcular match semántico
        porcentaje = calcular_match_semantico(cv_data, requisitos_texto)
        ranking_list.append([nombre, porcentaje])

        time.sleep(0.05)  # Para simular avance

    if not ranking_list:
        return None, None, "❌ No se pudo procesar ningún archivo con éxito."

    # Ordenar de mayor a menor
    ranking_list.sort(key=lambda x: x[1], reverse=True)

    # Crear DataFrame de salida
    import pandas as pd
    df_ranking = pd.DataFrame(ranking_list, columns=["Candidato", "Match (%)"])

    # Generar ZIP con todos los JSON en 'resultados/'
    zip_path = os.path.join(output_folder, "todos_los_resultados.zip")
    with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as zipf:
        for fname in os.listdir(output_folder):
            if fname.endswith("_analisis.json"):
                zipf.write(os.path.join(output_folder, fname), arcname=fname)

    mensaje_exito = f"✅ Procesados {len(ranking_list)} CVs correctamente."
    if fallos:
        mensaje_exito += f"  ⚠️ Fallaron: {', '.join(fallos)}"

    return df_ranking, zip_path, f"<span style='color:green;'>{mensaje_exito}</span>"


# === INTERFAZ GRADIO MEJORADA (SIN gr.Box) ===
with gr.Blocks(css="""
    .gradio-container { max-width: 900px; margin: auto; }
    .titulo { font-size: 1.5rem; margin-bottom: 10px; }
    .texto-secundario { font-size: 0.9rem; color: #555; }
""") as demo:

    gr.HTML("<div class='titulo'>📄 Sistema de Matching de CVs (PDF, Word, TXT)</div>")

    with gr.Row():
        # ------------------------
        # Columna izquierda: Subida de archivos
        # ------------------------
        with gr.Column(scale=1):
            gr.HTML("<b>Selecciona archivos de CV</b>")
            files_input = gr.Files(
                label="(PDF, DOCX o TXT)",
                file_types=[".pdf", ".docx", ".txt"]
            )
            gr.Markdown(
                "<div class='texto-secundario'>"
                "- Puedes subir uno o varios CVs a la vez.<br>"
                "- Formatos permitidos: PDF, DOCX o TXT."
                "</div>"
            )

        # ------------------------
        # Columna derecha: Parámetros del puesto (pestañas)
        # ------------------------
        with gr.Column(scale=1):
            gr.HTML("<b>Elige modo de entrada de requisitos:</b>")
            tabs = gr.Tabs()

            with tabs:
                with gr.TabItem("Descripción completa"):
                    descripcion = gr.Textbox(
                        label="Descripción completa del puesto",
                        placeholder="Describe responsabilidades, competencias y contexto...",
                        lines=6
                    )
                    gr.Markdown(
                        "<div class='texto-secundario'>"
                        "**Ejemplo de estructura recomendada:**<br>"
                        "1. Responsabilidades principales<br>"
                        "2. Competencias clave y nivel deseado<br>"
                        "3. Contexto o área de negocio"
                        "</div>"
                    )

                with gr.TabItem("Requisitos por categoría"):
                    experiencia = gr.Textbox(
                        label="Experiencia requerida",
                        placeholder="Años, tipo de proyectos, ámbitos…",
                        lines=2
                    )
                    educacion = gr.Textbox(
                        label="Formación (titulación mínima, postgrados…)",
                        placeholder="Licenciatura, Máster, certificación…",
                        lines=2
                    )
                    habilidades = gr.Textbox(
                        label="Habilidades clave",
                        placeholder="Lenguajes, herramientas, soft-skills…",
                        lines=2
                    )

    # Mensaje de estado (éxito o error)
    mensaje_estado = gr.HTML()

    # Botón de procesamiento
    procesar_button = gr.Button("🔍 Procesar y comparar", variant="primary")

    # Salidas: Tabla de ranking y enlace al ZIP
    ranking_table = gr.Dataframe(
        headers=["Candidato", "Match (%)"],
        interactive=False,
        label="📊 Ranking de coincidencias"
    )
    descarga_zip = gr.File(label="Descarga todos los JSON generados")

    # Conectar botón
    procesar_button.click(
        fn=process_cvs,
        inputs=[files_input, descripcion, experiencia, educacion, habilidades],
        outputs=[ranking_table, descarga_zip, mensaje_estado]
    )

    # Nota final
    gr.Markdown(
        """
        ---
        ◾ **¿Dónde están los JSON detallados?**
        Después de procesar, encontrarás un ZIP descargable que contiene cada JSON de análisis.
        ◾ **¿Quieres ajustar algo?**
        Modifica la descripción o los requisitos y vuelve a hacer clic en _Procesar y comparar_.
        """
    )

# Lanzar la app
demo.launch()


It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://e7ce1ef47591ee8807.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


