In [1]:
labels = {
    # Modalidad de trabajo
    "remote": [
        "The position allows remote work.",
        "This is a fully remote job.",
        "You can work from anywhere.",
    ],
    "permanent_contract": [
        "The job offers a permanent contract.",
        "This is a full-time position.",
    ],
    "freelance": [
        "This job is freelance.",
        "The position is for an independent contractor.",
    ],

    # Beneficios y condiciones
    "bonuses": [
        "The job offers performance bonuses.",
        "You will receive bonuses based on results.",
        "There are financial incentives in this position.",
    ],
    "career_development": [
        "There are opportunities for professional growth.",
        "The company supports career development.",
    ],
    "immediate_start": [
        "The job requires immediate start.",
        "The position must be filled urgently.",
        "The company is looking for someone to start right away.",
    ],

    # Tipo de empresa
    "startup": [
        "The company is a startup.",
        "You will be working in a fast-growing new company.",
        "The role is at an early-stage company.",
    ],
    "multinational": [
        "The company operates in multiple countries.",
        "This is a multinational organization.",
        "The employer has offices worldwide.",
    ],
    "consulting_or_outsourcing": [
        "The job is in a consulting company.",
        "You will work in an outsourcing services firm.",
        "The company provides external services to clients.",
    ],

    # Experiencia requerida
    "experience_gt_5": [
        "You need more than five years of experience.",
        "The job requires at least 5 years of work experience.",
        "Senior professionals with over 5 years of experience are needed.",
    ],

    # Nivel del puesto
    "intern": [
        "The position is for an intern.",
        "The role is aimed at students or recent graduates.",
    ],
    "junior": [
        "The position is at junior level.",
        "This role is for someone starting their career.",
    ],
    "senior": [
        "This is a senior position.",
        "The job requires significant experience.",
    ],
    "lead": [
        "You will lead a team.",
        "The position is for a technical or team lead.",
        "You are expected to guide other professionals.",
    ],
    "principal_or_manager": [
        "You will manage a department or team.",
        "This is a managerial role.",
        "You are responsible for strategic decisions.",
    ],

    # Educación y certificaciones
    "higher_education": [
        "A university degree is required.",
        "The role requires a bachelor's, master's, or PhD.",
    ],
    "certifications_required": [
        "Professional certifications are required.",
        "You need official credentials or certifications.",
    ],

    # Ámbitos profesionales
    "software_development": [
        "The job is in software development.",
        "You will be writing code or developing software.",
        "The role involves programming.",
    ],
    "data_science_ml": [
        "The position is in data science.",
        "Machine learning is a part of this job.",
        "You will analyze data or build ML models.",
    ],
    "cybersecurity": [
        "The job is in cybersecurity.",
        "The role involves protecting systems and data.",
        "You will handle security threats.",
    ],
    "qa_testing": [
        "You will be testing software for quality.",
        "The job involves quality assurance.",
        "You will perform tests to find bugs.",
    ],
    "it_support_infrastructure": [
        "The job involves IT support.",
        "You will maintain computer systems and networks.",
        "Infrastructure management is part of the role.",
    ],
    "project_product_management": [
        "The role involves managing projects or products.",
        "You will be a product or project manager.",
        "The position requires planning and coordination.",
    ],
    "ux_ui_design": [
        "The job is in UX or UI design.",
        "You will design user interfaces or experiences.",
        "The role focuses on user-centered design.",
    ]
}


In [2]:
import pandas as pd
from transformers import pipeline
from tqdm import tqdm
import torch
import statistics
import os

In [3]:
df = pd.read_csv('LIMPIO.csv')
df.shape

(120784, 13)

In [5]:
import os
import pandas as pd
import torch
from transformers import pipeline
from tqdm import tqdm
import statistics
import pickle

# Cargar dataset
df = pd.read_csv('LIMPIO.csv')

# Descripciones de trabajo
descriptions = df["description_full"].fillna('')

# Detectar si hay GPU disponible
device = 0 if torch.cuda.is_available() else -1

# Cargar modelo zero-shot
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli", device=device)

# Asegurar que el diccionario 'labels' está definido
label_dict = labels  # <- asegúrate de que esté definido antes de ejecutar

# Inicializar resultados
results = {key: [] for key in label_dict}

# Parámetros de guardado
chunk_size = 1000
output_file = 'MODELADO_FINAL.csv'
checkpoint_file = 'checkpoint.pkl'

# Cargar checkpoint si existe
start_index = 0
if os.path.exists(checkpoint_file):
    with open(checkpoint_file, 'rb') as f:
        checkpoint = pickle.load(f)
        results = checkpoint['results']
        start_index = checkpoint['last_index'] + 1
        print(f"🔁 Reanudando desde la fila {start_index}")

# Clasificar descripciones con barra de progreso
progress_bar = tqdm(range(start_index, len(descriptions)), desc="🔍 Procesando descripciones")

for i in progress_bar:
    desc = descriptions[i]
    try:
        for category, prompts in label_dict.items():
            scores = []
            for prompt in prompts:
                output = classifier(desc, candidate_labels=[prompt])
                scores.append(output['scores'][0])
            avg_score = statistics.mean(scores)
            results[category].append(avg_score)
    except Exception as e:
        print(f"\n⚠️ Error en desc {i}: {str(e)[:80]}...")
        for category in label_dict:
            results[category].append(0)

    # Guardado parcial y checkpoint
    if (i + 1) % chunk_size == 0 or (i + 1) == len(descriptions):
        partial_df = df.iloc[:i+1].copy()
        for category, scores in results.items():
            partial_df[category] = scores[:i+1]

        # Guardado del CSV
        if not os.path.isfile(output_file):
            partial_df.to_csv(output_file, index=False)
        else:
            partial_df.tail(chunk_size).to_csv(output_file, mode='a', header=False, index=False)

        print(f"\n✅ Guardado parcial en fila {i+1}")

        # Guardado del checkpoint
        checkpoint_data = {
            'results': results,
            'last_index': i
        }
        with open(checkpoint_file, 'wb') as f:
            pickle.dump(checkpoint_data, f)
        print(f"💾 Checkpoint guardado en fila {i+1}")

# Guardado final completo
for category, scores in results.items():
    df[category] = scores

df.to_csv(output_file, index=False)

# Eliminar el checkpoint final
if os.path.exists(checkpoint_file):
    os.remove(checkpoint_file)
    print("🗑️ Checkpoint eliminado.")

print(f"✅ Zero-Shot completado y guardado en: {output_file}")


Device set to use cuda:0
🔍 Procesando descripciones:   1%|          | 1000/120784 [47:31<146:37:10,  4.41s/it]


✅ Guardado parcial en fila 1000
💾 Checkpoint guardado en fila 1000


🔍 Procesando descripciones:   2%|▏         | 2000/120784 [1:45:40<92:25:10,  2.80s/it] 


✅ Guardado parcial en fila 2000
💾 Checkpoint guardado en fila 2000


🔍 Procesando descripciones:   2%|▏         | 3000/120784 [2:46:15<100:12:22,  3.06s/it]


✅ Guardado parcial en fila 3000
💾 Checkpoint guardado en fila 3000


🔍 Procesando descripciones:   3%|▎         | 4000/120784 [4:07:27<175:13:07,  5.40s/it]


✅ Guardado parcial en fila 4000
💾 Checkpoint guardado en fila 4000


🔍 Procesando descripciones:   4%|▍         | 5000/120784 [5:31:45<158:11:57,  4.92s/it]


✅ Guardado parcial en fila 5000
💾 Checkpoint guardado en fila 5000


🔍 Procesando descripciones:   5%|▍         | 6000/120784 [7:02:13<178:42:19,  5.60s/it]


✅ Guardado parcial en fila 6000
💾 Checkpoint guardado en fila 6000


🔍 Procesando descripciones:   6%|▌         | 7000/120784 [8:34:42<186:08:38,  5.89s/it]


✅ Guardado parcial en fila 7000
💾 Checkpoint guardado en fila 7000


🔍 Procesando descripciones:   7%|▋         | 8000/120784 [10:05:34<104:05:10,  3.32s/it]


✅ Guardado parcial en fila 8000
💾 Checkpoint guardado en fila 8000


🔍 Procesando descripciones:   7%|▋         | 9000/120784 [11:24:43<174:30:04,  5.62s/it]


✅ Guardado parcial en fila 9000
💾 Checkpoint guardado en fila 9000


🔍 Procesando descripciones:   8%|▊         | 10000/120784 [12:49:07<174:19:30,  5.66s/it]


✅ Guardado parcial en fila 10000
💾 Checkpoint guardado en fila 10000


🔍 Procesando descripciones:   9%|▉         | 11000/120784 [14:13:16<144:45:45,  4.75s/it]


✅ Guardado parcial en fila 11000
💾 Checkpoint guardado en fila 11000


🔍 Procesando descripciones:  10%|▉         | 12000/120784 [15:25:16<127:03:25,  4.20s/it]


✅ Guardado parcial en fila 12000
💾 Checkpoint guardado en fila 12000


🔍 Procesando descripciones:  11%|█         | 13000/120784 [16:40:52<128:41:57,  4.30s/it]


✅ Guardado parcial en fila 13000
💾 Checkpoint guardado en fila 13000


🔍 Procesando descripciones:  12%|█▏        | 14000/120784 [17:58:19<94:01:11,  3.17s/it] 


✅ Guardado parcial en fila 14000
💾 Checkpoint guardado en fila 14000


🔍 Procesando descripciones:  12%|█▏        | 15000/120784 [19:14:29<91:20:39,  3.11s/it] 


✅ Guardado parcial en fila 15000
💾 Checkpoint guardado en fila 15000


🔍 Procesando descripciones:  13%|█▎        | 16000/120784 [20:29:43<161:26:26,  5.55s/it]


✅ Guardado parcial en fila 16000
💾 Checkpoint guardado en fila 16000


🔍 Procesando descripciones:  14%|█▍        | 17000/120784 [21:48:50<158:06:55,  5.48s/it]


✅ Guardado parcial en fila 17000
💾 Checkpoint guardado en fila 17000


🔍 Procesando descripciones:  15%|█▍        | 18000/120784 [23:07:41<147:32:47,  5.17s/it]


✅ Guardado parcial en fila 18000
💾 Checkpoint guardado en fila 18000


🔍 Procesando descripciones:  16%|█▌        | 19000/120784 [24:26:46<160:38:36,  5.68s/it]


✅ Guardado parcial en fila 19000
💾 Checkpoint guardado en fila 19000


🔍 Procesando descripciones:  17%|█▋        | 20000/120784 [25:45:45<121:14:40,  4.33s/it]


✅ Guardado parcial en fila 20000
💾 Checkpoint guardado en fila 20000


🔍 Procesando descripciones:  17%|█▋        | 21000/120784 [27:06:46<145:47:37,  5.26s/it]


✅ Guardado parcial en fila 21000
💾 Checkpoint guardado en fila 21000


🔍 Procesando descripciones:  18%|█▊        | 22000/120784 [28:27:27<135:13:55,  4.93s/it]


✅ Guardado parcial en fila 22000
💾 Checkpoint guardado en fila 22000


🔍 Procesando descripciones:  19%|█▉        | 23000/120784 [29:51:02<142:04:57,  5.23s/it]


✅ Guardado parcial en fila 23000
💾 Checkpoint guardado en fila 23000


🔍 Procesando descripciones:  20%|█▉        | 24000/120784 [31:15:30<143:36:21,  5.34s/it]


✅ Guardado parcial en fila 24000
💾 Checkpoint guardado en fila 24000


🔍 Procesando descripciones:  21%|██        | 25000/120784 [32:38:15<125:58:56,  4.73s/it]


✅ Guardado parcial en fila 25000
💾 Checkpoint guardado en fila 25000


🔍 Procesando descripciones:  22%|██▏       | 26000/120784 [34:01:39<70:31:28,  2.68s/it] 


✅ Guardado parcial en fila 26000
💾 Checkpoint guardado en fila 26000


🔍 Procesando descripciones:  22%|██▏       | 27000/120784 [35:25:03<116:35:25,  4.48s/it]


✅ Guardado parcial en fila 27000
💾 Checkpoint guardado en fila 27000


🔍 Procesando descripciones:  23%|██▎       | 28000/120784 [36:44:46<114:03:20,  4.43s/it]


✅ Guardado parcial en fila 28000
💾 Checkpoint guardado en fila 28000


🔍 Procesando descripciones:  24%|██▍       | 29000/120784 [37:47:22<128:30:25,  5.04s/it]


✅ Guardado parcial en fila 29000
💾 Checkpoint guardado en fila 29000


🔍 Procesando descripciones:  25%|██▍       | 30000/120784 [38:43:12<82:28:40,  3.27s/it] 


✅ Guardado parcial en fila 30000
💾 Checkpoint guardado en fila 30000


🔍 Procesando descripciones:  26%|██▌       | 31000/120784 [39:45:19<113:28:41,  4.55s/it]


✅ Guardado parcial en fila 31000
💾 Checkpoint guardado en fila 31000


🔍 Procesando descripciones:  26%|██▋       | 32000/120784 [40:49:23<72:51:39,  2.95s/it] 


✅ Guardado parcial en fila 32000
💾 Checkpoint guardado en fila 32000


🔍 Procesando descripciones:  27%|██▋       | 33000/120784 [41:50:15<90:14:07,  3.70s/it] 


✅ Guardado parcial en fila 33000
💾 Checkpoint guardado en fila 33000


🔍 Procesando descripciones:  28%|██▊       | 34000/120784 [42:57:28<91:50:43,  3.81s/it] 


✅ Guardado parcial en fila 34000
💾 Checkpoint guardado en fila 34000


🔍 Procesando descripciones:  29%|██▉       | 35000/120784 [43:59:32<79:34:35,  3.34s/it] 


✅ Guardado parcial en fila 35000
💾 Checkpoint guardado en fila 35000


🔍 Procesando descripciones:  30%|██▉       | 36000/120784 [45:05:22<105:14:47,  4.47s/it]


✅ Guardado parcial en fila 36000
💾 Checkpoint guardado en fila 36000


🔍 Procesando descripciones:  31%|███       | 37000/120784 [46:07:22<105:40:06,  4.54s/it]


✅ Guardado parcial en fila 37000
💾 Checkpoint guardado en fila 37000


🔍 Procesando descripciones:  31%|███       | 37053/120784 [46:10:39<99:24:09,  4.27s/it] 


⚠️ Error en desc 37053: You must include at least one label and at least one sequence....


🔍 Procesando descripciones:  31%|███▏      | 38000/120784 [47:08:31<89:20:47,  3.89s/it] 


✅ Guardado parcial en fila 38000
💾 Checkpoint guardado en fila 38000


🔍 Procesando descripciones:  32%|███▏      | 39000/120784 [48:10:39<87:22:26,  3.85s/it] 


✅ Guardado parcial en fila 39000
💾 Checkpoint guardado en fila 39000


🔍 Procesando descripciones:  33%|███▎      | 40000/120784 [49:37:21<125:17:29,  5.58s/it]


✅ Guardado parcial en fila 40000
💾 Checkpoint guardado en fila 40000


🔍 Procesando descripciones:  34%|███▍      | 41000/120784 [50:53:02<118:32:21,  5.35s/it]


✅ Guardado parcial en fila 41000
💾 Checkpoint guardado en fila 41000


🔍 Procesando descripciones:  35%|███▍      | 42000/120784 [52:09:14<101:19:35,  4.63s/it]


✅ Guardado parcial en fila 42000
💾 Checkpoint guardado en fila 42000


🔍 Procesando descripciones:  36%|███▌      | 43000/120784 [53:26:31<105:05:40,  4.86s/it]


✅ Guardado parcial en fila 43000
💾 Checkpoint guardado en fila 43000


🔍 Procesando descripciones:  36%|███▋      | 44000/120784 [54:42:36<103:08:35,  4.84s/it]


✅ Guardado parcial en fila 44000
💾 Checkpoint guardado en fila 44000


🔍 Procesando descripciones:  37%|███▋      | 45000/120784 [56:07:20<106:07:22,  5.04s/it]


✅ Guardado parcial en fila 45000
💾 Checkpoint guardado en fila 45000


🔍 Procesando descripciones:  38%|███▊      | 46000/120784 [57:32:05<117:39:35,  5.66s/it]


✅ Guardado parcial en fila 46000
💾 Checkpoint guardado en fila 46000


🔍 Procesando descripciones:  39%|███▉      | 47000/120784 [58:56:52<100:11:32,  4.89s/it]


✅ Guardado parcial en fila 47000
💾 Checkpoint guardado en fila 47000


🔍 Procesando descripciones:  40%|███▉      | 48000/120784 [60:03:38<73:20:07,  3.63s/it] 


✅ Guardado parcial en fila 48000
💾 Checkpoint guardado en fila 48000


🔍 Procesando descripciones:  41%|████      | 49000/120784 [61:13:33<100:22:04,  5.03s/it]


✅ Guardado parcial en fila 49000
💾 Checkpoint guardado en fila 49000


🔍 Procesando descripciones:  41%|████▏     | 50000/120784 [62:23:05<100:40:19,  5.12s/it]


✅ Guardado parcial en fila 50000
💾 Checkpoint guardado en fila 50000


🔍 Procesando descripciones:  42%|████▏     | 51000/120784 [63:30:19<52:22:43,  2.70s/it] 


✅ Guardado parcial en fila 51000
💾 Checkpoint guardado en fila 51000


🔍 Procesando descripciones:  43%|████▎     | 52000/120784 [64:16:13<86:03:54,  4.50s/it] 


✅ Guardado parcial en fila 52000
💾 Checkpoint guardado en fila 52000


🔍 Procesando descripciones:  44%|████▍     | 53000/120784 [65:15:43<52:37:23,  2.79s/it] 


✅ Guardado parcial en fila 53000
💾 Checkpoint guardado en fila 53000


🔍 Procesando descripciones:  45%|████▍     | 54000/120784 [66:15:56<54:30:21,  2.94s/it] 


✅ Guardado parcial en fila 54000
💾 Checkpoint guardado en fila 54000


🔍 Procesando descripciones:  46%|████▌     | 55000/120784 [67:15:32<61:50:42,  3.38s/it] 


✅ Guardado parcial en fila 55000
💾 Checkpoint guardado en fila 55000


🔍 Procesando descripciones:  46%|████▋     | 56000/120784 [68:13:47<95:55:14,  5.33s/it] 


✅ Guardado parcial en fila 56000
💾 Checkpoint guardado en fila 56000


🔍 Procesando descripciones:  47%|████▋     | 57000/120784 [69:24:43<103:46:30,  5.86s/it]


✅ Guardado parcial en fila 57000
💾 Checkpoint guardado en fila 57000


🔍 Procesando descripciones:  48%|████▊     | 58000/120784 [70:43:34<72:24:26,  4.15s/it] 


✅ Guardado parcial en fila 58000
💾 Checkpoint guardado en fila 58000


🔍 Procesando descripciones:  49%|████▉     | 59000/120784 [71:53:47<24:58:49,  1.46s/it] 


✅ Guardado parcial en fila 59000
💾 Checkpoint guardado en fila 59000


🔍 Procesando descripciones:  50%|████▉     | 60000/120784 [72:45:31<42:23:13,  2.51s/it]


✅ Guardado parcial en fila 60000
💾 Checkpoint guardado en fila 60000


🔍 Procesando descripciones:  51%|█████     | 61000/120784 [73:38:02<91:27:21,  5.51s/it]


✅ Guardado parcial en fila 61000
💾 Checkpoint guardado en fila 61000


🔍 Procesando descripciones:  51%|█████▏    | 62000/120784 [74:32:06<69:26:50,  4.25s/it]


✅ Guardado parcial en fila 62000
💾 Checkpoint guardado en fila 62000


🔍 Procesando descripciones:  52%|█████▏    | 63000/120784 [75:25:41<75:26:31,  4.70s/it]


✅ Guardado parcial en fila 63000
💾 Checkpoint guardado en fila 63000


🔍 Procesando descripciones:  53%|█████▎    | 64000/120784 [76:40:22<79:14:27,  5.02s/it]


✅ Guardado parcial en fila 64000
💾 Checkpoint guardado en fila 64000


🔍 Procesando descripciones:  54%|█████▍    | 65000/120784 [77:55:58<56:02:43,  3.62s/it]


✅ Guardado parcial en fila 65000
💾 Checkpoint guardado en fila 65000


🔍 Procesando descripciones:  55%|█████▍    | 66000/120784 [78:48:17<48:33:54,  3.19s/it]


✅ Guardado parcial en fila 66000
💾 Checkpoint guardado en fila 66000


🔍 Procesando descripciones:  55%|█████▌    | 67000/120784 [79:32:37<38:33:31,  2.58s/it]


✅ Guardado parcial en fila 67000
💾 Checkpoint guardado en fila 67000


🔍 Procesando descripciones:  56%|█████▋    | 68000/120784 [80:17:45<44:01:30,  3.00s/it]


✅ Guardado parcial en fila 68000
💾 Checkpoint guardado en fila 68000


🔍 Procesando descripciones:  57%|█████▋    | 69000/120784 [81:00:23<18:12:48,  1.27s/it]


✅ Guardado parcial en fila 69000
💾 Checkpoint guardado en fila 69000


🔍 Procesando descripciones:  58%|█████▊    | 70000/120784 [81:53:45<52:15:09,  3.70s/it]


✅ Guardado parcial en fila 70000
💾 Checkpoint guardado en fila 70000


🔍 Procesando descripciones:  59%|█████▉    | 71000/120784 [82:47:43<48:23:36,  3.50s/it]


✅ Guardado parcial en fila 71000
💾 Checkpoint guardado en fila 71000


🔍 Procesando descripciones:  60%|█████▉    | 72000/120784 [83:40:54<32:49:23,  2.42s/it]


✅ Guardado parcial en fila 72000
💾 Checkpoint guardado en fila 72000


🔍 Procesando descripciones:  60%|██████    | 73000/120784 [84:42:04<77:19:28,  5.83s/it]


✅ Guardado parcial en fila 73000
💾 Checkpoint guardado en fila 73000


🔍 Procesando descripciones:  61%|██████▏   | 74000/120784 [86:09:42<57:25:15,  4.42s/it]


✅ Guardado parcial en fila 74000
💾 Checkpoint guardado en fila 74000


🔍 Procesando descripciones:  62%|██████▏   | 75000/120784 [87:09:12<32:01:49,  2.52s/it]


✅ Guardado parcial en fila 75000
💾 Checkpoint guardado en fila 75000


🔍 Procesando descripciones:  63%|██████▎   | 76000/120784 [88:06:08<64:12:15,  5.16s/it]


✅ Guardado parcial en fila 76000
💾 Checkpoint guardado en fila 76000


🔍 Procesando descripciones:  64%|██████▍   | 77000/120784 [89:03:13<28:40:43,  2.36s/it]


✅ Guardado parcial en fila 77000
💾 Checkpoint guardado en fila 77000


🔍 Procesando descripciones:  65%|██████▍   | 78000/120784 [90:01:57<28:12:30,  2.37s/it]


✅ Guardado parcial en fila 78000
💾 Checkpoint guardado en fila 78000


🔍 Procesando descripciones:  65%|██████▌   | 79000/120784 [91:13:35<56:49:19,  4.90s/it]


✅ Guardado parcial en fila 79000
💾 Checkpoint guardado en fila 79000


🔍 Procesando descripciones:  66%|██████▌   | 80000/120784 [92:37:47<53:45:33,  4.75s/it]


✅ Guardado parcial en fila 80000
💾 Checkpoint guardado en fila 80000


🔍 Procesando descripciones:  67%|██████▋   | 81000/120784 [93:52:18<33:05:07,  2.99s/it]


✅ Guardado parcial en fila 81000
💾 Checkpoint guardado en fila 81000


🔍 Procesando descripciones:  68%|██████▊   | 82000/120784 [94:47:34<29:43:50,  2.76s/it]


✅ Guardado parcial en fila 82000
💾 Checkpoint guardado en fila 82000


🔍 Procesando descripciones:  69%|██████▊   | 83000/120784 [95:42:02<33:02:39,  3.15s/it]


✅ Guardado parcial en fila 83000
💾 Checkpoint guardado en fila 83000


🔍 Procesando descripciones:  70%|██████▉   | 84000/120784 [96:36:03<21:12:28,  2.08s/it]


✅ Guardado parcial en fila 84000
💾 Checkpoint guardado en fila 84000


🔍 Procesando descripciones:  70%|███████   | 85000/120784 [97:26:47<50:31:15,  5.08s/it]


✅ Guardado parcial en fila 85000
💾 Checkpoint guardado en fila 85000


🔍 Procesando descripciones:  71%|███████   | 86000/120784 [98:47:12<57:24:09,  5.94s/it]


✅ Guardado parcial en fila 86000
💾 Checkpoint guardado en fila 86000


🔍 Procesando descripciones:  72%|███████▏  | 87000/120784 [100:08:38<52:19:12,  5.58s/it]


✅ Guardado parcial en fila 87000
💾 Checkpoint guardado en fila 87000


🔍 Procesando descripciones:  73%|███████▎  | 88000/120784 [101:13:06<34:59:59,  3.84s/it]


✅ Guardado parcial en fila 88000
💾 Checkpoint guardado en fila 88000


🔍 Procesando descripciones:  74%|███████▎  | 89000/120784 [102:17:52<47:53:01,  5.42s/it]


✅ Guardado parcial en fila 89000
💾 Checkpoint guardado en fila 89000


🔍 Procesando descripciones:  75%|███████▍  | 90000/120784 [103:22:59<29:36:54,  3.46s/it]


✅ Guardado parcial en fila 90000
💾 Checkpoint guardado en fila 90000


🔍 Procesando descripciones:  75%|███████▌  | 91000/120784 [104:38:25<46:00:26,  5.56s/it]


✅ Guardado parcial en fila 91000
💾 Checkpoint guardado en fila 91000


🔍 Procesando descripciones:  76%|███████▌  | 92000/120784 [106:03:18<45:43:06,  5.72s/it]


✅ Guardado parcial en fila 92000
💾 Checkpoint guardado en fila 92000


🔍 Procesando descripciones:  77%|███████▋  | 93000/120784 [107:10:09<29:41:58,  3.85s/it]


✅ Guardado parcial en fila 93000
💾 Checkpoint guardado en fila 93000


🔍 Procesando descripciones:  78%|███████▊  | 94000/120784 [108:18:55<24:50:58,  3.34s/it]


✅ Guardado parcial en fila 94000
💾 Checkpoint guardado en fila 94000


🔍 Procesando descripciones:  79%|███████▊  | 95000/120784 [109:25:42<30:11:14,  4.21s/it]


✅ Guardado parcial en fila 95000
💾 Checkpoint guardado en fila 95000


🔍 Procesando descripciones:  79%|███████▉  | 96000/120784 [110:20:54<9:51:00,  1.43s/it] 


✅ Guardado parcial en fila 96000
💾 Checkpoint guardado en fila 96000


🔍 Procesando descripciones:  80%|████████  | 97000/120784 [110:58:34<24:54:21,  3.77s/it]


✅ Guardado parcial en fila 97000
💾 Checkpoint guardado en fila 97000


🔍 Procesando descripciones:  81%|████████  | 98000/120784 [111:42:17<17:56:24,  2.83s/it]


✅ Guardado parcial en fila 98000
💾 Checkpoint guardado en fila 98000


🔍 Procesando descripciones:  82%|████████▏ | 99000/120784 [112:26:31<11:00:36,  1.82s/it]


✅ Guardado parcial en fila 99000
💾 Checkpoint guardado en fila 99000


🔍 Procesando descripciones:  83%|████████▎ | 100000/120784 [113:09:42<26:39:01,  4.62s/it]


✅ Guardado parcial en fila 100000
💾 Checkpoint guardado en fila 100000


🔍 Procesando descripciones:  84%|████████▎ | 101000/120784 [114:13:52<23:38:21,  4.30s/it]


✅ Guardado parcial en fila 101000
💾 Checkpoint guardado en fila 101000


🔍 Procesando descripciones:  84%|████████▍ | 102000/120784 [115:19:59<21:03:36,  4.04s/it]


✅ Guardado parcial en fila 102000
💾 Checkpoint guardado en fila 102000


🔍 Procesando descripciones:  85%|████████▌ | 103000/120784 [116:23:20<20:47:14,  4.21s/it]


✅ Guardado parcial en fila 103000
💾 Checkpoint guardado en fila 103000


🔍 Procesando descripciones:  86%|████████▌ | 104000/120784 [117:21:54<18:20:47,  3.94s/it]


✅ Guardado parcial en fila 104000
💾 Checkpoint guardado en fila 104000


🔍 Procesando descripciones:  87%|████████▋ | 105000/120784 [118:12:56<5:53:18,  1.34s/it] 


✅ Guardado parcial en fila 105000
💾 Checkpoint guardado en fila 105000


🔍 Procesando descripciones:  88%|████████▊ | 106000/120784 [118:46:28<16:48:46,  4.09s/it]


✅ Guardado parcial en fila 106000
💾 Checkpoint guardado en fila 106000


🔍 Procesando descripciones:  89%|████████▊ | 107000/120784 [119:38:32<16:03:25,  4.19s/it]


✅ Guardado parcial en fila 107000
💾 Checkpoint guardado en fila 107000


🔍 Procesando descripciones:  89%|████████▉ | 108000/120784 [120:29:07<12:02:28,  3.39s/it]


✅ Guardado parcial en fila 108000
💾 Checkpoint guardado en fila 108000


🔍 Procesando descripciones:  90%|█████████ | 109000/120784 [121:08:49<3:42:02,  1.13s/it] 


✅ Guardado parcial en fila 109000
💾 Checkpoint guardado en fila 109000


🔍 Procesando descripciones:  91%|█████████ | 110000/120784 [121:34:34<3:22:46,  1.13s/it] 


✅ Guardado parcial en fila 110000
💾 Checkpoint guardado en fila 110000


🔍 Procesando descripciones:  92%|█████████▏| 111000/120784 [121:59:18<3:04:05,  1.13s/it] 


✅ Guardado parcial en fila 111000
💾 Checkpoint guardado en fila 111000


🔍 Procesando descripciones:  93%|█████████▎| 112000/120784 [122:24:29<3:16:22,  1.34s/it]


✅ Guardado parcial en fila 112000
💾 Checkpoint guardado en fila 112000


🔍 Procesando descripciones:  94%|█████████▎| 113000/120784 [122:51:57<2:36:18,  1.20s/it] 


✅ Guardado parcial en fila 113000
💾 Checkpoint guardado en fila 113000


🔍 Procesando descripciones:  94%|█████████▍| 114000/120784 [123:20:40<4:04:19,  2.16s/it]


✅ Guardado parcial en fila 114000
💾 Checkpoint guardado en fila 114000


🔍 Procesando descripciones:  95%|█████████▌| 115000/120784 [123:45:57<1:55:49,  1.20s/it]


✅ Guardado parcial en fila 115000
💾 Checkpoint guardado en fila 115000


🔍 Procesando descripciones:  96%|█████████▌| 116000/120784 [124:12:12<1:26:11,  1.08s/it]


✅ Guardado parcial en fila 116000
💾 Checkpoint guardado en fila 116000


🔍 Procesando descripciones:  97%|█████████▋| 117000/120784 [124:38:10<1:29:14,  1.42s/it]


✅ Guardado parcial en fila 117000
💾 Checkpoint guardado en fila 117000


🔍 Procesando descripciones:  98%|█████████▊| 118000/120784 [125:05:43<2:43:59,  3.53s/it]


✅ Guardado parcial en fila 118000
💾 Checkpoint guardado en fila 118000


🔍 Procesando descripciones:  99%|█████████▊| 119000/120784 [125:32:12<36:46,  1.24s/it]  


✅ Guardado parcial en fila 119000
💾 Checkpoint guardado en fila 119000


🔍 Procesando descripciones:  99%|█████████▉| 120000/120784 [125:56:38<35:21,  2.71s/it]  


✅ Guardado parcial en fila 120000
💾 Checkpoint guardado en fila 120000


🔍 Procesando descripciones: 100%|██████████| 120784/120784 [126:17:20<00:00,  3.76s/it]


✅ Guardado parcial en fila 120784
💾 Checkpoint guardado en fila 120784





🗑️ Checkpoint eliminado.
✅ Zero-Shot completado y guardado en: MODELADO_FINAL.csv


In [None]:
# Recargar el DataFrame con clasificaciones, si fuera necesario
df = pd.read_csv('MODELADO_FINAL.csv')

# Agregar columnas de roles según el título
df["intern_title"] = df["title"].str.contains(r"\bintern|trainee\b", case=False, na=False).astype(int)
df["junior_title"] = df["title"].str.contains(r"\bjunior|jr\b", case=False, na=False).astype(int)
df["senior_title"] = df["title"].str.contains(r"\bsenior|sr\b", case=False, na=False).astype(int)
df["lead_title"] = df["title"].str.contains(r"\blead|team lead|tech lead\b", case=False, na=False).astype(int)
df["principal_or_manager_title"] = df["title"].str.contains(r"\bprincipal|manager|head\b", case=False, na=False).astype(int)

# Guardar con roles añadidos
df.to_csv('MODELADO_FINAL_CON_TITULOS.csv', index=False)

print("✅ Columnas de roles añadidas y archivo actualizado: MODELADO_FINAL_CON_TITULOS.csv")