In [1]:
import os
import re
from langdetect import detect

# Conjunto de expresiones regulares para habilidades blandas en inglés para IT
soft_skills_regex_en_it = {
    'communication': r'\b(communicat(e|ion)|docum(ent|entation)|presentation|persuasiv(e|o)|collaborat(e|ion|ions)|multidisciplinary)\b',
    'teamwork': r'\b(teamwork|collaborat(e|ion|ions)|collaborate|multidisciplinary)\b',
    'problem solving': r'\b(problem solv(e|ing)|analytic(al|s))\b',
    'creativity': r'\b(creativ(e|ity)|innovat(e|ion|ive))\b',
    'adaptability': r'\b(adaptabilit(y|ies)|flexibilit(y|ies)|learn(ing|s) new technolog(y|ies))\b',
    'attention to detail': r'\b(attention to detail|detail|defect(s|ions))\b',
    'leadership': r'\b(leadership|stakehold(er|ers) manag(e|ement))\b',
    'analytical skills': r'\b(analytic(al|s) think(ing|s)|data analys(is|es))\b',
    'project management': r'\b(project manag(e|ement)|scrum|agile)\b',
    'customer service': r'\b(customer servic(e|e)|client interact(ion|ions))\b',
    'time management': r'\b(effective time manag(e|ement))\b',
    'autonomous work': r'\b(ability to work autonomously)\b',
    'fast-paced environment': r'\b(fast-paced environment)\b'
}

# Conjunto de expresiones regulares para habilidades blandas en español para IT
soft_skills_regex_es_it = {
    'comunicación': r'\b(comunicaci(ó|o)n|document(ar|ación)|presentaci(ó|o)n|persuasiv(o|a)|colaboraci(ó|o)n|multidisciplinari(a|o|as|os)|comunicar resultad(os|as) de manera efectiva)\b',
    'trabajo en equipo': r'\b(trabajo en equip(o|a)|colaboraci(ó|o)n|colaborar|multidisciplinari(a|o|as|os)|trabajar en equip(o|a))\b',
    'resolución de problemas': r'\b(resoluci(ó|o)n de problem(a|as)|anal(í|i)tico)\b',
    'creatividad': r'\b(creatividad|creativ(o|a|os|as)|innovador(a|as|es)|innovaci(ó|o)n)\b',
    'adaptabilidad': r'\b(adaptabilidad|flexibilidad|aprend(e|izaj)e de nueva(s)? tecnolog(í|i)a(s)?|trabajar bajo presión)\b',
    'atención al detalle': r'\b(atenci(ó|o)n al detalle|detalle|defecto(s)?)\b',
    'liderazgo': r'\b(liderazgo|gesti(ó|o)n de stakehold(er|ers))\b',
    'habilidades analíticas': r'\b(pensamient(o|a) anal(í|i)tico|análisis de dat(o|os))\b',
    'gestión de proyectos': r'\b(gesti(ó|o)n de proyect(o|os)|scrum|agile)\b',
    'atención al cliente': r'\b(atenci(ó|o)n al client(e|es)|interacci(ó|o)n con client(e|es))\b',
    'ágil': r'\b(ágil)\b',
    'colaborativo': r'\b(colaborativo)\b',
    'resiliencia': r'\b(resiliencia)\b',
    'empatía': r'\b(empat(í|i)a)\b',
    'gestión efectiva del tiempo': r'\b(gestión efectiva del tiempo)\b',
    'trabajar de manera autónoma': r'\b(habilidad para trabajar de manera autónoma)\b',
    'entorno acelerado': r'\b(ambiente de trabajo acelerado)\b'
}

def label_soft_skills_it(text, language):
    labels = []

    # Etiquetado basado en expresiones regulares
    if language == 'en':
        soft_skills_regex = soft_skills_regex_en_it
    elif language == 'es':
        soft_skills_regex = soft_skills_regex_es_it
    else:
        raise ValueError("Idioma no admitido")

    for skill, regex_pattern in soft_skills_regex.items():
        if re.search(regex_pattern, text, flags=re.IGNORECASE):
            labels.append(skill)

    return labels

# Ejemplo de uso con la postulación proporcionada
text_es = "Como Data Scientist en nuestro equipo, participarás en la identificación de patrones y tendencias a partir de grandes conjuntos de datos. Se valora la capacidad de presentar resultados de manera clara y persuasiva."

# Identificar habilidades blandas
language = detect(text_es)
skills = label_soft_skills_it(text_es, language)

# Imprimir resultados
print(f"Idioma: {language}")
print(f"Habilidades blandas identificadas: {skills}")


Idioma: es
Habilidades blandas identificadas: ['comunicación']


In [7]:
# Carpeta que contiene archivos de postulaciones
folder_path = "Applications"
postulation_data = []

for i in range(1, 58):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    skills = label_soft_skills_it(text, language)

    # Almacenar datos de postulación y habilidades blandas
    postulation_data.append({
        'file_number': file_number,
        'language': language,
        'text': text,
        'soft_skills': skills
    })

# Imprimir resultados o realizar otras acciones según sea necesario
for data in postulation_data:
    print(f"\nPostulación {data['file_number']}:")
    print(f"Idioma: {data['language']}")
    print(f"Habilidades blandas identificadas: {data['soft_skills']}")


Postulación 01:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo', 'habilidades analíticas']

Postulación 02:
Idioma: es
Habilidades blandas identificadas: ['comunicación']

Postulación 03:
Idioma: es
Habilidades blandas identificadas: ['resolución de problemas', 'adaptabilidad']

Postulación 04:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 05:
Idioma: es
Habilidades blandas identificadas: ['habilidades analíticas']

Postulación 06:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 07:
Idioma: es
Habilidades blandas identificadas: ['ágil', 'colaborativo']

Postulación 08:
Idioma: es
Habilidades blandas identificadas: ['resiliencia', 'empatía']

Postulación 09:
Idioma: es
Habilidades blandas identificadas: ['adaptabilidad']

Postulación 10:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 11:
Idioma: en
Habil

In [8]:
import pandas as pd
# Crear un DataFrame a partir de los datos etiquetados
labeled_data = pd.DataFrame(postulation_data)

In [9]:
labeled_data.describe()

Unnamed: 0,file_number,language,text,soft_skills
count,57,57,57,57
unique,57,2,57,41
top,1,es,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo]"
freq,1,31,1,7


In [10]:
labeled_data

Unnamed: 0,file_number,language,text,soft_skills
0,1,es,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo, habilidades ..."
1,2,es,"Como Data Scientist en nuestro equipo, partici...",[comunicación]
2,3,es,Estamos en busca de un Data Scientist apasiona...,"[resolución de problemas, adaptabilidad]"
3,4,es,Únete a nuestro equipo como Data Scientist y c...,"[comunicación, trabajo en equipo]"
4,5,es,Estamos contratando un Data Scientist con habi...,[habilidades analíticas]
5,6,es,Buscamos un profesional de Data Science para l...,"[comunicación, trabajo en equipo]"
6,7,es,Únete a nuestro equipo dinámico como Data Scie...,"[ágil, colaborativo]"
7,8,es,Estamos contratando un Data Scientist experime...,"[resiliencia, empatía]"
8,9,es,"Como Data Scientist, trabajarás en proyectos d...",[adaptabilidad]
9,10,es,Buscamos un Data Scientist con una sólida base...,"[comunicación, trabajo en equipo]"


In [11]:
labeled_data.to_csv('label_data.csv', index=False, sep=";")