<h3>Modelo NLP para etiquetar habilidades blandas en textos de Postulaciones</h3>
<h4>Propósito</h4>
Este código pretende etiquetar habilidades blandas (“soft skills”) en textos sobre perfiles profesionales de IT, específicamente en inglés y español. 
<h4>Funcionalidades<br></h4>
<ul><li>Define dos conjuntos de expresiones regulares para detectar habilidades blandas en inglés (soft_skills_regex_en_it) y español (soft_skills_regex_es_it) enfocadas en perfiles de IT.<br>
<li>La función label_soft_skills_it recibe un texto y el idioma como parámetros.<br>
<li>Utiliza las expresiones regulares definidas previamente para buscar matches en el texto.<br>
<li>Por cada match, agrega la habilidad blanda correspondiente a la lista de etiquetas (labels).<br>
<li>Devuelve la lista de habilidades blandas encontradas en el texto.


In [1]:
import os
import re
from langdetect import detect

# Conjunto de expresiones regulares para habilidades blandas en inglés para IT
soft_skills_regex_en_it = {
    'communication': r'\b(communicat(e|ion)|docum(ent|entation)|presentati(on|ons)|persuasiv(e|o)|collaborat(e|ion|ions)|multidisciplinary|communicate results effectively|trusted technical advisor|effective communication|communicating findings)\b',
    'interpersonal skills': r'\b(interpersonal skill(s)|resilience|empathy)\b',
    'teamwork': r'\b((work|working|worked) with( our)? (team|group|customer|partner)s?)|((team(work|working)|collaborat(e|ion|ions)|collaborate|multidisciplinary))\b',
    'problem solving': r'\b(problem solv(e|ing)|analytic(al|s))\b',
    'creativity': r'\b(creativ(e|ity)|innovat(e|ion|ive)|generating new insights)\b',
    'adaptability': r'\b(adap(t|ting)|adaptabilit(y|ies)|flexibilit(y|ies)|learn(ing|s) new technolog(y|ies))\b',
    'attention to detail': r'\b(attention to detail|detail|defect(s|ions))\b',
    'leadership': r'\b(leadership|stakehold(er|ers) manag(e|ement)|mentor(ing|ship))\b',
    'analytical skills': r'\b(analytic(al|s) think(ing|s)|data analys(is|es)|analyzing data|extracting insights|uncovering insights)\b',
    'project management': r'\b(project manag(e|ement)|scrum|agile)\b',
    'customer service': r'\b(customer servic(e|e)|client interact(ion|ions)|work with customers)\b',
    'proactivity': r'\b(proactiv(e|ity)|passionat(e)|motivat(ed)|take initiative|ability to work autonomously|study|explore|research)\b',
    'results orientation': r'\b(results orient(ed|ation)|positively impact(s)|generating value)\b',
    'time management': r'\b(effective time manag(e|ement))\b',
    'fast-paced environment': r'\b(fast-paced environment)\b',
    'mentoring/teaching': r'\b(ment(or|oring|orship)|teach(ing|er))\b'
}


# Conjunto de expresiones regulares para habilidades blandas en español para IT
soft_skills_regex_es_it = {
    'comunicación': r'\b(comunic(ar|ación)|document(ar|ación)|presentaci(ón|ones)|persuasiv(o|a)|colaboraci(ó|o)n|multidisciplinari(a|o|as|os)|comunicar resultad(o|os) de manera efectiva|asesor téncico (de confianza|confiable)|comunicación efectiva|comunicar hallazgos)\b',
    'habilidades interpersonales': r'\b(habilidad(es) interpersonal(es)|resiliencia|empatía)',
    'trabajo en equipo': r'\b((trabaj(o|ar|ando)|trabaj(o|ar|ando)) con( nuestro)? (equipo|grupo|cliente|socio)s?)|(trabaj(o|ar|ando) en equipo|colabora(r|ción|tivo)|multidisciplinari(a|o|as|os))\b',
    'resolución de problemas': r'\b(resoluci(ó|o)n de problem(a|as)|anal(í|i)tico)\b',
    'creatividad': r'\b(creatividad|creativ(o|a|os|as)|innovador(a|as|es)|innovaci(ó|o)n|generar nuevos insights)\b',
    'adaptabilidad': r'\b(adapt(arse|ándose|abilidad)|flexibilidad|aprend(e|izaj)e de nueva(s)? tecnolog(í|i)a(s)?|trabajar bajo presión)\b',
    'atención al detalle': r'\b(atenci(ó|o)n al detalle|detalle|defecto(s)?)\b',
    'liderazgo': r'\b(liderazgo|gesti(ó|o)n de stakehold(er|ers)|mentor(ía|ear))\b',
    'habilidades analíticas': r'\b(pensamiento analítico|análisis de dat(o|os)|analizar datos|extraer insights|descubrir insights)\b',
    'gestión de proyectos': r'\b(gesti(ó|o)n de proyect(o|os)|scrum|agile|ágil)\b',
    'atención al cliente': r'\b(atenci(ó|o)n al client(e|es)|interacci(ó|o)n con client(e|es)|trabj(o|ar) con clientes)\b',
    'proactividad': r'\b(proactiv(o|a|idad)|apasionad(o|a)|motivad(o|a)|tomar iniciativa|habilidad para trabajar de manera autónoma|estudi(o|ar)|explorar|investigar)\b',
    'orientación a resultados': r'\b(orientad(o|a) a resultados|impact(o|ar) positiv(o|amente)|generar valor)\b',
    'gestión efectiva del tiempo': r'\b(gestión efectiva del tiempo)\b',
    'entorno acelerado': r'\b(ambiente de trabajo acelerado)\b',
    'mentoría/enseñanza': r'\b(ment(or|oría|orear)|enseñar|docente)\b'
}

def label_soft_skills_it(text, language):
    labels = []

    # Etiquetado basado en expresiones regulares
    if language == 'en':
        soft_skills_regex = soft_skills_regex_en_it
    elif language == 'es':
        soft_skills_regex = soft_skills_regex_es_it
    else:
        raise ValueError("Idioma no admitido")

    for skill, regex_pattern in soft_skills_regex.items():
        if re.search(regex_pattern, text, flags=re.IGNORECASE):
            labels.append(skill)

    return labels

# # Ejemplo de uso con la postulación proporcionada
# text_es = "Como Data Scientist en nuestro equipo, participarás en la identificación de patrones y tendencias a partir de grandes conjuntos de datos. Se valora la capacidad de presentar resultados de manera clara y persuasiva."

# # Identificar habilidades blandas
# language = detect(text_es)
# skills = label_soft_skills_it(text_es, language)

# # Imprimir resultados
# print(f"Idioma: {language}")
# print(f"Habilidades blandas identificadas: {skills}")


El siguiente script se encarga de procesar archivos de texto ubicados en una carpeta especificada ("Applications"), identificar el idioma del texto y extraer habilidades blandas utilizando técnicas de procesamiento de lenguaje natural (NLP).<br>
Itera sobre todos los archivos de texto presentes en la carpeta "Applications".<br>
Se almacenan los datos relevantes de cada postulación en una lista de diccionarios llamada postulation_data.<br>
Cada diccionario contiene información como el nombre del archivo, el idioma detectado, el texto del archivo y las habilidades blandas identificadas.

In [2]:
import os

# Carpeta que contiene archivos de postulaciones
folder_path = "Applications"
postulation_data = []

# Obtener lista de archivos en la carpeta
file_list = os.listdir(folder_path)

for file_name in file_list:
    if file_name.endswith(".txt"):  # Asegurarse de que solo procese archivos de texto
        file_path = os.path.join(folder_path, file_name)

        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read()

        # Identificar habilidades blandas
        language = detect(text)
        skills = label_soft_skills_it(text, language)

        # Almacenar datos de postulación y habilidades blandas
        postulation_data.append({
            'file_name': file_name,
            'language': language,
            'text': text,
            'soft_skills': skills
        })

# Imprimir resultados o realizar otras acciones según sea necesario
for data in postulation_data:
    print(f"\nPostulación {data['file_name']}:")
    print(f"Idioma: {data['language']}")
    print(f"Habilidades blandas identificadas: {data['soft_skills']}")


Postulación App_001.txt:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo', 'habilidades analíticas', 'proactividad']

Postulación App_002.txt:
Idioma: es
Habilidades blandas identificadas: ['comunicación']

Postulación App_003.txt:
Idioma: es
Habilidades blandas identificadas: ['resolución de problemas', 'adaptabilidad', 'proactividad']

Postulación App_004.txt:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación App_005.txt:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'habilidades analíticas']

Postulación App_006.txt:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación App_007.txt:
Idioma: es
Habilidades blandas identificadas: ['trabajo en equipo', 'gestión de proyectos']

Postulación App_008.txt:
Idioma: es
Habilidades blandas identificadas: ['habilidades interpersonales']

Postulación App_009.txt:
Idioma: es
Habilidades blandas identificada

A continuación creo un DataFrame con los datos etiquetados. <br>
El DataFrame consta de 4 columnas: file_number; language; text; soft_skills

In [3]:
import pandas as pd
# Crear un DataFrame a partir de los datos etiquetados
labeled_data = pd.DataFrame(postulation_data)

In [4]:
labeled_data.describe()

Unnamed: 0,file_name,language,text,soft_skills
count,207,207,207,207
unique,207,2,204,150
top,App_001.txt,en,"As a trusted global transformation partner, We...","[comunicación, trabajo en equipo]"
freq,1,134,2,9


In [5]:
labeled_data

Unnamed: 0,file_name,language,text,soft_skills
0,App_001.txt,es,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo, habilidades ..."
1,App_002.txt,es,"Como Data Scientist en nuestro equipo, partici...",[comunicación]
2,App_003.txt,es,Estamos en busca de un Data Scientist apasiona...,"[resolución de problemas, adaptabilidad, proac..."
3,App_004.txt,es,Únete a nuestro equipo como Data Scientist y c...,"[comunicación, trabajo en equipo]"
4,App_005.txt,es,Estamos contratando un Data Scientist con habi...,"[comunicación, habilidades analíticas]"
...,...,...,...,...
202,App_203.txt,en,"We are Kubikware™, a digital agency with 20 ye...","[communication, project management]"
203,App_204.txt,es,En LATAM Airlines Chile cuidamos que los sueño...,[]
204,App_205.txt,en,Trafilea is a dynamic and innovative Tech E-co...,"[communication, teamwork, problem solving, cre..."
205,App_206.txt,en,"As a trusted global transformation partner, We...","[communication, teamwork, creativity, leadersh..."


Creo un archivo 'csv' con la información del DataFrame

In [6]:
labeled_data.to_csv('label_data.csv', index=False, sep=";")

El siguiente script también analiza el texto de las postulaciones, pero una vez que detecta las soft skills, genera un vector con "0" y "1" indicando la ausencia (0) o presencia (1) de cada soft skill.

In [13]:
import os
import pandas as pd

# Crear un DataFrame para almacenar los resultados
columns = ['file_number', 'language', 'text'] + list(soft_skills_regex_en_it.keys()) + list(soft_skills_regex_es_it.keys())
result_df = pd.DataFrame(columns=columns)

# Obtener lista de archivos en la carpeta
file_list = os.listdir(folder_path)

for file_name in file_list:
    if file_name.endswith(".txt"):  # Asegurarse de que solo procese archivos de texto
        file_number = file_name.split("_")[1].split(".")[0]  # Extraer el número de archivo de su nombre
        file_path = os.path.join(folder_path, file_name)

        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read()

        # Identificar el idioma del texto
        language = detect(text)
        
        # Detección de habilidades en idioma correspondiente
        if language == 'en':
            skills = label_soft_skills_it(text, language) 
        elif language == 'es':
            skills = label_soft_skills_it(text, language)

        # Crear un diccionario con la información de la postulación y habilidades blandas
        postulation_info = {
            'file_number': file_number,
            'language': language,
            'text': text,
        }

        # Marcar las habilidades blandas identificadas en el diccionario
        for skill in soft_skills_regex_en_it.keys():
            postulation_info[skill] = 1 if skill in skills else 0
        
        for skill in soft_skills_regex_es_it.keys():
            postulation_info[skill] = 1 if skill in skills else 0
        
    # Agregar diccionario como fila al DataFrame 
    # Pasa el índice explícitamente
    index = [result_df.shape[0]]
    result_df = pd.concat([result_df,pd.DataFrame(postulation_info, index=index)], ignore_index=True)


In [14]:
postulation_info

{'file_number': '207',
 'language': 'en',
 'text': "At Dndrite, we are committed to transforming SMEs with customized technological solutions. We believe in democratizing access to advanced digital tools, enabling businesses of all sizes to thrive in a competitive digital environment, enhancing their reach and growth.\n\n\nRole Description:\n\nWe are looking for a Machine Learning Engineer to join our team. This role involves designing, maintaining, and implementing innovative ML models that address real-world problems for smaller-scale businesses, improving their efficiency and decision-making processes. You will be at the forefront of creating AI-driven solutions that make a tangible difference.\n\n\nResponsibilities:\n\nDevelop and fine-tune algorithms and pre-trained models for various business applications (e.g., Sentiment Analysis, Market Predictions, back-office automation, etc.).\nImplement pattern recognition and data analysis techniques to extract valuable insights, turning r

In [15]:
result_df

Unnamed: 0,file_number,language,text,communication,interpersonal skills,teamwork,problem solving,creativity,adaptability,attention to detail,...,atención al detalle,liderazgo,habilidades analíticas,gestión de proyectos,atención al cliente,proactividad,orientación a resultados,gestión efectiva del tiempo,entorno acelerado,mentoría/enseñanza
0,001,es,Buscamos un Data Scientist altamente motivado ...,0,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
1,002,es,"Como Data Scientist en nuestro equipo, partici...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,003,es,Estamos en busca de un Data Scientist apasiona...,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
3,004,es,Únete a nuestro equipo como Data Scientist y c...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,005,es,Estamos contratando un Data Scientist con habi...,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
202,203,en,"We are Kubikware™, a digital agency with 20 ye...",1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
203,204,es,En LATAM Airlines Chile cuidamos que los sueño...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
204,205,en,Trafilea is a dynamic and innovative Tech E-co...,1,0,1,1,1,0,1,...,0,0,0,0,0,0,0,0,0,0
205,206,en,"As a trusted global transformation partner, We...",1,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
