<h3>Modelo NLP para etiquetar habilidades blandas en textos de Postulaciones</h3>
<h4>Propósito</h4>
Este código pretende etiquetar habilidades blandas (“soft skills”) en textos sobre perfiles profesionales de IT, específicamente en inglés y español. 
<h4>Funcionalidades<br></h4>
<ul><li>Define dos conjuntos de expresiones regulares para detectar habilidades blandas en inglés (soft_skills_regex_en_it) y español (soft_skills_regex_es_it) enfocadas en perfiles de IT.<br>
<li>La función label_soft_skills_it recibe un texto y el idioma como parámetros.<br>
<li>Utiliza las expresiones regulares definidas previamente para buscar matches en el texto.<br>
<li>Por cada match, agrega la habilidad blanda correspondiente a la lista de etiquetas (labels).<br>
<li>Devuelve la lista de habilidades blandas encontradas en el texto.


In [1]:
import os
import re
from langdetect import detect

# Conjunto de expresiones regulares para habilidades blandas en inglés para IT
soft_skills_regex_en_it = {
    'communication': r'\b(communicat(e|ion)|docum(ent|entation)|presentati(on|ons)|persuasiv(e|o)|collaborat(e|ion|ions)|multidisciplinary|communicate results effectively|trusted technical advisor|effective communication|communicating findings)\b',
    'interpersonal skills': r'\b(interpersonal skill(s)|resilience|empathy)\b',
    'teamwork': r'\b((work|working|worked) with( our)? (team|group|customer|partner)s?)|((team(work|working)|collaborat(e|ion|ions)|collaborate|multidisciplinary))\b',
    'problem solving': r'\b(problem solv(e|ing)|analytic(al|s))\b',
    'creativity': r'\b(creativ(e|ity)|innovat(e|ion|ive)|generating new insights)\b',
    'adaptability': r'\b(adap(t|ting)|adaptabilit(y|ies)|flexibilit(y|ies)|learn(ing|s) new technolog(y|ies))\b',
    'attention to detail': r'\b(attention to detail|detail|defect(s|ions))\b',
    'leadership': r'\b(leadership|stakehold(er|ers) manag(e|ement)|mentor(ing|ship))\b',
    'analytical skills': r'\b(analytic(al|s) think(ing|s)|data analys(is|es)|analyzing data|extracting insights|uncovering insights)\b',
    'project management': r'\b(project manag(e|ement)|scrum|agile)\b',
    'customer service': r'\b(customer servic(e|e)|client interact(ion|ions)|work with customers)\b',
    'proactivity': r'\b(proactiv(e|ity)|passionat(e)|motivat(ed)|take initiative|ability to work autonomously|study|explore|research)\b',
    'results orientation': r'\b(results orient(ed|ation)|positively impact(s)|generating value)\b',
    'time management': r'\b(effective time manag(e|ement))\b',
    'fast-paced environment': r'\b(fast-paced environment)\b',
    'mentoring/teaching': r'\b(ment(or|oring|orship)|teach(ing|er))\b'
}


# Conjunto de expresiones regulares para habilidades blandas en español para IT
soft_skills_regex_es_it = {
    'comunicación': r'\b(comunic(ar|ación)|document(ar|ación)|presentaci(ón|ones)|persuasiv(o|a)|colaboraci(ó|o)n|multidisciplinari(a|o|as|os)|comunicar resultad(o|os) de manera efectiva|asesor téncico (de confianza|confiable)|comunicación efectiva|comunicar hallazgos)\b',
    'habilidades interpersonales': r'\b(habilidad(es) interpersonal(es)|resiliencia|empatía)',
    'trabajo en equipo': r'\b((trabaj(o|ar|ando)|trabaj(o|ar|ando)) con( nuestro)? (equipo|grupo|cliente|socio)s?)|(trabaj(o|ar|ando) en equipo|colabora(r|ción|tivo)|multidisciplinari(a|o|as|os))\b',
    'resolución de problemas': r'\b(resoluci(ó|o)n de problem(a|as)|anal(í|i)tico)\b',
    'creatividad': r'\b(creatividad|creativ(o|a|os|as)|innovador(a|as|es)|innovaci(ó|o)n|generar nuevos insights)\b',
    'adaptabilidad': r'\b(adapt(arse|ándose|abilidad)|flexibilidad|aprend(e|izaj)e de nueva(s)? tecnolog(í|i)a(s)?|trabajar bajo presión)\b',
    'atención al detalle': r'\b(atenci(ó|o)n al detalle|detalle|defecto(s)?)\b',
    'liderazgo': r'\b(liderazgo|gesti(ó|o)n de stakehold(er|ers)|mentor(ía|ear))\b',
    'habilidades analíticas': r'\b(pensamiento analítico|análisis de dat(o|os)|analizar datos|extraer insights|descubrir insights)\b',
    'gestión de proyectos': r'\b(gesti(ó|o)n de proyect(o|os)|scrum|agile|ágil)\b',
    'atención al cliente': r'\b(atenci(ó|o)n al client(e|es)|interacci(ó|o)n con client(e|es)|trabj(o|ar) con clientes)\b',
    'proactividad': r'\b(proactiv(o|a|idad)|apasionad(o|a)|motivad(o|a)|tomar iniciativa|habilidad para trabajar de manera autónoma|estudi(o|ar)|explorar|investigar)\b',
    'orientación a resultados': r'\b(orientad(o|a) a resultados|impact(o|ar) positiv(o|amente)|generar valor)\b',
    'gestión efectiva del tiempo': r'\b(gestión efectiva del tiempo)\b',
    'entorno acelerado': r'\b(ambiente de trabajo acelerado)\b',
    'mentoría/enseñanza': r'\b(ment(or|oría|orear)|enseñar|docente)\b'
}

def label_soft_skills_it(text, language):
    labels = []

    # Etiquetado basado en expresiones regulares
    if language == 'en':
        soft_skills_regex = soft_skills_regex_en_it
    elif language == 'es':
        soft_skills_regex = soft_skills_regex_es_it
    else:
        raise ValueError("Idioma no admitido")

    for skill, regex_pattern in soft_skills_regex.items():
        if re.search(regex_pattern, text, flags=re.IGNORECASE):
            labels.append(skill)

    return labels

# # Ejemplo de uso con la postulación proporcionada
# text_es = "Como Data Scientist en nuestro equipo, participarás en la identificación de patrones y tendencias a partir de grandes conjuntos de datos. Se valora la capacidad de presentar resultados de manera clara y persuasiva."

# # Identificar habilidades blandas
# language = detect(text_es)
# skills = label_soft_skills_it(text_es, language)

# # Imprimir resultados
# print(f"Idioma: {language}")
# print(f"Habilidades blandas identificadas: {skills}")


In [2]:
# Carpeta que contiene archivos de postulaciones
folder_path = "Applications"
postulation_data = []

for i in range(1, 186):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    skills = label_soft_skills_it(text, language)

    # Almacenar datos de postulación y habilidades blandas
    postulation_data.append({
        'file_number': file_number,
        'language': language,
        'text': text,
        'soft_skills': skills
    })

# Imprimir resultados o realizar otras acciones según sea necesario
for data in postulation_data:
    print(f"\nPostulación {data['file_number']}:")
    print(f"Idioma: {data['language']}")
    print(f"Habilidades blandas identificadas: {data['soft_skills']}")


Postulación 01:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo', 'habilidades analíticas', 'proactividad']

Postulación 02:
Idioma: es
Habilidades blandas identificadas: ['comunicación']

Postulación 03:
Idioma: es
Habilidades blandas identificadas: ['resolución de problemas', 'adaptabilidad', 'proactividad']

Postulación 04:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 05:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'habilidades analíticas']

Postulación 06:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 07:
Idioma: es
Habilidades blandas identificadas: ['trabajo en equipo', 'gestión de proyectos']

Postulación 08:
Idioma: es
Habilidades blandas identificadas: ['habilidades interpersonales']

Postulación 09:
Idioma: es
Habilidades blandas identificadas: ['adaptabilidad']

Postulación 10:
Idioma: es
Habilidades blandas identificada

In [3]:
import pandas as pd
# Crear un DataFrame a partir de los datos etiquetados
labeled_data = pd.DataFrame(postulation_data)

In [4]:
labeled_data.describe()

Unnamed: 0,file_number,language,text,soft_skills
count,185,185,185,185
unique,185,2,184,138
top,1,en,"Launchpad, a people-first technology company, ...","[comunicación, trabajo en equipo]"
freq,1,118,2,9


In [5]:
labeled_data

Unnamed: 0,file_number,language,text,soft_skills
0,01,es,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo, habilidades ..."
1,02,es,"Como Data Scientist en nuestro equipo, partici...",[comunicación]
2,03,es,Estamos en busca de un Data Scientist apasiona...,"[resolución de problemas, adaptabilidad, proac..."
3,04,es,Únete a nuestro equipo como Data Scientist y c...,"[comunicación, trabajo en equipo]"
4,05,es,Estamos contratando un Data Scientist con habi...,"[comunicación, habilidades analíticas]"
...,...,...,...,...
180,181,en,"As a trusted global transformation partner, We...","[communication, teamwork, creativity, leadersh..."
181,182,en,Development of modern tools for working with A...,"[communication, interpersonal skills, teamwork..."
182,183,en,"Join phData, a dynamic and innovative leader i...","[communication, problem solving, creativity, l..."
183,184,en,"Responsibilities \nDevelop reliable, reusable,...","[communication, teamwork, problem solving, ana..."


In [6]:
labeled_data.to_csv('label_data.csv', index=False, sep=";")

In [7]:
import os
import re
from langdetect import detect
import pandas as pd

# Crear un DataFrame para almacenar los resultados
columns = ['file_number', 'language', 'text'] + list(soft_skills_regex_en_it.keys()) + list(soft_skills_regex_es_it.keys()) # Columnas del DataFrame
result_df = pd.DataFrame(columns=columns)

for i in range(1, 186):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    # skills = label_soft_skills_it(text, language)

    # Detección de habilidades en idioma correspondiente
    if language == 'en':
        skills = label_soft_skills_it(text, language) 
    elif language == 'es':
        skills = label_soft_skills_it(text, language)

    # Crear un diccionario con la información de la postulación y habilidades blandas
    postulation_info = {
        'file_number': file_number,
        'language': language,
        'text': text,
    }

    # Marcar las habilidades blandas identificadas en el diccionario
    for skill in soft_skills_regex_en_it.keys():
        postulation_info[skill] = 1 if skill in skills else 0
    
    for skill in soft_skills_regex_es_it.keys():
        postulation_info[skill] = 1 if skill in skills else 0
    
    # Agregar diccionario como fila al DataFrame 
    # Pasa el índice explícitamente
    index = [result_df.shape[0]]
    result_df = pd.concat([result_df,pd.DataFrame(postulation_info, index=index)], ignore_index=True)


In [8]:
postulation_info

{'file_number': '185',
 'language': 'en',
 'text': 'EPAM is a leading global provider of digital platform engineering and development services. We are committed to having a positive impact on our customers, our employees, and our communities. We embrace a dynamic and inclusive culture. Here you will collaborate with multi-national teams, contribute to a myriad of innovative projects that deliver the most creative and cutting-edge solutions, and have an opportunity to continuously learn and grow. No matter where you are located, you will join a dedicated, creative, and diverse community that will help you discover your fullest potential.\n\nWe are looking for a Senior Machine Learning Engineer who can design and implement standardized processes and technology capabilities for building, deploying and operating ML systems rapidly and reliably. To provide leadership in defining and implementing strategies and tools, working with internal and external stakeholders.\n\nHalf of the time is de

In [9]:
result_df

Unnamed: 0,file_number,language,text,communication,interpersonal skills,teamwork,problem solving,creativity,adaptability,attention to detail,...,atención al detalle,liderazgo,habilidades analíticas,gestión de proyectos,atención al cliente,proactividad,orientación a resultados,gestión efectiva del tiempo,entorno acelerado,mentoría/enseñanza
0,01,es,Buscamos un Data Scientist altamente motivado ...,0,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
1,02,es,"Como Data Scientist en nuestro equipo, partici...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,03,es,Estamos en busca de un Data Scientist apasiona...,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
3,04,es,Únete a nuestro equipo como Data Scientist y c...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,05,es,Estamos contratando un Data Scientist con habi...,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
180,181,en,"As a trusted global transformation partner, We...",1,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
181,182,en,Development of modern tools for working with A...,1,1,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
182,183,en,"Join phData, a dynamic and innovative leader i...",1,0,0,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
183,184,en,"Responsibilities \nDevelop reliable, reusable,...",1,0,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [18]:
# Puedes imprimir el tipo del objeto utilizando la función type()
print(type(result_df))

# Luego, puedes verificar específicamente si es un DataFrame de pandas
if isinstance(result_df, pd.DataFrame):
    print("result_df es un DataFrame de pandas")
else:
    print("result_df no es un DataFrame de pandas")

<class 'pandas.core.frame.DataFrame'>
result_df es un DataFrame de pandas


El siguiente código:

- Lee los datos de prueba desde CSV
- Divide en train y test
- Entrena el modelo de RegEx
- Evalúa en test comparando con el baseline
- Imprime métricas de ambos<br>
De esta forma se automatiza la evaluación completa leyendo los datos desde CSV.

In [24]:
import csv
import random
from sklearn.metrics import precision_recall_fscore_support
from sklearn.model_selection import train_test_split
import regex_model

# Leer datos de prueba desde CSV
test_data = []
with open('labels_data.csv') as f:
  reader = csv.reader(f, delimiter=';')
  for row in reader:
    num, lang, text, labels = row
    test_data.append({
      'text': text,
      'labels': labels.strip('[]{}').split(',') 
    })

# Dividir datos en train y test
train_data, test_data = train_test_split(test_data, test_size=0.2)

# Clasificador baseline aleatorio
def random_classifier(text):
  return random.sample(regex_model.soft_skills_regex_es_it.keys(),  
                       random.randint(0, len(regex_model.soft_skills_regex_es_it)))

# Evaluación
def evaluate(model, data):
  X = [item['text'] for item in data]
  y_true = [item['labels'] for item in data]
  y_pred = [model(x) for x in X]

  precision, recall, f1, _ = precision_recall_fscore_support(y_true, y_pred, average='micro')
  print(f'Precision: {precision:.3f}, Recall: {recall:.3f}, F1 Score: {f1:.3f}')

# Entrenar y evaluar modelo de RegEx
regex_model.train(train_data) 
print('RegEx Model:')
evaluate(regex_model.predict, test_data)

# Entrenar y evaluar baseline
print('\nRandom Baseline:')
evaluate(random_classifier, test_data)

ModuleNotFoundError: No module named 'regex_model'