In [79]:
import os
import re
from langdetect import detect

# Conjunto de expresiones regulares para habilidades blandas en inglés para IT
soft_skills_regex_en_it = {
    'communication': r'\b(communicat(e|ion)|docum(ent|entation)|presentati(on|ons)|persuasiv(e|o)|collaborat(e|ion|ions)|multidisciplinary|communicate results effectively|trusted technical advisor)\b',
    'teamwork': r'\b((work|working|worked) with( our)? (team|group|customer|partner)s?)|((teamwork(ing)|collaborat(e|ion|ions)|collaborate|multidisciplinary))\b',
    'problem solving': r'\b(problem solv(e|ing)|analytic(al|s))\b',
    'creativity': r'\b(creativ(e|ity)|innovat(e|ion|ive))\b',
    'adaptability': r'\b(adap(t|ting)|adaptabilit(y|ies)|flexibilit(y|ies)|learn(ing|s) new technolog(y|ies))\b',
    'attention to detail': r'\b(attention to detail|detail|defect(s|ions))\b',
    'leadership': r'\b(leadership|stakehold(er|ers) manag(e|ement)|mentor(ing|ship))\b',
    'analytical skills': r'\b(analytic(al|s) think(ing|s)|data analys(is|es))\b',
    'project management': r'\b(project manag(e|ement)|scrum|agile)\b',
    'customer service': r'\b(customer servic(e|e)|client interact(ion|ions)|work with customers)\b',
    'time management': r'\b(effective time manag(e|ement))\b',
    'autonomous work': r'\b(ability to work autonomously)\b',
    'fast-paced environment': r'\b(fast-paced environment)\b',
    'mentoring/teaching': r'\b(ment(or|oring|orship)|teach(ing|er))\b'
}


# Conjunto de expresiones regulares para habilidades blandas en español para IT
soft_skills_regex_es_it = {
    'comunicación': r'\b(comunicaci(ó|o)n|document(ar|ación)|presentaci(ón|ones) |persuasiv(o|a)|colaboraci(ó|o)n|multidisciplinari(a|o|as|os)|comunicar resultad(o|os) de manera efectiva|asesor téncico (de confianza|confiable))\b',
    'trabajo en equipo': r'\b((trabaj(o|ar|ando)|trabaj(o|ar|ando)) con( nuestro)? (equipo|grupo|cliente|socio)s?)|(trabaj(o|ar) en equip(o|a)|colaboraci(ó|o)n|colaborar|multidisciplinari(a|o|as|os))\b',
    'resolución de problemas': r'\b(resoluci(ó|o)n de problem(a|as)|anal(í|i)tico)\b',
    'creatividad': r'\b(creatividad|creativ(o|a|os|as)|innovador(a|as|es)|innovaci(ó|o)n)\b',
    'adaptabilidad': r'\b(adapt(arse|ándose|abilidad)|flexibilidad|aprend(e|izaj)e de nueva(s)? tecnolog(í|i)a(s)?|trabajar bajo presión)\b',
    'atención al detalle': r'\b(atenci(ó|o)n al detalle|detalle|defecto(s)?)\b',
    'liderazgo': r'\b(liderazgo|gesti(ó|o)n de stakehold(er|ers)|mentor(ía|ear))\b',
    'habilidades analíticas': r'\b(pensamient(o|a) anal(í|i)tico|análisis de dat(o|os))\b',
    'gestión de proyectos': r'\b(gesti(ó|o)n de proyect(o|os)|scrum|agile)\b',
    'atención al cliente': r'\b(atenci(ó|o)n al client(e|es)|interacci(ó|o)n con client(e|es)|trabj(o|ar) con clientes)\b',
    'ágil': r'\b(ágil)\b',
    'colaborativo': r'\b(colaborativo)\b',
    'resiliencia': r'\b(resiliencia)\b',
    'empatía': r'\b(empat(í|i)a)\b',
    'gestión efectiva del tiempo': r'\b(gestión efectiva del tiempo)\b',
    'trabajar de manera autónoma': r'\b(habilidad para trabajar de manera autónoma)\b',
    'entorno acelerado': r'\b(ambiente de trabajo acelerado)\b',
    'mentoría/enseñanza': r'\b(ment(or|oriía|orear)|enseñar|docente)\b'
}

def label_soft_skills_it(text, language):
    labels = []

    # Etiquetado basado en expresiones regulares
    if language == 'en':
        soft_skills_regex = soft_skills_regex_en_it
    elif language == 'es':
        soft_skills_regex = soft_skills_regex_es_it
    else:
        raise ValueError("Idioma no admitido")

    for skill, regex_pattern in soft_skills_regex.items():
        if re.search(regex_pattern, text, flags=re.IGNORECASE):
            labels.append(skill)

    return labels

# Ejemplo de uso con la postulación proporcionada
text_es = "Como Data Scientist en nuestro equipo, participarás en la identificación de patrones y tendencias a partir de grandes conjuntos de datos. Se valora la capacidad de presentar resultados de manera clara y persuasiva."

# Identificar habilidades blandas
language = detect(text_es)
skills = label_soft_skills_it(text_es, language)

# Imprimir resultados
print(f"Idioma: {language}")
print(f"Habilidades blandas identificadas: {skills}")


Idioma: es
Habilidades blandas identificadas: ['comunicación']


In [80]:
# Carpeta que contiene archivos de postulaciones
folder_path = "Applications"
postulation_data = []

for i in range(1, 81):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    skills = label_soft_skills_it(text, language)

    # Almacenar datos de postulación y habilidades blandas
    postulation_data.append({
        'file_number': file_number,
        'language': language,
        'text': text,
        'soft_skills': skills
    })

# Imprimir resultados o realizar otras acciones según sea necesario
for data in postulation_data:
    print(f"\nPostulación {data['file_number']}:")
    print(f"Idioma: {data['language']}")
    print(f"Habilidades blandas identificadas: {data['soft_skills']}")


Postulación 01:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo', 'habilidades analíticas']

Postulación 02:
Idioma: es
Habilidades blandas identificadas: ['comunicación']

Postulación 03:
Idioma: es
Habilidades blandas identificadas: ['resolución de problemas', 'adaptabilidad']

Postulación 04:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 05:
Idioma: es
Habilidades blandas identificadas: ['habilidades analíticas']

Postulación 06:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 07:
Idioma: es
Habilidades blandas identificadas: ['ágil', 'colaborativo']

Postulación 08:
Idioma: es
Habilidades blandas identificadas: ['resiliencia', 'empatía']

Postulación 09:
Idioma: es
Habilidades blandas identificadas: ['adaptabilidad']

Postulación 10:
Idioma: es
Habilidades blandas identificadas: ['comunicación', 'trabajo en equipo']

Postulación 11:
Idioma: en
Habil

In [72]:
import pandas as pd
# Crear un DataFrame a partir de los datos etiquetados
labeled_data = pd.DataFrame(postulation_data)

In [81]:
labeled_data.describe()

Unnamed: 0,file_number,language,text,soft_skills
count,80,80,80,80
unique,80,2,80,59
top,1,en,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo]"
freq,1,43,1,6


In [82]:
labeled_data

Unnamed: 0,file_number,language,text,soft_skills
0,01,es,Buscamos un Data Scientist altamente motivado ...,"[comunicación, trabajo en equipo, habilidades ..."
1,02,es,"Como Data Scientist en nuestro equipo, partici...",[comunicación]
2,03,es,Estamos en busca de un Data Scientist apasiona...,"[resolución de problemas, adaptabilidad]"
3,04,es,Únete a nuestro equipo como Data Scientist y c...,"[comunicación, trabajo en equipo]"
4,05,es,Estamos contratando un Data Scientist con habi...,[habilidades analíticas]
...,...,...,...,...
75,76,en,Dive into a world where code meets creativity ...,"[communication, teamwork, creativity, adaptabi..."
76,77,en,Please submit your resume in English - we can ...,"[communication, adaptability, customer service..."
77,78,es,About The Job\n\nAl asumir la posición de Data...,"[trabajo en equipo, resiliencia]"
78,79,en,Crossover is the world's #1 source of full-tim...,"[communication, creativity]"


In [83]:
labeled_data.to_csv('label_data.csv', index=False, sep=";")

In [85]:
import os
import re
from langdetect import detect
import pandas as pd

# ... (Código anterior)

# Crear un DataFrame para almacenar los resultados
columns = ['file_number', 'language', 'text'] + list(soft_skills_regex_en_it.keys()) + list(soft_skills_regex_es_it.keys()) # Columnas del DataFrame
result_df = pd.DataFrame(columns=columns)

for i in range(1, 81):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    # skills = label_soft_skills_it(text, language)

    # Detección de habilidades en idioma correspondiente
    if language == 'en':
        skills = label_soft_skills_it(text, language) 
    elif language == 'es':
        skills = label_soft_skills_it(text, language)

    # Crear un diccionario con la información de la postulación y habilidades blandas
    postulation_info = {
        'file_number': file_number,
        'language': language,
        'text': text,
    }

    # Marcar las habilidades blandas identificadas en el diccionario
    for skill in soft_skills_regex_en_it.keys():
        postulation_info[skill] = 1 if skill in skills else 0
    
    for skill in soft_skills_regex_es_it.keys():
        postulation_info[skill] = 1 if skill in skills else 0
    
    # Agregar diccionario como fila al DataFrame 
    # Pasa el índice explícitamente
    index = [result_df.shape[0]]
    result_df = pd.concat([result_df,pd.DataFrame(postulation_info, index=index)], ignore_index=True)
    
    # # Agregar el diccionario como una fila al DataFrame
    # result_df = pd.concat([result_df, pd.DataFrame(postulation_info)], ignore_index=True)

# # Imprimir el DataFrame
# print(result_df)

# # Guardar el DataFrame en un archivo CSV si es necesario
# result_df.to_csv('postulation_results.csv', index=False)


In [34]:
postulation_info

{'file_number': '57',
 'language': 'en',
 'text': 'Data Engineer/Machine Learning Engineer \n\n\n\nPosition Summary:\n\n\n\nOur partner is looking for a saavy Data Engineer/Machine Learning Engineer to join a cutting-edge development team and develop top of the industry fintech applications partnering with quantum teams and Data Science teams! In this role you play a crucial role in designing, building and maintaining data pipelines that enable efficient data processing, storage, and analysis. You will be a part of a team that’s building innovative analytical tools and frameworks to exploit advantages in the latest fintech developments in cloud computing. Finally, you will be a crucial part in shaping future highly functional applications to deliver successful high quality, and sustainability of solutions.\n\n\nExperience and Education:\n\n\n\nBS in Computer Engineering or Computer Science, Statistics, Informatics or related experience/field\n5+ years of experience with data management

In [86]:
result_df

Unnamed: 0,file_number,language,text,communication,teamwork,problem solving,creativity,adaptability,attention to detail,leadership,...,gestión de proyectos,atención al cliente,ágil,colaborativo,resiliencia,empatía,gestión efectiva del tiempo,trabajar de manera autónoma,entorno acelerado,mentoría/enseñanza
0,01,es,Buscamos un Data Scientist altamente motivado ...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,02,es,"Como Data Scientist en nuestro equipo, partici...",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,03,es,Estamos en busca de un Data Scientist apasiona...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,04,es,Únete a nuestro equipo como Data Scientist y c...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,05,es,Estamos contratando un Data Scientist con habi...,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,76,en,Dive into a world where code meets creativity ...,1,1,0,1,1,0,0,...,0,0,0,0,0,0,0,0,0,0
76,77,en,Please submit your resume in English - we can ...,1,1,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
77,78,es,About The Job\n\nAl asumir la posición de Data...,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
78,79,en,Crossover is the world's #1 source of full-tim...,1,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [18]:
# Puedes imprimir el tipo del objeto utilizando la función type()
print(type(result_df))

# Luego, puedes verificar específicamente si es un DataFrame de pandas
if isinstance(result_df, pd.DataFrame):
    print("result_df es un DataFrame de pandas")
else:
    print("result_df no es un DataFrame de pandas")

<class 'pandas.core.frame.DataFrame'>
result_df es un DataFrame de pandas
