In [3]:
import pandas as pd
import os
import re
from langdetect import detect
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Código para etiquetar habilidades blandas en postulaciones

# Conjunto de expresiones regulares para habilidades blandas en inglés para IT
soft_skills_regex_en_it = {
    'communication': r'\b(communicat(e|ion)|presentation|persuasiv(e|o)|collaborat(e|ion|ions)|multidisciplinary)\b',
    'teamwork': r'\b(teamwork|collaborat(e|ion|ions)|collaborate|multidisciplinary)\b',
    'problem solving': r'\b(problem solv(e|ing)|analytic(al|s))\b',
    'creativity': r'\b(creativ(e|ity)|innovat(e|ion|ive))\b',
    'adaptability': r'\b(adaptabilit(y|ies)|flexibilit(y|ies)|learn(ing|s) new technolog(y|ies))\b',
    'attention to detail': r'\b(attention to detail|detail|defect(s|ions))\b',
    'leadership': r'\b(leadership|stakehold(er|ers) manag(e|ement))\b',
    'analytical skills': r'\b(analytic(al|s) think(ing|s)|data analys(is|es))\b',
    'project management': r'\b(project manag(e|ement)|scrum|agile)\b',
    'customer service': r'\b(customer servic(e|e)|client interact(ion|ions))\b',
    'time management': r'\b(effective time manag(e|ement))\b',
    'autonomous work': r'\b(ability to work autonomously)\b',
    'fast-paced environment': r'\b(fast-paced environment)\b'
}

# Conjunto de expresiones regulares para habilidades blandas en español para IT
soft_skills_regex_es_it = {
    'comunicación': r'\b(comunicaci(ó|o)n|presentaci(ó|o)n|persuasiv(o|a)|colaboraci(ó|o)n|multidisciplinari(a|o|as|os)|comunicar resultad(os|as) de manera efectiva)\b',
    'trabajo en equipo': r'\b(trabajo en equip(o|a)|colaboraci(ó|o)n|colaborar|multidisciplinari(a|o|as|os)|trabajar en equip(o|a))\b',
    'resolución de problemas': r'\b(resoluci(ó|o)n de problem(a|as)|anal(í|i)tico)\b',
    'creatividad': r'\b(creatividad|creativ(o|a|os|as)|innovador(a|as|es)|innovaci(ó|o)n)\b',
    'adaptabilidad': r'\b(adaptabilidad|flexibilidad|aprend(e|izaj)e de nueva(s)? tecnolog(í|i)a(s)?|trabajar bajo presión)\b',
    'atención al detalle': r'\b(atenci(ó|o)n al detalle|detalle|defecto(s)?)\b',
    'liderazgo': r'\b(liderazgo|gesti(ó|o)n de stakehold(er|ers))\b',
    'habilidades analíticas': r'\b(pensamient(o|a) anal(í|i)tico|análisis de dat(o|os))\b',
    'gestión de proyectos': r'\b(gesti(ó|o)n de proyect(o|os)|scrum|agile)\b',
    'atención al cliente': r'\b(atenci(ó|o)n al client(e|es)|interacci(ó|o)n con client(e|es))\b',
    'ágil': r'\b(ágil)\b',
    'colaborativo': r'\b(colaborativo)\b',
    'resiliencia': r'\b(resiliencia)\b',
    'empatía': r'\b(empat(í|i)a)\b',
    'gestión efectiva del tiempo': r'\b(gestión efectiva del tiempo)\b',
    'trabajar de manera autónoma': r'\b(habilidad para trabajar de manera autónoma)\b',
    'entorno acelerado': r'\b(ambiente de trabajo acelerado)\b'
}

def label_soft_skills_it(text, language):
    labels = []

    # Etiquetado basado en expresiones regulares
    if language == 'en':
        soft_skills_regex = soft_skills_regex_en_it
    elif language == 'es':
        soft_skills_regex = soft_skills_regex_es_it
    else:
        raise ValueError("Idioma no admitido")

    for skill, regex_pattern in soft_skills_regex.items():
        if re.search(regex_pattern, text, flags=re.IGNORECASE):
            labels.append(skill)

    # Convertir la lista de habilidades a una cadena separada por comas
    labels_str = ', '.join(labels)
    return labels_str

# def label_soft_skills_it(text, language):
#     labels = []

#     # Etiquetado basado en expresiones regulares
#     if language == 'en':
#         soft_skills_regex = soft_skills_regex_en_it
#     elif language == 'es':
#         soft_skills_regex = soft_skills_regex_es_it
#     else:
#         raise ValueError("Idioma no admitido")

#     for skill, regex_pattern in soft_skills_regex.items():
#         if re.search(regex_pattern, text, flags=re.IGNORECASE):
#             labels.append(skill)

#     return labels


# Carpeta que contiene archivos de postulaciones
folder_path = "Applications"
postulation_data = []

for i in range(1, 61):
    file_number = str(i).zfill(2)
    file_path = os.path.join(folder_path, f"App_{file_number}.txt")

    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Identificar habilidades blandas
    language = detect(text)
    skills = label_soft_skills_it(text, language)

    # Almacenar datos de postulación y habilidades blandas
    postulation_data.append({
        'file_number': file_number,
        'language': language,
        'text': text,
        'soft_skills': skills
    })

# Crear un DataFrame a partir de los datos etiquetados
labeled_data = pd.DataFrame(postulation_data)


# # Carpeta que contiene archivos de postulaciones
# folder_path = "Applications"
# postulation_data = []

# for i in range(1, 61):
#     file_number = str(i).zfill(2)
#     file_path = os.path.join(folder_path, f"App_{file_number}.txt")

#     with open(file_path, 'r', encoding='utf-8') as file:
#         text = file.read()

#     # Identificar habilidades blandas
#     language = detect(text)
#     skills = label_soft_skills_it(text, language)

#     # Almacenar datos de postulación y habilidades blandas
#     postulation_data.append({
#         'file_number': file_number,
#         'language': language,
#         'text': text,
#         'soft_skills': skills
#     })

# # Crear un DataFrame a partir de los datos etiquetados
# labeled_data = pd.DataFrame(postulation_data)

# Dividir el conjunto de datos en entrenamiento y prueba
train_data, test_data = train_test_split(labeled_data, test_size=0.2, random_state=42)

# Crear un vectorizador TF-IDF
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')

# Vectorizar el texto en entrenamiento y prueba
X_train = vectorizer.fit_transform(train_data['text'])
X_test = vectorizer.transform(test_data['text'])

# Crear un modelo de clasificación (por ejemplo, Random Forest)
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Entrenar el modelo
model.fit(X_train, train_data['soft_skills'])

# Hacer predicciones en el conjunto de prueba
predictions = model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(test_data['soft_skills'], predictions)
print(f"Accuracy: {accuracy}")

# Hacer predicciones en un nuevo texto
new_text = ["Who you are: Excellent verbal communication skills - Strong attention to detail - Have an extreme ownership mindset - Being a team player - Comfortable with working unsupervised"]
new_text_vectorized = vectorizer.transform(new_text)
new_predictions = model.predict(new_text_vectorized)
print(f"Predicted Soft Skills: {new_predictions}")


Accuracy: 0.16666666666666666
Predicted Soft Skills: ['']
