In [9]:
import pandas as pd
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from surprise.prediction_algorithms import KNNBasic
from surprise import accuracy

#Cargar los datos de los archivos CSVs
jobs_df = pd.read_csv('jobs.csv',sep='\t')
ratings_df = pd.read_csv('ratings_section.csv')
sections_df = pd.read_csv('section.csv')

# Crear todas las combinaciones de secciones y trabajos
all_combinations = pd.MultiIndex.from_product([sections_df['id'], jobs_df['Jobid']], names=['sectionId', 'Jobid'])
all_combinations_df = pd.DataFrame(index=all_combinations).reset_index()

# Unir las combinaciones con los ratings
#merged_df = all_combinations_df.merge(ratings_df, on='sectionId', how='left')
merged_df = all_combinations_df.merge(ratings_df, on='section', how='left')

# Unir las combinaciones con los nombres de sección
merged_df = merged_df.merge(sections_df, left_on='sectionId', right_on='id', how='left')

# Unir las combinaciones con los datos de los trabajos
merged_df = merged_df.merge(jobs_df, left_on='Jobid', right_on='Jobid', how='left')

# Eliminar filas con valores NaN
merged_df.dropna(subset=['rating'], inplace=True)

#Preparar los datos para Surprise
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(merged_df[['sectionname', 'Description', 'rating']], reader)
trainset, testset = train_test_split(data,test_size=0.2)

#Entrenar el modelo de filtro colaborativo (KNNBasic())
knn_model = KNNBasic()
knn_model.fit(trainset)

#Entrenar el modelo basado en contenido (SVD()):
content_model = SVD()
content_model.fit(trainset)

#Calcular la similitud de descripción de trabajo con los sections y sus ratings:
def calculate_similarity(row):
    sectionname = row['sectionname']
    description = row['Description']
    if sectionname is None or pd.isnull(description):
        return 0
    else:
        rating = row['rating']
        similarity = description.lower().count(sectionname.lower()) * rating
        #print(similarity)
        return similarity


#Realizar predicciones combinando los modelos:
predictions = []
max_rating = merged_df['rating'].max()
min_rating = merged_df['rating'].min()

for test_section, test_description, test_rating in testset:
    knn_pred = knn_model.predict(test_section, test_description, test_rating).est
    content_pred = content_model.predict(test_section, test_description, test_rating).est

    similarity_pred_content = calculate_similarity({'sectionname': test_section, 'Description': test_description, 'rating': content_pred})
    similarity_pred_knn = calculate_similarity({'sectionname': test_section, 'Description': test_description, 'rating': knn_pred})

    similarity_hybrid_pred = min((similarity_pred_content + similarity_pred_knn) / 2, 1.0)
    similarity_hybrid_pred = round(similarity_hybrid_pred, 1)

    # Ajustar similarity_hybrid_pred en función del rating de la sección
    section_rating = merged_df.loc[merged_df['sectionname'] == test_section, 'rating'].iloc[0]
    normalized_rating = (section_rating - min_rating) / (max_rating - min_rating)

    similarity_hybrid_pred *= normalized_rating

    predictions.append((test_section, test_description, test_rating, similarity_hybrid_pred))


df_predictions = pd.DataFrame(predictions, columns=['sectionname', 'Description', 'rating','similarity_pred'])

recommendations = merged_df[['Jobid', 'Jobname', 'URL', 'Location', 'Date', 'Company','Description']].merge(df_predictions, on='Description')
recommendations = recommendations.sort_values('similarity_pred', ascending=False)[['Jobname', 'URL', 'Location','Date', 'Company', 'similarity_pred']]
recommendations = recommendations.drop_duplicates(subset=['Jobname'])
print(recommendations)


KeyError: 'section'

In [1]:
import pandas as pd
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from surprise.prediction_algorithms import KNNBasic
from surprise import accuracy
from IPython.display import display, HTML
from sklearn.feature_extraction.text import TfidfVectorizer


In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
def calculate_similarity(test_section,test_description,rating):
    if test_section is None or pd.isnull(test_description):
       return 0
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix = tfidf_vectorizer.fit_transform(
       [test_section,test_description])
    similarity = (tfidf_matrix * 
                  tfidf_matrix.T).A[0, 1] * rating
    return similarity

In [3]:

jobs_df = pd.read_csv('jobs.csv',sep='\t')
ratings_df = pd.read_csv('ratings_section.csv')
sections_df = pd.read_csv('section.csv')
all_combinations = pd.MultiIndex.from_product(
    [sections_df['SectionId'], jobs_df['JobId']], 
    names=['SectionId', 'JobId'])
all_combinations_df = pd.DataFrame(
    index=all_combinations).reset_index()


merged_df = all_combinations_df.merge(
    ratings_df, on='SectionId', how='left')
merged_df = merged_df.merge(
    sections_df, left_on='SectionId',
    right_on='SectionId', how='left')
merged_df = merged_df.merge(
    jobs_df, left_on='JobId', right_on='JobId', how='left')
merged_df['DevelopmentPercentage'].fillna(0, inplace=True)


reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(merged_df[['SectionName', 
    'Description', 'DevelopmentPercentage']], reader)
trainset, testset = train_test_split(
    data,test_size=0.2, random_state=42)
knn_model = KNNBasic(sim_options={'name': 'cosine',
    'user_based': False})
knn_model.fit(trainset)
content_model = SVD()
content_model.fit(trainset)
predictions = []
max_rating = merged_df[
    'DevelopmentPercentage'].max()
min_rating = merged_df[
    'DevelopmentPercentage'].min()

for test_section, test_description, test_rating in testset:
    knn_pred = knn_model.predict(test_section,
                        test_description, test_rating).est
    content_pred = content_model.predict(test_section, 
                        test_description,test_rating).est
    similarity_pred_content = calculate_similarity(test_section,test_description,content_pred)
    similarity_pred_knn = calculate_similarity(test_section,test_description,knn_pred)
    similarity_hybrid_pred = min((similarity_pred_content + similarity_pred_knn) / 2, 1.0)
    similarity_hybrid_pred = round(similarity_hybrid_pred, 1)
    section_rating = merged_df.loc[merged_df['SectionName'] == test_section,'DevelopmentPercentage'].iloc[0]
    normalized_rating = (section_rating - min_rating) / (max_rating - min_rating)
    similarity_hybrid_pred *= normalized_rating
    predictions.append((test_section, test_description, test_rating, similarity_hybrid_pred))

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [4]:
def truncate_text(text, max_words=50):
    words = text.split()
    if len(words) > max_words:
        return ' '.join(words[:max_words]) + '...'
    return text
df_predictions = pd.DataFrame(predictions, columns=['SectionName', 'Description', 'DevelopmentPercentage','Similarity'])
recommendations = merged_df[['JobId', 'JobName', 'URL', 'Location', 'Date', 'Company','Description']].merge(df_predictions, on='Description')
recommendations = recommendations.sort_values('Similarity', ascending=False)[['JobName','Description','URL', 'Location','Date', 'Company', 'Similarity']]
recommendations = recommendations.drop_duplicates(subset=['JobName'])
recommendations = recommendations.loc[recommendations['Similarity'] != 0.0]

top_10_recommendations = recommendations.head(10).copy()

# Aplicar la función de truncado a las columnas 'Description' y 'URL'
top_10_recommendations.loc[:, 'Description'] = top_10_recommendations['Description'].apply(truncate_text)
top_10_recommendations.loc[:, 'URL'] = top_10_recommendations['URL'].apply(truncate_text)

styles = [
    dict(selector="th", props=[("font-size", "12pt"), ("text-align", "center"), ("font-weight", "bold"), ("color", "#6d6d6d"), ("background-color", "#f7f7f9")]),
    dict(selector="td", props=[("font-size", "11pt"), ("text-align", "left"), ("color", "#6d6d6d")]),
    dict(selector="tr:hover", props=[("background-color", "#f5f5f5")]),
    dict(selector="caption", props=[("caption-side", "bottom")])
]

# Aplicar estilo y mostrar la tabla
styled_table = (top_10_recommendations.style
                .set_table_styles(styles)
                .set_caption("Top 10 Recomendaciones de Trabajo")
                .format({'similarity_pred': '{:.2f}'})
                .hide_index())

# Mostrar la tabla
display(HTML(styled_table.to_html()))



JobName,Description,URL,Location,Date,Company,Similarity
Data Governance Advanced,"Somos más de 13 millones de yaperos y 2 millones de empresas que utilizan Yape a diario. Estamos disponibles para todos, lo que nos convierte en una plataforma única y clave del ecosistema digital del Perú. Esperamos que te involucres en discusiones relacionadas con todos los aspectos del desarrollo de...",https://pe.linkedin.com/jobs/view/data-governance-advanced-at-yape-3728091549?refId=Gq8SyH5xpvCyoKRv%2Btc5hA%3D%3D&trackingId=yJIWqMkCR01iDmTNhN8b3g%3D%3D&position=24&pageNum=0&trk=public_jobs_jserp-result_search-card,"La Molina, Lima, Peru",1 week ago,Yape,0.22
Desarrollador full stack,"Tata Consultancy Services es una empresa de servicios de TI, consultoría y soluciones de negocios que se asocia con varias grandes empresas globales para acompañarlos en su trayectoria de transformación. TCS ofrece una cartera integrada enfocada en consultoría y basada en Cognitive de servicios TI, Servicios de Tecnología y Negocios,...",https://pe.linkedin.com/jobs/view/desarrollador-full-stack-at-tata-consultancy-services-3721882245?refId=D%2BME7kl1P7kqbFHwwca%2F3A%3D%3D&trackingId=4TVgQitqOWJYi6l9BcuPag%3D%3D&position=14&pageNum=0&trk=public_jobs_jserp-result_search-card,"Lima, Peru",2 weeks ago,Tata Consultancy Services,0.176
Asistente de Analítica - Tarjeta W,"En Corporación E. Wong nos encontramos en búsqueda de un profesional para nuestro producto Tarjeta W, responsable de mantener actualizada la información para gestión del negocio, haciendo uso eficiente del tiempo. Funciones Gestionar las bases de datos y mantenerlas actualizadas. Actualizar los reportes e indicadores de gestión del negocio, así...",https://pe.linkedin.com/jobs/view/asistente-de-anali%CC%81tica-tarjeta-w-at-corporaci%C3%B3n-e-wong-3733141576?refId=Gq8SyH5xpvCyoKRv%2Btc5hA%3D%3D&trackingId=Oik6PSchW7g0brpQGUohsQ%3D%3D&position=21&pageNum=0&trk=public_jobs_jserp-result_search-card,"Lima, Lima, Peru",1 day ago,Corporación E. Wong,0.176
Analista Programador JAVA FullStack,"Somos Ventura Soluciones , una empresa líder de servicios de tecnología y GOLD PARTNER de SAP, que tiene como misión lograr que las compañías sean más eficientes a través de la implementación de soluciones de software empresarial. Por encargo de uno de nuestro principales clientes, nos encontramos en la búsqueda...",https://pe.linkedin.com/jobs/view/analista-programador-java-fullstack-at-ventura-soluciones-3733594748?refId=aVq%2Bh1ZTchAE05c6Zj5KTQ%3D%3D&trackingId=ZVL0Ft9wTYCLuVZrx1otUg%3D%3D&position=3&pageNum=0&trk=public_jobs_jserp-result_search-card,"Miraflores, Lima, Peru",19 hours ago,Ventura Soluciones,0.176
Desarrollador Web (Especialista en WIX),"Altimea, empresa con más de 15 años de trayectoria como consultora de tecnología e innovación digital, se encuentra en la búsqueda de un Desarrollador Web Especialista en Wix. Requisitos Experiencia demostrable de al menos 3 años con amplio conocimiento de Wix. Experiencia demostrable con Wix en creación de módulos, plugins,...",https://pe.linkedin.com/jobs/view/desarrollador-web-especialista-en-wix-at-altimea-3725342231?refId=hUjTGLlqxxYt1g5OTIJW2A%3D%3D&trackingId=fIVk6Qh2SGCWxuytP%2F8SnQ%3D%3D&position=1&pageNum=0&trk=public_jobs_jserp-result_search-card,"Lima, Lima, Peru",2 weeks ago,Altimea,0.176
Programador Android Nativo,"Somos una empresa especializada en Software para el sector Retail con más de 16 años de experiencia a nivel Latinoamérica. En Retail Custom Solutions estamos buscando el mayor talento, amable, hábil y entusiasta por los nuevos retos para nuestros próximos desarrollos e implementaciones con importantes cadenas Retail, como las realizadas...",https://pe.linkedin.com/jobs/view/programador-android-nativo-at-retail-custom-solutions-per%C3%BA-3733536710?refId=zI8TSiBGB0bxi%2Fn3J7u%2FMw%3D%3D&trackingId=GzdHX1l4Y2W%2BLUJ%2BjIF%2BjQ%3D%3D&position=10&pageNum=0&trk=public_jobs_jserp-result_search-card,"Magdalena del Mar, Lima, Peru",1 day ago,Retail Custom Solutions Perú,0.133333
Programador full stack,Somos una empresa de desarrollo de software de vanguardia con una pasión desenfrenada por la innovación y la creatividad. Nuestro equipo de talentosos profesionales se dedica a crear soluciones tecnológicas disruptivas que impulsen el crecimiento y la transformación digital de nuestros clientes. Con una mentalidad audaz y una mentalidad de...,https://pe.linkedin.com/jobs/view/programador-full-stack-at-voila-agency-3727415835?refId=D%2BME7kl1P7kqbFHwwca%2F3A%3D%3D&trackingId=3D7oVJHQYq7qNXvlRmdgVQ%3D%3D&position=5&pageNum=0&trk=public_jobs_jserp-result_search-card,"San Isidro, Lima, Peru",1 day ago,Voila Agency,0.132
Fullstack Java Developer Senior,"¿Buscas un gran equipo con un alto nivel técnico, donde se valore la proactividad y las ganas de hacer cosas diferentes? ¡ESTE ES TU LUGAR! Somos líderes en soluciones digitales con 25 sedes en los 5 continentes y un equipo de más de 4.500 personas, apoyamos a grandes empresas y...",https://pe.linkedin.com/jobs/view/fullstack-java-developer-senior-at-vass-latam-3719230768?refId=D%2BME7kl1P7kqbFHwwca%2F3A%3D%3D&trackingId=54iWAg%2FW9JxvDDJEyLWH1A%3D%3D&position=24&pageNum=0&trk=public_jobs_jserp-result_search-card,"Lima, Lima, Peru",1 day ago,VASS LATAM,0.132
[A] Fullstack Java Developer Senior,"¿Buscas un gran equipo con un alto nivel técnico, donde se valore la proactividad y las ganas de hacer cosas diferentes? ¡ESTE ES TU LUGAR! Somos líderes en soluciones digitales con 25 sedes en los 5 continentes y un equipo de más de 4.500 personas, apoyamos a grandes empresas y...",https://pe.linkedin.com/jobs/view/a-fullstack-java-developer-senior-at-vass-latam-3731790461?refId=D%2BME7kl1P7kqbFHwwca%2F3A%3D%3D&trackingId=q5aTIYfYGlzAZjlogcdfhQ%3D%3D&position=21&pageNum=0&trk=public_jobs_jserp-result_search-card,"Lima, Lima, Peru",2 days ago,VASS LATAM,0.132
Desarrollador Mobile IOS- Android Semi senior,"¡TE BUSCAMOS DESARROLLADOR JAVA! EVOL es una firma de consultoría de procesos y tecnologías de la información, orientada a apoyar a las organizaciones en el despliegue exitoso de las estrategias empresariales y de transformación digital que permitan hacerlas más grandes, más fuertes y ágiles. Contamos con más de 25 años...",https://pe.linkedin.com/jobs/view/desarrollador-mobile-ios-android-semi-senior-at-evol-tsnet-3731755918?refId=zI8TSiBGB0bxi%2Fn3J7u%2FMw%3D%3D&trackingId=3l5zlPeOrUQOq9kLJP6xqA%3D%3D&position=9&pageNum=0&trk=public_jobs_jserp-result_search-card,"Miraflores, Lima, Peru",2 days ago,EVOL (TSnet),0.132
