# **1. Llamada a la API de OpenAI**

Para cada búsqueda realizada de los distintos empleos en Madrid hemos obtenido varias ofertas de trabajo, de las cuales tenemos su correspondiente descripción. Para cada descripción se pretende obtener cúanto se ajusta dicha oferta al puesto para el cual se realizó la búsqueda, por ejemplo cuanto se ajusta la descripción a un puesto de Data Science, cuál es el nivel de inglés si se pidiera, los años de experiencia si se pidieran, las hard skill necesarias y las hard skills deseables.

Para llevar a cabo esta tarea usaremos IA generativa a través de la API de OpenAI, la cual se encargará de llevar a cabo la labor de extraer de cada oferta la información deseada.

In [4]:
%load_ext autoreload
%autoreload 2

#from googletrans import Translator
from difflib import SequenceMatcher
from dotenv import load_dotenv
import ast
import pandas as pd
import pickle
import json
import os

import sys
sys.path.append("../")

from src import funciones_transformacion as f_transform
from src import funciones_bbdd as f_bbdd

load_dotenv()

True

El primer paso es obtener el listado de los archivos para ambas plataformas en las que se encuentren las descripciones de las ofertas de trabajo.

In [8]:
lista_ofertas=[]

# Files de infojobs
folder_path_infojobs = "../scraping_infojobs/datos_limpios/"
files_infojobs = os.listdir(folder_path_infojobs)
[lista_ofertas.append(folder_path_infojobs + file) for file in files_infojobs]

# Files de linkedin
folder_path_linkedin = "../scraping_linkedin/data/datos_descripcion_ofertas/"
files_linkedin = os.listdir(folder_path_linkedin)
[lista_ofertas.append(folder_path_linkedin + file) for file in files_linkedin]

lista_ofertas

['../scraping_infojobs/datos_limpios/infojobs_data_analyst.csv',
 '../scraping_infojobs/datos_limpios/infojobs_data_engineer.csv',
 '../scraping_infojobs/datos_limpios/infojobs_data_science.csv',
 '../scraping_linkedin/data/datos_descripcion_ofertas/linkedin_data_analyst.csv',
 '../scraping_linkedin/data/datos_descripcion_ofertas/linkedin_data_engineer.csv',
 '../scraping_linkedin/data/datos_descripcion_ofertas/linkedin_data_science.csv']

El siguiente función de `extracion_datos_descripciones` se encargá de extraer de la descripción los años de experiencia que piden, el nivel de inglés, las hard skills necesarias, las hard skill deseables y un porcentaje de ajuste. Este porcetaje representa cuanto se ajusta la descripción de la oferta en cuanto al puesto para el que se realizó la busqueda, por ejemplo, Data analyst. Todos estos datos se añadirán a un json que se irá almacenando en la carpeta `data/response_openai` en este mismo directorio.

In [9]:
f_transform.extracion_datos_descripciones(lista_ofertas)

True
Analizando el archivo -infojobs_data_analyst.csv- de la categoria: Data analyst, con shape: (108, 9)
Analizando el archivo -infojobs_data_engineer.csv- de la categoria: Data engineer, con shape: (73, 9)
Analizando el archivo -infojobs_data_science.csv- de la categoria: Data science, con shape: (39, 9)
Analizando el archivo -linkedin_data_analyst.csv- de la categoria: Data analyst, con shape: (934, 8)
Analizando el archivo -linkedin_data_engineer.csv- de la categoria: Data engineer, con shape: (948, 8)
Analizando el archivo -linkedin_data_science.csv- de la categoria: Data science, con shape: (745, 8)


_________________________________________________

## **Limpieza de los JSON**

Una vez tenemos las skills de cada oferta hay que hacer un primer filtrado general de estas skills pues en total tenemos alrededor de 3000. Por lo tanto vamos a agrupar skills que se refieren a una herramienta pero han sido recogidas con distintos nombres en cada oferta como: PowerBi, Power BI, experto en PowerBi, todo ello lo pasaremos a un mismo término y asi se pretende reducir el número de skill.

In [21]:
f_transform.extraer_y_guardar_skills_filtradas()

Filtrando las skills del archivo: transformed_infojobs_data_analyst.json
Filtrando las skills del archivo: transformed_infojobs_data_engineer.json
Filtrando las skills del archivo: transformed_infojobs_data_science.json
Filtrando las skills del archivo: transformed_linkedin_data_analyst.json
Filtrando las skills del archivo: transformed_linkedin_data_engineer.json
Filtrando las skills del archivo: transformed_linkedin_data_science.json

Skills filtradas y guardadas correctamente.


Comprobamos cuantas skills en total había antes y después del filtrado:

In [34]:
lista_skills = f_transform.contador_skills("data/response_openai/")

lista_skills = f_transform.contador_skills("data/skills_filtradas/")


Contando skills de los archivos: ['transformed_infojobs_data_analyst.json', 'transformed_infojobs_data_engineer.json', 'transformed_infojobs_data_science.json', 'transformed_linkedin_data_analyst.json', 'transformed_linkedin_data_engineer.json', 'transformed_linkedin_data_science.json']
Se han encontrado 3210 skills diferentes.

Contando skills de los archivos: ['filtered_transformed_infojobs_data_analyst.json', 'filtered_transformed_infojobs_data_engineer.json', 'filtered_transformed_infojobs_data_science.json', 'filtered_transformed_linkedin_data_analyst.json', 'filtered_transformed_linkedin_data_engineer.json', 'filtered_transformed_linkedin_data_science.json']
Se han encontrado 2464 skills diferentes.



Hemos conseguido reducir el número total de skills unas 800, sin embargo, seguir manteniendo 2400 skills es inviable, pues para que el recomendador funcione el usuario deberá chequear si tiene conocimientos en cada una de ellas o no, y revisar una lista de más de 2000 skills no es una opción realista.

Por lo tanto, para cada uno de los tres empleos vamos a ver cuales son las skills que más se repiten y haremos una lista con únicamente las más importante para cada oferta de trabajo. Tendremos que filtrar nuevamente las ofertas y dejar solo las skills que estén en la lista de hard skills generada en el paso anterior y la cual podremos encontrar en `data/lista_hard_skills.pkl`.

In [60]:
skills_relevantes = f_transform.filtrar_skills_min_apariciones(5)
f_transform.filtracion_hard_skills_relevantes()

Se han guardado 110 skills relevantes en 'data/lista_hard_skills.pkl'

Limpiando las skills de las ofertas, manteniendo solo las más relevantes...



100%|██████████| 108/108 [00:00<00:00, 232.39it/s]
100%|██████████| 73/73 [00:00<00:00, 292.03it/s]
100%|██████████| 39/39 [00:00<00:00, 471.65it/s]
100%|██████████| 200/200 [00:01<00:00, 120.84it/s]
100%|██████████| 200/200 [00:01<00:00, 120.60it/s]
100%|██████████| 200/200 [00:01<00:00, 120.36it/s]


Completado!






Comprobamos que efectivamente tras el filtrado nos ha quedado el mismo número de skills que en la lista:

In [36]:
lista_skills = f_transform.contador_skills("data/skills_filtradas_relevantes/")

Contando skills de los archivos: ['relevant_filtered_transformed_infojobs_data_analyst.json', 'relevant_filtered_transformed_infojobs_data_engineer.json', 'relevant_filtered_transformed_infojobs_data_science.json', 'relevant_filtered_transformed_linkedin_data_analyst.json', 'relevant_filtered_transformed_linkedin_data_engineer.json', 'relevant_filtered_transformed_linkedin_data_science.json']
Se han encontrado 110 skills diferentes.



____

# **2. Carga de datos en MongoDB**

Una vez hemos limpiado las skills de todas las ofertas de trabajo y las hemos almacenado en los correspondientes `json` el siguiente paso es subir todos estos datos a una base de datos en la nube. En este caso al ser tablas no relacionales hemos escogido MongoDB y los datos se subiran a MongoDB Atlas.

In [29]:
f_bbdd.cargar_datos_mongo()
f_bbdd.cargar_skills_mongo()

Pinged your deployment. You successfully connected to MongoDB!
Insertando file: relevant_relevant_filtered_transformed_infojobs_data_analyst.json
Insertando file: relevant_relevant_filtered_transformed_infojobs_data_engineer.json
Insertando file: relevant_relevant_filtered_transformed_infojobs_data_science.json
Insertando file: relevant_relevant_filtered_transformed_linkedin_data_analyst.json
Insertando file: relevant_relevant_filtered_transformed_linkedin_data_engineer.json
Insertando file: relevant_relevant_filtered_transformed_linkedin_data_science.json
---- Insercion en la base de datos finalizada ----

Pinged your deployment. You successfully connected to MongoDB!
Skills insertadas en la base de datos correctamente.
