# **Limpieza de las ofertas de Infojobs**

Una vez llevado a cabo el poceso de extracción continuamos con la transformación de los datos. Necesitamos obtener campos de gran importancia como la empresa que publica la oferta o el rango salarial que se ofrece en caso de haberlo. Para ello trataremos los datos usando pandas y una vez limpios lo almacenaremos en la carpeta `datos_limpios`.

In [1]:
import pandas as pd
import numpy as np

Proceso de limpieza:

In [None]:
def procesar_cabecera(cabecera):
        partes = cabecera.split("\n")
        job_title, company_name = None, None
        min_salary, max_salary = np.nan, np.nan
        fecha_publicacion = np.nan

        if partes[1] in ["Proceso online", "Executive"]:
            job_title, company_name = partes[2], partes[3]
        else:
            job_title, company_name = partes[1], partes[2]

        for parte in partes:
            if "salario" in parte.lower():
                if parte.lower() == "salario no disponible":
                    min_salary, max_salary = np.nan, np.nan
                else:
                    palabras = parte.split()
                    min_salary, max_salary = palabras[1], palabras[3]

            if "publicada" in parte.lower():
                fecha_publicacion = parte

        return job_title, company_name, fecha_publicacion, min_salary, max_salary

In [19]:
empleos = ["data_science", "data_analyst", "data_engineer"]

for empleo in empleos:
    df = pd.read_csv(f"datos_crudo/infojobs_{empleo}.csv", index_col=0)

    # Usar .apply una sola vez para descomponer los valores
    df["plataforma"] = "infojobs"
    df[["titulo_oferta", "empresa", "fecha_publicacion", "min_salario", "max_salario"]] = df["cabecera"].apply(procesar_cabecera).apply(pd.Series)
    df["descripcion"] = df["contenido"]

    col = df.pop('url_oferta')  # Extrae la columna
    df.insert(9, 'url_oferta', col)

    df.drop(columns=["cabecera", "contenido"], inplace=True)

    df.to_csv(f"datos_limpios/infojobs_{empleo}.csv")

print("Datos guardados correctamente")

Datos guardados correctamente


Una vez limpios veamos como han quedado las cabeceras de cada uno de los dataframes:

In [37]:
empleos = ["data_science", "data_analyst", "data_engineer"]

for empleo in empleos:
    df = pd.read_csv(f"datos_limpios/infojobs_{empleo}.csv", index_col=0)
    display(df.head())

    porcentaje = round(df[df["min_salario"].notna()].shape[0]*100/df.shape[0],2)
    print(f'El porcentaje de ofertas con salario para {empleo} es: {porcentaje}%\n')


Unnamed: 0,empleo,plataforma,titulo_oferta,empresa,fecha_publicacion,min_salario,max_salario,url_oferta,descripcion
0,data_science,infojobs,Data Scientist (.),BETWEEN Technology,Publicada hace 4d,30.000€,44.000€,https://www.infojobs.net/madrid/data-scientist...,Requisitos\nEstudios mínimos\nMáster\nExperien...
1,data_science,infojobs,Data Scientist Senior,"PS LAB CONSULTING, S.L.",Publicada hace 3d (Publicada de nuevo),,,https://www.infojobs.net/madrid/data-scientist...,Requisitos\nEstudios mínimos\nCiclo Formativo ...
2,data_science,infojobs,Data Scientist.,TECDATA ENGINEERING,Publicada el 31 de dic,56.000€,64.000€,https://www.infojobs.net/madrid/data-scientist...,Requisitos\nEstudios mínimos\nEducación Secund...
3,data_science,infojobs,Data Scientist Senior Machine Learning. 100% r...,Luca TIC,Publicada el 18 de dic,,,https://www.infojobs.net/madrid/data-scientist...,Requisitos\nEstudios mínimos\nCiclo Formativo ...
4,data_science,infojobs,Analista de procesos,SOLUTIO,Publicada hace 19h (Publicada de nuevo),,,https://www.infojobs.net/madrid/analista-proce...,Requisitos\nEstudios mínimos\nIngeniería Técni...


El porcentaje de ofertas con salario para data_science es: 48.72%



Unnamed: 0,empleo,plataforma,titulo_oferta,empresa,fecha_publicacion,min_salario,max_salario,url_oferta,descripcion
0,data_analyst,infojobs,Analista Financier/a,Empresa sector servicios,Publicada hace 20h,,,https://www.infojobs.net/pozuelo-de-alarcon/an...,Requisitos\nEstudios mínimos\nGrado - Grado en...
1,data_analyst,infojobs,Administrativo analista y control (Excel),ICP,Publicada el 30 de dic,,,https://www.infojobs.net/pozuelo-de-alarcon/ad...,Requisitos\nEstudios mínimos\nDiplomatura\nExp...
2,data_analyst,infojobs,Analista de Datos (M/H/X) Sector tecnológico (...,SALESLAND,Publicada el 26 de dic,,,https://www.infojobs.net/madrid/analista-datos...,Requisitos\nEstudios mínimos\nGrado\nExperienc...
3,data_analyst,infojobs,Analista de datos con discapacidad (h/m/d),ILUNION JOBSOLUTIONS ETT,Publicada hace 1d,23.000€,24.000€,https://www.infojobs.net/coslada/analista-dato...,Requisitos\nEstudios mínimos\nCiclo Formativo ...
4,data_analyst,infojobs,Analista de Datos 100% Teletrabajo REF EGC,Abalia,Publicada hace 1d,25.000€,30.000€,https://www.infojobs.net/madrid/analista-datos...,Requisitos\nEstudios mínimos\nCiclo Formativo ...


El porcentaje de ofertas con salario para data_analyst es: 35.19%



Unnamed: 0,empleo,plataforma,titulo_oferta,empresa,fecha_publicacion,min_salario,max_salario,url_oferta,descripcion
0,data_engineer,infojobs,Azure Cloud Engineer,DEVOTEAM,Publicada hace 1d,,,https://www.infojobs.net/madrid/azure-cloud-en...,Requisitos\nEstudios mínimos\nCiclo Formativo ...
1,data_engineer,infojobs,BI DATA ENGINEER (SUSTITUCIÓN PATERNIDAD) (H/M),GI GROUP,Publicada hace 2d,,,https://www.infojobs.net/madrid/bi-data-engine...,Requisitos\nEstudios mínimos\nGrado\nExperienc...
2,data_engineer,infojobs,BI DATA ENGINEER (SUSTITUCIÓN PATERNIDAD) (H/M),GI GROUP,Publicada hace 2d,,,https://www.infojobs.net/madrid/bi-data-engine...,Requisitos\nEstudios mínimos\nGrado\nExperienc...
3,data_engineer,infojobs,Junior Data Engineer,BOYCOR,Publicada hace 1d,30.000€,33.000€,https://www.infojobs.net/madrid/junior-data-en...,Requisitos\nEstudios mínimos\nCiclo Formativo ...
4,data_engineer,infojobs,Data Engineer - Madrid,ChangeTheBlock,Publicada hace 20h (Publicada de nuevo),40.000€,45.000€,https://www.infojobs.net/madrid/data-engineer-...,Requisitos\nEstudios mínimos\nCiclo Formativo ...


El porcentaje de ofertas con salario para data_engineer es: 30.14%

