# Limpieza del dataset

## 1.Carga y análisis del CSV original

In [307]:
# Importamos libreria pandas y numpy
import pandas as pd
import numpy as np

In [308]:
# Subimos el archivo a nuestro proyecto
df = pd.read_csv("/content/ofertas-empleo (1).csv")

# Obtenemos las columnas del df y las convertirmos en una lista para visualizarlas claramente
df.columns.values.tolist()

['country_code',
 'title',
 'job_category',
 'description',
 'company_name',
 'city',
 'contract_type',
 'workday',
 'salary_min',
 'salary_max',
 'salary_period',
 'salary_currency',
 'salary_type',
 'remote',
 'publish_date']

In [310]:
# Mostramos las primeras 3 filas del DataFrame para tener una vista previa de los datos
df.head(3)

Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,salary_min,salary_max,salary_period,salary_currency,salary_type,remote,publish_date
0,es,Técnico Gestión de la Demanda,Informática y telecomunicaciones,-Definición de roles y escenarios\r\n - D...,Atento España - Estructura,Madrid,Contrato indefinido,Jornada completa,,,,,,Híbrido,2022-07-12
1,es,Java - SpringBoot - Proyecto estable - Teletra...,Informática y telecomunicaciones,"Desde AgioGlobal Technology, nos encontramos e...",AGIO GLOBAL TECHNOLOGY,Madrid,Contrato indefinido,Jornada completa,40000.0,45000.0,YEAR,EUR,GROSS,Solo teletrabajo,2022-07-12
2,es,Consultor SAP Hana Ingles Alto (Remoto),Informática y telecomunicaciones,AirON compañia de innovacion servicios tecnolo...,AIRON Sistemas S.L.,Madrid,Contrato indefinido,Jornada completa,27000.0,30000.0,YEAR,EUR,GROSS,Solo teletrabajo,2022-07-12


In [311]:
# Imprime la forma del DataFrame, mostrando el número de filas y columnas
df.shape

(10000, 15)

In [312]:
# Muestra los tipos de datos de cada columna en el DataFrame
print(f">>> Tipo de columnas:\n{df.dtypes}\n")

>>> Tipo de columnas:
country_code        object
title               object
job_category        object
description         object
company_name        object
city                object
contract_type       object
workday             object
salary_min         float64
salary_max         float64
salary_period       object
salary_currency     object
salary_type         object
remote              object
publish_date        object
dtype: object



In [313]:
# Proporciona un resumen conciso del DataFrame
# incluyendo la cantidad de valores no nulos y el tipo de dato por columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   country_code     10000 non-null  object 
 1   title            10000 non-null  object 
 2   job_category     10000 non-null  object 
 3   description      10000 non-null  object 
 4   company_name     10000 non-null  object 
 5   city             9999 non-null   object 
 6   contract_type    4647 non-null   object 
 7   workday          4647 non-null   object 
 8   salary_min       4286 non-null   float64
 9   salary_max       4162 non-null   float64
 10  salary_period    6988 non-null   object 
 11  salary_currency  6988 non-null   object 
 12  salary_type      1635 non-null   object 
 13  remote           4053 non-null   object 
 14  publish_date     10000 non-null  object 
dtypes: float64(2), object(13)
memory usage: 1.1+ MB


In [314]:
# Genera estadísticas descriptivas que resumen
# la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos
df.describe()

Unnamed: 0,salary_min,salary_max
count,4286.0,4162.0
mean,60343.96,86195.83
std,151156.0,182324.7
min,12.0,12.0
25%,25000.0,32025.25
50%,36000.0,48000.0
75%,63188.5,93908.25
max,7500000.0,7501000.0


## 2.Limpieza de datos

### 2.1 Eliminamos duplicados y tratamos valores nulos

In [315]:
# ELIMINACION DUPLICADOS

# En esta sección identificamos y eliminamos filas duplicadas en el dataset.
# Se analizan tanto duplicados exactos como duplicados que sean la misma oferta.

In [316]:
# Calculo el número de filas completamente duplicadas
df.duplicated().sum()

np.int64(0)

In [317]:
# Confirmo que no tengo duplicados igual
df[df.duplicated()]

# Al saltar solo el nombre de las columnas confirmo que no tengo filas duplicadas exactas
# El resultado es un df en el que NO tiene duplicados exactos, NO se han elimando filas en esta fase

Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,salary_min,salary_max,salary_period,salary_currency,salary_type,remote,publish_date


In [318]:
# Buscamos si tenemos ofertas que sus filas no sean exactamente igual pero si esten repetidas.

revision_cols = ['title', 'company_name', 'city', 'publish_date']  # Revisamos estas columnas, porque si coincide seria la misma oferta repetida

df[df.duplicated(subset=revision_cols, keep=False)] # Buscamos las filas repetidas de las columnas seleccionadas en la lista revision_cols


# Consideramos que una oferta es única si coincide en:
# ['title', 'company_name', 'city', 'publish_date'].

# Vemos varias ofertas que coinciden en todos los campos excepto en ('contract_type'y 'remote'). Mantendremos solo una fila de estas ofertas.


Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,salary_min,salary_max,salary_period,salary_currency,salary_type,remote,publish_date
17,es,Técnico/a Microinformático,Informática y telecomunicaciones,¡Te invitamos a formar parte de nuestro equipo...,Sermicro,Madrid,Contrato otros contratos,Jornada completa,,,,,,Presencial,2022-07-12
94,es,Técnico/a Microinformático,Informática y telecomunicaciones,¡Te invitamos a formar parte de nuestro equipo...,Sermicro,Madrid,Contrato fijo discontinuo,Jornada completa,,,,,,Presencial,2022-07-12
6171,es,Network & Security Operator,Informática y telecomunicaciones,"SEIDOR, multinacional española en plena expans...",Grupo Seidor,Barcelona,Contrato indefinido,Jornada completa,,,,,,,2022-08-03
6172,es,Network & Security Operator,Informática y telecomunicaciones,"SEIDOR, multinacional española en plena expans...",Grupo Seidor,Barcelona,Contrato indefinido,Jornada completa,,,,,,Presencial,2022-08-03


In [319]:
# Eliminamos duplicados con ofertas repetidas en los campos('title', 'company_name', 'city', 'publish_date').

# Conservaremos la segunda aparicion de las ofertas por consideras datos mas completos

df = df.drop_duplicates(subset=revision_cols, keep='last')

In [320]:
# Buscamos cuantos valores nulos tenemos en cada columna del df:
df.isnull().sum()

Unnamed: 0,0
country_code,0
title,0
job_category,0
description,0
company_name,0
city,1
contract_type,5353
workday,5353
salary_min,5712
salary_max,5836


In [321]:
# Hacemos limpieza de ciertas columnas que tiene nulos sustituyendolo por 'No publicado'

df['contract_type'] = df['contract_type'].fillna('No publicado')
df['workday'] = df['workday'].fillna('No publicado')
df['remote'] = df['remote'].fillna('No publicado')

# Las columnas seleccionadas es normal que no se publiquen estos datos en las ofertas de las empresas
# Al mantener las columnas con otra categoria 'No publicado', nos da otra información util:
#  -Mantenemos toda la informacion
#  -Nueva categoria dentro de las columna
#  -Mejor analisis con la información mas completa
#  -Mejor visualización posterior en POWER BI y otros analisis cuando hagamos webscraping


# La columna 'city' tiene un nulo que no tiene sentido. Elminamos dicha fila que no afecta al análisis para que despues
# no tengamos problemas si queremos agrupar por ciudades en el EDA o en el POWER BI entre otras cosas.

df = df.dropna(subset=['city'])

df.isnull().sum()

Unnamed: 0,0
country_code,0
title,0
job_category,0
description,0
company_name,0
city,0
contract_type,0
workday,0
salary_min,5711
salary_max,5835


###2.2 Corregimos datos incorrectos

In [322]:
# CORREGIR DATOS INCORRECTOS
# Comprobamos los salarios

# Ni el salario minimo ni el maximo puede ser menor que cero

df[(df['salary_min'] < 0) |(df['salary_max']< 0)]


# Como sales el df vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,salary_min,salary_max,salary_period,salary_currency,salary_type,remote,publish_date


In [323]:
# El salario maximo no puede ser menos que el salario minimo

df[df['salary_max'] < df['salary_min']] # Como sales el df vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,salary_min,salary_max,salary_period,salary_currency,salary_type,remote,publish_date


## 3.Unificacion de formatos

In [324]:
# En este bloque vamos a tratar la unificación de formatos para estandarizar el data set mediante la corrección de formatos (fechas,salarios y
# eliminación de símbolos)

# Convertimos la columna a un tipo fecha indicando que está en formato americano
df["publish_date"] = pd.to_datetime(df["publish_date"], dayfirst=False)
# pd.to_datetime() convierte una columna de texto en objetos de fecha (datetime).dayfirst=False indica que el primer número no es el día, sino el mes.

In [325]:
# Formatos de salario

# En algunas columnas puede aparecer algo como "30.000 €"
# Queremos dejarlo como "30000" (sin espacios ni símbolo)

# Primero, eliminamos símbolos € y espacios
df["salary_min"] = df["salary_min"].astype(str).str.replace("€", "", regex=False).str.strip()
df["salary_max"] = df["salary_max"].astype(str).str.replace("€", "", regex=False).str.strip()

# Convertimos a número directamente (NaN si no se puede)
df["salary_min"] = pd.to_numeric(df["salary_min"], errors='coerce')
df["salary_max"] = pd.to_numeric(df["salary_max"], errors='coerce')

# Redondeamos para quitar posibles decimales y convertimos a Int64
df["salary_min"] = df["salary_min"].round().astype("Int64")
df["salary_max"] = df["salary_max"].round().astype("Int64")


# No surge el siguiente problema respecto a las columnas de salarios y es
# que en Pandas no se puede tener una columna con enteros y NaN al mismo tiempo usando el tipo int
# Lo hemos solucionado usando el tipo Int64 de Pandas, que permite enteros y valores nulos (<NA>). Así no vemos .0.

In [326]:
# Aquí quitamos:
# - Saltos de línea (\n)
# - Tabulaciones (\t)
# - Comillas dobles (")
# - Comillas simples (')
# - Espacios repetidos

columnas_texto = [    "title", "job_category", "description", "company_name",
    "city", "contract_type", "workday", "remote"]

for col in columnas_texto:

    # Convertimos la columna a texto por si hay valores no textuales
    df[col] = df[col].astype(str)

    # Quitamos saltos de línea
    df[col] = df[col].str.replace("\n", " ", regex=False)

    # Quitamos tabulaciones
    df[col] = df[col].str.replace("\t", " ", regex=False)

    # Quitamos comillas dobles y simples
    df[col] = df[col].str.replace('"', "", regex=False)
    df[col] = df[col].str.replace("'", "", regex=False)

    # Quitamos espacios repetidos dejando solo uno
    df[col] = df[col].str.replace("  ", " ", regex=False)

    # Quitamos espacios al principio y al final
    df[col] = df[col].str.strip()

## 4.Normalizacion de texto

### 4.1 Conversión a minúsculas y eliminación tildes, acentos y caracteres especiales

In [327]:
# En este bloque estandarizamos todas las columnas de texto convirtiéndolas a minúsculas
# y eliminando tildes, acentos y caracteres especiales.
# Función homogeneizar
# En esta parte nos hemos centrado en poner todo el texto a minúscula y quitar los acentos
import re # Módulo de expresiones regulares, que nos permite trabajar con patrones de textos complejos.

def normalizar_texto(texto):
    if not isinstance(texto, str):
        return texto

    texto = texto.lower()

    # Reemplazar acentos
    acentos = {
        "á": "a",
        "é": "e",
        "í": "i",
        "ó": "o",
        "ú": "u",
        "ü": "u"
    }
    for a, s in acentos.items():
        texto = texto.replace(a, s)

    return texto

In [328]:
# Aplicamos de forma automática a todas las columnas tipo texto

for col in df.columns:
    if df[col].dtype == "object":  # solo columnas de texto
        df[col] = df[col].apply(normalizar_texto)


In [329]:
# Cambiamos el formato del salario para que no aparezca el decimal

cols_salario = ["salary_min", "salary_max"]

for col in cols_salario:
    df[col] = pd.to_numeric(df[col], errors="coerce").astype("Int64")

### 4.2 Columna "workday"

In [330]:
#Observamos los posibles datos que aparecen en la columna "workday" (tipo de jornada laboral)
df["workday"].value_counts(dropna=False)


Unnamed: 0_level_0,count
workday,Unnamed: 1_level_1
no publicado,5352
jornada completa,4410
jornada indiferente,87
jornada intensiva - mañana,63
jornada parcial - mañana,36
jornada parcial - indiferente,19
jornada intensiva - indiferente,16
jornada parcial - tarde,7
jornada intensiva - tarde,4
jornada intensiva - noche,3


In [331]:
#Ya que hay varios nombres similares, hacemos modificaciones para unificar nombres
#y quedarnos con dos categorías amplias ("full_time" y "part_time"), sin modificar los nulos.

df.loc[df["workday"].str.contains("completa|intensiva"), "workday"] = "completa"
df.loc[df["workday"].str.contains("parcial"), "workday"] = "parcial"
df.loc[df["workday"].str.contains("indiferente"), "workday"] = "otra"

In [332]:
#Vemos los datos que tenemos ahora con los cambios ya hechos
df["workday"].value_counts()


Unnamed: 0_level_0,count
workday,Unnamed: 1_level_1
no publicado,5352
completa,4496
otra,87
parcial,62


### 4.3 Columna "remote"

In [333]:
#Vemos también cuántos datos aparecen en la columna "workday" (presencialidad)
df["remote"].value_counts()


Unnamed: 0_level_0,count
remote,Unnamed: 1_level_1
no publicado,5945
presencial,1869
hibrido,1360
solo teletrabajo,817
trabajo solo presencial,6


In [334]:
#Volvemos a simplificar nombres y los cambiamos a inglés por coherencia con otros datos
df.loc[df["remote"].str.contains("híbrido"), "remote"] = "hibrido"
df.loc[df["remote"].str.contains("teletrabajo"), "remote"] = "remoto"
df.loc[df["remote"].str.contains("presencial"), "remote"] = "presencial"

In [335]:
#Vemos los datos que tenemos ahora con los cambios ya hechos
df["remote"].value_counts(dropna=False)

Unnamed: 0_level_0,count
remote,Unnamed: 1_level_1
no publicado,5945
presencial,1875
hibrido,1360
remoto,817


In [336]:
#Y ahora cambiamos el orden de las columnas para que remote aparezca con las demás columnas
#que nos dan información sobre el puesto de trabajo

cols = df.columns.tolist()
if "remote" in cols:
    cols.remove("remote")
idx = cols.index("workday") + 1
cols.insert(idx, "remote")
df = df[cols]

In [337]:
df.head()

Unnamed: 0,country_code,title,job_category,description,company_name,city,contract_type,workday,remote,salary_min,salary_max,salary_period,salary_currency,salary_type,publish_date
0,es,tecnico gestion de la demanda,informatica y telecomunicaciones,-definicion de roles y escenarios\r - docum...,atento españa - estructura,madrid,contrato indefinido,completa,hibrido,,,,,,2022-07-12
1,es,java - springboot - proyecto estable - teletra...,informatica y telecomunicaciones,"desde agioglobal technology, nos encontramos e...",agio global technology,madrid,contrato indefinido,completa,remoto,40000.0,45000.0,year,eur,gross,2022-07-12
2,es,consultor sap hana ingles alto (remoto),informatica y telecomunicaciones,airon compañia de innovacion servicios tecnolo...,airon sistemas s.l.,madrid,contrato indefinido,completa,remoto,27000.0,30000.0,year,eur,gross,2022-07-12
3,es,android developer. ingles alto. 100% remoto,informatica y telecomunicaciones,desde modis it consultora global especializada...,modis,madrid,contrato indefinido,completa,remoto,,,,,,2022-07-12
4,es,analista funcional temporal,informatica y telecomunicaciones,nuevas aplicaciones/extension de la funcionali...,atento españa - estructura,madrid,contrato indefinido,completa,hibrido,24000.0,27000.0,year,eur,gross,2022-07-12


### 4.4 Unificación de las categorías laborales

In [338]:
# 1. Vamos a unificar categorías del CSV original en una columna nueva
#para conservar los datos originales:
df.loc[:, "job_sector"] = "other"


# 2. Aplicamos filtros en cada una de las tres nuevas categorías, con un "cajón" donde meter los puestos
#que aparecen con mayor frecuencia
patron_it = r"software|desarrollador|developer|java|programador|\bqa\b|devops|fullstack|dba|scrum|backend|frontend|sistemas|\bit\b|informático|informatico|soporte|helpdesk|onsite|vdi"
filtro_it = df["title"].str.contains(patron_it, case=False, na=False, regex=True)

patron_executive = r"\bdirector\b|\bceo\b|\bcto\b|head|\bvp\b|chief"
filtro_executive = df["title"].str.contains(patron_executive, case=False, na=False, regex=True)

patron_data = r"data|datos|analytics|analyst|analista|\bbi\b|\bai\b|intelligence|machine learning"
filtro_data = df["title"].str.contains(patron_data, case=False, na=False, regex=True)

patron_engineering = r"engineering|engineer|hardware|embedded|automation|robotics"
filtro_engineering = df["title"].str.contains(patron_engineering, case=False, na=False, regex=True)

# 3. Cambiamos cada categoría en orden
df.loc[filtro_engineering, "job_sector"] = "engineering"
df.loc[filtro_data, "job_sector"] = "data"
df.loc[filtro_executive, "job_sector"] = "executive"
df.loc[filtro_it, "job_sector"] = "software"

# 4. Cambiamos el orden de la columna para que esté junto a job_category

cols = df.columns.tolist()
if "job_sector" in cols:
    cols.remove("job_sector")
idx = cols.index("job_category") + 1
cols.insert(idx, "job_sector")
df = df[cols]

In [339]:
df["job_sector"].value_counts().head(50).reset_index()

Unnamed: 0,job_sector,count
0,other,5696
1,software,2826
2,data,788
3,engineering,492
4,executive,195


In [340]:
df[df["job_sector"] == "data"]["title"].value_counts().head(30)

Unnamed: 0_level_0,count
title,Unnamed: 1_level_1
business analyst,13
data engineer,9
data scientist,7
data analyst,6
senior data engineer,5
systems support analyst,5
take up - business analyst junior con frances,4
senior pricing analyst (remote),4
analista funcional,4
senior data engineer - business intelligence / sql / python / remote (m/w/d),4


## 5.Creación y eliminación de columnas

### 5.1 Position_level

In [341]:
"""La creación de position_level es una decisión metodológica orientada a enriquecer el análisis,
permitiendo agrupar las ofertas por nivel del puesto a partir del título.
Al tratarse de una inferencia y no de un dato original, su uso es opcional y se limita a análisis descriptivos.
"""

t = df["title"].fillna("").str.upper()

df["position_level"] = pd.NA

# Definición de palabras clave
exec_kw = r"\bdirector\b|\bhead\b|\bvp\b|\bvice president\b|\bcio\b|\bcto\b|\bceo\b|\bcfo\b|\bcoo\b|\bchief\b"
mgmt_kw = r"\bmanager\b|\bgerente\b|\bresponsable\b|\blead\b|\blider\b|\blíder\b|\bcoordinador\b|\bcoordinadora\b|\bsupervisor\b|\bsupervisora\b|\bjefe\b|\bjefa\b"
tech_kw = r"\bdeveloper\b|\bdesarrollador\b|\bdesarrolladora\b|\bengineer\b|\bingeniero\b|\bingeniera\b|\banalyst\b|\banalista\b|\bconsultor\b|\bconsultora\b|\bprogramador\b|\bprogramadora\b|\bdata\b|\bdevops\b|\bandroid\b|\bios\b|\bfrontend\b|\bbackend\b|\bfullstack\b|\bqa\b|\btester\b|\barquitecto\b|\barquitecta\b|\badministrador\b|\badministradora\b|\bsystem\b|\bsistemas\b|\bsap\b"
intern_kw = r"\bbeca\b|\bprácticas\b|\bpracticas\b|\bintern\b|\binternship\b|\btrainee\bb"

# Asignación de niveles en minúsculas
df.loc[t.str.contains(exec_kw, regex=True, case=False), "position_level"] = "executive"
df.loc[t.str.contains(mgmt_kw, regex=True, case=False), "position_level"] = "management"
df.loc[t.str.contains(tech_kw, regex=True, case=False), "position_level"] = "technical"
df.loc[t.str.contains(intern_kw, regex=True, case=False), "position_level"] = "internship"

# Cambio de orden de la columna
cols = df.columns.tolist()
if "position_level" in cols:
    cols.remove("position_level")
idx = cols.index("salary_min") - 1
cols.insert(idx, "position_level")
df = df[cols]


In [342]:
df["position_level"].value_counts(dropna=False)


Unnamed: 0_level_0,count
position_level,Unnamed: 1_level_1
,4085
technical,4085
management,1467
executive,190
internship,170


###5.2 Modificación de datos de país

In [343]:
#Veamos cuántos países se incluyen en nuestro df
df["country_code"].value_counts()

Unnamed: 0_level_0,count
country_code,Unnamed: 1_level_1
es,6172
us,1264
uk,857
sg,553
de,368
fr,335
in,203
nl,136
ie,99
mx,10


In [344]:
#Y ahora las ciudades fuera de España
df[df["country_code"] != "es"]["city"].value_counts()

Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
"london, england",566
singapore,553
"austin, tx",291
paris,246
"boston, ma",206
mumbai,203
"atlanta, ga",174
munchen,152
"los angeles, ca",141
"chicago, il",108


In [345]:
#A partir de los datos obtenidos, se decide hacer el análisis de:

#1. España, por ser el mercado con más ofertas y que, además,
#es más importante según lo indicado en el guion de trabajo

#2. Londres y París, por ser las ciudades europeas con mayor volumen de trabajo
#y por proximidad geográfica.

In [346]:
#Para empezar, nos quedamos solo con los tres países que contienen estas ofertas
df = df[df["country_code"].isin(["es", "uk", "fr"])]


In [347]:
#Verificamos que tenemos los países correctos
df["country_code"].value_counts()


Unnamed: 0_level_0,count
country_code,Unnamed: 1_level_1
es,6172
uk,857
fr,335


In [348]:
#Por último, eliminamos los registros de UK y de FR que no pertenencen ni a Londres ni a París
df = df[~((df["country_code"].isin(["uk", "fr"])) & (~df["city"].isin(["london, england", "paris"])))]

In [349]:
df["country_code"].value_counts()

Unnamed: 0_level_0,count
country_code,Unnamed: 1_level_1
es,6172
uk,566
fr,246


In [375]:
#Comprobamos las filas y columnas que tenemos ahora en total
df.shape

(6984, 18)

###5.3 Annual salary

In [350]:
"""Vemos que no todos están por año, así que vamos a crear una nueva columna
que convierta el sueldo a anual, a partir de la media entre sueldo mínimo y máximo.
numpy nos permite convertir los sueldos no anuales a anuales, multiplicando por el número correspondiente
dependiendo de si es mensual o por hora, y manteniendo el valor tal cual si ya es anual
o si falta el sueldo mínimo o el máximo
"""

df["annual_salary"] = np.where(df["salary_period"] == "year",
    df[['salary_min', 'salary_max']].mean(axis=1, skipna=True),
      np.where(df["salary_period"] == "month",
         df[['salary_min', 'salary_max']].mean(axis=1, skipna=True) * 12,
            np.where(df["salary_period"] == "hour", df[['salary_min', 'salary_max']].mean(axis=1, skipna=True) * 2080,
            np.nan)))

In [351]:
#Y ahora colocamos la nueva columna después de salary_max

cols = df.columns.tolist()
if 'annual_salary' in cols:
    cols.remove('annual_salary')
idx = cols.index('salary_max') + 1
cols.insert(idx, 'annual_salary')
df = df[cols]

In [352]:
#Vamos a modificar esta columna también a integer, como las demás de salarios
df["annual_salary"] = df["annual_salary"].round(0).astype('Int64')

###5.4 Creación de la columna "year"

In [353]:
#Creamos una columna con el año de la publicación para poder distinguir de los datos scrapeados
#y tener la oportunidad de hacer comparaciones temporales

df["publish_date"] = pd.to_datetime(df["publish_date"], errors="coerce")

In [354]:
df["publish_date"].dtype

dtype('<M8[ns]')

In [355]:
df["year"] = df["publish_date"].dt.year

In [356]:
df["year"].value_counts(dropna=False).sort_index()

Unnamed: 0_level_0,count
year,Unnamed: 1_level_1
2022,6984


In [357]:
#Y ahora cambiamos el orden de las columnas para que publish_date y year aparezcan
#juntas por coherencia

cols = df.columns.tolist()
if "publish_date" in cols:
    cols.remove("publish_date")
idx = cols.index("year")
cols.insert(idx, "publish_date")
df = df[cols]

In [358]:
df.head()

Unnamed: 0,country_code,title,job_category,job_sector,description,company_name,city,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_period,salary_currency,salary_type,publish_date,year
0,es,tecnico gestion de la demanda,informatica y telecomunicaciones,other,-definicion de roles y escenarios\r - docum...,atento españa - estructura,madrid,contrato indefinido,completa,,hibrido,,,,,,,2022-07-12,2022
1,es,java - springboot - proyecto estable - teletra...,informatica y telecomunicaciones,software,"desde agioglobal technology, nos encontramos e...",agio global technology,madrid,contrato indefinido,completa,,remoto,40000.0,45000.0,42500.0,year,eur,gross,2022-07-12,2022
2,es,consultor sap hana ingles alto (remoto),informatica y telecomunicaciones,other,airon compañia de innovacion servicios tecnolo...,airon sistemas s.l.,madrid,contrato indefinido,completa,technical,remoto,27000.0,30000.0,28500.0,year,eur,gross,2022-07-12,2022
3,es,android developer. ingles alto. 100% remoto,informatica y telecomunicaciones,software,desde modis it consultora global especializada...,modis,madrid,contrato indefinido,completa,technical,remoto,,,,,,,2022-07-12,2022
4,es,analista funcional temporal,informatica y telecomunicaciones,data,nuevas aplicaciones/extension de la funcionali...,atento españa - estructura,madrid,contrato indefinido,completa,technical,hibrido,24000.0,27000.0,25500.0,year,eur,gross,2022-07-12,2022


###5.5 Creación de la columna "source"

In [359]:
#Creamos una columna llamada source para poder distinguir entre las ofertas
#de nuestro dataset original y las escrapeadas

df["source"] = "dataset"

###5.6 Creación de la columna "provincia"

In [360]:
#Vamos a hacer ahora un mapaedo por provincias a partir de las
#50 ciudades con mayor número de ofertas para maximizar esfuerzos, ya que,
#las demás localidades, tendrían un máximo de 12 ofertas, por lo que el número apenas variaría

df.loc[df["country_code"] == "es", "city"].value_counts().head(50).reset_index()

Unnamed: 0,city,count
0,madrid,2525
1,barcelona,1253
2,sevilla,157
3,valencia,122
4,zaragoza,99
5,bilbao,77
6,alcobendas,61
7,malaga,58
8,a coruña,58
9,tres cantos,52


In [361]:
#Vamos a crear un diccionario de ciudades y su provincia para saber cuáles son
#las 10 provincias con más ofertas y centrarnos en ellas. Incluimos también
#en el diccionario los datos de París y Londres

ciudades_provincias = {
    "madrid": "madrid",
    "alcobendas": "madrid",
    "tres cantos": "madrid",
    "getafe": "madrid",
    "las rozas de madrid": "madrid",
    "pozuelo de alarcon": "madrid",
    "torrejon de ardoz": "madrid",
    "san fernando de henares": "madrid",
    "leganes": "madrid",
    "barcelona": "barcelona",
    "cornellà de llobregat": "barcelona",
    "martorell": "barcelona",
    "tarragona": "tarragona",
    "sant cugat del vallès": "barcelona",
    "girona": "girona",
    "manresa": "barcelona",
    "terrassa": "barcelona",
    "granollers": "barcelona",
    "cerdanyola del vallès": "barcelona",
    "lleida": "lleida",
    "sevilla": "sevilla",
    "malaga": "malaga",
    "granada": "granada",
    "valencia": "valencia",
    "alicante/alacant": "alicante",
    "castellon de la plana/castello de la plana": "castellon",
    "paterna": "valencia",
    "murcia": "murcia",
    "cartagena": "murcia",
    "zaragoza": "zaragoza",
    "oviedo": "asturias",
    "gijon": "asturias",
    "badajoz": "badajoz",
    "albacete": "albacete",
    "guadalajara": "guadalajara",
    "valladolid": "valladolid",
    "salamanca": "salamanca",
    "burgos": "burgos",
    "santander": "cantabria",
    "a coruña": "a coruña",
    "santiago de compostela": "a coruña",
    "vigo": "pontevedra",
    "palma de mallorca": "baleares",
    "santa cruz de tenerife": "santa cruz de tenerife",
    "las palmas de gran canaria": "las palmas",
    "bilbao": "bizkaia",
    "donostia-san sebastian": "guipuzcoa",
    "vitoria-gasteiz": "alava",
    "logroño": "la rioja",
    "pamplona/iruña": "navarra",
    "london, england": "londres",
    "paris": "paris"
}

In [362]:
#A partir del diccionario, asignamos los datos en una columna nueva
df["provincia"] = df["city"].map(ciudades_provincias)

In [363]:
#Y colocamos la nueva columna junto a "city"

cols = df.columns.tolist()
if "provincia" in cols:
    cols.remove("provincia")
idx = cols.index("city") + 1
cols.insert(idx, "provincia")
df = df[cols]

###5.7 Eliminación de columnas innecesarias

In [364]:
"""Vamos a eliminar ahora columnas que sabemos que no necesitamos y para poder tener la misma
estructura con los datos scrapeados

-Description --> Columna con demasiado texto libre de la que no se pueden extraer datos claro.
La columna de title ya nos aporta la información que necesitamos.

-Salary_period --> Hecha la conversión a salario anual, no necesitamos tenerla, ya que no vamos a
distinguir entre ofertas mensuales de anuales

-Salary_type --> Esta columna solo contenía los valores "NaN" y "Gross",
por lo que realmente no nos está aportando información
"""

df = df.drop(columns=["description", "salary_period", "salary_type"])

In [365]:
#Verificamos los cambios incorporados
df.head()

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
0,es,tecnico gestion de la demanda,informatica y telecomunicaciones,other,atento españa - estructura,madrid,madrid,contrato indefinido,completa,,hibrido,,,,,2022-07-12,2022,dataset
1,es,java - springboot - proyecto estable - teletra...,informatica y telecomunicaciones,software,agio global technology,madrid,madrid,contrato indefinido,completa,,remoto,40000.0,45000.0,42500.0,eur,2022-07-12,2022,dataset
2,es,consultor sap hana ingles alto (remoto),informatica y telecomunicaciones,other,airon sistemas s.l.,madrid,madrid,contrato indefinido,completa,technical,remoto,27000.0,30000.0,28500.0,eur,2022-07-12,2022,dataset
3,es,android developer. ingles alto. 100% remoto,informatica y telecomunicaciones,software,modis,madrid,madrid,contrato indefinido,completa,technical,remoto,,,,,2022-07-12,2022,dataset
4,es,analista funcional temporal,informatica y telecomunicaciones,data,atento españa - estructura,madrid,madrid,contrato indefinido,completa,technical,hibrido,24000.0,27000.0,25500.0,eur,2022-07-12,2022,dataset


## 6.Corrección de outliers


### 6.1 Corrección de sueldos más bajos

In [366]:
#Vamos a centrarnos ahora en los sueldos más bajos.
#Utilizamos "12000" por ser el SMI en 2022 (usamos "12000" porque hemos hecho la conversión por 12 meses)
sueldos_mas_bajos = df[(df["annual_salary"] < 12000)]
sueldos_mas_bajos

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
201,es,tecnico informatico de sistemas y redes (parci...,informatica y telecomunicaciones,software,tipsa,san fernando de henares,madrid,contrato otros contratos,parcial,technical,presencial,10000,12000.0,11000,eur,2022-07-11,2022,dataset
926,es,practicas con tecnologias microsoft barcelona ...,informatica y telecomunicaciones,other,avanade spain,barcelona,barcelona,contrato a tiempo parcial,parcial,internship,no publicado,600,900.0,9000,eur,2022-07-28,2022,dataset
1046,es,tecnico/a informatica - it support con ingles,informatica y telecomunicaciones,software,"core & global, it solutions, sa",barcelona,barcelona,contrato a tiempo parcial,parcial,,presencial,8000,12000.0,10000,eur,2022-07-28,2022,dataset
1734,es,becario/a.- mantenimiento,ingenieros y tecnicos,other,"elecnor, s.a",mairena del aljarafe,,contrato otros contratos,parcial,,presencial,450,600.0,6300,eur,2022-08-20,2022,dataset
2018,es,beca desarrollador/a,informatica y telecomunicaciones,software,madison mk,valladolid,valladolid,contrato formativo,completa,internship,presencial,600,600.0,7200,eur,2022-07-14,2022,dataset
2049,es,beca ingeniera industrial ade + pase a plantil...,ingenieros y tecnicos,other,gls,san fernando de henares,madrid,contrato formativo,completa,internship,presencial,600,900.0,9000,eur,2022-07-21,2022,dataset
2086,es,gestor/a telefonico orange,informatica y telecomunicaciones,other,adecco,guadalajara,guadalajara,contrato de duracion determinada,parcial,,presencial,10000,12000.0,11000,eur,2022-07-13,2022,dataset
2686,es,becario / becaria analisis de datos,informatica y telecomunicaciones,data,grupo diusframi,madrid,madrid,contrato de duracion determinada,completa,,hibrido,450,1200.0,9900,eur,2022-06-30,2022,dataset
2715,es,becario/a it.,informatica y telecomunicaciones,software,man south europe medical institute,madrid,madrid,contrato formativo,parcial,,presencial,600,600.0,7200,eur,2022-06-30,2022,dataset
2796,es,beca developer/desarrollador microsoft,informatica y telecomunicaciones,software,prodware,donostia-san sebastian,guipuzcoa,contrato de duracion determinada,completa,internship,hibrido,900,900.0,10800,eur,2022-06-30,2022,dataset


In [367]:
#Veamos ahora si esos valores bajos permanecen o no, aplicando filtros de campos que suelen llevar aparejados
#sueldos más bajos, así que nos quedamos con trabajos que no sean de prácticas, pero tengan jornada completa
sueldos_mas_bajos_annual = df[(df["annual_salary"] < 12000) & (df["workday"] == "completa") & (df["contract_type"] != "contrato formativo")]
sueldos_mas_bajos_annual

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
2686,es,becario / becaria analisis de datos,informatica y telecomunicaciones,data,grupo diusframi,madrid,madrid,contrato de duracion determinada,completa,,hibrido,450,1200.0,9900,eur,2022-06-30,2022,dataset
2796,es,beca developer/desarrollador microsoft,informatica y telecomunicaciones,software,prodware,donostia-san sebastian,guipuzcoa,contrato de duracion determinada,completa,internship,hibrido,900,900.0,10800,eur,2022-06-30,2022,dataset
2990,es,beca services & security,ingenieros y tecnicos,other,randstad,madrid,madrid,contrato de duracion determinada,completa,internship,hibrido,900,900.0,10800,eur,2022-06-29,2022,dataset
2991,es,beca operations analysis,ingenieros y tecnicos,other,randstad,barcelona,barcelona,contrato de duracion determinada,completa,internship,hibrido,900,900.0,10800,eur,2022-06-29,2022,dataset
2997,es,beca institutional affairs,ingenieros y tecnicos,other,randstad,barcelona,barcelona,contrato de duracion determinada,completa,internship,hibrido,900,900.0,10800,eur,2022-06-29,2022,dataset
3066,es,tecnico_cafeteras_pirineos,ingenieros y tecnicos,other,prosales,pirineos,,contrato fijo discontinuo,completa,,presencial,450,900.0,8100,eur,2022-08-24,2022,dataset
3537,es,consultor funcional preventas b2b,ingenieros y tecnicos,other,experis it,madrid,madrid,contrato indefinido,completa,technical,no publicado,35,,35,eur,2022-07-18,2022,dataset
5048,es,tecnico/a informatico/a - administrativo/a,informatica y telecomunicaciones,software,grupo solutia,sevilla,sevilla,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-07-11,2022,dataset
6716,es,operario/a mantenimiento planta de residuos,ingenieros y tecnicos,other,"griño ecologic, sa",constanti,,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-07-22,2022,dataset
6992,es,operador servicedesk monitorizacion,informatica y telecomunicaciones,other,trs staffing,zaragoza,zaragoza,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-08-11,2022,dataset


In [368]:
#Vemos que hay un resultado con datos 35 al año, lo que parece una errata.
#Vamos a convertirla directamente multiplicando por 100 en ambos df

cols = ["salary_min", "annual_salary"]
df.loc[(df["annual_salary"] == 35) | (df["salary_min"] == 35), cols] *= 1000

In [369]:
#Observamos también que varias ofertas son de beca, pero no se reflejan como tal en el campo de "contract_type"
#Vamos a modificar este campo para que aparezca como "formativo" en estos casos

filtro_df = df["title"].str.contains("beca|becario", case=False, na=False)
df.loc[filtro_df, "contract_type"] = "contrato formativo"

In [370]:
#Reejecutamos el filtro anterior para ver los resultados que tenemos ahora

sueldos_mas_bajos_annual = df[(df["annual_salary"] < 12000) & (df["workday"] == "completa") & (df["contract_type"] != "contrato formativo")]
sueldos_mas_bajos_annual

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
3066,es,tecnico_cafeteras_pirineos,ingenieros y tecnicos,other,prosales,pirineos,,contrato fijo discontinuo,completa,,presencial,450,900.0,8100,eur,2022-08-24,2022,dataset
5048,es,tecnico/a informatico/a - administrativo/a,informatica y telecomunicaciones,software,grupo solutia,sevilla,sevilla,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-07-11,2022,dataset
6716,es,operario/a mantenimiento planta de residuos,ingenieros y tecnicos,other,"griño ecologic, sa",constanti,,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-07-22,2022,dataset
6992,es,operador servicedesk monitorizacion,informatica y telecomunicaciones,other,trs staffing,zaragoza,zaragoza,contrato indefinido,completa,,presencial,10000,,10000,eur,2022-08-11,2022,dataset


In [371]:
#El primer resultado tiene sentido, porque, aunque sea jornada completa, es fijo discontinuo.
#Sin embargo, en los otros tres casos, no hay motivos para mantener "10000", así que vamos a cambiar a 12000

filtro_smi = (
    (df["annual_salary"] == 10000) &
    (df["workday"] == "jornada completa") &
    (df["contract_type"] == "contrato indefinido")
)
df.loc[filtro_smi, ["annual_salary", "salary_min"]] = 12000

### 6.2 Corrección de sueldos más altos

In [372]:
#Veamos ahora los sueldos más altos
sueldos_mas_altos = df[(df["annual_salary"] > 100000)]
sueldos_mas_altos

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
3810,fr,business / data analyst - anglais courant / fr...,management & consulting,data,micropole,paris,paris,no publicado,no publicado,technical,no publicado,130000,153400,141700,eur,2022-08-13,2022,dataset
3812,fr,devops senior cloud/back end / freelance,management & consulting,software,micropole,paris,paris,no publicado,no publicado,technical,no publicado,130000,156000,143000,eur,2022-08-13,2022,dataset
3814,fr,data engineer aws senior / freelance,management & consulting,data,micropole,paris,paris,no publicado,no publicado,technical,no publicado,153400,169000,161200,eur,2022-08-13,2022,dataset
5287,fr,business analyst - summit front / freelance,management & consulting,data,nexoris,paris,paris,no publicado,no publicado,technical,no publicado,143000,153400,148200,eur,2022-08-20,2022,dataset
5291,fr,business analyst summit front - fixed income &...,management & consulting,data,nexoris,paris,paris,no publicado,no publicado,technical,no publicado,143000,153400,148200,eur,2022-08-20,2022,dataset
5940,uk,test analyst,management & consulting,data,pertemps network group,"london, england",londres,no publicado,no publicado,technical,no publicado,110500,110500,110500,gbp,2022-08-17,2022,dataset
6140,uk,ibcm controls vp,management & consulting,executive,michael page,"london, england",londres,no publicado,no publicado,executive,no publicado,208000,260000,234000,gbp,2022-08-17,2022,dataset
6145,uk,senior java developer (sc),management & consulting,software,accenture,"london, england",londres,no publicado,no publicado,technical,no publicado,208000,208000,208000,gbp,2022-08-17,2022,dataset
6152,uk,hr m&a - director,management & consulting,executive,wtw,"london, england",londres,no publicado,no publicado,executive,no publicado,111752,111752,111752,gbp,2022-08-17,2022,dataset
6237,uk,hr m&a - senior director,management & consulting,executive,wtw,"london, england",londres,no publicado,no publicado,executive,no publicado,111752,111752,111752,gbp,2022-08-17,2022,dataset


In [373]:
"""Un dato interesante que tenemos de partida es que todas las ofertas con un sueldo superior
a 100000 es que todas se encuentran fuera de España, a pesar de que sea el país mayoritario
por número de ofertas.
En lo que respecta a outliers erróneos, podemos ver claramente el caso de París para el puesto
"attache commercial en gms h/f" (gestor comercial de ventas), así que vamos a dividir por 10 en este caso
"""

cols = ["salary_min", "salary_max", "annual_salary"]
df.loc[(df["annual_salary"] == 258000) | (df["salary_max"] == 276000) | (df["salary_min"] == 240000), cols] /= 10

In [374]:
df.head()

Unnamed: 0,country_code,title,job_category,job_sector,company_name,city,provincia,contract_type,workday,position_level,remote,salary_min,salary_max,annual_salary,salary_currency,publish_date,year,source
0,es,tecnico gestion de la demanda,informatica y telecomunicaciones,other,atento españa - estructura,madrid,madrid,contrato indefinido,completa,,hibrido,,,,,2022-07-12,2022,dataset
1,es,java - springboot - proyecto estable - teletra...,informatica y telecomunicaciones,software,agio global technology,madrid,madrid,contrato indefinido,completa,,remoto,40000.0,45000.0,42500.0,eur,2022-07-12,2022,dataset
2,es,consultor sap hana ingles alto (remoto),informatica y telecomunicaciones,other,airon sistemas s.l.,madrid,madrid,contrato indefinido,completa,technical,remoto,27000.0,30000.0,28500.0,eur,2022-07-12,2022,dataset
3,es,android developer. ingles alto. 100% remoto,informatica y telecomunicaciones,software,modis,madrid,madrid,contrato indefinido,completa,technical,remoto,,,,,2022-07-12,2022,dataset
4,es,analista funcional temporal,informatica y telecomunicaciones,data,atento españa - estructura,madrid,madrid,contrato indefinido,completa,technical,hibrido,24000.0,27000.0,25500.0,eur,2022-07-12,2022,dataset
