# HeadHunter – Análisis del mercado laboral IT (Adzuna + Tecnoempleo)

## Objetivo
Integrar y analizar ofertas de empleo del sector IT procedentes de Tecnoempleo (web scraping)
y Adzuna (API), con el fin de estudiar la evolución del mercado laboral, la localización
geográfica, el trabajo remoto y los rangos salariales.

## Salida principal
Dataframe unificado `df_actual` y análisis exploratorio conjunto.


## Índice

1. [1. Fuente Tecnoempleo](#1-fuente-tecnoempleo)
   1. [1.1 Análisis csv obtenido mediante webscraping en tecnoempleo.com](#11-análisis-csv-obtenido-mediante-webscraping-en-tecnoempleocom)
   2. [1.2 Limpieza de datos](#12-limpieza-de-datos)
      1. [1.2.1 Eliminamos duplicados y tratamos valores nulos](#121-eliminamos-duplicados-y-tratamos-valores-nulos)
      2. [1.2.2 Corregimos datos incorrectos](#122-corregimos-datos-incorrectos)
   3. [1.3 Unificación de formatos](#13-unificación-de-formatos)
      1. [1.3.1 Fecha](#131-fecha)
      2. [1.3.2 Salarios (ya vienen en columnas numéricas – float)](#132-salarios-ya-vienen-en-columnas-numéricas--float)
      3. [1.3.3 Limpieza de texto](#133-limpieza-de-texto)
   4. [1.4 Normalización de texto y columnado final](#14-normalización-de-texto-y-columnado-final)
      1. [1.4.1 Convertimos todo a minúsculas, eliminamos tildes, acentos y caracteres especiales](#141-convertimos-todo-a-minúsculas-eliminamos-tildes-acentos-y-caracteres-especiales)
      2. [1.4.2 Renombrar columnas existentes a las establecidas](#142-renombrar-columnas-existentes-a-las-establecidas)
      3. [1.4.3 Crear columnas faltantes](#143-crear-columnas-faltantes)

2. [2. Fuente Adzuna](#2-fuente-adzuna)
   1. [2.1 Análisis csv obtenido mediante la API de Adzuna](#21-análisis-csv-obtenido-mediante-la-api-de-adzuna)
   2. [2.2 Limpieza de datos](#22-limpieza-de-datos)
      1. [2.2.1 Eliminamos duplicados y tratamos valores nulos](#221-eliminamos-duplicados-y-tratamos-valores-nulos)
      2. [2.2.2 Corregimos datos incorrectos](#222-corregimos-datos-incorrectos)
   3. [2.3 Unificación de formatos](#23-unificación-de-formatos)
      1. [2.3.1 Fecha](#231-fecha)
      2. [2.3.2 Salarios](#232-salarios)
      3. [2.3.3 Limpieza de texto](#233-limpieza-de-texto)
   4. [2.4 Normalización de texto y columnado final](#24-normalización-de-texto-y-columnado-final)
      1. [2.4.1 Convertimos todo a minúsculas, eliminamos tildes, acentos y caracteres especiales](#241-convertimos-todo-a-minúsculas-eliminamos-tildes-acentos-y-caracteres-especiales)
      2. [2.4.2 Renombrar columnas existentes a las establecidas](#242-renombrar-columnas-existentes-a-las-establecidas)
      3. [2.4.3 Crear columnas faltantes](#243-crear-columnas-faltantes)



# 1. Fuente Tecnoempleo


## 1.1 Análisis csv obtenido mediante webscraping en tecnoempleo.com


In [1]:
# Librerías Procesamiento de Datos.
# Importamos libreria pandas y numpy
import pandas as pd
import numpy as np

In [2]:


# CSV_ID_TECNO = "1taXN1pab6mk86SXAW0oZUwpyLEAWuQXI"
# url_tecno = f"https://drive.google.com/uc?export=download&id={CSV_ID_TECNO}"

# df_tecnoempleo = pd.read_csv(url_tecno, encoding="utf-8")

CSV_ID_TECNO = "1gCPhA9LVVDxvNaNs5_ToPYFyGtmHWrPG"
url_tecno = f"https://drive.google.com/uc?export=download&id={CSV_ID_TECNO}"

df_tecnoempleo = pd.read_csv(url_tecno, encoding="utf-8")



In [3]:
# Obtiene las columnas del df y convertirlo en una LISTA, para visualizar claramente las columnas
df_tecnoempleo.columns.values.tolist()

['title',
 'company',
 'url',
 'published_date',
 'province',
 'work_modality',
 'job_type',
 'salary_text',
 'salary_min_eur',
 'salary_max_eur']

In [4]:
# Mostramos las primeras 3 filas del DataFrame para tener una vista previa de los datos
df_tecnoempleo.head(3)

Unnamed: 0,title,company,url,published_date,province,work_modality,job_type,salary_text,salary_min_eur,salary_max_eur
0,Software Sales Executive & Account Manager,Alpha Networks,https://www.tecnoempleo.com/software-sales-exe...,15/01/2026,Murcia,,Actualizada,39.000€ - 48.000€ b/a,39000.0,48000.0
1,Técnico Arquitectura de Soluciones,Cajamar Tecnología,https://www.tecnoempleo.com/tecnico-arquitectu...,15/01/2026,Almería,,Actualizada,,,
2,Software Engineer,Alpha Networks,https://www.tecnoempleo.com/software-engineer-...,15/01/2026,Murcia,Híbrido,Actualizada,36.000€ - 36.000€ b/a,36000.0,36000.0


In [5]:
# Imprime la forma del DataFrame, mostrando el número de filas y columnas
df_tecnoempleo.shape

(3864, 10)

In [6]:
# Proporciona un resumen conciso del DataFrame
# incluyendo la cantidad de valores no nulos y el tipo de dato por columna
df_tecnoempleo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3864 entries, 0 to 3863
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   title           3864 non-null   object 
 1   company         2211 non-null   object 
 2   url             3864 non-null   object 
 3   published_date  3864 non-null   object 
 4   province        3848 non-null   object 
 5   work_modality   1023 non-null   object 
 6   job_type        3864 non-null   object 
 7   salary_text     606 non-null    object 
 8   salary_min_eur  606 non-null    float64
 9   salary_max_eur  606 non-null    float64
dtypes: float64(2), object(8)
memory usage: 302.0+ KB


In [7]:
# Genera estadísticas descriptivas que resumen
# la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos
df_tecnoempleo.describe()

Unnamed: 0,salary_min_eur,salary_max_eur
count,606.0,606.0
mean,36683.333333,45676.072607
std,14127.987677,17484.443289
min,500.0,1200.0
25%,27000.0,36000.0
50%,33000.0,42000.0
75%,45000.0,54000.0
max,140000.0,150000.0


## 1.2 Limpieza de datos


### 1.2.1 Eliminamos duplicados y tratamos valores nulos


En esta sección identificamos y eliminamos filas duplicadas en el dataset.
Se analizan tanto duplicados exactos como duplicados que sean la misma oferta.

In [8]:
# Calculo el número de filas completamente duplicadas
df_tecnoempleo.duplicated().sum()

np.int64(0)

In [9]:
# Confirmo que no tengo duplicados igual
df_tecnoempleo[df_tecnoempleo.duplicated()]

# Al saltar solo el nombre de las columnas confirmo que no tengo filas duplicadas exactas
# El resultado es un df en el que NO tiene duplicados exactos, NO se han elimando filas en esta fase

Unnamed: 0,title,company,url,published_date,province,work_modality,job_type,salary_text,salary_min_eur,salary_max_eur


In [10]:
# Comprobamos si el número de URL unicas es igual al numero de Filas.
# Tomamos la columna URL para verificar que si son distintas las URL las ofertas que aparecen son únicas y por lo tanto los datos son correctos.

df_tecnoempleo['url'].nunique() == len(df_tecnoempleo)

# Como sale True vemos que no existen duplicados en Tecnoempleo, no tiene ofertas repetidas.

True

In [11]:
# Buscamos cuantos valores nulos tenemos en cada columna del df:
df_tecnoempleo.isnull().sum()

Unnamed: 0,0
title,0
company,1653
url,0
published_date,0
province,16
work_modality,2841
job_type,0
salary_text,3258
salary_min_eur,3258
salary_max_eur,3258


Realizamos varias ajustes en distintas columnas para el tratamiento de los nulos:

In [12]:

# Sustituimos nulos en modalidad de trabajo (columna categórica operativa)

# Al mantener las columnas con otra categoria 'No publicado', nos da otra información util:
#  -Mantenemos toda la informacion
#  -Nueva categoria dentro de las columna
#  -Mejor analisis con la información mas completa
#  -Mejor visualización posterior en POWER BI y otros analisis cuando hagamos webscraping
df_tecnoempleo['province','work_modality'] = df_tecnoempleo['work_modality'].fillna('No publicado')

# Eliminamos ofertas sin provincia (no localizables para el análisis)-No tiene sentido manter 21 ofertas que no tienen provincias para el analisis. Dato irrelevante.
df_tecnoempleo = df_tecnoempleo.dropna(subset=['province'])

# Comprobación final
df_tecnoempleo.isnull().sum()


Unnamed: 0,0
title,0
company,1649
url,0
published_date,0
province,0
work_modality,2825
job_type,0
salary_text,3245
salary_min_eur,3245
salary_max_eur,3245


Conclusiones:
Dado que el análisis se centra en las diez provincias españolas con mayor volumen de ofertas, así como en Londres y París,
las ofertas sin información de localización no pueden ser asignadas a ningún territorio de interés. Por este motivo,
las filas con valores nulos en la columna provincia fueron eliminadas, siguiendo el mismo criterio aplicado previamente en el dataset de 2022

### 1.2.2 Corregimos datos incorrectos


In [13]:
# CORREGIR DATOS INCORRECTOS
# Comprobamos los salarios

# Ni el salario minimo ni el maximo puede ser menor que cero

df_tecnoempleo[(df_tecnoempleo['salary_min_eur'] < 0) |(df_tecnoempleo['salary_max_eur']< 0)]


# Como sale el df_tecnoempleo vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,title,company,url,published_date,province,work_modality,job_type,salary_text,salary_min_eur,salary_max_eur,"(province, work_modality)"


In [14]:
# El salario maximo no puede ser menos que el salario minimo

df_tecnoempleo[df_tecnoempleo['salary_max_eur'] < df_tecnoempleo['salary_min_eur']]

# Como sale el df_tecnoempleo vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,title,company,url,published_date,province,work_modality,job_type,salary_text,salary_min_eur,salary_max_eur,"(province, work_modality)"


## 1.3 Unificación de formatos


En este bloque vamos a tratar la unificación de formatos para estandarizar el data set mediante la corrección de formatos (fechas,salarios y
eliminación de símbolos)

### 1.3.1 Fecha


In [15]:
# En Tecnoempleo la fecha suele venir como dd/mm/yyyy, por eso usamos dayfirst=True.
# Si hay un valor que no se puede convertir, lo deja como NaT en lugar de romper.
df_tecnoempleo["published_date"] = pd.to_datetime(df_tecnoempleo["published_date"],dayfirst=True, errors="coerce")


### 1.3.2 Salarios (ya vienen en columnas numéricas – float)


In [16]:
# Redondear y pasar a entero “nullable” (Int64)
df_tecnoempleo['salary_min_eur'] = df_tecnoempleo['salary_min_eur'].round().astype('Int64')
df_tecnoempleo['salary_max_eur'] = df_tecnoempleo['salary_max_eur'].round().astype('Int64')

# No surge el siguiente problema respecto a las columnas de salarios y es
# que en Pandas no se puede tener una columna con enteros y NaN al mismo tiempo usando el tipo int
# Lo hemos solucionado usando el tipo Int64 de Pandas, que permite enteros y valores nulos (<NA>). Así no vemos .0.


### 1.3.3 Limpieza de texto


In [17]:
# Aquí quitamos:
# - Saltos de línea (\n)
# - Tabulaciones (\t)
# - Comillas dobles (")
# - Comillas simples (')
# - Espacios repetidos

columnas_texto = [
    'title', 'company', 'province', 'work_modality', 'job_type', 'salary_text'
]

for col in columnas_texto:
    df_tecnoempleo[col] = df_tecnoempleo[col].astype(str)    # Convertimos la columna a texto por si hay valores no textuales

    df_tecnoempleo[col] = (
        df_tecnoempleo[col]
        .str.replace('\n', ' ', regex=False)                 # Quitamos saltos de línea
        .str.replace('\t', ' ', regex=False)                 # Quitamos tabulaciones
        .str.replace('"', "", regex=False)                   # Quitamos comillas dobles y simples
        .str.replace("'", "", regex=False)
        .str.replace(r"\s+", " ", regex=True)                # Quitamos espacios repetidos dejando solo uno
        .str.strip()                                         # Quitamos espacios al principio y al final
    )

## 1.4 Normalización de texto y columnado final


### 1.4.1 Convertimos todo a minúsculas, eliminamos tildes, acentos y caracteres especiales


In [18]:
# En este bloque estandarizamos todas las columnas de texto convirtiéndolas a minúsculas
# y eliminando tildes, acentos y caracteres especiales.
# Función homogeneizar
# En esta parte nos hemos centrado en poner todo el texto a minúscula y quitar los acentos
import re # Módulo de expresiones regulares, que nos permite trabajar con patrones de textos complejos.

def normalizar_texto(texto):
    if not isinstance(texto, str):
        return texto

    texto = texto.lower()

    # Reemplazar acentos
    acentos = {
        'á': 'a',
        'é': 'e',
        'í': 'i',
        'ó': 'o',
        'ú': 'u',
        'ü': 'u'
    }
    for a, s in acentos.items():
        texto = texto.replace(a, s)

    return texto

In [19]:
# Aplicamos de forma automática a todas las columnas tipo texto

for col in df_tecnoempleo.columns:
    if df_tecnoempleo[col].dtype == 'object':  # solo columnas de texto
        df_tecnoempleo[col] = df_tecnoempleo[col].apply(normalizar_texto)

In [20]:
df_tecnoempleo.columns

Index([                      'title',                     'company',
                               'url',              'published_date',
                          'province',               'work_modality',
                          'job_type',                 'salary_text',
                    'salary_min_eur',              'salary_max_eur',
       ('province', 'work_modality')],
      dtype='object')

### 1.4.2 Renombrar columnas existentes a las establecidas


Se ha decidido renombrar columnas y añadir otras para poder hacer un mejor analisis posterior.

Columnas objetivo:
job_title, company_name, job_category, position_level, city, country_code, annual_salary, salary_min, salary_max, contract_type, workday, work_mode, publish_date, year, source

In [21]:
# Renombrar las columnas
print("ANTES:", df_tecnoempleo.columns.tolist())
df_tecnoempleo = df_tecnoempleo.rename(columns={
    'title': 'job_title',
    'company': 'company_name',
    'province': 'city',
    'work_modality': 'work_mode',
    'published_date': 'publish_date',
    'salary_min_eur': 'salary_min',
    'salary_max_eur': 'salary_max',
})
print("DESPUÉS:", df_tecnoempleo.columns.tolist())





ANTES: ['title', 'company', 'url', 'published_date', 'province', 'work_modality', 'job_type', 'salary_text', 'salary_min_eur', 'salary_max_eur', ('province', 'work_modality')]
DESPUÉS: ['job_title', 'company_name', 'url', 'publish_date', 'city', 'work_mode', 'job_type', 'salary_text', 'salary_min', 'salary_max', ('province', 'work_modality')]


### 1.4.3 Crear columnas faltantes


Para garantizar la coherencia del esquema entre fuentes, se añaden columnas obligatorias

In [22]:
# Creamos las nuevas columnas

required_cols = [
    'job_category', 'position_level',
    'contract_type', 'workday',
    'annual_salary',
    'country_code', 'year', 'source'
]

for c in required_cols:
    if c not in df_tecnoempleo.columns:
        df_tecnoempleo[c] = np.nan

# annual_salary se calculará tras la integración de fuentes .(media de salary_min y salary_max cuando existan ambos)

# Valores fijos
# df_tecnoempleo['country_code'] = 'es'- Como tenemos ofertas del extranjero no podemos poner codigo es a todas,
# cuando fusionemos datos con Adzuna se pondran los valores correctamente
df_tecnoempleo['source'] = 'tecnoempleo'

# Año derivado de la fecha real de publicación
df_tecnoempleo['year'] = df_tecnoempleo['publish_date'].dt.year

df_tecnoempleo.columns


Index([                  'job_title',                'company_name',
                               'url',                'publish_date',
                              'city',                   'work_mode',
                          'job_type',                 'salary_text',
                        'salary_min',                  'salary_max',
       ('province', 'work_modality'),                'job_category',
                    'position_level',               'contract_type',
                           'workday',               'annual_salary',
                      'country_code',                        'year',
                            'source'],
      dtype='object')

In [23]:
#Creamos las columnas finales

columnas_finales = [
    'job_title',
    'company_name',
    'job_category',
    'position_level',
    'city',
    'country_code',
    'annual_salary',
    'salary_min',
    'salary_max',
    'contract_type',
    'workday',
    'work_mode',
    'publish_date',
    'year',
    'source'
]

df_tecnoempleo_final = df_tecnoempleo[columnas_finales].copy()

# Comprobamos las columnas que
print(df_tecnoempleo_final.columns.tolist() == columnas_finales)


True


In [24]:
# Columnas finales:

df_tecnoempleo_final.columns


Index(['job_title', 'company_name', 'job_category', 'position_level', 'city',
       'country_code', 'annual_salary', 'salary_min', 'salary_max',
       'contract_type', 'workday', 'work_mode', 'publish_date', 'year',
       'source'],
      dtype='object')

In [25]:
# Ordenamos las columnas finales:

df_tecnoempleo_final = df_tecnoempleo.reindex(
    sorted(df_tecnoempleo_final.columns),
    axis=1
)


Vemos como tenemos la columna city para valorar como esta compuesta. Tenemos una cantidad importe de ofertas en las que en la columna city no identifica ningun lugar sino que la oferta es 100% remoto.
Habra que analizarlo en su conjunto cuando tengamos los datos de Adzuna en el mismo df.

In [26]:
df_tecnoempleo["city"].value_counts().head(15)


Unnamed: 0_level_0,count
city,Unnamed: 1_level_1
madrid,1562
100% remoto,754
barcelona,533
malaga,170
valencia,96
london,95
polonia,63
zaragoza,54
sevilla,49
bizkaia,47


In [27]:
df_remoto = df_tecnoempleo[
    df_tecnoempleo['city'].str.strip().str.lower() == '100% remoto'
]
df_remoto = df_remoto.sort_values("publish_date", ascending=False)
cols = [
   'job_title', 'company_name', 'url', 'publish_date', 'city', 'work_mode',
       'job_type', 'salary_text', 'salary_min', 'salary_max', 'job_category',
       'position_level', 'contract_type', 'workday', 'annual_salary',
       'country_code', 'year', 'source'
]


df_remoto[cols].sample(5, random_state=50)



Unnamed: 0,job_title,company_name,url,publish_date,city,work_mode,job_type,salary_text,salary_min,salary_max,job_category,position_level,contract_type,workday,annual_salary,country_code,year,source
3162,java developer,plexus,https://www.tecnoempleo.com/java-developer-ple...,2025-04-11,100% remoto,,programador,,,,,,,,,,2025,tecnoempleo
465,senior product analyst,eduki,https://www.tecnoempleo.com/senior-product-ana...,2026-01-14,100% remoto,,analista,42.000€ - 54.000€ b/a,42000.0,54000.0,,,,,,,2026,tecnoempleo
72,desarrollador/a senior react,cas training,https://www.tecnoempleo.com/desarrollador-seni...,2026-01-15,100% remoto,,actualizada,36.000€ - 42.000€ b/a,36000.0,42000.0,,,,,,,2026,tecnoempleo
3591,ingeniero de datos thetaray,,https://www.tecnoempleo.com/ingeniero-datos-th...,2024-12-09,100% remoto,,big data,,,,,,,,,,2024,tecnoempleo
1043,.net backend developer,,https://www.tecnoempleo.com/net-backend-develo...,2026-01-07,100% remoto,,programador,,,,,,,,,,2026,tecnoempleo


Vemos con random 5 ofertas para comprobar si viene algun dato más en otras columnas que pueda identificarse la ciudad. No vemos nada relevante de momento.

In [28]:
df_tecnoempleo_final["company_name"].value_counts()

Unnamed: 0_level_0,count
company_name,Unnamed: 1_level_1
,1649
axiom software solutions,448
plexus,372
second window,99
accenture,87
...,...
fsgroup engineering,1
amazon web services,1
fhios,1
gestionet multimedia,1


A partir de este punto no se realizan análisis exploratorios ni filtros analíticos.
Las decisiones de análisis se aplicarán tras la integración con Adzuna.


## Notas metodológicas y tareas pendientes (post-integración)

En este notebook se ha realizado la limpieza, normalización y unificación de formatos
de la fuente **Tecnoempleo**, dejándola preparada para su integración con otras fuentes
(Adzuna). Con el fin de evitar duplicación de código y asegurar consistencia metodológica,
algunas decisiones y transformaciones se han pospuesto deliberadamente para la fase de
integración conjunta.

### Transformaciones pospuestas intencionadamente

Las siguientes operaciones **NO se han aplicado en esta fase**, y se realizarán de forma
conjunta una vez integradas ambas fuentes:

- **Cálculo de `annual_salary`**  
  Se calculará a partir de `salary_min` y `salary_max`, aplicando una regla común a ambas
  fuentes (media cuando existan ambos valores, o valor disponible cuando solo exista uno).

- **Asignación de país (`country_code`)**  
  No se ha fijado ningún código de país en esta fase, ya que existen ofertas con localización
  internacional (p. ej. London, Paris). La asignación se realizará tras la integración,
  una vez definidas las localizaciones finales que entran en el análisis.

- **Conversión de moneda**  
  No se ha realizado ninguna conversión monetaria. En caso de ser necesario (según la
  información disponible en Adzuna), la conversión a una moneda común se aplicará en la
  fase conjunta.

- **Homogeneización final de localizaciones**  
  La normalización de nombres de ciudades/provincias (por ejemplo, London/Londres,
  Paris/París, áreas metropolitanas) se realizará tras la integración, cuando se definan
  explícitamente las localizaciones incluidas en el análisis comparativo.

### Posibles enriquecimientos de datos (a evaluar tras la integración)

Una vez integradas las fuentes, se valorará la aplicación de reglas adicionales para
reducir valores nulos y mejorar la calidad de la información:

- **Inferencia de modalidad de trabajo (`work_mode`)**  
  - Si `city` indica claramente trabajo remoto (p. ej. "100% remoto") y `work_mode` es nulo,
    completar la modalidad como "Remoto".
  - Evaluar consistencia entre `city` y `work_mode` cuando ambas estén informadas.

- **Cruce de información entre columnas**  
  Uso de combinaciones de campos (`city`, `job_type`, `salary_text`, etc.) para detectar
  incoherencias o completar valores faltantes cuando exista evidencia suficiente.

- **Búsqueda de palabras clave (opcional)**  
  En caso de disponer de descripciones de ofertas en alguna fuente, evaluar la detección
  de términos como "remoto", "híbrido" o "presencial" para reforzar la clasificación de la
  modalidad de trabajo.

### Justificación metodológica

Estas decisiones se han pospuesto para:
- garantizar que las reglas se apliquen de forma **idéntica a todas las fuentes**
- evitar introducir sesgos por tratar cada fuente de manera diferente
- centralizar la lógica analítica en la fase de integración y análisis exploratorio (EDA)

De este modo, el análisis final se basa en un dataset unificado, coherente y comparable.


# 2. Fuente Adzuna

## 2.1 Análisis csv obtenido mediante API en adzuna.com

In [29]:
# Librerías Procesamiento de Datos.
# Importamos libreria pandas y numpy
import pandas as pd
import numpy as np
import re

In [30]:
# Subimos el archivo csv de las ofertas de Adzuna que hemos sacado haciendoa nuestro proyecto.
# df_adzuna = pd.read_csv(r"/content/adzuna_jobs_es_fr_gb.csv",encoding="utf-8")

# import pandas as pd


CSV_ID_ADZUNA = "1kId32Y76YZ9MwyUQQG0G9U7Lqz8QrsKN"

url_adzuna = f"https://drive.google.com/uc?export=download&id={CSV_ID_ADZUNA}"

df_adzuna = pd.read_csv(url_adzuna, encoding="utf-8")


In [31]:
# Obtiene las columnas del df y convertirlo en una LISTA, para visualizar claramente las columnas
df_adzuna.columns.values.tolist()

['job_id',
 'redirect_url',
 'source',
 'title',
 'job_category',
 'description',
 'company_name',
 'city',
 'region',
 'country_code',
 'workday',
 'contract_type',
 'remote',
 'lat',
 'lon',
 'radius',
 'publish_date',
 'salary_min',
 'salary_max',
 'salary_mean',
 'salary_is_predicted',
 'salary_currency',
 'salary_period',
 'annual_salary',
 'query_where',
 'query_category_code']

In [32]:
# Mostramos las primeras 3 filas del DataFrame para tener una vista previa de los datos
df_adzuna.head(3)

Unnamed: 0,job_id,redirect_url,source,title,job_category,description,company_name,city,region,country_code,...,publish_date,salary_min,salary_max,salary_mean,salary_is_predicted,salary_currency,salary_period,annual_salary,query_where,query_category_code
0,5586050715,https://www.adzuna.es/details/5586050715?utm_m...,adzuna,Software Engineer (iOS) ID48367,IT / Software,AgileEngine is an Inc. 5000 company that creat...,AgileEngine,Madrid,Madrid,es,...,2026-01-15T13:19:09Z,,,,0,,year,,Madrid,it-jobs
1,5586050719,https://www.adzuna.es/details/5586050719?utm_m...,adzuna,Software Engineer (Android Tech Lead) ID48357,IT / Software,AgileEngine is an Inc. 5000 company that creat...,AgileEngine,Madrid,Madrid,es,...,2026-01-15T13:19:09Z,,,,0,,year,,Madrid,it-jobs
2,5586050712,https://www.adzuna.es/details/5586050712?utm_m...,adzuna,Software Engineer (iOS Tech Lead) ID48363,IT / Software,AgileEngine is an Inc. 5000 company that creat...,AgileEngine,Madrid,Madrid,es,...,2026-01-15T13:19:08Z,,,,0,,year,,Madrid,it-jobs


In [33]:
# Imprime la forma del DataFrame, mostrando el número de filas y columnas
df_adzuna.shape

(4705, 26)

In [34]:
# Proporciona un resumen conciso del DataFrame
# incluyendo la cantidad de valores no nulos y el tipo de dato por columna
df_adzuna.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4705 entries, 0 to 4704
Data columns (total 26 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   job_id               4705 non-null   int64  
 1   redirect_url         4705 non-null   object 
 2   source               4705 non-null   object 
 3   title                4705 non-null   object 
 4   job_category         4705 non-null   object 
 5   description          4705 non-null   object 
 6   company_name         4454 non-null   object 
 7   city                 4705 non-null   object 
 8   region               4705 non-null   object 
 9   country_code         4705 non-null   object 
 10  workday              1375 non-null   object 
 11  contract_type        2272 non-null   object 
 12  remote               0 non-null      float64
 13  lat                  4254 non-null   float64
 14  lon                  4254 non-null   float64
 15  radius               0 non-null      f

In [35]:
# Genera estadísticas descriptivas que resumen
# la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos
df_adzuna.describe()

Unnamed: 0,job_id,remote,lat,lon,radius,salary_min,salary_max,salary_mean,salary_is_predicted,salary_currency,annual_salary
count,4705.0,0.0,4254.0,4254.0,0.0,2660.0,2659.0,2660.0,4705.0,0.0,2660.0
mean,5566245000.0,,46.055801,0.334082,,52175.060489,59247.642685,55705.85391,0.181509,,55705.85391
std,64420440.0,,4.966327,2.303502,,25061.431027,28337.937495,25956.993853,0.38548,,25956.993853
min,4598655000.0,,36.715155,-8.402597,,0.0,12.0,12.0,0.0,,12.0
25%,5575434000.0,,41.380002,-0.37423,,37202.065,45000.0,40000.0,0.0,,40000.0
50%,5583653000.0,,48.863839,-0.02806,,48633.94,55000.0,51834.815,0.0,,51834.815
75%,5585692000.0,,48.910607,2.344631,,66117.06,70000.0,67814.6375,0.0,,67814.6375
max,5586132000.0,,51.652467,2.39858,,195000.0,470080.0,262080.0,1.0,,262080.0


## 2.2 Limpieza de datos


### 2.2.1 Eliminamos duplicados y tratamos valores nulos

In [36]:
# Calculo el número de filas completamente duplicadas
df_adzuna.duplicated().sum()

np.int64(0)

In [37]:
# Confirmo que no tengo duplicados igual
df_adzuna[df_adzuna.duplicated()]

# Al saltar solo el nombre de las columnas confirmo que no tengo filas duplicadas exactas
# El resultado es un df en el que NO tiene duplicados exactos, NO se han elimando filas en esta fase

Unnamed: 0,job_id,redirect_url,source,title,job_category,description,company_name,city,region,country_code,...,publish_date,salary_min,salary_max,salary_mean,salary_is_predicted,salary_currency,salary_period,annual_salary,query_where,query_category_code


In [38]:
# Comprobamos si el número de URL unicas es igual al numero de Filas.
# Tomamos la columna URL para verificar que si son distintas las URL las ofertas que aparecen son únicas y por lo tanto los datos son correctos.

df_adzuna['redirect_url'].nunique() == len(df_adzuna)

# Como sale False vemos que existen duplicados en Adzuna,tiene ofertas repetidas.

False

In [39]:
# 1. Comprobación de duplicados usando la URL de la oferta

total_filas = len(df_adzuna)
urls_unicas = df_adzuna['redirect_url'].nunique()

print("Total de ofertas:", total_filas)
print("Ofertas únicas (URLs):", urls_unicas)
print("Ofertas duplicadas:", total_filas - urls_unicas)

# 2. Visualización de ejemplos de ofertas duplicadas

duplicados = df_adzuna[df_adzuna.duplicated(subset='redirect_url', keep=False)]

duplicados[['title', 'company_name', 'redirect_url']] \
    .sort_values('redirect_url') \
    .head(10)

# 3. Deduplicación por URL quedándonos con la fila más completa (y más reciente)
df = df_adzuna.copy()
cols_score = [
    "salary_min", "salary_max", "annual_salary",
    "contract_type", "workday", "remote",
    "company_name", "description",
    "lat", "lon", "region"
]
# asegurar columnas
for c in cols_score:
    if c not in df.columns:
        df[c] = pd.NA
# normalizar strings vacíos -> NA (para que el score sea real)
for c in ["company_name","description","region","contract_type","workday","remote"]:
    if c in df.columns:
        df[c] = df[c].where(df[c].astype(str).str.strip() != "", pd.NA)

# score de completitud
df["info_score"] = df[cols_score].notna().sum(axis=1)

# publish_date a datetime (para desempate por recencia)
df["publish_date"] = pd.to_datetime(df["publish_date"], errors="coerce", utc=True)

# orden: más completa, más reciente, y desempate estable
sort_cols = ["info_score", "publish_date"]
ascending = [False, False]
if "job_id" in df.columns:
    sort_cols.append("job_id")
    ascending.append(True)
else:
    df = df.reset_index(drop=False).rename(columns={"index": "_row_id"})
    sort_cols.append("_row_id")
    ascending.append(True)

df = df.sort_values(sort_cols, ascending=ascending)

# 4. deduplicar por URL (me quedo con la "mejor" ya ordenada)
df_adzuna_limpio = (
    df.drop_duplicates(subset="redirect_url", keep="first")
      .drop(columns=["info_score"], errors="ignore")
      .copy()
)
print("Total original:", len(df_adzuna))
print("URLs únicas:", df_adzuna["redirect_url"].nunique())
print("Filas tras dedupe:", len(df_adzuna_limpio))


Total de ofertas: 4705
Ofertas únicas (URLs): 3124
Ofertas duplicadas: 1581
Total original: 4705
URLs únicas: 3124
Filas tras dedupe: 3124


In [40]:
df_adzuna_limpio = df_adzuna.copy()


In [41]:
# Buscamos cuantos valores nulos tenemos en cada columna del df:
df_adzuna_limpio.isnull().sum()

Unnamed: 0,0
job_id,0
redirect_url,0
source,0
title,0
job_category,0
description,0
company_name,251
city,0
region,0
country_code,0


In [43]:
# Función para extraer nombre de la empresa

def extract_company(text):
    if pd.isna(text):
        return None

    patterns = [
        r"(?:En|Sobre|About)\s+([A-Z][A-Za-z0-9&.\- ]{2,40})",
        r"([A-Z][A-Za-z0-9&.\- ]{2,40})\s+(?:busca|está buscando|is hiring|is looking for)",
        r"Join\s+([A-Z][A-Za-z0-9&.\- ]{2,40})",
        r"Trabaja(?:r)?\s+en\s+([A-Z][A-Za-z0-9&.\- ]{2,40})",
        r"Company[:\-]?\s*([A-Z][A-Za-z0-9&.\- ]{2,40})"
    ]

    for pattern in patterns:
        match = re.search(pattern, text, re.IGNORECASE)
        if match:
            return match.group(1).strip()

    return None

# Aplicarlo solo cuando company_name está vacío
mask = df_adzuna_limpio["company_name"].isna() | (df_adzuna_limpio["company_name"].str.strip() == "")

df_adzuna_limpio.loc[mask, "company_from_title"] = df_adzuna_limpio.loc[mask, "title"].apply(extract_company)
df_adzuna_limpio.loc[mask, "company_from_description"] = df_adzuna_limpio.loc[mask, "description"].apply(extract_company)

## Combinar resultados

# Priorizamos:

# Lo que venga de title

# Si no hay, usar description

df_adzuna_limpio["company_inferred"] = (
    df_adzuna_limpio["company_name"]
    .fillna("")
    .where(df_adzuna_limpio["company_name"].str.strip() != "", None)
)

df_adzuna_limpio["company_inferred"] = df_adzuna_limpio["company_inferred"].fillna(df_adzuna_limpio["company_from_title"])
df_adzuna_limpio["company_inferred"] = df_adzuna_limpio["company_inferred"].fillna(df_adzuna_limpio["company_from_description"])

# Comprobacion si funciona

df_adzuna_limpio[["title", "company_name", "company_from_title", "company_from_description", "company_inferred"]].head(20)

antes = df_adzuna_limpio["company_name"].isna().sum()
despues = df_adzuna_limpio["company_inferred"].isna().sum()

print("Empresas vacías antes:", antes)
print("Empresas vacías después:", despues)
print("Empresas recuperadas:", antes - despues)

Empresas vacías antes: 251
Empresas vacías después: 0
Empresas recuperadas: 251


Al realizar este codigo de comprobacion vemos que ni con las columnas title ni description podemos sacar informacion

In [44]:
# Vamos a proceder a eliminar los nulos de la columna company_name. No tiene sentido tener 168 ofertas donde el nombre de la empresa está vacía, además de que hemos comprobado que en la columna title y description no hay informacion que nos revele la empresa

# 2. Eliminamos filas donde 'company_name' es nula o está vacía


df_adzuna_limpio = df_adzuna_limpio[
    df_adzuna_limpio['company_name'].notna() & (df_adzuna_limpio['company_name'] != "")
]

# Comprobamos que se han eliminado correctamente
print("Filas restantes después de eliminar nulos y vacíos:", len(df_adzuna_limpio))

# 3. Verificación final

# Ahora deberíamos tener 0 nulos y 0 vacíos en 'company_name'
print("Valores nulos después de limpiar:", df_adzuna_limpio['company_name'].isna().sum())
print("Valores vacíos después de limpiar:", (df_adzuna_limpio['company_name'] == "").sum())

Filas restantes después de eliminar nulos y vacíos: 4454
Valores nulos después de limpiar: 0
Valores vacíos después de limpiar: 0


In [45]:
# Buscamos cuantos valores nulos tenemos en cada columna del df:
df_adzuna_limpio.isnull().sum()

Unnamed: 0,0
job_id,0
redirect_url,0
source,0
title,0
job_category,0
description,0
company_name,0
city,0
region,0
country_code,0


### 2.2.2 Corregimos datos incorrectos

In [46]:
# CORREGIR DATOS INCORRECTOS
# Comprobamos los salarios

# Ni el salario minimo ni el maximo puede ser menor que cero

df_adzuna_limpio[(df_adzuna_limpio['salary_min'] < 0) |(df_adzuna_limpio['salary_max']< 0)]


# Como sale el df_tecnoempleo vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,job_id,redirect_url,source,title,job_category,description,company_name,city,region,country_code,...,salary_mean,salary_is_predicted,salary_currency,salary_period,annual_salary,query_where,query_category_code,company_from_title,company_from_description,company_inferred


In [47]:
# El salario maximo no puede ser menos que el salario minimo

df_adzuna_limpio[df_adzuna_limpio['salary_max'] < df_adzuna_limpio['salary_min']]

# Como sale el df_tecnoempleo vacio comprobamos que los salarios estan correctos segun estas comprobaciones

Unnamed: 0,job_id,redirect_url,source,title,job_category,description,company_name,city,region,country_code,...,salary_mean,salary_is_predicted,salary_currency,salary_period,annual_salary,query_where,query_category_code,company_from_title,company_from_description,company_inferred


## 2.3 Unificación de formatos

En este bloque vamos a tratar la unificación de formatos para estandarizar el data set mediante la corrección de formatos (fechas,salarios y
eliminación de símbolos)

### 2.3.1 Fechas

In [48]:
# En Adzuna la fecha suele venir como yyyy/mm/dd : hh,mm,ss..
df_adzuna_limpio["publish_date"] = pd.to_datetime(df_adzuna_limpio["publish_date"], utc=True)
df_adzuna_limpio["publish_date"] = df_adzuna_limpio["publish_date"].dt.strftime("%d/%m/%Y")




In [49]:
df_adzuna_limpio[["publish_date"]].head()
df_adzuna_limpio["publish_date"].dtype


dtype('O')

In [50]:
#Comprobación

df_adzuna_limpio["publish_date"].head()

Unnamed: 0,publish_date
0,15/01/2026
1,15/01/2026
2,15/01/2026
3,15/01/2026
4,15/01/2026


### 2.3.2 Salarios

In [51]:
# Redondear y pasar a entero “nullable” (Int64)
df_adzuna_limpio['salary_min'] = df_adzuna_limpio['salary_min'].round().astype('Int64')
df_adzuna_limpio['salary_max'] = df_adzuna_limpio['salary_max'].round().astype('Int64')
df_adzuna_limpio['salary_mean'] = df_adzuna_limpio['salary_mean'].round().astype('Int64')
df_adzuna_limpio['annual_salary'] = df_adzuna_limpio['annual_salary'].round().astype('Int64')

# No surge el siguiente problema respecto a las columnas de salarios y es
# que en Pandas no se puede tener una columna con enteros y NaN al mismo tiempo usando el tipo int
# Lo hemos solucionado usando el tipo Int64 de Pandas, que permite enteros y valores nulos (<NA>). Así no vemos .0.

### 2.3.3 Limpieza del texto

In [52]:
# Aquí quitamos:
# - Saltos de línea (\n)
# - Tabulaciones (\t)
# - Comillas dobles (")
# - Comillas simples (')
# - Espacios repetidos

columnas_texto = [
    'title', 'company_name', 'city', 'job_category', 'contract_type','query_category_code'
]

for col in columnas_texto:
    df_adzuna_limpio[col] = df_adzuna_limpio[col].astype(str)    # Convertimos la columna a texto por si hay valores no textuales

    df_adzuna_limpio[col] = (
        df_adzuna_limpio[col]
        .str.replace('\n', ' ', regex=False)                 # Quitamos saltos de línea
        .str.replace('\t', ' ', regex=False)                 # Quitamos tabulaciones
        .str.replace('"', "", regex=False)                   # Quitamos comillas dobles y simples
        .str.replace("'", "", regex=False)
        .str.replace(r"\s+", " ", regex=True)                # Quitamos espacios repetidos dejando solo uno
        .str.strip()                                         # Quitamos espacios al principio y al final
    )

## 2.4 Normalización de texto y columnado final

### 2.4.1 Convertimos todo a minúsculas,eliminamos tildes, acentos y caracteres especiales

In [53]:
# En este bloque estandarizamos todas las columnas de texto convirtiéndolas a minúsculas
# y eliminando tildes, acentos y caracteres especiales.
# Función homogeneizar
# En esta parte nos hemos centrado en poner todo el texto a minúscula y quitar los acentos
import re # Módulo de expresiones regulares, que nos permite trabajar con patrones de textos complejos.

def normalizar_texto(texto):
    if not isinstance(texto, str):
        return texto

    texto = texto.lower()

    # Reemplazar acentos
    acentos = {
        'á': 'a',
        'é': 'e',
        'í': 'i',
        'ó': 'o',
        'ú': 'u',
        'ü': 'u'
    }
    for a, s in acentos.items():
        texto = texto.replace(a, s)

    return texto

In [54]:
# Aplicamos de forma automática a todas las columnas tipo texto

for col in df_adzuna_limpio.columns:
    if df_adzuna_limpio[col].dtype == 'object':  # solo columnas de texto
        df_adzuna_limpio[col] = df_adzuna_limpio[col].apply(normalizar_texto)

### 2.4.2 Crear columnas faltantes

In [55]:
# Creamos la unica columna de position level

required_cols = [
    'position_level'

]

for c in required_cols:
    if c not in df_adzuna_limpio.columns:
        df_adzuna_limpio[c] = np.nan

df_adzuna_limpio.columns

Index(['job_id', 'redirect_url', 'source', 'title', 'job_category',
       'description', 'company_name', 'city', 'region', 'country_code',
       'workday', 'contract_type', 'remote', 'lat', 'lon', 'radius',
       'publish_date', 'salary_min', 'salary_max', 'salary_mean',
       'salary_is_predicted', 'salary_currency', 'salary_period',
       'annual_salary', 'query_where', 'query_category_code',
       'company_from_title', 'company_from_description', 'company_inferred',
       'position_level'],
      dtype='object')

### 2.4.3 Unificamos columnas

In [56]:
#cambiamos el nombre a las columnas para poder unificarlas
df_adzuna_unificado = df_adzuna_limpio.rename(columns={
    'title': 'job_title',
    'remote': 'work_mode'
}).copy()


In [57]:
#Normalizar work_mode
df_adzuna_unificado['work_mode'] = df_adzuna_unificado['work_mode'].map({
    True: 'remote',
    False: 'on-site'
})


In [58]:
#para obtener la columna year necesitamos convertir a la columna publish_date a formato datetime
df_adzuna_unificado['publish_date'] = pd.to_datetime(
    df_adzuna_unificado['publish_date'],
    dayfirst=True,
    errors='coerce'
)


In [59]:
#Crear columna year
df_adzuna_unificado['year'] = df_adzuna_unificado['publish_date'].dt.year

In [60]:
#Creamos las columnas finales
columnas_finales = [
    'job_title',
    'company_name',
    'job_category',
    'position_level',
    'city',
    'country_code',
    'annual_salary',
    'salary_min',
    'salary_max',
    'contract_type',
    'workday',
    'work_mode',
    'publish_date',
    'year',
    'source'
]

df_adzuna_final = df_adzuna_unificado[columnas_finales].copy()

# Ordenamos las columnas alfabeticamente

df_adzuna_final = df_adzuna_final.reindex(
    sorted(df_adzuna_final.columns),
    axis=1
)


In [61]:
df_adzuna_final.info()
df_adzuna_final.head()

<class 'pandas.core.frame.DataFrame'>
Index: 4454 entries, 0 to 4704
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   annual_salary   2413 non-null   Int64         
 1   city            4454 non-null   object        
 2   company_name    4454 non-null   object        
 3   contract_type   4454 non-null   object        
 4   country_code    4454 non-null   object        
 5   job_category    4454 non-null   object        
 6   job_title       4454 non-null   object        
 7   position_level  0 non-null      float64       
 8   publish_date    4454 non-null   datetime64[ns]
 9   salary_max      2412 non-null   Int64         
 10  salary_min      2413 non-null   Int64         
 11  source          4454 non-null   object        
 12  work_mode       0 non-null      object        
 13  workday         1369 non-null   object        
 14  year            4454 non-null   int32         
dtypes: Int64(

Unnamed: 0,annual_salary,city,company_name,contract_type,country_code,job_category,job_title,position_level,publish_date,salary_max,salary_min,source,work_mode,workday,year
0,,madrid,agileengine,,es,it / software,software engineer (ios) id48367,,2026-01-15,,,adzuna,,,2026
1,,madrid,agileengine,,es,it / software,software engineer (android tech lead) id48357,,2026-01-15,,,adzuna,,,2026
2,,madrid,agileengine,,es,it / software,software engineer (ios tech lead) id48363,,2026-01-15,,,adzuna,,,2026
3,,madrid,auto1 group,,es,it / software,"team lead java engineer, remarketing (f/m/x)",,2026-01-15,,,adzuna,,,2026
4,,madrid,m47 labs,,es,it / software,manual qa tester (native danish),,2026-01-15,,,adzuna,,,2026


In [62]:
df_adzuna_final.tail()

Unnamed: 0,annual_salary,city,company_name,contract_type,country_code,job_category,job_title,position_level,publish_date,salary_max,salary_min,source,work_mode,workday,year
4700,45000.0,paris,alveor,permanent,fr,engineering,conducteur de travaux en menuiserie h/f,,2026-01-08,45000.0,45000.0,adzuna,,,2026
4701,47500.0,paris,alveor,contract,fr,engineering,charge daffaires menuiserie h/f,,2026-01-08,60000.0,35000.0,adzuna,,,2026
4702,,paris,alveor,contract,fr,engineering,technicien superieur - mecanicien poids lourd ...,,2026-01-08,,,adzuna,,,2026
4703,,paris,atyx,contract,fr,engineering,chef(fe) de projet electricite h/f,,2026-01-08,,,adzuna,,,2026
4704,,paris,atyx,contract,fr,engineering,commissioning engineer cvc h/f,,2026-01-08,,,adzuna,,,2026


In [63]:
df_adzuna_final['city'].unique()

array(['madrid', 'barcelona', 'valencia', 'sevilla', 'malaga', 'zaragoza',
       'murcia', 'alicante', 'a coruña', 'london', 'paris'], dtype=object)

Revision de las columnas de TECNOEMPLEO-ADZUNA

In [64]:
set(df_adzuna_final.columns) == set(df_tecnoempleo_final.columns)


True

Porcentaje de valores nulos por columna **ADZUNA**



In [65]:

porcentaje_nulos = (
    df_adzuna_final.isna()
    .mean()
    .mul(100)
    .round(2)
    .sort_values(ascending=False)
)

porcentaje_nulos


Unnamed: 0,0
position_level,100.0
work_mode,100.0
workday,69.26
salary_max,45.85
annual_salary,45.82
salary_min,45.82
city,0.0
job_title,0.0
job_category,0.0
country_code,0.0


Porcentaje de valores nulos por columna **TECNOEMPLEO**

In [66]:
porcentaje_nulos = (
    df_tecnoempleo_final.isna()
    .mean()
    .mul(100)
    .round(2)
    .sort_values(ascending=False)
)

porcentaje_nulos


Unnamed: 0,0
annual_salary,100.0
country_code,100.0
contract_type,100.0
job_category,100.0
position_level,100.0
workday,100.0
salary_min,84.33
salary_max,84.33
job_title,0.0
city,0.0
