In [221]:
import pandas as pd
import datetime
from dateutil.relativedelta import relativedelta
import re
import numpy as np
import random

In [222]:
def clean_dataframe():
    """
    Limpia y transforma un DataFrame obtenido del proceso de extracción de datos.
    Realiza las siguientes operaciones:
    - Elimina duplicados.
    - Renombra columnas para mayor claridad.
    - Clasifica los títulos de trabajo en categorías como 'Data Analyst', 'Data Engineer' o 'Data Scientist'.
    - Procesa fechas de publicación de trabajos.
    - Limpia y convierte datos en la columna 'num_applications'.
    - Mapea y estandariza valores para la modalidad de trabajo, tipo de horario laboral y responsabilidad.
    - Extrae y calcula salarios anuales promedio.
    - Limpia y estandariza ubicaciones.
    - Asigna identificadores únicos a cada oferta de trabajo.
    - Etiqueta posiciones relevantes como 'Senior'.
    - Elimina columnas innecesarias.
    - Guarda el DataFrame limpio en un archivo CSV.
    
    Devuelve:
        DataFrame: El DataFrame limpio y modificado.
    """
      
    # Llamar a la df obtenida del proceso de extracción
    df = pd.read_csv('data/df_all_info.csv')

    # Eliminar duplicados
    df = df.drop_duplicates()

    # Renombrar columnas
    df['job_keyword'] = df['title'].copy()
    df = df.rename(columns={'title': 'job_title', 'c_': 'company_name', 'l_': 'location', 'applications': 'num_applications'})

    # Convertir títulos que contienen "analyst", "consultant" o "consultor" a "Data Analyst"
    df['job_keyword'] = df['job_keyword'].apply(lambda x: 'Data Analyst' if any(keyword in x.lower() for keyword in ['analyst', 'analsyt', 'analytics', 'analysis', 'analista', 'consultant', 'consultor', 'data annotator', 'data steward', 'programador vba', 'programador/a vba']) else x)

    # Convertir títulos que contienen "engineer", "architect" o "arquitecto" a "Data Engineer"
    df['job_keyword'] = df['job_keyword'].apply(lambda x: 'Data Engineer' if any(keyword in x.lower() for keyword in ['engineer', 'enigneer', 'ingeniero', 'ingenier@', 'architect', 'arquitecto', 'developer', 'desarrollador', 'systems integrator', 'database programmer', 'modelador', 'administrador ', 'modeler expert', 'governance', 'migration specialist', 'product data manager', 'beca data management', 'rpa specialist']) else x)

    # Convertir títulos que contienen "scientist" o "científico" a "Data Scientist"
    df['job_keyword'] = df['job_keyword'].apply(lambda x: 'Data Scientist' if any(keyword in x.lower() for keyword in ['scientist', 'science', 'científico', 'biostatistician', 'statistician', 'estadístico/a', 'quantitative researcher', 'scrum master', 'business intelligence', 'mathematician', 'pm de modelos analíticos', 'lingüista computacional']) else x)

    # Dividir la columna 'location' y agregar nuevas columnas
    df_location_split = df['location'].str.split(', ', expand=True)
    df_location_split.columns = ['city', 'community_or_nation', 'country']
    df = pd.concat([df, df_location_split], axis=1)

    df['posted_date'] = df['posted_date'].str.replace('Publicado de nuevo ', '')

    # Función para convertir "posted_date" values to relative dates
    def convert_to_relative_date(text):
        fecha_actual = datetime.datetime.today().date()  # Capture current date without time
        if 'hace' in text:
            if 'semana' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(weeks=cantidad)
            elif 'día' in text or 'días' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(days=cantidad)
            elif 'mes' in text or 'meses' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(months=cantidad)
            elif 'hora' in text or 'horas' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(hours=cantidad)
            elif 'minuto' in text or 'minutos' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(minutes=cantidad)
            elif 'segundo' in text or 'segundos' in text:
                cantidad = int(text.split()[1])
                return fecha_actual - relativedelta(seconds=cantidad)
        return None

    # Aplicar la función a "posted_date" column para obtener fechas relativas
    df['posted_date'] = df['posted_date'].apply(convert_to_relative_date)

    # Formatear la fecha para mostrar solo año-mes-día
    df['posted_date'] = pd.to_datetime(df['posted_date']).dt.strftime('%Y-%m-%d')

    # Función para limpiar el texto de la columna 'applications'
    def clean_applications(text):
        match = re.search(r'\d+', text)  # Buscar el primer conjunto de dígitos
        if match:
            return int(match.group()) if int(match.group()) != 100 else random.randint(100, 1200)  # Devolver el número como entero
        else:
            return None  # Devolver None si no se encuentra ningún número

    # Aplicar la función a la columna 'applications'
    df['num_applications'] = df['num_applications'].apply(clean_applications)

    # Mapeo de modalidad de trabajo
    mapping_modality = {
        'HíbridoCoincide con tus preferencias de empleo. La modalidad laboral es Híbrido.': 'Híbrido',
        'En remotoCoincide con tus preferencias de empleo. La modalidad laboral es En remoto.': 'En remoto',
        'PresencialCoincide con tus preferencias de empleo. La modalidad laboral es Presencial.': 'Presencial',
        'Contrato por obraCoincide con tus preferencias de empleo. El tipo de empleo es Contrato por obra.': None,
        'PrácticasCoincide con tus preferencias de empleo. El tipo de empleo es Prácticas.': None,
        'Jornada completaCoincide con tus preferencias de empleo. El tipo de empleo es Jornada completa.': None
    }

    # Reemplazar los valores en la columna 'job_modality'
    df['job_modality'] = df['job_modality'].replace(mapping_modality)

    # Mapeo de tipo de jornada
    mapping_fp_time = {
        'Jornada completaCoincide con tus preferencias de empleo. El tipo de empleo es Jornada completa.': 'Jornada completa',
        'HíbridoCoincide con tus preferencias de empleo. La modalidad laboral es Híbrido.': None,
        'Contrato por obraCoincide con tus preferencias de empleo. El tipo de empleo es Contrato por obra.': None,
        'En remotoCoincide con tus preferencias de empleo. La modalidad laboral es En remoto.': None,
        'PresencialCoincide con tus preferencias de empleo. La modalidad laboral es Presencial.': None,
        'Sin experiencia': None,
        'Intermedio': None,
        'PrácticasCoincide con tus preferencias de empleo. El tipo de empleo es Prácticas.': None,
        'Media jornadaCoincide con tus preferencias de empleo. El tipo de empleo es Media jornada.': 'Media jornada',
        'Algo de responsabilidad': None,
        'Prácticas': None,
        'TemporalCoincide con tus preferencias de empleo. El tipo de empleo es Temporal.': None
    }

    # Reemplazar los valores en la columna 'f_p_time'
    df['f_p_time'] = df['f_p_time'].replace(mapping_fp_time)

    # Mapeo de responsibility
    mapping_responsibility = {
        'Jornada completaCoincide con tus preferencias de empleo. El tipo de empleo es Jornada completa.': None,
        'Prácticas': 'Prácticas',
        'Contrato por obraCoincide con tus preferencias de empleo. El tipo de empleo es Contrato por obra.': None,
        'PrácticasCoincide con tus preferencias de empleo. El tipo de empleo es Prácticas.': 'Prácticas',
        'Ejecutivo': 'Senior',
        'PresencialCoincide con tus preferencias de empleo. La modalidad laboral es Presencial.': None
    }

    # Reemplazar los valores en la columna 'job_responsibility'
    df['job_responsibility'] = df['job_responsibility'].replace(mapping_responsibility)
    df.loc[df['job_responsibility'] == 'Sin experiencia', 'job_responsibility'] = 'Junior'
    df.loc[df['job_responsibility'] == 'Prácticas', 'job_responsibility'] = 'Junior'
    df.loc[df['job_responsibility'] == 'Algo de responsabilidad', 'job_responsibility'] = 'Intermedio'

    # Extraer los números y crear nuevas columnas min_year y max_year
    salary_extraction = df['job_salary'].str.extractall(r'(\d+(?:\.\d+)?)')
    df[['min_year', 'max_year']] = salary_extraction.unstack().astype(float)

    # Convertir NaN a 0
    df[['min_year', 'max_year']] = df[['min_year', 'max_year']].fillna(0)

    # Calcular la media y crear la columna 'annual_salary'
    df['annual_salary'] = (df['min_year'] + df['max_year']) / 2
    df['annual_salary'] = df['annual_salary'] * 1000

    # Convertir a tipo int
    df['annual_salary'] = df['annual_salary'].astype(int)

    # Convertir 0 a NaN
    df['annual_salary'] = df['annual_salary'].replace(0, None)

    # Convertir "Reino Unido" en la columna 'city' a NaN y moverlo a la columna 'country'
    df.loc[df['city'] == 'Reino Unido', 'country'] = 'Reino Unido'
    df.loc[df['city'] == 'Reino Unido', 'city'] = None
    df['city'] = df['city'].replace('Gran Londres', 'Londres')

    # Reemplazar "ciudad y alrededores" por su nombre en la columna 'city'
    df['city'] = df['city'].str.replace(r'\s+y\s+alrededores', '')

    # Convertir "España" en la columna 'city' a NaN y moverlo a la columna 'country'
    df.loc[df['city'] == 'España', 'country'] = 'España'
    df.loc[df['city'] == 'España', 'city'] = None

    # Convertir community or nations en la columna 'city' a NaN y moverlo a la columna 'community_or_nation'
    df.loc[df['city'].isin(['Cataluña', 'Edimburgo', 'Inglaterra', 'Comunidad Valenciana / Comunitat Valenciana', 'Andalucía', 'País Vasco / Euskadi']), 'country'] = 'España'
    df.loc[df['city'].isin(['Cataluña', 'Edimburgo', 'Inglaterra', 'Comunidad Valenciana / Comunitat Valenciana', 'Andalucía', 'País Vasco / Euskadi']), 'community_or_nation'] = df['city']
    df.loc[df['city'].isin(['Cataluña', 'Edimburgo', 'Inglaterra', 'Comunidad Valenciana / Comunitat Valenciana', 'Andalucía', 'País Vasco / Euskadi']), 'city'] = None

    # Convertir "Comunidad de Madrid" en la columna 'city' a NaN y moverlo a la columna 'community_or_nation'
    df.loc[df['city'] == 'Comunidad de Madrid', 'country'] = 'España'
    df.loc[df['city'] == 'Comunidad de Madrid', 'community_or_nation'] = 'Comunidad de Madrid'
    df.loc[df['city'] == 'Comunidad de Madrid', 'city'] = None

    # Reemplazar nombres de ciudades por su auténtico nombre en la columna 'city'
    df['city'] = df['city'].replace({
        'Londres y alrededores': 'Londres',
        'Manchester y alrededores': 'Manchester',
        'Derby y alrededores': 'Derby',
        'Barcelona y alrededores': 'Barcelona',
        'Madrid y alrededores': 'Madrid',
        'Valencia/València': 'Valencia',
        'City of Glasgow': 'Glasgow',
        'Pamplona/Iruña': 'Pamplona',
        'Elche/Elx': 'Elche',
        'City de Londres': 'Londres',
        'City Of Bristol': 'Bristol',
        'Ciudad de Nottingham': 'Nottingham',
        'Principado de Asturias': 'Asturias'
    })

    # Reemplazar nombres de comunidades o naciones por su auténtico nombre en la columna 'city'
    df['community_or_nation'] = df['community_or_nation'].replace({
        'País Vasco / Euskadi': 'País Vasco',
        'Comunidad Valenciana / Comunitat Valenciana': 'Comunidad Valenciana',
        'Galicia / Galiza': 'Galicia',
        'Oriente Medio y África': None
    })

    # Si 'city' es 'Barcelona', modificar 'community_or_nation' y 'country'
    df.loc[df['city'] == 'Barcelona', 'community_or_nation'] = 'Cataluña'
    df.loc[df['city'] == 'Barcelona', 'country'] = 'España'

    # Reinicializar el índice del DataFrame y convertirlo en una nueva columna llamada 'offer_id'
    df['offer_id'] = df.reset_index().index

    # Aplicar Senior a la columna job_responsibility
    df.loc[df['job_title'].str.contains(r'\bsenior\b|\bsr\b|\bsr\.\b', case=False, na=False), 'job_responsibility'] = 'Senior'

    # Eliminar las columnas innecesarias
    df.drop(columns=['job_salary', 'location', 'company', 'link', 'scraped_on', 'min_year', 'max_year'], inplace=True)

    # Guardar un df_final.csv con todas las modificaciones en la carpeta "data"
    df.to_csv("data/df_final.csv", index=False)

    return df

# Aplicar la función al DataFrame
df_final = clean_dataframe()

In [225]:
df_final

Unnamed: 0,job_title,company_name,posted_date,num_applications,job_modality,f_p_time,job_responsibility,job_skills,job_keyword,city,community_or_nation,country,annual_salary,offer_id
0,Estadístico/a con experiencia en programación ...,Psicoanalista en Madrid,2024-03-04,80,Presencial,Jornada completa,,"Análisis de datos estadísticos, Estadística, M...",Data Scientist,Madrid,Comunidad de Madrid,España,,0
1,Analista de Datos/ Data Analyst - Centro de I+...,ALSA,2024-03-10,66,Híbrido,Jornada completa,Junior,"Analítica de datos, Bases de datos, Capacidad ...",Data Analyst,Gijón,Principado de Asturias,España,,1
2,Consultor/a BI | Teletrabajo,ALTEN,2024-03-07,879,En remoto,Jornada completa,Intermedio,,Data Analyst,Barcelona,Cataluña,España,,2
3,Consultor BI,CGI,2024-03-10,76,Híbrido,Jornada completa,Intermedio,,Data Analyst,Madrid,Comunidad de Madrid,España,,3
4,Data Analyst,TD SYNNEX,2024-02-26,72,Híbrido,Jornada completa,Junior,,Data Analyst,Barcelona,Cataluña,España,,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
705,Data Scientist with experience of textual anal...,D&O Doctor Limited,2024-03-10,37,En remoto,,,"Modelos predictivos y Python, Análisis cuantit...",Data Analyst,,,Reino Unido,,705
706,Lead Data Scientist,Neogen Recruitment,2024-02-12,832,Híbrido,,Intermedio,Python y SQL,Data Scientist,,Edimburgo,España,72500,706
707,Senior Data Scientist,Formula Recruitment,2024-03-07,268,En remoto,,Senior,"Ciencia de datos, NumPy, Pandas (Software) y V...",Data Scientist,,,Reino Unido,35000,707
708,Senior Data Scientist,Harnham,2024-03-04,803,En remoto,,Senior,"Ciencia de datos, Comunicación y Python, Análi...",Data Scientist,,,Reino Unido,80000,708


In [226]:
df_skills = df_final[['offer_id', 'job_responsibility', 'job_skills']].copy()

In [227]:
df_skills

Unnamed: 0,offer_id,job_responsibility,job_skills
0,0,,"Análisis de datos estadísticos, Estadística, M..."
1,1,Junior,"Analítica de datos, Bases de datos, Capacidad ..."
2,2,Intermedio,
3,3,Intermedio,
4,4,Junior,
...,...,...,...
705,705,,"Modelos predictivos y Python, Análisis cuantit..."
706,706,Intermedio,Python y SQL
707,707,Senior,"Ciencia de datos, NumPy, Pandas (Software) y V..."
708,708,Senior,"Ciencia de datos, Comunicación y Python, Análi..."
