# Análisis de calidad
#### Base de datos de candidatos Q3 2024
Proyecto empresarial 2 - Manuel Vecino

Universidad del Rosario

Maestría en Busines analytics

In [6]:
import pandas as pd
import numpy as np
from datetime import datetime

import warnings
warnings.filterwarnings("ignore")

### Importando la base de datos

In [7]:
file_path = 'Bases/Manuel Vecino Report Request.xlsx - Manu info.csv'
data = pd.read_csv(file_path)

### Verificando que la base se haya importado correctamente

In [8]:
data.head()

Unnamed: 0,Candidate Name,Candidate First Name,Candidate Last Name,Current Company,Current Position,Candidate Location,Candidate Email Address,Candidate Phone Number,Region,Employment Status,...,Candidate Creator,Candidate Owner,Years of Experience,Current Salary,Current Benefits,Notice Period,Expected Salary,Candidate industry,salary_min,salary_max
0,★ Jonathan Orozco Ruiz ★,Jonathan,Ruiz,Career Break,Bereavement,Bogota,jony3636@hotmail.com,3124174428,Latin America,,...,Daniel Di Domenico,Daniel Di Domenico,6.0,2300000.00 COP Monthly (Permanent),,,,,,
1,A Saeed,A,Saeed,DevOpsInfrastructureEngineer&CI,,,hansellaah5@gmail.com,'+19784516966,,,...,Sarah Rodriguez,Juan Felipe Velasco,,160000.00 USD (),,10 Days,160000.00 USD (),,,
2,aalok kumar bhunjiya,Aalok,Bhunjiya,Laxyo Energy Limited in IT Division 'LAXYO SOL...,Deputy Head IT & Business,,aalok.bhunjiya25@gmail.com,7067701331,,,...,,Camila Cabuya,,,,,,,,
3,Abdulvahid Gök,Abdulvahid,Gök,Paytrek - Seamless Transactions,Technical Lead,İstanbul,abdulvahidgok@gmail.com,905419190183,Europe,,...,Nicolas Sandoval,Juan Felipe Velasco,8.0,4000.00 USD Monthly (),,20 Days,4500.00 USD Monthly (),,,
4,Abel Grajales,Abel,Grajales,Technology Companies · Jornada completa,IT Project Manager currently seeking new oppor...,Shanghai,abelgrajales1402@gmail.com,529612159179,Latin America,,...,Daniela Hoyos,Juan Felipe Velasco,,60000.00 MXN (),,Immediately,70000.00 MXN (),,,


### Descriptivos generales

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3460 entries, 0 to 3459
Data columns (total 37 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Candidate Name               3460 non-null   object 
 1   Candidate First Name         3456 non-null   object 
 2   Candidate Last Name          3456 non-null   object 
 3   Current Company              3267 non-null   object 
 4   Current Position             3252 non-null   object 
 5   Candidate Location           2569 non-null   object 
 6   Candidate Email Address      3195 non-null   object 
 7   Candidate Phone Number       2652 non-null   object 
 8   Region                       2044 non-null   object 
 9   Employment Status            155 non-null    object 
 10  Source                       3460 non-null   object 
 11  Hired Date                   155 non-null    object 
 12  Referrer Name                0 non-null      float64
 13  Referrer Email    

### Eliminar columnas vacías

Contamos con varias columnas vacías en el set de datos, por lo que es recomendable eliminarlos para realizar un análisis más práctico. 

In [10]:
empty_columns = [col for col in data.columns if data[col].isnull().all()]
data = data.drop(columns=empty_columns)

### 1ra dimensión: Completitud: 
Completitud se define como el grado en que los atributos requeridos están presentes.

Se mide como el porcentaje de registros cuyos campos requeridos están informados / registros totales.

In [11]:
missing_data = data.isnull().sum()
missing_percentage = (missing_data / len(data)) * 100
completitud_df = pd.DataFrame({
    '% Datos Faltantes': missing_percentage,
    'Datos Faltantes': missing_data
}).sort_values(by='% Datos Faltantes', ascending=True)
completitud_df

Unnamed: 0,% Datos Faltantes,Datos Faltantes
Candidate Name,0.0,0
Candidate Updated Date,0.0,0
Candidate Created Date,0.0,0
Source,0.0,0
Candidate Last Name,0.115607,4
Candidate First Name,0.115607,4
Candidate Creator,5.086705,176
Current Company,5.578035,193
Current Position,6.011561,208
Candidate Email Address,7.65896,265


#### Conclusiones de Completitud

En primer lugar entendiendo la naturaleza de los datos, y como son recolectados, iniciamos el análisis de completitud. En primer lugar, podemos ver que el grupo de datos "Source", "Candidate Updated Date", "Candidate Created Date" son datos automáticamente generados por el sistema, por lo que en la creación de todos los registros van a ser creados consecuentemente, por lo que no existe en si mismo un análisis de completitud, ya que siempre van a encontrarse. Dentro de este grupo de variables automáticas, una que genere curiosidad que esté vacía es el "Candidate Creator" ya que por regla del sistema todos los candidatos deberían ser creados por algún reclutador y así mismo, tener un "Candidate Owner", variable que por alguna razón también cuenta con varios registros vacíos y valdría la pena entender los casos particulares. Así mismo, vemos que hay candidatos sin "Resume added date", aunque es entendible la razón por la cual esto puede estar pasando, es incongruente con el proceso con el que trabajamos que los candidatos registrados en el CRM no cuenten con un resume. 

Por otro lado, el dato "Candidate Name" existe al ser el identificador principal del candidato en el sistema por lo que es un dato obligatorio y no es posible crear un nuevo candidato sin esta variable. Así mismo, sus variables complementarias "Candidate First Name" y "Candidate Last Name" aunque deberían ser obligatorias a la par, vemos que aquí se empiezan a generar inconsistencias, ya que existen 4 registros donde no estan, cosa que no debería ser ya que todos los candidatos deberían contar con un nombre y un apellido. 

Avanzando con el siguiente grupo de datos, podemos ver que faltan datos en las variables "Current Company" y "Current Position" las cuales aunque son generadas automáticamente por el sistema al momento de realizar el proceso de scrapping del LinkedIn o la CV del candidato, este proceso puede fallar. 

De la misma manera, entendiendo los métodos de contacto, contamos con el "Candidate Email Addres" y el "Candidate Phone Number" donde contamos con registros faltantes en el caso del primero en 265 ocasiones, por otro lado, en el teléfono es bastante más, al rededor de 808. Al ser el Email, además de el medio de comunicación más relevante durante un proceso de selección, la manera más sencilla de identificar a un candidato y evitar que se duplique en la base de datos, es crítico tenerlo, por lo cual es crítico que este se incluya en absolutamente todos los candidatos. Por otro lado, el teléfono es un poco más entendible que existan datos faltantes, ya que múltiples candidatos no lo incluyen en su CV o datos de contacto ya que prefieren no ser contactados por este medio. 

Antes de avanzar con con el siguiente grupo, dos de las variables donde perdemos bastante información son las variables "Region" y "Candidate Industry". Variables las cuales Aunque no brindan información relevante en si misma para el proceso, si brindan información importante para la operación y el entendimiento del mercado, los cuales pueden brindar insights significativos a futuro sobre el proceso. 

El siguiente grupo, y uno de los grupos de variables más importantes para el análisis del proceso y fit en la posició se trata de las variables de salario, las cuales como podemos ver, cuentan con bastantes datos faltantes. Empezando por el salario esperado, no tiene sentido que haya tantos datos faltantes, ya que es uno de los datos más importantes a preguntar en una entrevista, inclusive si el candidato no avanza en el proceso. De la misma manera, podemos ver que el current salary cuenta con una cantidad de datos faltantes aun mayor, lo cual es entendible ya que no todos los candidatos se sienten cómodos compartiendo su compensación actual, aun así, la gran cantidad de datos faltantes, denota que junto con la variable "current salary" sea un descuido del reclutador no agregarlo en el CRM. 

Por ultimo, datos relevantes para el proceso son "Years of Experience" y "Notice Period" donde vemos que los datos faltantes se encuentran cercanos al 40%. Esto probablemente por la falla del reclutador al subir los datos, ya que los años de experiencia son un dato con el cual se cuenta incluso antes de tener una entrevista. De la misma manera, el Notice period se debe discutir en una entrevista para entender la disponibilidad de un candidato, aunque, es entendible que no se tenga si el candidato no avanzó. 

##### Recomendaciones: 
- Las variables de Candidate Creator y Candidate Owner en dado caso de no ser llenadas por el sistema automáticamente y quedar vacías, deben de alguna forma poder llenarse manualmente, particularmente el candidate owner, ya que es la demostración de que el candidato está siendo procesado (o no) y la persona quién lo procesa. Es decir **No puede haber candidato sin candidate owner**
- Los candidatos registrados deben contar con un Resume en el ATS, así sea el generado automáticamente en LinkedIn. 
- En caso de que el Scrapping de LinkedIn no vincule ningún candidato con un Empleo y Puesto actual (o inmediatamente anterior), debe ser escrito manualmente por el reclutador. Así mismo, en un caso excepcional que el candidato no cuente con trabajo actual o anterior, se debe escribir un "N/A", mas no dejar la columna vacía. 
- El email debe ser un campo obligatorio para crear un candidato y no es posible avanzar con el resto de pasos de creación de un candidato sin contar con el correo. 
- Tanto el candidate location como la región deben ser un campo obligatorio. Inclusive, si es posible dentro del sistema, generar la posibilidad que desde la selección de la ubicación se seleccione automáticamente la región. 
- La industria del candidato debe ser un campo obligatorio, aunque posiblemente y para facilitar el workflow de los recruiters, podría ser recomendable aumentar la lista de industrias en el sistema, tal vez copiando la misma lista de categorías que maneja LinkedIn para que sea incluso familiar para el equipo de recruiting.  
- El salario actual y anterior deben ser obligatorios a agregar, así como los beneficios. En dado caso que el candidato no haya querído discutir al respecto del salario actual, es recomendable poner un "0" con tal de no dejar el campo vacío, en caso de realizar un análisis posterior, para que estos ceros no dañen las mediciones, serán imputados posteriormente. Así mismo, si el candidato no cuenta con beneficios actuales o no se discutieron, se pondrá un "N/A" o un "Not discussed" dependiendo del caso." 
- En dado caso de no contar con el notice period de un candidato, con tal de no dejar el campo vacío, se puede poner el estandard de "2 semanas" como dato por defecto. 

### 2da dimensión: Validez: 
Validez se define como el grado de conformidad con formato, tipado y rango.

Se mide como el porcentaje de registros cuyos campos requeridos cumplen con los requerimientos de validez / registros 
totales

#### Validez de nombres de los candidatos

In [12]:
# Validar nombres y apellidos (sin caracteres especiales)
name_columns = ['Candidate Name', 'Candidate First Name', 'Candidate Last Name']
for col in name_columns:
    if col in data.columns:
        # Asegurarse de que no contengan caracteres especiales
        data[f'{col}_Valid'] = data[col].str.match(r'^[a-zA-ZÀ-ÿ\s\-]+$', na=False)
        print(f"Validación de nombres/apellidos en {col}:")
        print(data[f'{col}_Valid'].value_counts())


Validación de nombres/apellidos en Candidate Name:
Candidate Name_Valid
True     3309
False     151
Name: count, dtype: int64
Validación de nombres/apellidos en Candidate First Name:
Candidate First Name_Valid
True     3451
False       9
Name: count, dtype: int64
Validación de nombres/apellidos en Candidate Last Name:
Candidate Last Name_Valid
True     3444
False      16
Name: count, dtype: int64


#### Conclusiones de validez de nombres

Podemos ver que con respecto a los nombres la validez no es un problema tan grande, aunque econtramos que principalmente en el nombre completo, econtramos más candidatos que no se adhieren a la regla general de no contener caracteres especiales. 

#### Recomendaciones: 

- La principal recomendacion es, al ser una empresa que tiene candidatos en todo el mundo pero cuyo lenguaje principal es el inglés, debemos tener nombres sin caracteres especiales para encontrar fácilmente a los candidatos además de poder mantener su registro de manera uniforme. 



#### Validez de los correos

In [13]:
import re

# Función para validar correos electrónicos
def validate_email(email):
    if pd.isnull(email):  # Si el correo es vacío o NaN, considerarlo válido
        return True
    regex = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(regex, email))

# Aplicar la validación
data['Candidate Email Valid'] = data['Candidate Email Address'].apply(validate_email)

# Mostrar resultados
print("Validación de correos electrónicos:")
print(data['Candidate Email Valid'].value_counts())
print("\nEjemplos de correos electrónicos inválidos:")
print(data.loc[~data['Candidate Email Valid'], 'Candidate Email Address'])

Validación de correos electrónicos:
Candidate Email Valid
True     3458
False       2
Name: count, dtype: int64

Ejemplos de correos electrónicos inválidos:
2550    '+5491163609923-matiassandoval980@gmail.com
2793                   nursedaturkcan123@gmai̇l.com
Name: Candidate Email Address, dtype: object


#### Conclusiones de validez de los correos:
Con respecto a la validez, los correos son bastante ordenados gracias que el CRM tiene su propio sistema de auto validación. A parte de un par de errores como uno que incluye un número de teléfono, no es un campo del que nos debemos preocupar mucho. 

#### Recomendaciones
- Para evitar el error en este campo importante para la verificación de duplicados, es importante que el reclutador revise dos veces que este sea correcto. 

#### Validez de los números de teléfono

In [14]:
# Función para validar teléfonos
def validate_phone(phone):
    if pd.isnull(phone):  # Si el teléfono es vacío o NaN, considerarlo válido
        return True
    regex = r'^\+?\d{1,4}?[\d\s()-]+$'  # Patrón para validar números de teléfono con código de país
    return bool(re.match(regex, phone))

# Aplicar la validación
data['Candidate Phone Valid'] = data['Candidate Phone Number'].apply(validate_phone)

# Mostrar resultados
print("\nValidación de números de teléfono:")
print(data['Candidate Phone Valid'].value_counts())
print("\nEjemplos de números de teléfono inválidos:")
print(data.loc[~data['Candidate Phone Valid'], 'Candidate Phone Number'])


Validación de números de teléfono:
Candidate Phone Valid
True     2433
False    1027
Name: count, dtype: int64

Ejemplos de números de teléfono inválidos:
1           '+19784516966
6       '+5519-99111.1562
8         '+52 7715673710
15         '+529848775633
16         '+541122669666
              ...        
3448    '+57 300 279 2226
3451       '+573016477114
3456    (+90)536-792-8328
3457    (+36) 70 319 0639
3459       '+573218823946
Name: Candidate Phone Number, Length: 1027, dtype: object


#### Revisión Validez Teléfonos

Aqui uno de los campos a entender que debemos contar con formatos válidos para evitar confusiones posteriores. Podemos ver que no se tiene in formato uniforme para el número de teléfono, el cual al mismo tiempo debe ser el más simple posible para que los reclutadores no pierdan mucho tiempo revisandolo, pero que cuente con la información completa, en este caso código pais, código ciudad (si aplica) y el número como tal. 

#### Recomendaciones:
- De esta manera, es importante mantener un formato uniforme pero simple, el propuesto es el siguiente +## ########## siendo los dos primeros (o tres primeros en ciertos casos) el código país y el resto, el número de teléfono como tal, sin nigún simbolo adicional de por medio. 


### 3ra dimension: Unicidad

Unicidad se define como el porcentaje de registros únicos que existen.
Se mide como el porcentaje de registros únicos / registros totales.

Utilizaremos los correos y los teléfonos que son valores que no deberían ser iguales para los candidatos.

In [15]:
# Excluir filas con valores nulos o vacíos en las columnas clave antes de buscar duplicados
emails = ['Candidate Email Address']
filtered_emails = data.dropna(subset=emails)

# Verificar duplicados en las filas restantes
duplicate_emails = filtered_emails.duplicated(subset=emails, keep=False)
print(f"Cantidad de correos duplicados: {duplicate_emails.sum()}")

phones = ['Candidate Phone Number']
filtered_phones = data.dropna(subset=phones)

duplicate_phones = filtered_phones.duplicated(subset=phones, keep=False)
print(f"Cantidad de teléfonos duplicados: {duplicate_phones.sum()}")



Cantidad de correos duplicados: 43
Cantidad de teléfonos duplicados: 35


#### Conclusiones de unicidad

El análisis aquí se realizó principalmente sobre las variables de correo y teléfono, los cuales son únicos entre los candidatos. En este caso, vemos que el registro cuenta con 43 candidatos duplicados y 35 teléfonos duplicados. 

#### Recomendación:
- El reclutador debe verificar manualmente si el correo ya se encuentra creado. 
- Así mismo,si el sistema detecta que el correo ya está en otro registro; el registro no podrá ser creado. 

### 4ta dimensión: Consistencia

Consistencia mide el nivel en que se dispone de la misma información independiente de en qué fuente se consulte.
Se mide como el porcentaje de registros consistentes / registros totales.

Una de las fuentes de consistencia más importantes es validar que exista consistencia entre el nombre y apellido del candidato y el nombre completo del mismo.

In [16]:
if {'Candidate Name', 'Candidate First Name', 'Candidate Last Name'}.issubset(data.columns):
    # Crear una columna combinada con el nombre completo a partir de First Name y Last Name
    data['Full Name Combined'] = data['Candidate First Name'].str.strip() + " " + data['Candidate Last Name'].str.strip()

    # Comparar la columna combinada con la columna Candidate Name
    data['Name Consistent'] = data['Candidate Name'].str.strip() == data['Full Name Combined']

    # Contar inconsistencias
    inconsistencies = data['Name Consistent'].value_counts()
    print("Validación de consistencia entre Candidate Name y la combinación de First y Last Name:")
    print(inconsistencies)
    
    # Mostrar las filas inconsistentes si las hay
    if not data['Name Consistent'].all():
        print("\nFilas con inconsistencias en los nombres:")
        print(data.loc[~data['Name Consistent'], ['Candidate Name', 'Candidate First Name', 'Candidate Last Name', 'Full Name Combined']])
else:
    print("No se encuentran todas las columnas necesarias para realizar esta validación.")


Validación de consistencia entre Candidate Name y la combinación de First y Last Name:
Name Consistent
False    2096
True     1364
Name: count, dtype: int64

Filas con inconsistencias en los nombres:
                 Candidate Name Candidate First Name Candidate Last Name  \
0      ★ Jonathan Orozco Ruiz ★             Jonathan                Ruiz   
2          aalok kumar bhunjiya                Aalok            Bhunjiya   
5          Abigail Rijo Morales              Abigail             Morales   
7     Abraham Hernández Venegas              Abraham             Venegas   
8                 Abraham López              Abraham                 Pez   
...                         ...                  ...                 ...   
3455           Zi Jie (Jay) Ang                   Zi                 Ang   
3456              Zia Soroush.h                  Zia                   h   
3457                Zsolt Barkó                Zsolt                Bark   
3458             🌐Alejandro🌐 D.         

#### Conclusiones de consistencia

El análisis particular de consistencia va hacia los nombres dado que es donde más cambios pueden haber entre una misma fuente de datos en esta base. De esta manera, podemos ver que  en efecto en la gran matoría de casos, el nombre completo NO es la concatenación del Nombre y Apellido del candidato. 

#### Recomendaciones:
- Es necesario que el reclutador verifique que el campo de "Candidate First Name" tenga el nombre(s) del candidato y el campo "Candidate Last Name" apellido(s) con el objetivo de que la informacións sea consistente y sea más sencillo encontrar a un candidato en particular en la base. 

### 5ta dimensión: Precisión

Precisión describe el grado en que los datos representan la realidad.
Se mide como el porcentaje de registros precisos / registros totales.

In [17]:
# Verificar datos fuera de rango o valores anómalos
if 'Years of Experience' in data.columns:
    out_of_range_experience = data[(data['Years of Experience'] < 0) | (data['Years of Experience'] > 30)]
    print(f"Valores fuera de rango en 'Years of Experience':\n{out_of_range_experience}")


Valores fuera de rango en 'Years of Experience':
Empty DataFrame
Columns: [Candidate Name, Candidate First Name, Candidate Last Name, Current Company, Current Position, Candidate Location, Candidate Email Address, Candidate Phone Number, Region, Employment Status, Source, Hired Date, Employee Job, ('Placement Client',), Candidate Created Date, Candidate Updated Date, Resume Added Date, Candidate Creator, Candidate Owner, Years of Experience, Current Salary, Current Benefits, Notice Period, Expected Salary, Candidate industry, salary_min, salary_max, Candidate Name_Valid, Candidate First Name_Valid, Candidate Last Name_Valid, Candidate Email Valid, Candidate Phone Valid, Full Name Combined, Name Consistent]
Index: []

[0 rows x 34 columns]


#### Conclusiones precisión en años de experiencia
No existe ningún dato irregular o impreciso para esta variable. 

### 6ta dimension: Puntualidad

Puntualidad se define como el grado de disponibilidad de la información cuando se necesita.
Se mide como el porcentaje de registros cuyos campos estuvieron disponibles antes del momento requerido / registros 
totales

*Al no contar particularmente con una variable que nos permita validar la puntualidad requerida de la información en este caso, por el momento este será omitido en este análisis.*

## Analisis particular sobre el Salario

#### Validez en el current salary y el expected salary

In [18]:
# Función para manejar formatos incompletos
def parse_salary(salary_column):
    parsed_data = salary_column.str.extract(
        r'^([\d.,]+)?\s*([A-Z]{3})?\s*(\w+)?\s*\(?(\w+)?\)?$'
    )
    parsed_data.columns = ['Amount', 'Currency', 'Frequency', 'Contract Type']
    parsed_data['Amount'] = parsed_data['Amount'].str.replace(',', '').astype(float, errors='ignore')  # Convertir monto a numérico
    return parsed_data

# Aplicar la función a las columnas de salario
if {'Current Salary', 'Expected Salary'}.issubset(data.columns):
    current_salary_parsed = parse_salary(data['Current Salary'])
    expected_salary_parsed = parse_salary(data['Expected Salary'])

    # Combinar las nuevas columnas con el DataFrame original
    for prefix, parsed in [('Current', current_salary_parsed), ('Expected', expected_salary_parsed)]:
        for col in parsed.columns:
            data[f'{prefix} Salary {col}'] = parsed[col]

# Mostrar una vista previa de los datos procesados
data.head()


Unnamed: 0,Candidate Name,Candidate First Name,Candidate Last Name,Current Company,Current Position,Candidate Location,Candidate Email Address,Candidate Phone Number,Region,Employment Status,...,Full Name Combined,Name Consistent,Current Salary Amount,Current Salary Currency,Current Salary Frequency,Current Salary Contract Type,Expected Salary Amount,Expected Salary Currency,Expected Salary Frequency,Expected Salary Contract Type
0,★ Jonathan Orozco Ruiz ★,Jonathan,Ruiz,Career Break,Bereavement,Bogota,jony3636@hotmail.com,3124174428,Latin America,,...,Jonathan Ruiz,False,2300000.0,COP,Monthly,Permanent,,,,
1,A Saeed,A,Saeed,DevOpsInfrastructureEngineer&CI,,,hansellaah5@gmail.com,'+19784516966,,,...,A Saeed,True,160000.0,USD,,,160000.0,USD,,
2,aalok kumar bhunjiya,Aalok,Bhunjiya,Laxyo Energy Limited in IT Division 'LAXYO SOL...,Deputy Head IT & Business,,aalok.bhunjiya25@gmail.com,7067701331,,,...,Aalok Bhunjiya,False,,,,,,,,
3,Abdulvahid Gök,Abdulvahid,Gök,Paytrek - Seamless Transactions,Technical Lead,İstanbul,abdulvahidgok@gmail.com,905419190183,Europe,,...,Abdulvahid Gök,True,4000.0,USD,Monthly,,4500.0,USD,Monthly,
4,Abel Grajales,Abel,Grajales,Technology Companies · Jornada completa,IT Project Manager currently seeking new oppor...,Shanghai,abelgrajales1402@gmail.com,529612159179,Latin America,,...,Abel Grajales,True,60000.0,MXN,,,70000.0,MXN,,


In [19]:
print("\nAnálisis de validez para datos de salario:")

for prefix in ['Current', 'Expected']:
    # Validación de Monto
    data[f'{prefix} Salary Amount Valid'] = data[f'{prefix} Salary Amount'].isnull() | (data[f'{prefix} Salary Amount'] >= 0)

    # Validación de Moneda
    valid_currencies = ['USD', 'EUR', 'COP', 'MXN', 'GBP', 'MYR', 'TRY', 'ARS', 'PEN', 'BRL', 'SGD', 'SEK', 'CHF', 'CAD', 'CLP']  # Lista de monedas válidas
    data[f'{prefix} Salary Currency Valid'] = data[f'{prefix} Salary Currency'].isnull() | data[f'{prefix} Salary Currency'].isin(valid_currencies)

    # Validación de Frecuencia
    valid_frequencies = ['Monthly', 'Annually', 'Weekly', 'Daily', 'Hourly']
    data[f'{prefix} Salary Frequency Valid'] = data[f'{prefix} Salary Frequency'].isnull() | data[f'{prefix} Salary Frequency'].isin(valid_frequencies)

    # Validación de Tipo de Contrato
    valid_contract_types = ['Permanent', 'Temporary', 'Contract', 'Freelance', 'Intern']
    data[f'{prefix} Salary Contract Type Valid'] = data[f'{prefix} Salary Contract Type'].isnull() | data[f'{prefix} Salary Contract Type'].isin(valid_contract_types)

    # Resultados de validez
    print(f"\nValidez en {prefix} Salary:")
    for col in [f'{prefix} Salary Amount Valid', f'{prefix} Salary Currency Valid', f'{prefix} Salary Frequency Valid', f'{prefix} Salary Contract Type Valid']:
        print(f"{col}:")
        print(data[col].value_counts())

    # Mostrar registros con problemas de Validez
    invalid_rows = data.loc[~data[[f'{prefix} Salary Amount Valid', f'{prefix} Salary Currency Valid', f'{prefix} Salary Frequency Valid', f'{prefix} Salary Contract Type Valid']].all(axis=1)]
    if not invalid_rows.empty:
        print(f"\nRegistros inválidos en {prefix} Salary:")
        print(invalid_rows[[f'{prefix} Salary Amount', f'{prefix} Salary Currency', f'{prefix} Salary Frequency', f'{prefix} Salary Contract Type']])



Análisis de validez para datos de salario:

Validez en Current Salary:
Current Salary Amount Valid:
Current Salary Amount Valid
True    3460
Name: count, dtype: int64
Current Salary Currency Valid:
Current Salary Currency Valid
True    3460
Name: count, dtype: int64
Current Salary Frequency Valid:
Current Salary Frequency Valid
True    3460
Name: count, dtype: int64
Current Salary Contract Type Valid:
Current Salary Contract Type Valid
True    3460
Name: count, dtype: int64

Validez en Expected Salary:
Expected Salary Amount Valid:
Expected Salary Amount Valid
True    3460
Name: count, dtype: int64
Expected Salary Currency Valid:
Expected Salary Currency Valid
True    3460
Name: count, dtype: int64
Expected Salary Frequency Valid:
Expected Salary Frequency Valid
True    3460
Name: count, dtype: int64
Expected Salary Contract Type Valid:
Expected Salary Contract Type Valid
True    3460
Name: count, dtype: int64


#### Conclusiones Validez current salary y expected Salary

En primer lugar, se entiende las variables de salario como una combinación de 4 campos, las cuales son Monto - Moneda - Frecuencia - Tipo de Contrato. Al realizar esta separación para nosotros, podemos revisar su validez campo por campo. 

De acuerdo a los criterios de validez, el sistema funciona bien y no existen valores invalidos, aunque si incompletos, lo que veremos acontinuación. 

#### Revisión adicional de completitud para el Salario

In [20]:
for prefix in ['Current', 'Expected']:
    required_cols = [f'{prefix} Salary {col}' for col in ['Amount', 'Currency', 'Frequency', 'Contract Type']]
    data[f'{prefix} Salary Complete'] = data[required_cols].notnull().all(axis=1)
    data[f'{prefix} Salary Partially Complete'] = data[required_cols].notnull().sum(axis=1)


    # Porcentaje de registros completos
    completeness_percentage = data[f'{prefix} Salary Complete'].mean() * 100
    print(f"\nPorcentaje de registros completamente llenos en {prefix} Salary: {completeness_percentage:.2f}%")
    
    # Estadísticas de completitud parcial
    print(f"Distribución de cantidad de campos llenos en {prefix} Salary:")
    print(data[f'{prefix} Salary Partially Complete'].value_counts())

    # Mostrar registros incompletos
    print(f"\nRegistros incompletos en {prefix} Salary:")
    print(data.loc[~data[f'{prefix} Salary Complete'], required_cols])



Porcentaje de registros completamente llenos en Current Salary: 14.39%
Distribución de cantidad de campos llenos en Current Salary:
Current Salary Partially Complete
3    1030
0    1028
2     904
4     498
Name: count, dtype: int64

Registros incompletos en Current Salary:
      Current Salary Amount Current Salary Currency Current Salary Frequency  \
1                  160000.0                     USD                      NaN   
2                       NaN                     NaN                      NaN   
3                    4000.0                     USD                  Monthly   
4                   60000.0                     MXN                      NaN   
6                   10000.0                     USD                  Monthly   
...                     ...                     ...                      ...   
3453                 2000.0                     USD                  Monthly   
3456                    NaN                     NaN                      NaN   
3457 

#### Conclusiones completitud Salarios

Unicamente contamos con el 14% de registros completamente llenos en el expected salary, en donde 1028 está totalmente vacios y luego vemos que 1030 cuentan con 3 campos completamente llenos, los cuales son potencialmente Monto, Moneda y Frecuencia, siendo únicamente 498 los que cuentan también con el tipo de contrato. Con respecto a el expected salary contamos con una distribución bastante similares. Concluyendo aquí, que aunque la completitud de los salarios no es mala en si mismo, ya que en ambos campos contamos con al rededor de 70% de los datos, al explorar al detalle estos campos, podemos ver que no se esta trayendo la información completa al sistema, lo cual puede ser importante para un potencial análisis del candidato.

#### Recomendaciones
- Debe ser obligatorio en todos los casos llenar los 4 campos de información para el salario tanto actual como esperado. Como se mencionó anteriormente, en caso de no contar con la información, los valores predeterminados serán 0 (monto), USD (moneda), monthly (frecuencia), permanent (contrato). Estos al ser los valores más frecuentes o imputables para un análisis posterior. 

### Precisión Salarios

Precisión describe el grado en que los datos representan la realidad.
Se mide como el porcentaje de registros precisos / registros totales.

In [21]:
# Análisis de valores atípicos en USD y COP
for currency in ['USD', 'COP']:
    print(f"\nAnálisis de salarios en {currency}:")

    for prefix in ['Current', 'Expected']:
        column_amount = f'{prefix} Salary Amount'
        column_currency = f'{prefix} Salary Currency'
        column_frequency = f'{prefix} Salary Frequency'

        # Filtrar datos por moneda
        data_filtered = data[data[column_currency] == currency]

        if data_filtered.empty:
            print(f"No hay datos para {prefix} Salary en {currency}.")
            continue

        # Detectar valores atípicos usando IQR
        Q1 = data_filtered[column_amount].quantile(0.25)
        Q3 = data_filtered[column_amount].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR

        # Crear columna para marcar valores atípicos
        data_filtered[f'{column_amount} Outlier'] = ~data_filtered[column_amount].isnull() & (
            (data_filtered[column_amount] < lower_bound) | (data_filtered[column_amount] > upper_bound)
        )

        print(f"\nValores atípicos en {prefix} Salary (moneda: {currency}):")
        print(f"Rango aceptable: [{lower_bound}, {upper_bound}]")
        print(data_filtered[f'{column_amount} Outlier'].value_counts())

        # Mostrar filas con valores atípicos
        outliers = data_filtered[data_filtered[f'{column_amount} Outlier']]
        if not outliers.empty:
            print("\nRegistros con valores atípicos:")
            print(outliers[[column_amount, column_currency, column_frequency]])



Análisis de salarios en USD:

Valores atípicos en Current Salary (moneda: USD):
Rango aceptable: [-3000.0, 9800.0]
Current Salary Amount Outlier
False    896
True      86
Name: count, dtype: int64

Registros con valores atípicos:
      Current Salary Amount Current Salary Currency Current Salary Frequency
1                  160000.0                     USD                      NaN
6                   10000.0                     USD                  Monthly
26                  10000.0                     USD                  Monthly
104               3000000.0                     USD                  Monthly
195                165000.0                     USD                 Annually
...                     ...                     ...                      ...
3295                80400.0                     USD                 Annually
3356               100000.0                     USD                 Annually
3409                18000.0                     USD                 Annually

#### Conclusiones precisión salario

Este análisis nos permite revisar los valores que no son típicos de acuerdo a la metodología del rango intercuartilco, el cual obtiene valores atipicos en este caso filtrados por moneda, USD y COP. 

Iniciando con lo valores en USD, contamos con 92 valores atipicos. Podemos ver que son valores que van desde los 10.000 USD hasta los 28.000.000 USD. En muchos de estos valores no tenemos una frequencia precisa, la cual nos puede ayudar a entender la razón de la atipicidad de dichos valores, ya que es normal un salario de 10.000 USD al mes para alguien viviendo en USD, así como uno de 300.000 USD al año para alguien en nivel gerencial o directivo en USA. 

Por otro lado, hay valores que no tienen sentido que se den en la moneda, por lo cual es un potencial error del reclutador al registrarlo, probablemente confundiendo COP u otra moneda con USD. 

Respecto a los valores en COP, podemos ver 42 valores atípicos. En principio, vemos que los valores más grandes son aquellos con frecuencia anual, lo que es normal, ya que usualmente se almacenan los salarios de forma mensual. Por otro lado, los otros valores atipicos, carecen de frequencia lo que nos dificulta el análisis de precisión. Con los valores atípicos que vemos en un rango mensual, vemos que son Salarios por sobre los 22 milones de pesos, que es un salario, aunque bastante alto, es coherente con respecto a las posiciones y perfiles que buscamos, por lo cuales no deberían ser descartados en un posible análisis. 

#### Recomendaciones
- Es importante que el reclutador revise de manera cuidadosa la moneda del salario el cual está usando. Así mismo y se recalca la recomendación anterior, poner los 4 campos de salario para facilitar un posterior análisis. 
- Por otro lado y una recomendación que puede funcionar para facilitar los análisis posteriores, es que en caso de ser de una moneda diferente, contar con una columna nueva que convierta el salario actual o esperado a USD, ya que es la moneda con la que principalmente trabaja la organización. 



---