# Caso de Estudio: Análisis y Predicción de Datos de Empleados

Desarrollar el análisis y modelado sobre un dataset de empleados de una empresa. Este dataset incluye información sobre la educación, año de incorporación, ciudad de trabajo, categoría salarial, edad, género, si han sido asignados temporalmente a la banca (EverBenched), experiencia en el dominio actual y si el empleado tomó tiempo libre (LeaveOrNot). El dataset ha sido modificado para incluir datos faltantes, añadiendo realismo al desafío analítico.

# Preprocesamiento de Datos:

## Cargar el dataset

Se cargan los datos del archivo csv EmployeesData.csv


In [None]:
import pandas as pd

df = pd.read_csv('EmployeesData.csv')


## Se verifica si existen datos faltantes

Se agrega el .sum() para que sume el número de valores faltantes por columna, ya que al mostrar solamente los nulos la tabla es resumida en este jupiter notebook. De esta manera podemos cuantificar esto mejor.

In [7]:
print(df.isnull().sum())


Education                     0
JoiningYear                   0
City                          0
PaymentTier                  41
Age                          27
Gender                        0
EverBenched                   0
ExperienceInCurrentDomain     0
LeaveOrNot                    0
dtype: int64


## Convertir la columna 'LeaveOrNot' de valores binarios a etiquetas categóricas:

In [4]:
df['LeaveOrNot'] = df['LeaveOrNot'].map({0: 'Not Leave', 1: 'Leave'})

## Eliminar filas con valores faltantes en 'ExperienceInCurrentDomain' y 'JoiningYear':

In [5]:
df = df.dropna(subset=['ExperienceInCurrentDomain', 'JoiningYear'])


## Imputar datos faltantes de la colúmna Age con la media.

Para llenar los datos se utiliza la función fillna y .mean() que es la función de agregación destinada para la media

In [9]:
df['Age'] = df['Age'].fillna(df['Age'].mean())

## Imputar datos faltantes en 'PaymentTier' con la moda:

Para llenar los datos se utiliza la función fillna y .mode() que es la función de agregación destinada para la moda

In [8]:
df['PaymentTier'] = df['PaymentTier'].fillna(df['PaymentTier'].mode()[0])


## Eliminar registros con valores atípicos usando el análisis de IQR:

In [11]:
# Se seleccionan únicamente las columnas numéricas, ya que encontré errores al usar todo el dataset
num_columns = df.select_dtypes(include=['number']).columns

#Se calcula el IQR para las columnas numéricas: 
Q1 = df[num_columns].quantile(0.25)
Q3 = df[num_columns].quantile(0.75)
IQR = Q3 - Q1

# Filtrar filas para eliminar valores atípicos
df = df[~((df[num_columns] < (Q1 - 1.5 * IQR)) | (df[num_columns] > (Q3 + 1.5 * IQR))).any(axis=1)]



# Análisis Exploratorio de Datos EDA

## Graficar la distribución de los sexos con un gráfico de torta