# Reto: Predicción de la Deserción Laboral en México

## Objetivos:


*   Recuperar información contenida en archivos a través de la plataforma Pandas.
Seleccionar la información relevante dependiendo de las necesidades de procesamiento.
*   Procesar los datos por medio de las funciones de las plataformas NumPy y Pandas para obtener resultados relevantes.
*   Generar información útil a partir del procesamiento de otros datos.
*   Almacenar los resultados con la información importante en archivos para su posterior uso.
*   Prácticar e integrar los conceptos y habilidades obtenidas en cuanto a la recuperación, selección, procesamiento y almacenamiento de la información.






## Introduccion

Vamos a trabajr con la hipótesis de que con la información recabada podría explicar el fenómeno de deserción laboral en Mexico.

En esta primera aproximación, queremos saber:


1.   El tiempo de servicio promedio de los trabajadores
2.   El porcentaje de hombres y mujeres en el archivo
3.   El tiempo máximo sin promoción de las personas que llevan más de 15 años de servicio
4.   La edad promedio en la que ingresaron las personas a la empresa, genera una columna derivada mediante la formula Age - Time_of_service
5.   Un dataframe con las columnas Employee_ID, Relationship, Decision_skill_process que sólo contenga los registros de mujeres, solteras y con compensación tipo 2 o 3.
6.   Una columna derivada con el valor “on time” si cuando tuvo su última promoción tenía menos de 30 años. En caso contrario colocar el valor “out of time”




## A continuación realizamos el paso a paso de la resolución.

### Paso 1:
Vamos a trabajar con el archivo Employee Attrition.csv.
Lo primero que hacemos es definir una función que abra el archivo desde el entorno local.


In [36]:
import pandas as pd

def abri_archivo():
    """
    Este método abre el archivo CSV con pandas.

    Args:
        No recibe argumentos.

    Returns:
        Retorna un manejador de archivo abierto (file handler) con el encabezado ya saltado.
    """
    # Abrir un archivo con open() y close()

    file_handler = pd.read_csv('/content/Employee Attrition.csv')

    return file_handler

### Paso 2:
Llamamos a la funcion paraabrir el archivos.
Luego llamamos a la funcion head para ver los primeros registros del archivo.

In [37]:
# Llamamos a la funcion para abrir el archivo
employee = abri_archivo()

# Crear el archivo Excel en modo escritura. En el mismo vamos a agregar los 6 ejercicios. Agregamos sus librerias
!pip install XlsxWriter
writer = pd.ExcelWriter('resultados_reto.xlsx', engine='xlsxwriter')




## Ejercicio 1

El tiempo de servicio promedio de los trabajadores. La columna a analizar es 'Time_of_service'

In [38]:
#  Sacamos el promedio por medio de la columna Time_of_service
df_promedio = employee['Time_of_service'].mean()
print("El tiempo promedio de servicio de los trabajadores es:", round(df_promedio, 2))

# Crear un DataFrame para guardar el promedio
df_ejercicio_1 = pd.DataFrame({'Promedio Tiempo de Servicio': [round(df_promedio, 2)]})

# Guardar en Excel
df_ejercicio_1.to_excel(writer, sheet_name='Ejercicio_1', index=False)



El tiempo promedio de servicio de los trabajadores es: 13.4


## Ejercicios 2
El porcentaje de hombres y mujeres en el archivo

In [39]:
# Agrupar y contar
gender = employee['Gender'].value_counts()

# Convertir a DataFrame
df_ejercicio_2 = gender.reset_index()
df_ejercicio_2.columns = ['Gender', 'Cantidad']

# Ahora sacmos los valores de cada uno de ellos y los sumammos.
femenino = gender.get('F', 0)
masculino = gender.get('M', 0)
total = femenino + masculino

# Ahora sacamos los porcentajes
print(f"Porcentaje de Mujeres: {round(femenino / total * 100, 4)} %")
print(f"Porcentaje de Hombres: {round(masculino / total * 100, 4)} %")

# Agregar columna de porcentaje
df_ejercicio_2['Porcentaje'] = round((df_ejercicio_2['Cantidad'] / total) * 100, 2)

# Guardamos el DataFrame en un archivo Excel
df_ejercicio_2.to_excel(writer, sheet_name='Ejercicio_2', index=False)


Porcentaje de Mujeres: 57.6 %
Porcentaje de Hombres: 42.4 %


## Ejercicio 3

El tiempo máximo sin promoción de las personas que llevan más de 15 años de servicio

In [40]:
df_times_service = employee[employee['Time_of_service'] > 15]
maximo = df_times_service ['Time_since_promotion'].max()
print ("El tiempo máximo sin promoción de las personas que llevan más de 15 años de servicio es de: ", maximo)

# Crear un DataFrame para guardar el promedio
df_ejercicio_3 = pd.DataFrame({
    'El tiempo máximo sin promoción de las personas que llevan más de 15 años de servicio es de:': [maximo]
})

# Guardamos el resultado en el archivo Excel
df_ejercicio_3.to_excel(writer, sheet_name='Ejercicio_3', index=False)

El tiempo máximo sin promoción de las personas que llevan más de 15 años de servicio es de:  4


## Ejercicio 4
La edad promedio en la que ingresaron las personas a la empresa, genera una columna derivada mediante la formula Age - Time_of_service

In [41]:
# creamos la nueva columna llamada "edad_ingreso" y la agregamos la diferencia
employee['edad_ingreso'] = employee['Age'] - employee['Time_of_service']

# Guardamos la nueva columna con el ID del empleado como resultado en el archivo Excel
df_ejercicio_4 = employee[['Employee_ID', 'edad_ingreso']]
df_ejercicio_4.to_excel(writer, sheet_name='Ejercicio_4', index=False)

#Imprimimos el resultado
print("La edad promedio en la que ingresaron las personas a la empresa es de ", round(employee ['edad_ingreso'].mean(), 2))



La edad promedio en la que ingresaron las personas a la empresa es de  26.39


## Ejercicio 5:
Un dataframe con las columnas Employee_ID, Relationship, Decision_skill_process que sólo contenga los registros de mujeres, solteras y con compensación tipo 2 o 3.

In [42]:
df_ejercicio_5 = employee[
    (employee['Gender'] == 'F') &
    (employee['Relationship_Status'] == 'Single') &
    ((employee['Compensation_and_Benefits'] == 'type2') | (employee['Compensation_and_Benefits'] == 'type3'))
].dropna(subset=['Gender', 'Relationship_Status', 'Compensation_and_Benefits'])

df_ejercicio_5.to_excel(writer, sheet_name='Ejercicio_5', index=False)



## Ejercicio 6:
Una columna derivada con el valor “on time” si cuando tuvo su última promoción tenía menos de 30 años. En caso contrario colocar el valor “out of time”

In [43]:
import numpy as np

# Creamos la nueva columna 'on_time'
employee['on_time'] = np.where((employee['Age'] - employee['Time_since_promotion']) > 30, 'on_time', 'out_time')

# Guardamos la nueva columna con el ID del empleado como resultado en el archivo Excel
df_ejercicio_6 = employee[['Employee_ID', 'on_time']]

# Guardamos en la hoja Ejercicio_6 del archivo Excel
df_ejercicio_6.to_excel(writer, sheet_name='Ejercicio_6', index=False)


In [44]:
# cerramos el archivo
writer.close()