<a href="https://colab.research.google.com/github/Oalatorre77/Demo1/blob/main/RetoEmpleados_OctavioAlatorre.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [87]:
# 1. Importar las librerías requeridas
import pandas as pd
from sklearn.decomposition import PCA


In [88]:
# 2. Leer el archivo CSV
# Leer el archivo CSV llamado empleadosRETO.csv y colocar los datos en un frame de Pandas llamado EmpleadosAttrition.
EmpleadosAttrition = pd.read_csv('/content/sample_data/empleadosRETO.csv')
print(EmpleadosAttrition.head())


   Age BusinessTravel              Department DistanceFromHome  Education  \
0   50  Travel_Rarely  Research & Development             1 km          2   
1   36  Travel_Rarely  Research & Development             6 km          2   
2   21  Travel_Rarely                   Sales             7 km          1   
3   52  Travel_Rarely  Research & Development             7 km          4   
4   33  Travel_Rarely  Research & Development            15 km          1   

  EducationField  EmployeeCount  EmployeeNumber  EnvironmentSatisfaction  \
0        Medical              1             997                        4   
1        Medical              1             178                        2   
2      Marketing              1            1780                        2   
3  Life Sciences              1            1118                        2   
4        Medical              1             582                        2   

  Gender  ...  PercentSalaryHike  PerformanceRating RelationshipSatisfaction  \


In [89]:
# 3. Eliminar columnas irrelevantes
# Después de revisar las columnas, decidí que solo eliminaré aquellas que se mencionan en las instrucciones.
# Esto se debe a que algunas de las columnas restantes pueden contener información interesante que podría ser útil para mi análisis.
# Las columnas que eliminaré son: 'EmployeeCount', 'EmployeeNumber', 'Over18' y 'StandardHours'.
EmpleadosAttrition.drop(columns=['EmployeeCount', 'EmployeeNumber', 'Over18', 'StandardHours'], inplace=True)
print(EmpleadosAttrition.head())

   Age BusinessTravel              Department DistanceFromHome  Education  \
0   50  Travel_Rarely  Research & Development             1 km          2   
1   36  Travel_Rarely  Research & Development             6 km          2   
2   21  Travel_Rarely                   Sales             7 km          1   
3   52  Travel_Rarely  Research & Development             7 km          4   
4   33  Travel_Rarely  Research & Development            15 km          1   

  EducationField  EnvironmentSatisfaction Gender  JobInvolvement  JobLevel  \
0        Medical                        4   Male               3         4   
1        Medical                        2   Male               3         2   
2      Marketing                        2   Male               3         1   
3  Life Sciences                        2   Male               3         3   
4        Medical                        2   Male               3         3   

   ... OverTime  PercentSalaryHike PerformanceRating  \
0  ...      

In [90]:
# 4. Crear nuevas columnas
# En este paso, voy a crear algunas nuevas columnas que me ayudarán a entender mejor los datos.
# Primero, convertiré la columna 'HiringDate' a un formato de fecha para poder trabajar con ella.
EmpleadosAttrition['HiringDate'] = pd.to_datetime(EmpleadosAttrition['HiringDate'], format='mixed', errors='coerce')

# Luego, extraeré el año de contratación y lo guardaré en una nueva columna llamada 'Year'.
EmpleadosAttrition['Year'] = EmpleadosAttrition['HiringDate'].dt.year

# Ahora, calcularé cuántos años ha estado cada empleado en la compañía hasta el año 2018.
# Guardaré este valor en una nueva columna llamada 'YearsAtCompany'.
EmpleadosAttrition['YearsAtCompany'] = 2018 - EmpleadosAttrition['Year']
print(EmpleadosAttrition.head())

   Age BusinessTravel              Department DistanceFromHome  Education  \
0   50  Travel_Rarely  Research & Development             1 km          2   
1   36  Travel_Rarely  Research & Development             6 km          2   
2   21  Travel_Rarely                   Sales             7 km          1   
3   52  Travel_Rarely  Research & Development             7 km          4   
4   33  Travel_Rarely  Research & Development            15 km          1   

  EducationField  EnvironmentSatisfaction Gender  JobInvolvement  JobLevel  \
0        Medical                        4   Male               3         4   
1        Medical                        2   Male               3         2   
2      Marketing                        2   Male               3         1   
3  Life Sciences                        2   Male               3         3   
4        Medical                        2   Male               3         3   

   ... PerformanceRating  RelationshipSatisfaction TotalWorkingYears

In [91]:
# 5. Renombrar y crear variable 'DistanceFromHome'
# Primero, renombraré la variable 'DistanceFromHome' a 'DistanceFromHome_km'.
EmpleadosAttrition.rename(columns={'DistanceFromHome': 'DistanceFromHome_km'}, inplace=True)

# Luego, crearé una nueva variable 'DistanceFromHome' que contendrá solo el valor numérico de la distancia.
# Primero, eliminaré el texto ' km' y luego convertiré el resultado a un entero.
EmpleadosAttrition['DistanceFromHome'] = EmpleadosAttrition['DistanceFromHome_km'].str.replace(' km', '').astype(int)
print(EmpleadosAttrition.head())


   Age BusinessTravel              Department DistanceFromHome_km  Education  \
0   50  Travel_Rarely  Research & Development                1 km          2   
1   36  Travel_Rarely  Research & Development                6 km          2   
2   21  Travel_Rarely                   Sales                7 km          1   
3   52  Travel_Rarely  Research & Development                7 km          4   
4   33  Travel_Rarely  Research & Development               15 km          1   

  EducationField  EnvironmentSatisfaction Gender  JobInvolvement  JobLevel  \
0        Medical                        4   Male               3         4   
1        Medical                        2   Male               3         2   
2      Marketing                        2   Male               3         1   
3  Life Sciences                        2   Male               3         3   
4        Medical                        2   Male               3         3   

   ... RelationshipSatisfaction  TotalWorkingYears

In [92]:
# 6. Borrar las columnas Year, HiringDate y DistanceFromHome_km debido a que ya no son útiles.
# Estas columnas ya no son necesarias para el análisis, así que las eliminaré del DataFrame.
EmpleadosAttrition.drop(columns=['Year', 'HiringDate', 'DistanceFromHome_km'], inplace=True)
print(EmpleadosAttrition.head())

   Age BusinessTravel              Department  Education EducationField  \
0   50  Travel_Rarely  Research & Development          2        Medical   
1   36  Travel_Rarely  Research & Development          2        Medical   
2   21  Travel_Rarely                   Sales          1      Marketing   
3   52  Travel_Rarely  Research & Development          4  Life Sciences   
4   33  Travel_Rarely  Research & Development          1        Medical   

   EnvironmentSatisfaction Gender  JobInvolvement  JobLevel  \
0                        4   Male               3         4   
1                        2   Male               3         2   
2                        2   Male               3         1   
3                        2   Male               3         3   
4                        2   Male               3         3   

                     JobRole  ...  PerformanceRating RelationshipSatisfaction  \
0          Research Director  ...                  4                        3   
1     Ma

In [93]:
# 7. Generar un DataFrame con el ingreso promedio por departamento
# Aprovechando los ajustes que se están haciendo, la empresa desea saber si todos los departamentos tienen un ingreso promedio similar.
# Generaré un nuevo DataFrame llamado SueldoPromedioDepto que contendrá el ingreso mensual promedio por departamento.
SueldoPromedioDepto = EmpleadosAttrition.groupby('Department')['MonthlyIncome'].mean().reset_index()

# Renombrar la columna de ingreso promedio para mayor claridad
SueldoPromedioDepto.rename(columns={'MonthlyIncome': 'PromedioIngreso'}, inplace=True)

# Mostrar el DataFrame resultante
print(SueldoPromedioDepto)


               Department  PromedioIngreso
0         Human Resources      6239.888889
1  Research & Development      6804.149813
2                   Sales      7188.250000


In [94]:
# 8. Escalar la variable 'MonthlyIncome'
# La variable MonthlyIncome tiene un valor numérico muy grande en comparación con otras variables.
# Para facilitar el análisis, escalaré esta variable para que sus valores estén entre 0 y 1.
EmpleadosAttrition['MonthlyIncome'] = (EmpleadosAttrition['MonthlyIncome'] - EmpleadosAttrition['MonthlyIncome'].min()) / (EmpleadosAttrition['MonthlyIncome'].max() - EmpleadosAttrition['MonthlyIncome'].min())

# Mostrar los primeros valores de la columna escalada para verificar
print(EmpleadosAttrition[['MonthlyIncome']].head())


   MonthlyIncome
0       0.864269
1       0.207340
2       0.088062
3       0.497574
4       0.664470


In [95]:
# 9. Convertir variables categóricas a numéricas
# Asignar valores numéricos a las variables categóricas según los registros de la base.

# BusinessTravel
EmpleadosAttrition['BusinessTravel'] = EmpleadosAttrition['BusinessTravel'].map({
    'Non_Travel': 1,
    'Travel_Rarely': 2,
    'Travel_Frequently': 3,
    '': 0  # Asignar 0 a los valores en blanco
})

# Department
EmpleadosAttrition['Department'] = EmpleadosAttrition['Department'].map({
    'Sales': 1,
    'Research & Development': 2,
    'Human Resources': 3,
    '': 0
})

# EducationField
EmpleadosAttrition['EducationField'] = EmpleadosAttrition['EducationField'].map({
    'Life Sciences': 1,
    'Medical': 2,
    'Marketing': 3,
    'Technical Degree': 4,
    'Other': 5,
    '': 0
})

# Gender
EmpleadosAttrition['Gender'] = EmpleadosAttrition['Gender'].map({
    'Male': 1,
    'Female': 2,
    '': 0
})

# JobRole
EmpleadosAttrition['JobRole'] = EmpleadosAttrition['JobRole'].map({
    'Sales Executive': 1,
    'Research Scientist': 2,
    'Laboratory Technician': 3,
    'Manufacturing Director': 4,
    'Healthcare Representative': 5,
    'Manager': 6,
    'Research Director': 7,
    'Other': 8,
    '': 0
})

# MaritalStatus
EmpleadosAttrition['MaritalStatus'] = EmpleadosAttrition['MaritalStatus'].map({
    'Single': 1,
    'Married': 2,
    'Divorced': 3,
    '': 0
})

# Attrition
EmpleadosAttrition['Attrition'] = EmpleadosAttrition['Attrition'].map({
    'Yes': 1,
    'No': 0
})

# Mostrar las primeras filas del DataFrame para verificar la conversión
print(EmpleadosAttrition.head())


   Age  BusinessTravel  Department  Education  EducationField  \
0   50             2.0           2          2             2.0   
1   36             2.0           2          2             2.0   
2   21             2.0           1          1             3.0   
3   52             2.0           2          4             1.0   
4   33             2.0           2          1             2.0   

   EnvironmentSatisfaction  Gender  JobInvolvement  JobLevel  JobRole  ...  \
0                        4       1               3         4      7.0  ...   
1                        2       1               3         2      4.0  ...   
2                        2       1               3         1      NaN  ...   
3                        2       1               3         3      5.0  ...   
4                        2       1               3         3      6.0  ...   

   PerformanceRating  RelationshipSatisfaction  TotalWorkingYears  \
0                  4                         3                 32   
1 

In [98]:
# 10. Evaluar la correlación de las variables
# Calcularé la correlación lineal de cada una de las variables con respecto a 'Attrition'.

# Asegurar que la columna 'Attrition' sea completamente numérica.
# Usamos pd.to_numeric con errors='coerce' para convertir cualquier valor no numérico a NaN,
# y luego rellenamos los NaN con 0 (asumiendo que los valores no convertidos pueden interpretarse como 'No').
EmpleadosAttrition['Attrition'] = pd.to_numeric(EmpleadosAttrition['Attrition'], errors='coerce').fillna(0).astype(int)

# Seleccionar solo columnas numéricas para el cálculo de correlación
numeric_df = EmpleadosAttrition.select_dtypes(include=['number'])

# Calcular la correlación lineal de cada una de las variables numéricas con respecto a 'Attrition'.
# Nos aseguramos de que 'Attrition' esté presente en numeric_df para evitar errores si no se incluyó por alguna razón.
correlation = numeric_df.corr()['Attrition'].abs()

# Mostrar la correlación con 'Attrition'
print("Correlación de las variables con 'Attrition':")
print(correlation)

# Listar las variables con correlación mayor o igual a 0.1
high_correlation = correlation[correlation >= 0.1]
print("\nVariables con correlación mayor o igual a 0.1:")
print(high_correlation)

Correlación de las variables con 'Attrition':
Age                         0.212121
BusinessTravel              0.016203
Department                  0.054236
Education                   0.055531
EducationField              0.069020
EnvironmentSatisfaction     0.124327
Gender                      0.028839
JobInvolvement              0.166785
JobLevel                    0.214266
JobRole                     0.153844
JobSatisfaction             0.164957
MaritalStatus               0.193920
MonthlyIncome               0.194936
NumCompaniesWorked          0.009082
PercentSalaryHike           0.060880
PerformanceRating           0.006471
RelationshipSatisfaction    0.030945
TotalWorkingYears           0.213329
TrainingTimesLastYear       0.070884
WorkLifeBalance             0.021723
YearsInCurrentRole          0.203918
YearsSinceLastPromotion     0.069000
Attrition                   1.000000
YearsAtCompany              0.176287
DistanceFromHome            0.052732
Name: Attrition, dtype: float

In [99]:
# 11. Seleccionar variables con correlación mayor o igual a 0.1
# Mantendré la variable de salida 'Attrition' y seleccionaré solo aquellas variables que cumplen con el límite.
selected_columns = correlation[correlation >= 0.1].index.tolist()

# Asegurarse de que 'Attrition' esté en la lista de columnas seleccionadas
if 'Attrition' not in selected_columns:
    selected_columns.append('Attrition')

# Crear el nuevo DataFrame con las variables seleccionadas
EmpleadosAttritionFinal = EmpleadosAttrition[selected_columns]

# Mostrar las primeras filas del nuevo DataFrame para verificar
print(EmpleadosAttritionFinal.head())


   Age  EnvironmentSatisfaction  JobInvolvement  JobLevel  JobRole  \
0   50                        4               3         4      7.0   
1   36                        2               3         2      4.0   
2   21                        2               3         1      NaN   
3   52                        2               3         3      5.0   
4   33                        2               3         3      6.0   

   JobSatisfaction  MaritalStatus  MonthlyIncome  TotalWorkingYears  \
0                4            3.0       0.864269                 32   
1                2            3.0       0.207340                  7   
2                2            1.0       0.088062                  1   
3                2            1.0       0.497574                 18   
4                3            2.0       0.664470                 15   

   YearsInCurrentRole  Attrition  YearsAtCompany  
0                   4          0             5.0  
1                   2          0             3.0  

In [101]:
# 12. Crear variable 'EmpleadosAttritionPCA'
# Aplicaré PCA (Análisis de Componentes Principales) al DataFrame EmpleadosAttritionFinal para reducir la dimensionalidad.
from sklearn.decomposition import PCA

# Manejar los valores NaN antes de aplicar PCA, rellenando con 0.
# Esto es consistente con la forma en que se manejaron los valores en blanco durante la conversión de categorías.
EmpleadosAttritionFinal = EmpleadosAttritionFinal.fillna(0)

# Crear el objeto PCA
pca = PCA()

# Ajustar y transformar los datos
EmpleadosAttritionPCA = pca.fit_transform(EmpleadosAttritionFinal)

# Mostrar la forma del array resultante para verificar
print("Forma del array de componentes principales:", EmpleadosAttritionPCA.shape)

Forma del array de componentes principales: (400, 12)


In [104]:
# 13. Agregar componentes principales que logren explicar el 80% de la varianza
# Calcularé la varianza explicada acumulada para determinar cuántos componentes principales son necesarios.
explained_variance = pca.explained_variance_ratio_
cumulative_variance = explained_variance.cumsum()

# Determinar el número de componentes que explican al menos el 80% de la varianza
n_components = (cumulative_variance < 0.8).sum() + 1  # +1 para incluir el componente que alcanza el 80%

# Agregar los componentes principales al DataFrame EmpleadosAttritionFinal
for i in range(n_components):
    EmpleadosAttritionFinal[f'C{i}'] = EmpleadosAttritionPCA[:, i]

# Mostrar las primeras filas del DataFrame actualizado para verificar
print(EmpleadosAttritionFinal.head())



   Age  EnvironmentSatisfaction  JobInvolvement  JobLevel  JobRole  \
0   50                        4               3         4      7.0   
1   36                        2               3         2      4.0   
2   21                        2               3         1      0.0   
3   52                        2               3         3      5.0   
4   33                        2               3         3      6.0   

   JobSatisfaction  MaritalStatus  MonthlyIncome  TotalWorkingYears  \
0                4            3.0       0.864269                 32   
1                2            3.0       0.207340                  7   
2                2            1.0       0.088062                  1   
3                2            1.0       0.497574                 18   
4                3            2.0       0.664470                 15   

   YearsInCurrentRole  Attrition  YearsAtCompany         C0        C1  
0                   4          0             5.0  20.541673 -4.185309  
1       

In [106]:
# 14. Guardar el set de datos en un archivo CSV
# Primero, reorganizaré las columnas para que 'Attrition' quede en la primera posición.
# Esto es opcional, ya que el enunciado indica que no importa el orden, pero lo haré para claridad.
columns_order = ['Attrition'] + [col for col in EmpleadosAttritionFinal.columns if col != 'Attrition']
EmpleadosAttritionFinal = EmpleadosAttritionFinal[columns_order]

# Guardar el DataFrame en un archivo CSV llamado 'EmpleadosAttritionFinal.csv'
EmpleadosAttritionFinal.to_csv('EmpleadosAttritionFinal.csv', index=False)

# Confirmar que el archivo se ha guardado
print("El archivo 'EmpleadosAttritionFinal.csv' ha sido guardado.")


El archivo 'EmpleadosAttritionFinal.csv' ha sido guardado.
