In [86]:
# Libraries 
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np
from IPython.display import display

# Configuration
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
# pd.set_option('display.max_rows', None)

In [84]:
def read_file(file_path):
    # Determine the file extension
    file_extension = file_path.split('.')[-1].lower()
    
    # Read the file based on the file extension
    if file_extension == 'csv':
        return pd.read_csv(file_path, index_col=0)
    elif file_extension in ['xls', 'xlsx']:
        return pd.read_excel(file_path)
    elif file_extension == 'json':
        return pd.read_json(file_path)
    elif file_extension == 'pkl':
        return pd.read_pickle(file_path)
    else:
        return "Reading this format is not yet implemented."

In [116]:
def explo_df(df, column=None):
    if column is None:
        # General DataFrame exploration
        print("DataFrame Information:")
        display(df.info())
        print("\nFirst 10 rows of the DataFrame:")
        display(df.head(10))
        print("\nLast 10 rows of the DataFrame:")
        display(df.tail(10))
        print("\nStatistical description of the DataFrame (numeric):")
        display(df.describe().T)
        print("\nStatistical description of the DataFrame (categorical):")
        display(df.describe(include='object').T)
        print("\nCount of null values per column:")
        display(df.isnull().sum())
        print("\nPercentage of null values per column:")
        display(round(df.isnull().sum()/df.shape[0]*100, 2))
        print("\nCount of duplicate rows:")
        display(df.duplicated().sum())
    else:
        # Column(s) exploration
        if isinstance(column, str):
            column = [column]  # Convert to list if a single column is passed as a string
        for col in column:
            print(f"\nExploration of the column: {col}")
            if df[col].dtype in ['int64', 'float64']:
                print("\nStatistical description (numeric):")
                display(df[col].describe())
            else:
                print("\nStatistical description (categorical):")
                display(df[col].describe(include='object'))
            print("\nCount of null values:")
            display(df[col].isnull().sum())
            print("\nUnique values:")
            display(df[col].unique())
            print("\nValue Counts:")
            display(df[col].value_counts())
            print("\nMost frequent value (mode):")
            display(df[col].mode().iloc[0])
            print("\nCount of duplicates in the column:")
            display(df.duplicated(subset=[col]).sum())


In [90]:
df = read_file('HR RAW DATA.csv')
explo_df(df)

DataFrame Information:
<class 'pandas.core.frame.DataFrame'>
Index: 1614 entries, 0 to 1613
Data columns (total 41 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Age                       1614 non-null   object 
 1   Attrition                 1614 non-null   object 
 2   BusinessTravel            842 non-null    object 
 3   DailyRate                 1614 non-null   object 
 4   Department                302 non-null    object 
 5   DistanceFromHome          1614 non-null   int64  
 6   Education                 1614 non-null   int64  
 7   EducationField            869 non-null    object 
 8   employeecount             1614 non-null   int64  
 9   employeenumber            1183 non-null   object 
 10  EnvironmentSatisfaction   1614 non-null   int64  
 11  Gender                    1614 non-null   int64  
 12  HourlyRate                1614 non-null   object 
 13  JobInvolvement            1614 non-null   int

None


First 10 rows of the DataFrame:


Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,employeecount,employeenumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NUMCOMPANIESWORKED,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TOTALWORKINGYEARS,TrainingTimesLastYear,WORKLIFEBALANCE,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YEARSWITHCURRMANAGER,SameAsMonthlyIncome,DateBirth,Salary,RoleDepartament,NUMBERCHILDREN,RemoteWork
0,51,No,,"684,0$",,6,3,,1,1620.0,1,0,51,3,5,resEArch DIREcToR,3,,195370.0,6462,7,Y,No,13,30,3,,0,,5,30.0,20,,15,15,195370.0,1972,1000000000$,,,Yes
1,52,No,,"699,0$",,1,4,Life Sciences,1,2590.0,3,0,65,2,5,ManAGeR,3,,199990.0,5678,0,,,14,30,1,,1,340.0,5,30.0,33,,11,9,199990.0,1971,1000000000$,,,1
2,42,No,travel_rarely,"532,0$",Research & Development,4,2,Technical Degree,1,3190.0,3,0,58,3,5,ManaGER,4,Married,192320.0,4933,1,,No,11,30,4,,0,220.0,3,,22,,11,15,192320.0,1981,1000000000$,ManaGER - Research & Development,,1
3,47,No,travel_rarely,"359,0$",,2,4,Medical,1,,1,1,82,3,4,ReseArCH DIrECtOr,3,Married,171690.0,26703,3,Y,,19,30,2,,2,,2,,20,,5,6,171690.0,1976,1000000000$,,,False
4,46,No,,"1319,0$",,3,3,Technical Degree,1,,1,1,45,4,4,sAleS EXECUtIve,1,Divorced,,7739,2,Y,No,12,30,4,,1,,5,30.0,19,,2,8,,1977,1000000000$,,,0
5,48,No,,"117,0$",Research & Development,22,3,Medical,1,19000.0,4,1,58,3,4,MANAger,4,,171740.0,2437,3,,No,11,30,2,,1,,3,30.0,22,,4,7,171740.0,1975,1000000000$,MANAger - Research & Development,,Yes
6,59,No,,"1435,0$",,25,3,Life Sciences,1,810.0,1,1,99,3,3,Sales ExeCutIVe,1,,,2354,7,Y,,11,30,4,,0,280.0,3,20.0,21,,7,9,,1964,1000000000$,,,True
7,42,No,travel_rarely,"635,0$",,1,1,,1,3870.0,2,0,99,3,2,Sales eXEcUTiVe,3,Married,,24532,1,,No,25,40,3,,0,200.0,3,30.0,20,,11,6,,1981,1000000000$,,,0
8,41,No,,"1276,0$",,2,5,,1,,2,1,91,3,4,mANAGEr,1,Married,165950.0,5626,7,,No,16,30,2,,1,220.0,2,30.0,18,,11,8,165950.0,1982,1000000000$,,,True
9,41,No,travel_frequently,"840,0$",,9,3,,1,9990.0,1,0,64,3,5,reSEaRCH DIrectoR,3,,,3735,2,,No,17,30,2,,1,210.0,2,40.0,18,,0,11,,1982,1000000000$,,,0



Last 10 rows of the DataFrame:


Unnamed: 0,Age,Attrition,BusinessTravel,DailyRate,Department,DistanceFromHome,Education,EducationField,employeecount,employeenumber,EnvironmentSatisfaction,Gender,HourlyRate,JobInvolvement,JobLevel,JobRole,JobSatisfaction,MaritalStatus,MonthlyIncome,MonthlyRate,NUMCOMPANIESWORKED,Over18,OverTime,PercentSalaryHike,PerformanceRating,RelationshipSatisfaction,StandardHours,StockOptionLevel,TOTALWORKINGYEARS,TrainingTimesLastYear,WORKLIFEBALANCE,YearsAtCompany,YearsInCurrentRole,YearsSinceLastPromotion,YEARSWITHCURRMANAGER,SameAsMonthlyIncome,DateBirth,Salary,RoleDepartament,NUMBERCHILDREN,RemoteWork
1604,41,Yes,,"1085,0$",Research & Development,2,4,Life Sciences,1,9270.0,2,1,Not Available,1,1,LAbORAToRy tEcHNICian,4,divorced,,17725,4,,Yes,13,30.0,3,800.0,1,,1,20,7,,1,0,,1982,1000000000$,LAbORAToRy tEcHNICian - Research & Development,,Yes
1605,31,No,travel_rarely,"154,0$",,7,4,,1,9410.0,2,0,Not Available,2,1,SAlES rEpreSENtaTiVe,3,,23290.0,11737,3,,,15,,2,800.0,0,,2,40,7,,5,2,23290.0,1992,1000000000$,,,True
1606,26,No,travel_frequently,"1283,0$",Sales,1,3,Medical,1,9560.0,3,0,52,2,2,sAleS EXECUtIvE,1,,42940.0,11148,1,Y,,12,30.0,2,,0,,2,30,7,,0,7,42940.0,1997,1000000000$,sAleS EXECUtIvE - Sales,,1
1607,31,No,,"616,0$",,12,3,Medical,1,,4,1,41,3,2,HEaltHCarE REPreSENtAtIve,4,,,17369,0,,,11,30.0,3,,2,100.0,2,10,9,,8,5,,1992,1000000000$,,,True
1608,32,No,,"498,0$",,3,4,Medical,1,9660.0,3,1,93,3,2,MANUfaCtuRiNG DiReCtor,1,Married,67250.0,13554,1,,,12,30.0,3,,1,80.0,2,40,8,,6,3,67250.0,1991,1000000000$,,,1
1609,36,Yes,travel_rarely,"530,0$",,3,1,Life Sciences,1,9670.0,3,0,51,2,3,saLEs ExeCUTiVe,4,Married,103250.0,5518,1,Y,,11,,1,,1,,6,30,16,,3,7,103250.0,1987,1000000000$,,,0
1610,45,No,non-travel,"805,0$",,4,2,,1,9720.0,3,0,57,3,2,LAboRaTOry tECHNiCIAn,2,,44470.0,23163,1,,,12,30.0,2,,0,,5,20,9,,0,8,44470.0,1978,1000000000$,,,1
1611,39,No,travel_rarely,"903,0$",,-13,5,,1,,13,0,41,4,3,sAlES ExECUTivE,3,Single,,2560,0,,No,18,30.0,4,,0,90.0,3,30,8,,0,7,,1984,1000000000$,,,Yes
1612,36,No,non-travel,"1229,0$",,8,4,Technical Degree,1,9900.0,1,0,84,3,2,SaLes ExecUtIVe,4,Divorced,,25952,4,,No,13,,4,,2,120.0,3,30,7,,0,7,,1987,1000000000$,,,True
1613,46,No,,"566,0$",,7,2,Medical,1,,4,0,75,3,3,mAnUfactURInG DiRECTOr,3,,108450.0,24208,6,Y,,13,30.0,2,,1,,3,30,8,,0,7,108450.0,1977,1000000000$,,,0



Statistical description of the DataFrame (numeric):


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
DistanceFromHome,1614.0,4.527261,14.591913,-49.0,2.0,5.0,11.0,29.0
Education,1614.0,2.925031,1.022357,1.0,2.0,3.0,4.0,5.0
employeecount,1614.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
EnvironmentSatisfaction,1614.0,4.294919,6.993559,1.0,2.0,3.0,4.0,49.0
Gender,1614.0,0.398389,0.489718,0.0,0.0,0.0,1.0,1.0
JobInvolvement,1614.0,2.739777,0.711567,1.0,2.0,3.0,3.0,4.0
JobLevel,1614.0,2.068154,1.101344,1.0,1.0,2.0,3.0,5.0
JobSatisfaction,1614.0,2.738538,1.106163,1.0,2.0,3.0,4.0,4.0
MonthlyRate,1614.0,14284.495663,7110.414585,2094.0,8001.0,14248.5,20364.0,26999.0
NUMCOMPANIESWORKED,1614.0,2.673482,2.506152,0.0,1.0,2.0,4.0,9.0



Statistical description of the DataFrame (categorical):


Unnamed: 0,count,unique,top,freq
Age,1614,54,35,84
Attrition,1614,2,No,1355
BusinessTravel,842,3,travel_rarely,586
DailyRate,1614,849,nan$,124
Department,302,3,Research & Development,196
EducationField,869,6,Life Sciences,349
employeenumber,1183,1079,4820,2
HourlyRate,1614,72,Not Available,84
JobRole,1614,1579,mANager,4
MaritalStatus,963,5,Married,404



Count of null values per column:


Age                            0
Attrition                      0
BusinessTravel               772
DailyRate                      0
Department                  1312
DistanceFromHome               0
Education                      0
EducationField               745
employeecount                  0
employeenumber               431
EnvironmentSatisfaction        0
Gender                         0
HourlyRate                     0
JobInvolvement                 0
JobLevel                       0
JobRole                        0
JobSatisfaction                0
MaritalStatus                651
MonthlyIncome                843
MonthlyRate                    0
NUMCOMPANIESWORKED             0
Over18                       901
OverTime                     676
PercentSalaryHike              0
PerformanceRating            195
RelationshipSatisfaction       0
StandardHours               1195
StockOptionLevel               0
TOTALWORKINGYEARS            526
TrainingTimesLastYear          0
WORKLIFEBA


Percentage of null values per column:


Age                           0.00
Attrition                     0.00
BusinessTravel               47.83
DailyRate                     0.00
Department                   81.29
DistanceFromHome              0.00
Education                     0.00
EducationField               46.16
employeecount                 0.00
employeenumber               26.70
EnvironmentSatisfaction       0.00
Gender                        0.00
HourlyRate                    0.00
JobInvolvement                0.00
JobLevel                      0.00
JobRole                       0.00
JobSatisfaction               0.00
MaritalStatus                40.33
MonthlyIncome                52.23
MonthlyRate                   0.00
NUMCOMPANIESWORKED            0.00
Over18                       55.82
OverTime                     41.88
PercentSalaryHike             0.00
PerformanceRating            12.08
RelationshipSatisfaction      0.00
StandardHours                74.04
StockOptionLevel              0.00
TOTALWORKINGYEARS   


Count of duplicate rows:


0

In [117]:
explo_df(df, column='RemoteWork')


Exploration of the column: RemoteWork

Statistical description (categorical):


count     1614
unique       5
top          1
freq       360
Name: RemoteWork, dtype: object


Count of null values:


0


Unique values:


array(['Yes', '1', 'False', '0', 'True'], dtype=object)


Value Counts:


RemoteWork
1        360
True     345
0        309
False    305
Yes      295
Name: count, dtype: int64


Most frequent value (mode):


'1'


Count of duplicates in the column:


1609

In [94]:
df2 = df.dropna(how='all') # Verify is there's any rows that are all NA
df2.shape # There are no rows that are all NA values

(1614, 41)

In [15]:
def eda_summary(data):
    indexes = list(data.columns)
    cols = ['dtype', 'not_null_count', 'null_count', 'null_percent', 'duplicates', 'unique', 'top', 'freq', 'mean', 'std', 'min', 'max', '25%', '50%', '75%', 'description']

    data_eda = pd.DataFrame(index=indexes, columns=cols)

    descriptions = {
        'Age': 'La edad del empleado.',
        'Attrition': 'Indica si el empleado ha dejado la empresa ("No" significa que no ha dejado la empresa y "Yes" significa que ha dejado la empresa).',
        'BusinessTravel': 'Describe la frecuencia de los viajes relacionados con el trabajo del empleado (por ejemplo, "Travel_Rarely" para raramente).',
        'DailyRate': 'La tarifa diaria del empleado.',
        'Department': 'El departamento en el que trabaja el empleado (por ejemplo, "Research & Development", "Sales", etc.).',
        'DistanceFromHome': 'La distancia desde el hogar del empleado hasta su lugar de trabajo.',
        'Education': 'Nivel de educación del empleado (generalmente en una escala del 1 al 5).',
        'EducationField': 'El campo de educación del empleado.',
        'employeecount': 'Un contador que generalmente es 1 y se usa para contar empleados.',
        'employeenumber': 'Un número de identificación único para el empleado.',
        'EnvironmentSatisfaction': 'Nivel de satisfacción del empleado en relación con su entorno de trabajo. Con valores que estan comprendidos entre el 1 y el 4, siendo el 4 el nivel de máxima satisfacción.',
        'Gender': 'El género del empleado. Donde 0 corresponde con "hombre" y 1 con "mujer".',
        'HourlyRate': 'La tarifa por hora del empleado.',
        'JobInvolvement': 'Nivel de implicación del empleado en su trabajo.',
        'JobLevel': 'Nivel jerárquico del empleado en la empresa.',
        'JobRole': 'El rol o puesto de trabajo del empleado.',
        'JobSatisfaction': 'Nivel de satisfacción del empleado con su trabajo.',
        'MaritalStatus': 'El estado civil del empleado (por ejemplo, "Single", "Married", etc.).',
        'MonthlyIncome': 'Ingresos mensuales del empleado.',
        'MonthlyRate': 'Tasa mensual del empleado.',
        'NUMCOMPANIESWORKED': 'Número de compañías en las que el empleado ha trabajado.',
        'Over18': 'Indica si el empleado es mayor de 18 años.',
        'OverTime': 'Indica si el empleado trabaja horas extras ("Yes" para sí o "No" para no).',
        'PercentSalaryHike': 'El porcentaje de aumento salarial del empleado.',
        'PerformanceRating': 'Calificación de rendimiento del empleado.',
        'RelationshipSatisfaction': 'Nivel de satisfacción en las relaciones interpersonales del empleado.',
        'StandardHours': 'Las horas estándar de trabajo.',
        'StockOptionLevel': 'Nivel de opciones de compra de acciones del empleado.',
        'TOTALWORKINGYEARS': 'Total de años de experiencia laboral del empleado.',
        'TrainingTimesLastYear': 'Número de veces que el empleado recibió capacitación el año pasado.',
        'WORKLIFEBALANCE': 'Equilibrio entre trabajo y vida personal del empleado.',
        'YearsAtCompany': 'Años que el empleado ha trabajado en la empresa actual.',
        'YearsInCurrentRole': 'Años que el empleado ha estado en su puesto actual.',
        'YearsSinceLastPromotion': 'Años desde la última promoción del empleado.',
        'YEARSWITHCURRMANAGER': 'Años que el empleado ha estado bajo la supervisión del actual gerente.',
        'SameAsMonthlyIncome': 'Ingresos mensuales del empleado.',
        'DateBirth': 'Año de nacimiento del empleado (teniendo en cuenta que los datos fueron recogidos en el 2023).',
        'Salary': 'Salario de los empleados.',
        'RoleDepartament': 'El departamento y el rol del empleado.',
        'NUMBERCHILDREN': 'Número de hijos de los empleados.',
        'RemoteWork': 'Si el empleado puede teletrabajar o no.'
    }

    for var in indexes:
        data_eda.loc[var, 'dtype'] = data[var].dtype
        data_eda.loc[var, 'not_null_count'] = data[var].notnull().sum()
        data_eda.loc[var, 'null_count'] = data[var].isnull().sum()
        data_eda.loc[var, 'null_percent'] = str(round((data[var].isnull().sum() / len(data)) * 100, 2)) + '%'
        data_eda.loc[var, 'duplicates'] = data[var].duplicated().sum()
        data_eda.loc[var, 'unique'] = data[var].nunique() # if data[var].dtype == 'object' else None
        data_eda.loc[var, 'top'] = data[var].mode().iloc[0] if not data[var].mode().empty else None
        data_eda.loc[var, 'freq'] = data[var].value_counts().max() if not data[var].mode().empty else None
        data_eda.loc[var, 'mean'] = data[var].mean() if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, 'std'] = data[var].std() if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, 'min'] = data[var].min() if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, 'max'] = data[var].max() if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, '25%'] = data[var].quantile(0.25) if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, '50%'] = data[var].median() if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, '75%'] = data[var].quantile(0.75) if data[var].dtype in ['int64', 'float64'] else None
        data_eda.loc[var, 'description'] = descriptions.get(var, 'No description available')

    return data_eda

In [16]:
df_initial_eda = eda_summary(df)

# Description column left alignment
df_initial_eda['description'] = df_initial_eda['description'].apply(lambda x: f'{x:<}')

df_initial_eda = df_initial_eda.style.set_table_styles({
    'description': [{'selector': '', 'props': [('text-align', 'left')]}]
})

df_initial_eda = df_initial_eda.set_table_styles({
    'description': [{'selector': 'th', 'props': [('text-align', 'left')]}]
}, overwrite=False)

df_initial_eda

Unnamed: 0,dtype,not_null_count,null_count,null_percent,duplicates,unique,top,freq,mean,std,min,max,25%,50%,75%,description
Age,object,1614,0,0.0%,1560,54,35,84.0,,,,,,,,La edad del empleado.
Attrition,object,1614,0,0.0%,1612,2,No,1355.0,,,,,,,,"Indica si el empleado ha dejado la empresa (""No"" significa que no ha dejado la empresa y ""Yes"" significa que ha dejado la empresa)."
BusinessTravel,object,842,772,47.83%,1610,3,travel_rarely,586.0,,,,,,,,"Describe la frecuencia de los viajes relacionados con el trabajo del empleado (por ejemplo, ""Travel_Rarely"" para raramente)."
DailyRate,object,1614,0,0.0%,765,849,nan$,124.0,,,,,,,,La tarifa diaria del empleado.
Department,object,302,1312,81.29%,1610,3,Research & Development,196.0,,,,,,,,"El departamento en el que trabaja el empleado (por ejemplo, ""Research & Development"", ""Sales"", etc.)."
DistanceFromHome,int64,1614,0,0.0%,1545,69,2,217.0,4.527261,14.591913,-49.0,29.0,2.0,5.0,11.0,La distancia desde el hogar del empleado hasta su lugar de trabajo.
Education,int64,1614,0,0.0%,1609,5,3,621.0,2.925031,1.022357,1.0,5.0,2.0,3.0,4.0,Nivel de educación del empleado (generalmente en una escala del 1 al 5).
EducationField,object,869,745,46.16%,1607,6,Life Sciences,349.0,,,,,,,,El campo de educación del empleado.
employeecount,int64,1614,0,0.0%,1613,1,1,1614.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,Un contador que generalmente es 1 y se usa para contar empleados.
employeenumber,object,1183,431,26.7%,534,1079,10440,2.0,,,,,,,,Un número de identificación único para el empleado.


# CONCLUSIONES


- Todas las columnas que contienen valores nulos son de tipo `object`.

- `Age`: Variable numérica. Cambiar valores por extenso a numérico y tipo de la columna a `int64`. Crear columna nueva que categorize rangos de edad. 

- `Attrition`: Variable categórica binária. Es un valor histórico, no conocemos el periodo en el que está contabilizado ni el/los tipo/s de rotaciones que contempla (lo consultamos con el PO -Cesar-)

- `BusinessTravel`: Variable categórica nominal con un 48% de valores nulos. Esta variable la utilizaremos en el análisis de forma segmentada, como una muestra del 53% del total de datos. 
Excluiremos todos los registros nulos y hay que mencionar en los análisis que contengan esta variable que estas conclusiones no tienen en cuenta el total de los datos. 

- `DailyRate`: Variable numérica. Se debe eliminar el símbolo `$` y convertir el tipo de datos a `float64`. Tiene `nan$` como el valor más frecuente, repitiéndose 124 veces.
Incluye valores numéricos decimales. Pero en el DataFrame aparece como columna de tipo string. Deberás hacer los cambios necesarios para convertirla en columna de tipo numérica.
Analizar la calidad de datos en comparación con las demás variables similares: hourlyRate, monthlyIncome, monthlyRate.

- `Department`: Variable categórica nominal con un 81% de valores nulos. Nos quedamos con esta columna, habría que hacer un strip en los datos. De los 302 datos que hay, 196 son iguales.
Hay que rellenar los datos faltantes de esa columna a partir de la columna 'JobRole' de ser posible. Posibilidad de segmentación por depto. 

- `DistanceFromHome`: Variable numérica. No hay valores faltantes. Tiene 192 valores negativos. Los valores negativos podemos pasarlos a positivos, esto lo hemos verificado con César que nos confirmó que podemos usar los valores absolutos.

- `Education`: Variable categórica ordinal sin valores faltantes, con valores del 1 al 5. 

- `EducationField`: Variable categórica nominal, 6 valores únicos con un 46% de valores nulos. De los datos que hay, 59 son 'Other'. La dejamos como posible análisis Lupa.

- `employeecount`: Variable numérica sin valores faltantes, todos los valores son iguales a 1. No aporta valor. Remover esta columna.

- `employeenumber`: Variable categórica con 26% de valores nulos. Hay 534 duplicados en esta columna. Los valores deben ser unicos.  Hablamos con César. debemos analizar los duplicados mejor y tomar decisiones en base a las conclusiones. Por lo que vimos parece que la diferencia entre los duplicados está en Remote Work, puede que sea un error en la carga de datos o que se haya hecho mas de una vez la encuesta. Explorar mas. 

- `EnvironmentSatisfaction`: Variable categórica ordinal sin valores faltantes, debería tener valores únicos del 1 al 4, pero un 10% aprox está entre 4 y 1 49, lo que afecta la media. El 90% (1514) son válidos (están entre 1 y 4). Entonces la decisión, en principio, es transformar los vaalores de registros que superan 4 a Nulos y desestimarlos en los cálculos. 

- `Gender`: Variable categórica binária sin valores faltantes. 0 para hombre y 1 para mujer. Hay que reemplazar por "Male" y "Female".

- `HourlyRate`: Variable numérica sin valores faltantes, 84 valores = Not Available. Cambiar el tipo de datos a `float` y corregir nos Not Available para que sean Null. 

- `JobInvolvement`: Variable categórica ordinal sin valores faltantes. Cambiar tipo a `object`.

- `JobLevel`: Variable categórica ordinal sin valores faltantes. Cambiar tipo a `object`.

- `JobRole`: Variable categórica nominal sin valores faltantes. Corregir valores: hacer strip y corregir errores tipográficos. Hay un valor '...'

- `JobSatisfaction`: Variable categórica ordinal sin valores faltantes. Tiene valores únicos del 1 al 4. Está OK. Mantener.

- `MaritalStatus`: Variable categórica nominal con un 40% de valores faltantes. Corregir errores tipográficos.

- `MonthlyIncome`: Variable numérica con un 52% de valores faltantes. Cambiar tipo a `float64` y comas por puntos.

- `MonthlyRate`: Variable numérica sin valores faltantes.

- `NUMCOMPANIESWORKED`: Variable categórica ordinal sin valores faltantes, valores de 0-9.

- `Over18`: Variable categórica binária con 56% de valores faltantes. Valores 'Y' y Nan.

- `OverTime`: Variable categórica binária con 42% de valores faltantes. Valores 'No', nan e 'Yes'.

- `PercentSalaryHike`: Variable numérica sin valores faltantes

- `PerformanceRating`: Variable numérica con 12% de valores faltantes. Cambiar tipo

- `RelationshipSatisfaction`: Variable categórica ordinal sin valores faltantes. Tiene valores únicos del 1 al 4. Está OK. Mantener.

- `StandardHours`: Variable categórica nominal con un 74% de valores faltantes. Los valores que hay son todos iguales. 

- `StockOptionLevel`: Variable categórica nominal sin valores faltantes. 

- `TOTALWORKINGYEARS`: Variable numérica con un 32% de valores faltantes. Cambiar tipo a `int64`.

- `TrainingTimesLastYear`: Variable numérica sin datos faltantes. 

- `WORKLIFEBALANCE`: Variable categórica ordinal con un 7% de valores faltantes. Cambiar tipo a `int64`.

- `YearsAtCompany`: Variable numérica sin datos faltantes.

- `YearsInCurrentRole`: Variable numérica con un 98% de valores faltantes.

- `YearsSinceLastPromotion`: Variable numérica sin datos faltantes.

- `YEARSWITHCURRMANAGER`: Variable numérica sin datos faltantes.

- `SameAsMonthlyIncome`: Eliminar esta columna ya que se repite.

- `DateBirth`: Variable numérica (año de nacimiento) sin valores faltantes.

- `Salary`: Todos los valores son iguales, eliminar esta columna, no aporta valor. 

- `RoleDepartament`: Eliminar esta columna que es una suma de JobRole con Department y no aporta valor. 

- `NUMBERCHILDREN`: Esta columna debe ser eliminada ya que no contiene valores.

- `RemoteWork`: Variable categórica binária sin valores faltantes. Hay que normalizar los valores. 

# SUGERENCIAS

- Que incluyan la fecha asociada a los registros: Datos recogidos en el 2023 >> Info en el description de la columna DateBirth.

# Notas

In [None]:
# df.loc[df['employeenumber'].duplicated(keep=False), :].sort_values(by='employeenumber')

In [92]:
null_columns = df.isnull().sum()[df.isnull().sum() > 0]
null_percent = pd.DataFrame(null_columns, columns=['null_total_qty'])
null_percent['null_percent'] = (round((null_percent['null_total_qty'] / 1614) * 100, 2)).apply(lambda x: f"{x}%")
null_percent

Unnamed: 0,null_total_qty,null_percent
BusinessTravel,772,47.83%
Department,1312,81.29%
EducationField,745,46.16%
employeenumber,431,26.7%
MaritalStatus,651,40.33%
MonthlyIncome,843,52.23%
Over18,901,55.82%
OverTime,676,41.88%
PerformanceRating,195,12.08%
StandardHours,1195,74.04%
