In [50]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)

In [51]:
data = pd.read_csv ('../../files/HR_RAW_DATA.csv', index_col = 0)

In [52]:
# No se ha incluido la columna 'SameAsMonthlyIncome' ya que es exactamente igual a MonthlyIncome
salary_details = data.loc[: , ['DailyRate', 'HourlyRate' , 'MonthlyRate' , 'MonthlyIncome' , 'PercentSalaryHike' , 'StockOptionLevel']]

In [54]:
# Reemplaza las strings de 'nan' por valores NaN en DAILYRATE
salary_details['DailyRate'] = salary_details['DailyRate'].replace({'nan$': float('NaN')})

# Reemplaza los símbolos '$' por '' y ',' por '.' en DAILYRATE
dict_remplazo = {'\$' : '' , ',' : '.'}
salary_details['DailyRate'] = salary_details['DailyRate'].replace(dict_remplazo , regex=True)

# Reemplaza las ',' por '.' en MONTHLYINCOME
salary_details['MonthlyIncome'] = salary_details['MonthlyIncome'].str.replace(',' , '.')

# Reemplaza las strings de 'Not Available' por valores NaN
salary_details['HourlyRate'] = salary_details['HourlyRate'].replace({'Not Available': float('NaN')})

In [64]:
# Itera sobre cada columna en el DataFrame
for columna in salary_details.columns:
    
    # Convierte los valores de la columna a números flotantes
    # Establece como NaN aquellos valores que no pueden ser convertidos (errores = coerce)
    salary_details[columna] = pd.to_numeric(salary_details[columna], errors='coerce', downcast='float')

In [67]:
# Crea una lista de las columnas que se pasarán a integers
integers = ['StockOptionLevel' , 'PercentSalaryHike']

for columna in integers:
    # Convierte los valores de la columna a enteros 
    # Mantiene los valores NaN como NaN
    salary_details[columna] = salary_details[columna].astype('int64', errors='ignore')

In [69]:
# Comprobación de que los datos han sido modificados correctamente:
salary_details.dtypes

DailyRate            float32
HourlyRate           float32
MonthlyRate          float32
MonthlyIncome        float32
PercentSalaryHike      int64
StockOptionLevel       int64
dtype: object

In [70]:
salary_details.head(2)

Unnamed: 0,DailyRate,HourlyRate,MonthlyRate,MonthlyIncome,PercentSalaryHike,StockOptionLevel
0,684.0,51.0,6462.0,19537.0,13,0
1,699.0,65.0,5678.0,19999.0,14,1


In [71]:
# Guarda el DF resultante en un CSV
salary_details.to_csv('../../files/salarydetails_w_floats.csv')