In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Cargar los datos
data = pd.read_csv('dataset/salary_prediction_data.csv')

# Mostrar los primeros registros
print(data.head())

# Mostrar tamaño del dataset
print(data.shape)

#Revisar datos nulos
print(data.isnull().sum())

In [9]:
# Codificar variables categóricas
codificadores_etiquetas = {}
columnas_categorias = ['Education', 'Location', 'Job_Title', 'Gender']
for column in columnas_categorias:
    codificadores_etiquetas[column] = LabelEncoder()
    data[column] = codificadores_etiquetas[column].fit_transform(data[column])

In [None]:
# Dividir los datos en características (X) y objetivo (y)
X = data.drop('Salary', axis=1)
y = data['Salary']

# Dividir el conjunto de datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.head())
print(y_train.head())

In [None]:
# Crear y entrenar el modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

In [None]:
# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

In [None]:
# Calcular el error cuadrático medio
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
print(f"Root Mean Squared Error: {rmse}")

In [None]:
# Visualizar las primeras predicciones
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results.head())