In [None]:
# Notebook de Ejercicio para Predicción de Salarios con RandomForest

# Importar las librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import numpy as np
import matplotlib.pyplot as plt

# Cargar el dataset
data = pd.read_csv('/mnt/data/salary_prediction_data.csv')

In [None]:
# Paso 1: Revisar datos nulos
# Utilizamos el método isnull().sum() para contar la cantidad de valores nulos en cada columna.
# Es importante manejar cualquier dato faltante antes de entrenar el modelo.

print("Paso 1: Revisar datos nulos")
print(data.___())  # Completa este paso

In [None]:
# Paso 2: Codificar variables categóricas
# Las variables categóricas son convertidas en valores numéricos usando LabelEncoder.
# Esto es necesario porque los algoritmos de machine learning no pueden trabajar directamente con datos categóricos.

print("\nPaso 2: Codificar variables categóricas")
label_encoders = {}
categorical_columns = ['Education', 'Location', 'Job_Title', 'Gender']
for column in categorical_columns:
    label_encoders[column] = LabelEncoder()
    data[column] = label_encoders[column].___(data[column])  # Completa este paso
print(data.head())

In [None]:
# Paso 3: Dividir los datos en características (X) y objetivo (y)
# Separar los datos en variables independientes (X) y la variable dependiente (y).

print("\nPaso 3: Dividir los datos en características (X) y objetivo (y)")
X = data.___('Salary', axis=1)  # Completa este paso
y = data.___  # Completa este paso

In [None]:
# Paso 4: Dividir el conjunto de datos en conjunto de entrenamiento y prueba
# Utilizamos train_test_split para dividir los datos en un 80% para entrenamiento y un 20% para prueba.

print("\nPaso 4: Dividir el conjunto de datos en conjunto de entrenamiento y prueba")
X_train, X_test, y_train, y_test = ___(X, y, test_size=0.2, random_state=42)  # Completa este paso
print(X_train.head())
print(y_train.head())

In [None]:
# Paso 5: Crear y entrenar el modelo
# Creamos una instancia del modelo RandomForestRegressor con 100 árboles y entrenamos el modelo.

print("\nPaso 5: Crear y entrenar el modelo")
model = ___(n_estimators=100, random_state=42)  # Completa este paso
model.___(X_train, y_train)  # Completa este paso

In [None]:
# Paso 6: Predecir en el conjunto de prueba
# Utilizamos el modelo entrenado para hacer predicciones sobre el conjunto de prueba.

print("\nPaso 6: Predecir en el conjunto de prueba")
y_pred = model.___(X_test)  # Completa este paso

In [None]:
# Paso 7: Calcular el error cuadrático medio
# Evaluamos el rendimiento del modelo calculando el mean_squared_error y luego la raíz cuadrada del MSE (RMSE).

print("\nPaso 7: Calcular el error cuadrático medio")
mse = ___(y_test, y_pred)  # Completa este paso
rmse = np.___(mse)  # Completa este paso
print(f"Root Mean Squared Error: {rmse}")

In [None]:
# Paso 8: Visualizar las primeras predicciones
# Creamos un DataFrame que contiene los valores reales y predichos para las primeras observaciones del conjunto de prueba.

print("\nPaso 8: Visualizar las primeras predicciones")
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results.___())  # Completa este paso

In [None]:
# Paso 9: Gráfico de dispersión para comparar los valores reales y predichos
# Creamos un gráfico de dispersión para visualizar la relación entre los valores reales y los valores predichos.

print("\nPaso 9: Gráfico de dispersión para comparar los valores reales y predichos")
plt.figure(figsize=(10, 6))
plt.___(y_test, y_pred, color='blue')  # Completa este paso
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=3)
plt.xlabel('Actual')
plt.ylabel('Predicted')
plt.title('Actual vs Predicted Salary')
plt.___()  # Completa este paso