# Construcción de un Modelo de Regresión con Random Forest

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

## Paso 1: Importar Bibliotecas
En este paso, se importan las bibliotecas necesarias para cargar los datos, construir el modelo y evaluar su rendimiento.

In [17]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

## Paso 2: Cargar los Datos
En este paso, se carga el conjunto de datos desde un archivo CSV en un DataFrame de pandas.

In [18]:
# Cargar los datos en un DataFrame de pandas
df = pd.read_csv('AUTO_MODIF.csv')  

## Paso 3: Dividir los Datos
En este paso, se dividen los datos en conjuntos de entrenamiento (X_train, y_train) y prueba (X_test, y_test) utilizando la función train_test_split. Las variables independientes se seleccionan en X y la variable dependiente en y.

In [19]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X = df[['horsepower', 'curb-weight', 'engine-size', 'city-mpg']]  # Variables independientes
y = df['price']  # Variable dependiente (precio)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Paso 4: Crear y Entrenar el Modelo de Random Forest
En este paso, se crea un modelo de Random Forest utilizando RandomForestRegressor de scikit-learn. Se ha establecido un número de estimadores (n_estimators)

In [20]:
# Crear y entrenar el modelo de Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)  # Puedes ajustar los hiperparámetros según sea necesario
rf_model.fit(X_train, y_train)

## Paso 5: Realizar Predicciones
En este paso, se utilizan el modelo entrenado para realizar predicciones en el conjunto de prueba (X_test) y se almacenan en y_pred.

In [21]:
# Realizar predicciones en el conjunto de prueba
y_pred = rf_model.predict(X_test)

## Paso 6: Calcular las Métricas de Evaluación
En este paso, se calculan dos métricas de evaluación: el Error Cuadrado Medio (MSE) y el coeficiente de determinación (R^2). Estas métricas proporcionan información sobre la calidad del modelo en la predicción de los precios de los automóviles. El MSE mide la calidad de las predicciones y R^2 proporciona una medida de la varianza explicada por el modelo.

In [22]:
# Calcular las métricas de evaluación
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error (MSE): {mse}')
print(f'R-squared (R^2): {r2}')


Mean Squared Error (MSE): 5928704.68522117
R-squared (R^2): 0.9239637476576582


## Validez del Modelo Seleccionado
La validez del modelo seleccionado (Random Forest) depende de varios factores, como la calidad de los datos, la elección de características relevantes, la configuración de hiperparámetros y la interpretación de las métricas de evaluación. Para determinar si el modelo es adecuado, se deben realizar las siguientes acciones:

- Realizar un análisis exploratorio de datos (EDA) para comprender la relación entre las características y la variable objetivo (precio).
- Ajustar los hiperparámetros del modelo para mejorar su rendimiento utilizando técnicas como la validación cruzada.
- Interpretar las métricas de evaluación (MSE, R^2) y compararlas con otros modelos o técnicas para seleccionar el modelo más apropiado.
- Evaluar la robustez del modelo mediante pruebas en datos nuevos o utilizando técnicas como la validación cruzada.


En resumen, la elección de un modelo de Random Forest es un buen punto de partida, pero se debe realizar un análisis exhaustivo y ajustes adicionales para garantizar la validez del modelo en la predicción de los precios de los automóviles.