# Modelos de regresión

## Carga de df

In [1]:
import pandas as pd
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

df = pd.read_csv('https://practicum-content.s3.us-west-1.amazonaws.com/datasets/train_data_us.csv')

features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 100000

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)

# Decision Tree Regressor

In [2]:
from sklearn.tree import DecisionTreeRegressor

model = DecisionTreeRegressor(random_state=12345, max_depth=5)
model.fit(features_train, target_train) 
    
predictions_valid = model.predict(features_valid) 
result = mean_squared_error(target_valid, predictions_valid, squared=False)

print(f'RECM del DecisionTreeRegressor: {result}')

RECM del DecisionTreeRegressor: 1.3082586437879251


# Random Forest Regressor

In [3]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(random_state=12345, n_estimators=40, max_depth=10) # inicializa el constructor de modelos con los parámetros random_state=12345 y n_estimators=est
model.fit(features_train, target_train) # entrena el modelo en el conjunto de entrenamiento

predictions_valid = model.predict(features_valid) 
result = mean_squared_error(target_valid, predictions_valid, squared=False)

print(f'RECM del RandomForestRegressor: {result}')

RECM del RandomForestRegressor: 1.41925941287708


# Linear Regression

In [4]:
from sklearn.linear_model import LinearRegression

model = LinearRegression() # inicializa el constructor de modelos
model.fit(features_train, target_train) # entrena el modelo en el conjunto de entrenamiento

predictions_valid = model.predict(features_valid) # obtén las predicciones del modelo en el conjunto de validación
result = mean_squared_error(target_valid, predictions_valid, squared=False) # calcula la RECM en el conjunto de validación

print( "RECM del modelo de regresión lineal en el conjunto de validación:", result)

RECM del modelo de regresión lineal en el conjunto de validación: 1.5452013394016275


### Elección de mejores hiperparámetros

In [None]:
# Función manual. Ejemplo con RandomForestRegressor

best_model = None
best_result = 10000
best_est = 0
best_depth = 0
for est in range(1, 101, 10):
    for depth in range (1, 11):
        model = RandomForestRegressor(random_state=12345, n_estimators=est, max_depth=depth) # inicializa el constructor de modelos con los parámetros random_state=12345 y n_estimators=est
        model.fit(features_train, target_train) # entrena el modelo en el conjunto de entrenamiento
        predictions_valid = model.predict(features_valid) # obtén las predicciones del modelo en el conjunto de validación
        result = mean_squared_error(target_valid, predictions_valid)**0.5
        if result < best_result:
            best_model = model
            best_result = result
            best_est = est
            best_depth = depth

print("RECM del mejor modelo en el conjunto de validación", best_result, "n_estimators:", best_est, "best_depth:", depth)