In [1]:
### Bosque aleatorio de regresion

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv('E:/datasets/train_data_us.csv')

df_train, df_valid = train_test_split(df, random_state=54321, test_size = 0.25) # haz la división de datos para el entrenamiento y la validación

features_train = df_train.drop(['last_price'], axis = 1) # extrae las características de entrenamiento
target_train = df_train['last_price'] / 100000 # extrae los objetivos de entrenamiento
features_valid = df_valid.drop(['last_price'], axis=1) # extrae las características para la validación
target_valid = df_valid['last_price'] / 100000 # extrae los objetivos de validación

best_error = 10000 # configura el inicio de RECM
best_est = 0
best_depth = 0
for est in range(10, 51, 10):
    for depth in range (1, 11):
        model = RandomForestRegressor(n_estimators=est, random_state=54321, max_depth=depth) # inicializa el constructor de modelos con los parámetros random_state=54321, n_estimators=est y max_depth=depth
        model.fit(features_train, target_train) # entrena el modelo en el conjunto de entrenamiento
        predictions_valid = model.predict(features_valid) # obtén las predicciones del modelo en el conjunto de validación
        error = mean_squared_error(target_valid, predictions_valid) ** 0.5 # calcula la RECM en el conjunto de validación
        print("Validación RECM para los n_estimators de", est, ", depth=", depth, "is", error)
        if error < best_error: # guardamos la configuración del modelo si se logra el error más bajo
            best_error = error
            best_est = est
            best_depth = depth

print("RECM del mejor modelo en el conjunto de validación:", best_error, "n_estimators:", best_est, "best_depth:", best_depth)

Validación RECM para los n_estimators de 10 , depth= 1 is 2.3960212238796124
Validación RECM para los n_estimators de 10 , depth= 2 is 2.1122446639688435
Validación RECM para los n_estimators de 10 , depth= 3 is 1.9740959499997468
Validación RECM para los n_estimators de 10 , depth= 4 is 1.8427098576557455
Validación RECM para los n_estimators de 10 , depth= 5 is 1.784417875686694
Validación RECM para los n_estimators de 10 , depth= 6 is 1.8702209720173095
Validación RECM para los n_estimators de 10 , depth= 7 is 1.793159121509078
Validación RECM para los n_estimators de 10 , depth= 8 is 1.7468096998889795
Validación RECM para los n_estimators de 10 , depth= 9 is 1.7909475486091944
Validación RECM para los n_estimators de 10 , depth= 10 is 1.730814097537693
Validación RECM para los n_estimators de 20 , depth= 1 is 2.385864337512238
Validación RECM para los n_estimators de 20 , depth= 2 is 2.114680438966696
Validación RECM para los n_estimators de 20 , depth= 3 is 1.9852473762330756
Val

In [2]:
### Regresion lineal

import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df = pd.read_csv('E:/datasets/train_data_us.csv')

features = df.drop(['last_price'], axis=1) # extrae las características
target = df['last_price']/1000000 # extrae los objetivos

features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345) # segmenta el 25% de los datos para hacer el conjunto de validación

model = LinearRegression() # inicializa el constructor de modelos
model.fit(features_train, target_train) # entrena el modelo en el conjunto de entrenamiento
predictions_valid = model.predict(features_valid) # obtén las predicciones del modelo en el conjunto de validación

result = mean_squared_error(target_valid, predictions_valid)**0.5 # calcula la RECM en el conjunto de validación
print("RECM del modelo de regresión lineal en el conjunto de validación:", result)

RECM del modelo de regresión lineal en el conjunto de validación: 0.1545201339401621


In [3]:
### Seleccionar el mejor modelo

import pandas as pd
from sklearn.ensemble import RandomForestRegressor # importa el modelo que escogiste desde este módulo
from sklearn.metrics import mean_squared_error

df = pd.read_csv('E:/datasets/train_data_us.csv')

# inicializa las variables
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 100000

final_model = RandomForestRegressor(n_estimators=50, random_state=54321, max_depth=10) # inicializa el constructor para el modelo que tenía el mejor valor de RECM
final_model.fit(features, target) # entrena el modelo en el conjunto de entrenamiento

predictions = final_model.predict(features)
result = mean_squared_error(target, predictions)

print()
print('Target Real')
print(target[:6])
print()
print('Predicciones')
print(pd.Series(predictions[:6]))


Target Real
0    1.08
1    2.64
2    1.40
3    0.64
4    1.33
5    0.94
Name: last_price, dtype: float64

Predicciones
0    1.229718
1    2.522507
2    1.409213
3    0.778562
4    1.302344
5    0.983813
dtype: float64
