# Análsis con árboles de decisiones

##### Autores
* Diego Valenziuela, 22309
* Gerson Ramírez, 22281


In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

## Análisis de regresiones con árboles
Una vez preparado el conjunto de datos para su análisis, donde se han definidio ciertas categorías según el precio y se ha normalizado la data para lograr procesar toda la regresión con la mayor cantidad de información diponible y útil.

En este paso se cargan los datos preparados previamente, se separan claramente las variables predictoras (X) y las variables objetivo (tanto para regresión como clasificación), y se realiza la división en conjuntos de entrenamiento y prueba usando una proporción estándar de 80% entrenamiento y 20% prueba. Esto es crucial para evaluar adecuadamente la capacidad predictiva y evitar sobreajuste del modelo.

In [2]:
df = pd.read_csv("processed_data.csv")

# Separar características (X) y variables objetivo (y) para regresión y clasificación
X_reg = df.drop(['SalePrice', 'PriceCategory', 'Id'], axis=1)
y_reg = df['SalePrice']

X_clf = df.drop(['SalePrice', 'PriceCategory', 'Id'], axis=1)
y_clf = df['PriceCategory']

# Crear conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_reg_train, X_reg_test, y_reg_train, y_reg_test = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=42)

X_clf_train, X_clf_test, y_clf_train, y_clf_test = train_test_split(
    X_clf, y_clf, test_size=0.2, random_state=42)

# Verificar la dimensión de los conjuntos generados
print("Regresión:")
print("X_reg_train:", X_reg_train.shape)
print("X_reg_test:", X_reg_test.shape)
print("y_reg_train:", y_reg_train.shape)
print("y_reg_test:", y_reg_test.shape)

print("\nClasificación:")
print("X_clf_train:", X_clf_train.shape)
print("X_clf_test:", X_clf_test.shape)
print("y_clf_train:", y_clf_train.shape)
print("y_clf_test:", y_clf_test.shape)

Regresión:
X_reg_train: (1168, 74)
X_reg_test: (292, 74)
y_reg_train: (1168,)
y_reg_test: (292,)

Clasificación:
X_clf_train: (1168, 74)
X_clf_test: (292, 74)
y_clf_train: (1168,)
y_clf_test: (292,)


### Verificación de la regresión y separación de datos

En este paso estamos entrenando un árbol de decisión para regresión usando todas las variables disponibles, con configuración predeterminada. Tras entrenarlo, evaluamos su desempeño utilizando:

Error cuadrático medio (MSE): Indica la diferencia cuadrática promedio entre las predicciones y valores reales.
Raíz del error cuadrático medio (RMSE): Facilita la interpretación en las mismas unidades que la variable objetivo.
Coeficiente de determinación (R²): Mide qué tan bien se ajustan las predicciones al valor real.

In [6]:
tree_regressor = DecisionTreeRegressor(random_state=42)
tree_regressor.fit(X_reg_train, y_reg_train)

y_reg_pred = tree_regressor.predict(X_reg_test)

mse = mean_squared_error(y_reg_test, y_reg_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_reg_test, y_reg_pred)

print("Evaluación del Árbol de Regresión:")
print(f"MSE: {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R²: {r2:.4f}")

Evaluación del Árbol de Regresión:
MSE: 1747613673.71
RMSE: 41804.47
R²: 0.7722


#### Mean Squared Error (MSE): 1,747,613,673.71
El error cuadrático medio es relativamente alto en términos absolutos, pero es común en problemas de regresión sobre precios altos (en este caso, viviendas). Esto significa que, en promedio, hay una diferencia significativa entre los valores reales y los predichos cuando se considera la escala absoluta.
#### Root Mean Squared Error (RMSE): 41,804.47
La raíz cuadrada del error cuadrático medio es aproximadamente $41,804, indicando que en promedio las predicciones del precio de venta están desviadas de los valores reales por esta cantidad. Considerando que el promedio del precio de venta es alrededor de $180,921, este error promedio representa aproximadamente el 23% del valor promedio, lo que es aceptable pero indica que existe un margen considerable para mejorar.
#### Coeficiente de Determinación (R²): 0.7722
Este valor indica que el modelo explica aproximadamente el 77.22% de la variabilidad observada en los precios de las casas. Un valor de R² cercano a 1 indica que el modelo se ajusta bien a los datos, por lo que un valor de 0.7722 indica un buen ajuste, aunque existe todavía espacio para mejoras.