# Proyecto 2 

github: [link aqui](https://github.com/DanielRasho/MD-Proyecto2)

## Imports

In [3]:
# Core Libraries
import random

# Data Manipulation
import numpy as np
import pandas as pd

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Statistical Analysis
import scipy.stats as stats
import statsmodels.api as sm
from scipy.stats import normaltest

# Machine Learning - Scikit-learn
from sklearn import datasets, metrics, tree
from sklearn.cluster import AgglomerativeClustering, KMeans
from sklearn.compose import ColumnTransformer, make_column_selector as selector
from sklearn.metrics import accuracy_score ,precision_score,recall_score,f1_score, classification_report
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import Ridge, RidgeCV
from sklearn.metrics import (
    confusion_matrix, explained_variance_score, mean_absolute_error, ConfusionMatrixDisplay,
    mean_squared_error, mean_squared_log_error, median_absolute_error, r2_score,accuracy_score, precision_score, recall_score, f1_score, classification_report
)
from sklearn.metrics import root_mean_squared_error
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.model_selection import (
    GridSearchCV, ShuffleSplit, cross_validate, train_test_split
)
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor, plot_tree

# Model Evaluation & Utilities
import setuptools.dist
from yellowbrick.regressor import ResidualsPlot

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## Cargado de datos

In [4]:
df = pd.read_csv('./data/train.csv')

df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


## Limpieza de datos

Primero, se realiza una descripción del dataset para obtener un resumen estadístico de los datos. Esto nos permite identificar la distribución de las variables, sus valores mínimos y máximos, la media, la mediana y la desviación estándar. Además, nos ayuda a detectar posibles valores atípicos y comprender mejor la escala de los datos antes de realizar cualquier limpieza o transformación.

In [5]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,1460.0,730.5,421.610009,1.0,365.75,730.5,1095.25,1460.0
MSSubClass,1460.0,56.89726,42.300571,20.0,20.0,50.0,70.0,190.0
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
LotArea,1460.0,10516.828082,9981.264932,1300.0,7553.5,9478.5,11601.5,215245.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0
YearRemodAdd,1460.0,1984.865753,20.645407,1950.0,1967.0,1994.0,2004.0,2010.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
BsmtFinSF1,1460.0,443.639726,456.098091,0.0,0.0,383.5,712.25,5644.0


In [6]:
NAValues = [(col, count, (count / len(df)) * 100) for col, count in df.isnull().sum().items() if count > 0]

NAVariablesStats = pd.DataFrame(NAValues, columns=["Variable", "Count", "Percentage"])
NAVariablesStats = NAVariablesStats.sort_values("Count", ascending=False)
NAVariablesStats

Unnamed: 0,Variable,Count,Percentage
16,PoolQC,1453,99.520548
18,MiscFeature,1406,96.30137
1,Alley,1369,93.767123
17,Fence,1179,80.753425
2,MasVnrType,872,59.726027
10,FireplaceQu,690,47.260274
0,LotFrontage,259,17.739726
11,GarageType,81,5.547945
12,GarageYrBlt,81,5.547945
13,GarageFinish,81,5.547945


### Criterios de eliminacion de columnas

Dado que el dataset contiene una gran cantidad de datos, primero realizamos una búsqueda para identificar las columnas con al menos un valor nulo. Posteriormente, analizamos el porcentaje de valores faltantes en cada una de estas columnas. Si el porcentaje de datos nulos era significativo (considerado alto según nuestro criterio), decidimos eliminarlas para evitar sesgos en el análisis y mejorar la calidad de los datos.

### Columas eliminadas
Las siguientes columnas fueron eliminadas debido a su alto porcentaje de valores nulos, tanto en training como testing:

* PoolQC → 99.52% de datos nulos.
* MiscFeature → 96.30% de datos nulos.
* Alley → 93.77% de datos nulos.
* Fence → 80.75% de datos nulos.
* MasVnrType → 59.73% de datos nulos.
* FireplaceQu → 47.26% de datos nulos.
* GarageQual → 5.55% de datos nulos.
* Id -> Es una variable insignificante que no nos aporta nada.

### Posteriormente

Al ya no existir columnas con un alto numero de valores nulos, ya nos podemos deshacer de las filas que estan incompletas.

In [7]:
# Quitar las columnas con mayor porcentaje de nulos
df.drop(['Id', "Alley", "MasVnrType", "FireplaceQu", "GarageQual", "PoolQC", "Fence", "MiscFeature" ], axis=1, inplace=True)
# Ahora ya se pueden quitar las filas con NA porque son muy pocos
df_cleaned = df.dropna()

# Asegurar que no hayan valores nulos
NAValues = list(df_cleaned.isnull().sum() / len(df_cleaned))
list(value for value in NAValues if value > 0)

[]

Después de obtener un dataset más limpio, el siguiente paso fue analizar su estructura con mayor detalle. Para ello, verificamos la cantidad de filas y columnas restantes, lo que nos permitió entender la dimensión de los datos después del proceso de limpieza.

Además, realizamos una nueva inspección en busca de datos duplicados, junto con los tipos de datos para tener una mejor compresion y asi para evitar cualquier tipo de sesgo.

## Naive Bayes

### Hacer la division estratificada

In [8]:
df_cleaned["SalePriceCategory"] = pd.qcut(df_cleaned["SalePrice"], q=3, labels=["Económico", "Intermedio", "Caro"])
df_cleaned["SalePriceCategory"] = df_cleaned["SalePriceCategory"].astype("category")
train_set, test_set = train_test_split(df_cleaned, test_size=0.2, random_state=42, stratify=df_cleaned["SalePriceCategory"])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned["SalePriceCategory"] = pd.qcut(df_cleaned["SalePrice"], q=3, labels=["Económico", "Intermedio", "Caro"])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned["SalePriceCategory"] = df_cleaned["SalePriceCategory"].astype("category")


## Modelo de Regresion
Se empezára usando un modelo de regresión con Naive Bayes. El primer paso para ello es preprocesar los datos categóricos y númericos por separado.

In [9]:
train_salePrice = train_set["SalePrice"]
test_salePrice = test_set["SalePrice"]
x_train = train_set.drop(columns=["SalePriceCategory", "SalePrice"])
x_test = test_set.drop(columns=["SalePriceCategory", "SalePrice"])

numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

numerical_columns = numerical_columns_selector(x_train)
categorical_columns = categorical_columns_selector(x_train)

categorical_preprocessor = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
numerical_preprocessor = StandardScaler()
preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ('standar-scaler', numerical_preprocessor,numerical_columns)
    ])

A continuación se define el pipeline de scikit-learn que seguiran los datos: 

In [10]:
pipeline = Pipeline(
    [('preprocessor',preprocessor),
     ('regressor',GaussianNB())])

A continuación se configura el modelo con los datos de entrenamiento, que fueron separados en partes anteriores:

In [11]:
print(train_salePrice.shape)
print(x_train.shape)
modelo = pipeline.fit(x_train, train_salePrice)
y_pred = modelo.predict(x_test)

explained_variance = explained_variance_score(test_salePrice, y_pred)
r2 = r2_score(test_salePrice, y_pred)
mae = mean_absolute_error(test_salePrice, y_pred)
mse = mean_squared_error(test_salePrice, y_pred)
rmse = np.sqrt(mse)

# Store the metrics in a DataFrame
metrics_df = pd.DataFrame({
    'Model': ['Naive Bayes Regresión'],
    'Explained Variance': [explained_variance],
    'R2': [r2],
    'MAE': [mae],
    'MSE': [mse],
    'RMSE': [rmse]
})

metrics_df

(875,)
(875, 72)


Unnamed: 0,Model,Explained Variance,R2,MAE,MSE,RMSE
0,Naive Bayes Regresión,0.362955,0.3285,39495.607306,5226752000.0,72296.276653


## Optimizando hiperparametros

Los resultados no fueron prometedores, y son superados por mucho por modelos de regresion lineal o árboles de decisión. Por lo que en un intento para mejorar su rendimiento se usará **validación cruzada conjunto con una variación de hiperparámetros** para encontrar aquellos que minimizan el error cuadrático medio.

In [12]:
params = [{
    "regressor__var_smoothing": np.logspace(0, -9, num=100) # Test parameter from 10^0 to 10^-9
}]

modelo = GridSearchCV(pipeline, param_grid=params, n_jobs=2, cv=5, scoring="neg_root_mean_squared_error")
modelo.fit(x_train, train_salePrice)  # Ensure variable names match

y_pred = modelo.predict(x_test)

explained_variance = explained_variance_score(test_salePrice, y_pred)
r2 = r2_score(test_salePrice, y_pred)
mae = mean_absolute_error(test_salePrice, y_pred)
mse = mean_squared_error(test_salePrice, y_pred)
rmse = np.sqrt(mse)

# Store the metrics in a DataFrame
metrics_df = pd.DataFrame({
    'Model': ['Naive Bayes Regresión'],
    'Explained Variance': [explained_variance],
    'R2': [r2],
    'MAE': [mae],
    'MSE': [mse],
    'RMSE': [rmse]
})

metrics_df



Unnamed: 0,Model,Explained Variance,R2,MAE,MSE,RMSE
0,Naive Bayes Regresión,0.777206,0.770486,27465.680365,1786468000.0,42266.628227


Los resultados incrementaron en enorme médida, haciendo que el modelo tenga un rendimiento ligeramente mejor al indicado por modelos de regresión lineal ($R^2=0.71$) al lograr un $R^2=0.77$, además tambien se puede interpretar que de acuerdo al RMSE el algoritmo se desvia en promedio $42K del resultado esperado, o $27K de acuerdo al MAE. Lo que no son cifras especialmente significativas sabiendo que hay casas con costos cercanos a $100K

## Modelo de Clasificacion

In [13]:
train_salePrice = train_set.pop("SalePrice")
test_salePrice = test_set.pop("SalePrice")
y_train = train_set.pop("SalePriceCategory")
y_test = test_set.pop("SalePriceCategory")
x_train = train_set
x_test = test_set

numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

numerical_columns = numerical_columns_selector(train_set)
categorical_columns = categorical_columns_selector(train_set)
print(categorical_columns)
print(numerical_columns)

['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', 'KitchenQual', 'Functional', 'GarageType', 'GarageFinish', 'GarageCond', 'PavedDrive', 'SaleType', 'SaleCondition']
['MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal', 'MoSold', 'YrSold']


In [None]:
categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
numerical_preprocessor = StandardScaler()
preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ])

In [15]:
pipeline = Pipeline(
    [('preprocessor',preprocessor),
     ('clasifier',MultinomialNB())])

pipeline.get_params()

{'memory': None,
 'steps': [('preprocessor',
   ColumnTransformer(transformers=[('one-hot-encoder',
                                    OneHotEncoder(handle_unknown='ignore'),
                                    ['MSZoning', 'Street', 'LotShape',
                                     'LandContour', 'Utilities', 'LotConfig',
                                     'LandSlope', 'Neighborhood', 'Condition1',
                                     'Condition2', 'BldgType', 'HouseStyle',
                                     'RoofStyle', 'RoofMatl', 'Exterior1st',
                                     'Exterior2nd', 'ExterQual', 'ExterCond',
                                     'Foundation', 'BsmtQual', 'BsmtCond',
                                     'BsmtExposure', 'BsmtFinType1',
                                     'BsmtFinType2', 'Heating', 'HeatingQC',
                                     'CentralAir', 'Electrical', 'KitchenQual',
                                     'Functional', ...])])),
 

Antes de poder entrenar el modelo, los datos necesitan una transformación para que todas las variables se puedan procesar de forma correcta. Se usa one hot encoder para pasar las variables categoricas en una representacion numerica. El pipeline es el encargado de primero procesar los datos y luego entrenar o predecir  el modelo.

In [16]:
modelo = pipeline.fit(x_train,y_train)

In [17]:
y_pred = modelo.predict(x_test)
cm = confusion_matrix(y_test,y_pred)
cm
accuracy = accuracy_score(y_test, y_pred)  # Exactitud
precision = precision_score(y_test, y_pred, average='weighted')  # Precisión (weighted para clases desbalanceadas)
recall = recall_score(y_test, y_pred, average='weighted')  # Sensibilidad
f1 = f1_score(y_test, y_pred, average='weighted')  # F1-score

# Mostrar métricas
print(f"Precisión (Accuracy): {accuracy:.4f}")
print(f"Precisión (Precision): {precision:.4f}")
print(f"Sensibilidad (Recall): {recall:.4f}")
print(f"Puntaje F1 (F1-score): {f1:.4f}")

Precisión (Accuracy): 0.6758
Precisión (Precision): 0.6693
Sensibilidad (Recall): 0.6758
Puntaje F1 (F1-score): 0.6702


Como se puede observar el modelo clasifica correctamente (accuracy) el 67.58% de las veces, esto puede deberse a que los datos esten desbalanceados entre categorias como podria ser el caso de la categoria "caro" el cual no contiene tatos datos. 

En cuanto a las demas metricas obtenidas se puede concluir que el modelo esta equilibrado pero si a futuro se llegara a necesat un modelo que requiera una alta precision o sensibilidad se podrias hacer tunning a los datos ingresados para construir el modelo.

In [18]:
# Mostrar reporte de clasificación
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))
print("\nMatriz de Clasificación:")
print(cm)


Reporte de Clasificación:
              precision    recall  f1-score   support

        Caro       0.78      0.78      0.78        73
   Económico       0.68      0.78      0.73        73
  Intermedio       0.55      0.47      0.50        73

    accuracy                           0.68       219
   macro avg       0.67      0.68      0.67       219
weighted avg       0.67      0.68      0.67       219


Matriz de Clasificación:
[[57  4 12]
 [ 0 57 16]
 [16 23 34]]


En base a estos resultados podemos observar que donde tuvo mas problemas el modelo para poder detectar clasificaciones fue en el aparatado de "intermedio". Teniendo una precision de 0.55 y recall de 0.47, el modelo se esta confundiendo con las otras clases teniendo un total de 50 clasificaciones erroneas.

En este modelo, la precision y la sensibilidad no son muy altas por lo que se intuir que el modelo no tiene ningun sobre ajuste. Pero al tener una muy baja precision y sensibilidad en la clase "intermedio" el modelo no esta detectando bien esta caracteristica, lo que podria ser sobreajuste de los datos. Adaptandose bien a los datos de entrenamineto pero no a los nuvos.

### Optimizando con validacion cruzada

In [20]:
numerical_columns_selector = selector(dtype_exclude=object)
categorical_columns_selector = selector(dtype_include=object)

numerical_columns = numerical_columns_selector(train_set)
categorical_columns = categorical_columns_selector(train_set)
print(categorical_columns)
print(numerical_columns)

['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual', 'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinType2', 'Heating', 'HeatingQC', 'CentralAir', 'Electrical', 'KitchenQual', 'Functional', 'GarageType', 'GarageFinish', 'GarageCond', 'PavedDrive', 'SaleType', 'SaleCondition']
['MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF', 'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal', 'MoSold', 'YrSold']


In [35]:
categorical_preprocessor = OneHotEncoder(handle_unknown="ignore")
numerical_preprocessor = StandardScaler()
preprocessor = ColumnTransformer([
    ('one-hot-encoder', categorical_preprocessor, categorical_columns),
    ])

pipeline = Pipeline(
    [('preprocessor',preprocessor),
     ('classifier',MultinomialNB())])

params = {
    'classifier__alpha': [0.1, 0.5, 1.0, 2.0, 5.0],
    'classifier__fit_prior': [True, False]
}

modelo2 = GridSearchCV(pipeline, param_grid=params, n_jobs=2, cv=8,scoring="accuracy")

Se busca el mejor hiperparametro para con validacion cruzada esperando mejores resultados.

In [36]:
modelo2.fit(x_train, y_train)

best_params = modelo2.best_params_
print(f"Mejores hiperparámetros: {best_params}")

Mejores hiperparámetros: {'classifier__alpha': 0.1, 'classifier__fit_prior': True}


In [37]:
y_pred = modelo2.predict(x_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

# Mostrar métricas
print(f"Precisión (Accuracy): {accuracy:.4f}")
print(f"Precisión (Precision): {precision:.4f}")
print(f"Sensibilidad (Recall): {recall:.4f}")
print(f"Puntaje F1 (F1-score): {f1:.4f}")


Precisión (Accuracy): 0.6804
Precisión (Precision): 0.6753
Sensibilidad (Recall): 0.6804
Puntaje F1 (F1-score): 0.6757


El modelo logro un accuracy de 0.6804, lo que sugiere que el modelo clasifica correctamente aproximadamente el 68% de las veces. Precision de 0.6753 y la sensibilidad de 0.6804 están equilibradas. El F1-score de 0.6757, demuestra que el modelo tiene un desempeño consistente pero no excepcional en la clasificación de las instancias. Estas metricas indican que el modelo tiene una eficiencia moderada.

El análisis comparativo entre el modelo anterior y el modelo con validación cruzada muestra que el segundo modelo tiene un rendimiento ligeramente superior. Las métricas de precisión, precisión, sensibilidad y puntaje F1 son todas más altas en el modelo con validación cruzada. Específicamente, la precisión aumentó de 0.6758 a 0.6804, la precisión de 0.6693 a 0.6753, la sensibilidad de 0.6758 a 0.6804, y el puntaje F1 de 0.6702 a 0.6757. Estos resultados sugieren que la validación cruzada ayudó a encontrar una mejor configuración de hiperparámetros, mejorando así la capacidad del modelo para generalizar a nuevos datos y, en consecuencia, su desempeño general.

# Conclusiones

Se concluirán por separado los modelos de regresión y los modelos de clasificación, ya que estos no se pueden comparar directamente debido a sus diferentes objetivos y métricas de evaluación. Mientras que los modelos de regresión predicen valores continuos, los modelos de clasificación asignan categorías discretas, lo que requiere enfoques y criterios distintos para evaluar su desempeño.

## Modelos de Regresion

En general las predicciones hechas por Naive Bayes no obtuvieron mejores resultados que los encontrados por árboles de decisión. A continuación una pequeña tabla comparativa con los resultados de los diferentes modelos.

| Modelo                      | R²    | MSE            | RMSE      | AIC      | BIC      |
|-----------------------------|------|---------------|-----------|----------|----------|
| Regresión Lineal Múltiple   | 0.711 | 1668798437.060 | 40850.929 | 18592.948 | 18621.594 |
| Lasso                       | 0.711 | 1672518179.988 | 40896.432 | 4663.034  | 4683.368  |
| Ridge                       | 0.710 | 1679899940.790 | 40986.582 | 4663.998  | 4684.332  |
| Mejor árbol de regresion | 0.820 | 1204342000.000 | 34703.626 | 25231.617 | N/A       |
| Random forest de regresión | 0.902 | 655800700.000  | 25608.607 | 18819.711 | N/A       |
| Naive Bayes | 0.362955 | 0.3285 | 39495.60 | 5.22e+09 | 72296.27 |
| Naive Bayes Optimizado | 0.7776 | 0.77 | 27465.68 | 1.78e+09 | 42266.62 |

En la tabla superior se puede ver que hasta ahora, el mejor modelo de regresión esta dado por los Random Forest ($R^2=0.90$), seguido de Naive Bayes optimizado por validación cruzada y variación de hiperparámetros ($R^2=0.77$), y concluyendo con los modelos de regresión lineal. 

También se puede destacar que el uso de validación cruzada y variación de hiperparámetros fue clave para mejorar el rendimiento del modelo que empezo con $R^2=0.32$.

En cuanto a el tiempo de procesamiento el Random Forest demoro más tiempo en ser entrenado. Esto se debe a como funciona este algoritmo que crea varios arboles y combina estos resultados requiriendo mas recurosos en compracion con naive bayes.


## Modelos de Clasificación

| Modelo | Accuracy | Precision | recall |
|--------|----------|-----------|--------|
| Mejor árbol de clasificación |0.793 |0.792| 0.793|
| Random forest de clasificación | 0.830|0.832|0.830|
| Naive Bayes Clasificación | 0.676 | 0.669 | 0.676 |
| Naive Bayes Clasificación Optimizado | 0.680 | 0.675, | 0.680 |

El análisis de los diferentes modelos de clasificación muestra que el Random Forest de Clasificación es el más efectivo, con una Acurracy de 0.830, una precisión de 0.832 y una sensibilidad de 0.830. En cuanto a los modelos Naive Bayes, tanto el original como el optimizado, tienen un peor rendimiendo, siendo los mas bajos de esta tabla, con precisiones de 0.676 y 0.680 respectivamente. Esto sugiere que los modelos basados en árboles, especialmente el Random Forest, son más adecuados para este conjunto de datos, probablemente debido a su capacidad para manejar la variabilidad y reducir el sobreajuste.

En este caso, la validación cruzada no fue de mucha ayuda para naive bayes, debido a que el modelo no mejoró significativamente. Aunque los hiperparametros se ajustaranm las métricas de rendimiento del modelo optimizado apenas mostraron una mejora respecto al modelo original, indicando que la validación cruzada no aportó un beneficio considerable en este escenario específico.

En cuanto al tiempo de en que se tardo en procesar tanto el Random Forest como el naive bayes son bastante similares.