## Instrucciones para el examen
**Objetivo**: Se tiene como objetivo evaluar la capacidad para limpiar, explorar, implementar y evaluar modelos de regresión en un dataset de precios de casas. Se utiliza el **«House Prices Dataset»** disponible en Kaggle. Se debe demostrar habilidades prácticas en la manipulación de datos, creación de visualizaciones y modelado predictivo.


## Descripción del Dataset
El **«House Prices Dataset»** contiene datos sobre diversas características de casas residenciales en Ames, Iowa. La tarea es predecir el precio final de cada casa (variable objetivo) en función de sus características.

#### Diccionario de Datos:
* MSSubClass: Clase del edificio.
* MSZoning: Clasificación de la zona.
* LotFrontage: Frente del lote en pies lineales.
* LotArea: Área del lote en pies cuadrados.
* Street: Tipo de calle.
* Alley: Tipo de callejón.
* LotShape: Forma del lote.
* LandContour: Contorno del terreno.
* Utilities: Servicios públicos disponibles.
* LotConfig: Configuración del lote.
* LandSlope: Pendiente del terreno.
* Neighborhood: Vecindario.
* Condition1: Proximidad a diversas condiciones.
* Condition2: Proximidad a diversas condiciones (segunda).
* BldgType: Tipo de edificio.
* HouseStyle: Estilo de la casa.
* OverallQual: Calidad general del material y acabado.
* OverallCond: Condición general del edificio.
* YearBuilt: Año de construcción original.
* YearRemodAdd: Año de remodelación o adición.
* RoofStyle: Estilo del techo.
* RoofMatl: Material del techo.
* Exterior1st: Revestimiento exterior de la casa.
* Exterior2nd: Revestimiento exterior de la casa (segundo).
* MasVnrType: Tipo de revestimiento de mampostería.
* MasVnrArea: Área de revestimiento de mampostería en pies cuadrados.
* ExterQual: Calidad del material exterior.
* ExterCond: Condición del material exterior.
* Foundation: Tipo de fundación.
* BsmtQual: Altura del sótano.
* BsmtCond: Condición general del sótano.
* BsmtExposure: Exposición del sótano.
* BsmtFinType1: Calidad del acabado del sótano.
* BsmtFinSF1: Área terminada del sótano en pies cuadrados.
* BsmtFinType2: Calidad del acabado del sótano (segunda).
* BsmtFinSF2: Área terminada del sótano (segunda) en pies cuadrados.
* BsmtUnfSF: Área no terminada del sótano en pies cuadrados.
* TotalBsmtSF: Área total del sótano en pies cuadrados.
* Heating: Tipo de calefacción.
* HeatingQC: Calidad y condición de la calefacción.
* CentralAir: Aire acondicionado central.
* Electrical: Sistema eléctrico.
* 1stFlrSF: Área del primer piso en pies cuadrados.
* 2ndFlrSF: Área del segundo piso en pies cuadrados.
* LowQualFinSF: Área terminada de baja calidad en pies cuadrados.
* GrLivArea: Área habitable por encima del nivel del suelo en pies cuadrados.
* BsmtFullBath: Número de baños completos en el sótano.
* BsmtHalfBath: Número de medios baños en el sótano.
* FullBath: Número de baños completos por encima del nivel del suelo.
* HalfBath: Número de medios baños por encima del nivel del suelo.
* Bedroom: Número de dormitorios por encima del nivel del suelo.
* Kitchen: Número de cocinas.
* KitchenQual: Calidad de la cocina.
* TotRmsAbvGrd: Número total de habitaciones por encima del nivel del suelo (excluyendo baños).
* Functional: Funcionalidad del hogar.
* Fireplaces: Número de chimeneas.
* FireplaceQu: Calidad de la chimenea.
* GarageType: Ubicación del garaje.
* GarageYrBlt: Año en que se construyó el garaje.
* GarageFinish: Interior terminado del garaje.
* GarageCars: Tamaño del garaje en capacidad de coches.
* GarageArea: Área del garaje en pies cuadrados.
* GarageQual: Calidad del garaje.
* GarageCond: Condición del garaje.
* PavedDrive: Entrada pavimentada.
* WoodDeckSF: Área de la terraza de madera en pies cuadrados.
* OpenPorchSF: Área del porche abierto en pies cuadrados.
* EnclosedPorch: Área del porche cerrado en pies cuadrados.
* 3SsnPorch: Área del porche de tres estaciones en pies cuadrados.
* ScreenPorch: Área del porche de la pantalla en pies cuadrados.
* PoolArea: Área de la piscina en pies cuadrados.
* PoolQC: Calidad de la piscina.
* Fence: Calidad de la cerca.
* MiscFeature: Característica miscelánea no cubierta en otras categorías.
* MiscVal: Valor misceláneo.
* MoSold: Mes en que se vendió la propiedad.
* YrSold: Año en que se vendió la propiedad.
* SaleType: Tipo de venta.
* SaleCondition: Condición de venta.
* SalePrice: Precio de venta (variable objetivo).

## Requisitos

### Limpieza de Datos:
* **Identificación y eliminación de valores duplicados**: Asegúrate de que no haya registros duplicados que puedan sesgar los resultados del análisis.
* **Verificación y ajuste de tipos de datos**: Verifica que cada columna tenga el tipo de dato correcto (numérico o categórico) y ajusta si es necesario.
* **Corrección de inconsistencias en valores categóricos**: Revisa las categorías de las variables y unifica aquellos valores que puedan estar escritos de diferentes maneras pero que representen lo mismo.
* **Manejo de valores faltantes adecuadamente**: Identifica y maneja los valores faltantes utilizando técnicas apropiadas como la imputación de la mediana, media o moda, según corresponda.

#### Importacion de librerias

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
#from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.exceptions import ConvergenceWarning
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, RobustScaler
from sklearn.metrics import mean_squared_error, f1_score, mean_absolute_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.impute import SimpleImputer, KNNImputer

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter("ignore", category=ConvergenceWarning)
warnings.filterwarnings("ignore")

#### Configuración inicial
* Se configura `pandas` para mostrar todas las columnas y filas.
* Se define el formato para números decimales.

In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.width', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

#### Carga de datos
Los datos de entrenamiento (`train.csv`) y de prueba (`test.csv`) se combinan en un único dataframe `df`.

In [None]:
df_train=pd.read_csv("../../data/Machine_Learning/House_Prices/train.csv")
df_test=pd.read_csv("../../data/Machine_Learning/House_Prices/test.csv")

In [None]:
df=pd.concat([df_train, df_test])
df.head()

#### Exploracion Inicial
La función `check_df` muestra:
* Dimensiones (shape).
* Tipos de datos (dtypes).
* Duplicados.
* Valores faltantes.
* Valores únicos por columna.

In [None]:
def check_df(dataframe, head=5):
    print("##################### Shape #####################")
    print(dataframe.shape)
    print("##################### Types #####################")
    print(dataframe.dtypes)
    print("##################### Duplicated Values #####################")
    print(dataframe.duplicated().sum())
    print("##################### Missing Values #####################")
    print(dataframe.isnull().sum())
    print("##################### Number of Unique Values #####################")
    print(df.nunique())
    
check_df(df)

#### Análisis de variables
La función `grab_col_names` clasifica columnas en:
* `cat_cols`: categóricas.
* `num_cols`: numéricas.
* `cat_but_car`: categóricas con alta cardinalidad.

Utiliza umbrales (`cat_th` y `car_th`) para determinar estas categorías.

In [None]:
def grab_col_names(dataframe, cat_th=10, car_th=20):
    
    # cat_cols, cat_but_car
    cat_cols = [col for col in dataframe.columns if dataframe[col].dtypes == "O"]
    num_but_cat = [col for col in dataframe.columns if dataframe[col].nunique() < cat_th and
                   dataframe[col].dtypes != "O"]
    cat_but_car = [col for col in dataframe.columns if dataframe[col].nunique() > car_th and
                   dataframe[col].dtypes == "O"]
    cat_cols = cat_cols + num_but_cat
    cat_cols = [col for col in cat_cols if col not in cat_but_car]

    # num_cols
    num_cols = [col for col in dataframe.columns if dataframe[col].dtypes != "O"]
    num_cols = [col for col in num_cols if col not in num_but_cat]

    print(f"Observations: {dataframe.shape[0]}")
    print(f"Variables: {dataframe.shape[1]}")
    print(f"cat_cols: {len(cat_cols)}")
    print(f"num_cols: {len(num_cols)}")
    print(f"cat_but_car: {len(cat_but_car)}")
    print(f"num_but_cat: {len(num_but_cat)}")
    
    return cat_cols, num_cols, cat_but_car

In [None]:
cat_cols, num_cols, cat_but_car = grab_col_names(df, car_th=25)

print("#############")
print(f"Cat_Cols : {cat_cols}")
print("#############")
print(f"Num_Cols : {num_cols}")
print("#############")
print(f"Cat_But_Car : {cat_but_car}")

#### Analisis exploratorio de variables

##### Visualizacion de variables numericas
Se generan histogramas, densidades (kde), y diagramas de caja (boxplot) para cada columna numérica.

In [None]:
num_cols=[col for col in num_cols if col not in ["Id", "SalePrice"]]
df=df.apply(lambda x: x.astype(int) if x.dtypes=="bool" else x)

In [None]:
for col in num_cols:
    plt.figure(figsize=(21,7))
    
    plt.subplot(1,3,1)
    df[col].hist()
    plt.title(f' {col}')
    plt.xticks(rotation=90)
    
    plt.subplot(1,3,2)
    sns.kdeplot(df[col], fill=True)
    plt.title(f' {col}')
    plt.xticks(rotation=90)
    
    plt.subplot(1,3,3)
    sns.boxplot(y=col, data=df)
    plt.title(f' {col}')
    plt.xticks(rotation=90)
    
    plt.tight_layout()
    plt.show()

##### Visualización de variables categóricas
Se utiliza un gráfico de barras (countplot) para cada variable categórica.

In [None]:
n = len(cat_cols)
rows = (n + 2) // 3  

plt.figure(figsize=(21, rows * 7))  

for i, col in enumerate(cat_cols):
    plt.subplot(rows, 3, i + 1) 
    sns.countplot(x=df[col])
    plt.title(f'{col}')
    plt.xticks(rotation=90)

plt.tight_layout() 
plt.show()  

In [None]:
for i in cat_cols:
    result_df = pd.DataFrame({
        "Mean": df.groupby(i)["SalePrice"].mean(),
        "Count": df.groupby(i)["SalePrice"].count()  
    })
    
    print(result_df)
    print("\n##############################\n")

#### Analisis de Correlacion

##### Deteccion de variables altamente correlacionadas
* Se calcula la matriz de correlación.
* Se identifican columnas con una correlación absoluta mayor a un umbral (corr_th).

In [None]:
def high_correlated_cols(dataframe, plot=False, corr_th=0.90):
    corr = dataframe.corr(numeric_only=True)
    cor_matrix = corr.abs()
    upper_triangle_matrix = cor_matrix.where(np.triu(np.ones(cor_matrix.shape), k=1).astype(bool))
    drop_list = [col for col in upper_triangle_matrix.columns if any(upper_triangle_matrix[col] > corr_th)]
    if plot:
        sns.set_theme(rc={"figure.figsize": (15, 15)})
        sns.heatmap(corr, annot=True, fmt=".2f", cmap="RdBu", annot_kws={"size": 7})
        plt.show()
    return drop_list

In [None]:
high_correlated_cols(df, plot=True)

#### Análisis de valores atípicos
* Se identifica valores fuera de los límites intercuartílicos (IQR).
* Se reemplaza con los límites inferiores o superiores.

In [None]:
def outlier_thresholds(dataframe, col_name, q1=0.05, q3=0.95):
    quartile1 = dataframe[col_name].quantile(q1)
    quartile3 = dataframe[col_name].quantile(q3)
    interquantile_range = quartile3 - quartile1
    up_limit = quartile3 + 1.5 * interquantile_range
    low_limit = quartile1 - 1.5 * interquantile_range
    return low_limit, up_limit

def check_outlier(dataframe, col_name):
    low_limit, up_limit = outlier_thresholds(dataframe, col_name)
    if dataframe[(dataframe[col_name] > up_limit) | (dataframe[col_name] < low_limit)].shape[0] > 0:
        return True
    else:
        return False

In [None]:
for i in num_cols:
    print(i,check_outlier(df,i))

In [None]:
def replace_with_thresholds(dataframe, variable):
    low_limit, up_limit = outlier_thresholds(dataframe, variable)
    dataframe.loc[(dataframe[variable] < low_limit), variable] = low_limit
    dataframe.loc[(dataframe[variable] > up_limit), variable] = up_limit

In [None]:
for i in num_cols:
    replace_with_thresholds(df, i)

In [None]:
for i in num_cols:
    print(i,check_outlier(df,i))

#### Manejo de valores faltantes
* Llena valores categóricos ausentes con "No".
* Llena con la moda o la media dependiendo del tipo de dato.

In [None]:
def missing_values_table(dataframe, na_name=False):
    na_columns = [col for col in dataframe.columns if dataframe[col].isnull().sum() > 0]
    n_miss = dataframe[na_columns].isnull().sum().sort_values(ascending=False)
    ratio = (dataframe[na_columns].isnull().sum() / dataframe.shape[0] * 100).sort_values(ascending=False)
    missing_df = pd.concat([n_miss, np.round(ratio, 2)], axis=1, keys=["n_miss", "ratio"])
    print(missing_df, end="\n")
    return na_columns

In [None]:
missing_values_table(df)

In [None]:
no_cols = ["Alley","BsmtQual","BsmtCond","BsmtExposure","BsmtFinType1","BsmtFinType2","FireplaceQu",
           "GarageType","GarageFinish","GarageQual","GarageCond","PoolQC","Fence","MiscFeature"]

for col in no_cols:
    df[col].fillna("No",inplace=True)

In [None]:
for col in cat_cols:    
    df[col].fillna(df[col].mode()[0], inplace=True)

In [None]:
missing_values_table(df)

In [None]:
variables_with_na = missing_values_table(df)
variables_with_na = [col for col in variables_with_na if "SalePrice" not in col]
variables_with_na

In [None]:
for col in variables_with_na:    
    df[col].fillna(df[col].mean(), inplace=True)
    
missing_values_table(df)

In [None]:
df.head()

In [None]:
df["NEW_HouseAge"] = df["YrSold"] - df["YearBuilt"]
df["NEW_TotalSF"] = df["TotalBsmtSF"] + df["1stFlrSF"] + df["2ndFlrSF"]

### Exploración de Datos:
* **Visualizaciones univariadas y multivariadas**: Crea histogramas, gráficos de barras, diagramas de dispersión y mapas de calor para entender la distribución y las relaciones entre las variables.
* **Estadísticas descriptivas**: Calcula medidas de tendencia central (media, mediana, moda) y de dispersión (rango, desviación estándar) para cada característica del dataset.

***Obesrvacion**: Las visualizaciones univariadas y la matriz de correlacion ya se realizaron en el apartado **Analisis de Variables**

#### Estadisticas descriptivas

* Área: Variables como GrLivArea, TotalBsmtSF y 1stFlrSF indican que existe una gran variabilidad en el tamaño de las propiedades. Esto sugiere que el mercado inmobiliario en cuestión incluye desde casas pequeñas hasta mansiones.
* Año de Construcción: Las variables YearBuilt y YearRemodAdd muestran que las casas fueron construidas en diferentes épocas, lo que implica que hay una mezcla de propiedades antiguas y modernas.
* Características Adicionales: Variables como Fireplaces, GarageCars y PoolArea indican que las propiedades tienen diferentes características adicionales que pueden influir en su valor.
* Precio de Venta: La variable SalePrice muestra una amplia gama de precios, lo que sugiere una diversidad en el mercado y la presencia de propiedades de diferentes rangos de precios.

In [None]:
# Estadísticas descriptivas
descriptive_stats = df.describe()
print(descriptive_stats)

# También podemos calcular medidas adicionales como la moda
mode_stats = df.mode().iloc[0]  # Para cada columna
print("Moda:\n", mode_stats)

# Mediana
# Filtrar solo las columnas numéricas
numeric_cols = df.select_dtypes(include=['number'])

# Calcular la mediana solo para las columnas numéricas
median_stats = numeric_cols.median()
print("Mediana:\n", median_stats)

#### Diagrama de dispersión (Scatter Plot)
Relacion entre el área total construida (GrLivArea) y el precio de venta

**Observaciones**
* El tamaño importa: El área habitable es un factor importante que influye en el precio de venta de una propiedad. Cuanto más grande sea la casa, mayor será su valor en el mercado.
* Otros factores: Aunque el tamaño es un factor importante, no es el único. Otros factores como la ubicación, la calidad de los materiales, la antigüedad, el número de habitaciones y baños, etc., también influyen en el precio final.
* Variabilidad: Los precios de las propiedades no están determinados únicamente por su tamaño, sino que hay una gran variabilidad debido a la combinación de todos estos factores.

In [None]:
# Diagrama de dispersión entre GrLivArea y SalePrice
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='GrLivArea', y='SalePrice', alpha=0.6)
plt.title('Relación entre GrLivArea y SalePrice')
plt.xlabel('GrLivArea')
plt.ylabel('SalePrice')
plt.show()


#### Distribución de las Características en Diferentes Vecindarios (Neighborhood vs. características)
Analiza cómo varía el precio de venta según el vecindario. Esto te ayudará a identificar patrones espaciales o tendencias locales en las viviendas.

**Observaciones:**
* Variabilidad de precios entre vecindarios: El gráfico muestra claramente que hay una gran variabilidad en los precios de venta entre los diferentes vecindarios. Algunos vecindarios tienen precios promedio mucho más altos que otros.
* Vecindarios con precios altos: Vecindarios como "NridgHt", "NoRidge" y "StoneBr" tienden a tener precios de venta más altos y menos variabilidad, lo que sugiere que son vecindarios más exclusivos o con propiedades de mayor calidad.
* Vecindarios con precios bajos: Por otro lado, vecindarios como "IDOTRR", "MeadowV" y "Blueste" tienden a tener precios de venta más bajos y mayor variabilidad. Esto podría indicar que son vecindarios más antiguos, con propiedades más pequeñas o con menos comodidades.
* Outliers: La presencia de outliers sugiere que hay algunas casas en ciertos vecindarios que se venden a precios significativamente diferentes del resto. Estos outliers podrían ser propiedades únicas, con características especiales o que se vendieron en circunstancias particulares.

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(x='Neighborhood', y='SalePrice', data=df)
plt.xticks(rotation=90)
plt.title('Distribución de SalePrice por Vecindario')
plt.show()

#### Gráfico de Barras Apiladas por Categorías (Comparar la calidad y el tipo de acabado)
Examina cómo las calificaciones de calidad externa y del sótano afectan el precio de la vivienda.

**Obeservaciones**
* La calidad exterior y del sótano son factores clave: Al momento de evaluar el valor de una propiedad, los compradores suelen considerar la calidad de los acabados exteriores y del sótano como indicadores importantes.
* Invertir en mejoras: Mejorar la calidad exterior y del sótano puede aumentar significativamente el valor de una propiedad y hacerla más atractiva para los compradores.
* Segmentación del mercado: Este análisis puede ser útil para segmentar el mercado inmobiliario y identificar nichos específicos de compradores con preferencias particulares en cuanto a la calidad de la construcción.

In [None]:
# Crear una nueva columna combinando ExterQual y BsmtQual
df['Exterior+BsmtQual'] = df['ExterQual'] + " / " + df['BsmtQual']

plt.figure(figsize=(14, 7))
sns.barplot(x='Exterior+BsmtQual', y='SalePrice', data=df, estimator='mean')
plt.xticks(rotation=45)
plt.title('Promedio de SalePrice por Combinación de Calidad Exterior y del Sótano')
plt.show()


#### Codificacion de datos

##### Label Encoding
Para variables binarias 

In [None]:
def label_encoder (dataframe, binary_col):
    dataframe[binary_col]=LabelEncoder().fit_transform(dataframe[binary_col])
    return dataframe

binary_cols=[col for col in df.columns if df[col].dtypes == "O" 
             and df[col].nunique()==2]

In [None]:
for col in binary_cols:
    df=label_encoder (df, col)
    
df.head()

##### One-Hot Encoding
Para las demas variables categoricas

In [None]:
def one_hot_encoder (dataframe, categorical_cols, drop_first=False):
    dataframe=pd.get_dummies(dataframe, columns=categorical_cols, drop_first=drop_first)
    return dataframe

In [None]:
categorical_cols=[col for col in cat_cols if col not in binary_cols]
df=one_hot_encoder(df, categorical_cols, True)
df=df.apply(lambda x: x.astype(int) if x.dtypes=="bool" else x)
df.head()

#### Escalado
Se aplica `RobustScaler` para las variables numéricas.

In [None]:
x=[col for col in num_cols if col != "Id"]
df[x]=RobustScaler().fit_transform(df[x])
df.head()

In [None]:
train_df=df[df["SalePrice"].notnull()]
test_df=df[df["SalePrice"].isnull()]
print("Mean: " + str(df["SalePrice"].mean()))
print("Std: " + str(df["SalePrice"].std()))

### Implementación de Modelos:
* **Modelos de Regresión**: Implementa modelos de Linear Regression y LightGBM (LGBM).
* **Evaluación de Modelos**: Evalúa los modelos utilizando métricas como MSE, RMSE, y R^2.
* **Comparación de Rendimiento**: Compara los resultados de ambos modelos y discute cuál es el más adecuado para este dataset.

In [None]:
y=np.log1p(train_df["SalePrice"])
X=train_df.drop(["Id", "SalePrice"], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=42)

In [None]:
# Regresion Lineal

reg_model = LinearRegression().fit(X_train,y_train) #built model
reg_pred = reg_model.predict(X_test) #make prediction

print('MAE:', mean_absolute_error(y_test, reg_pred))
print('MSE:', mean_squared_error(y_test, reg_pred))
print('RMSE:', np.sqrt(mean_squared_error(y_test, reg_pred)))

In [None]:
liner_r2_score=r2_score(y_test, reg_pred)
liner_r2_score


Optimizacion de Hiperparametros

In [None]:
# LightGBM Regressor
lgbm_model = LGBMRegressor(objective="regression", metric="rmse", random_state=42)
lgbm_model.fit(X_train, y_train)
lgbm_preds = lgbm_model.predict(X_test)

print("\nLightGBM Results:")
print("MAE:", mean_absolute_error(y_test, lgbm_preds))
print("MSE:", mean_squared_error(y_test, lgbm_preds))
print("RMSE:", np.sqrt(mean_squared_error(y_test, lgbm_preds)))
lgbm_r2_score = r2_score(y_test, lgbm_preds)
print("R2 Score (LightGBM):", lgbm_r2_score)

In [None]:
# Hyperparameter Optimization with GridSearchCV
lgbm_params = {
    "n_estimators": [100, 200],
    "learning_rate": [0.05, 0.1],
    "max_depth": [3, 5, 7],
}

lgbm_grid = GridSearchCV(estimator=LGBMRegressor(objective="regression", random_state=42),
                         param_grid=lgbm_params,
                         scoring="neg_mean_squared_error",
                         cv=5,
                         n_jobs=-1)

lgbm_grid.fit(X_train, y_train)

print("\nBest Parameters for LightGBM:")
print(lgbm_grid.best_params_)

In [None]:
# Train final model with best parameters
final_model = LGBMRegressor(**lgbm_grid.best_params_, random_state=42)
final_model.fit(X_train, y_train)

In [None]:
# Evaluate final model
final_preds = final_model.predict(X_test)
print("\nFinal Model Results:")
print("MAE:", mean_absolute_error(y_test, final_preds))
print("MSE:", mean_squared_error(y_test, final_preds))
print("RMSE:", np.sqrt(mean_squared_error(y_test, final_preds)))
print("R2 Score (Final Model):", r2_score(y_test, final_preds))

In [None]:
# Feature Importance
def plot_importance(model, features, dataframe, save=False):
    num = len(dataframe.columns)
    feature_imp = pd.DataFrame({"Value": model.feature_importances_, "Feature": features.columns})
    plt.figure(figsize=(10, 10))
    sns.set_theme(font_scale=1)
    sns.barplot(x="Value", y="Feature", data=feature_imp.sort_values(by="Value", ascending=False)[0:40])
    plt.title("Features")
    plt.tight_layout()
    plt.show()
    if save:
        plt.savefig("importances.png")

plot_importance(final_model, X, train_df)

## Entrega
Los estudiantes deben entregar un archivo .ipynb comentado que incluya:

* Proceso completo de limpieza y preprocesamiento de datos.
* Visualizaciones y estadísticas descriptivas.
* Implementación y evaluación de los modelos de regresión.
* Análisis comparativo del rendimiento de los modelos.
* Además, el archivo debe subirse a GitHub con un tag de liberación (release tag) que permita identificar la entrega final.

## Consideraciones Éticas y Tecnológicas

#### Consideraciones Éticas:
* **Transparencia y Reproducibilidad**: Asegúrate de que todos los pasos del análisis sean claros y reproducibles. Otros investigadores deben poder seguir tus pasos y llegar a los mismos resultados.
* **Imparcialidad y Sesgo**: Revisa si existen sesgos en los datos que puedan afectar la imparcialidad del modelo. Es importante que los modelos no discriminen injustamente entre diferentes grupos de datos.
#### Consideraciones Tecnológicas:
* **Herramientas Utilizadas**: Utiliza herramientas estándar como Python, Jupyter Notebook, Pandas, Scikit-learn, Matplotlib y Seaborn.
* **Escalabilidad**: Considera cómo las técnicas aplicadas podrían escalarse para manejar conjuntos de datos más grandes y complejos.
* **Optimización de Modelos**: Aunque este examen no se enfoca en la optimización de hiperparámetros, se debe tener en cuenta para futuras implementaciones y mejorar el rendimiento de los modelos.