# 📌ACTIVIDAD 3: CREAR UN SISTEMA TASADOR DE VIVIENDAS.

### DEFINIR Y RECOPILAR DATOS
En primer lugar debemos ponernos de acuerdo de manera que cada uno de nosotros piense una
característica que: <br><br>
• Pueda influir en el precio de una vivienda.<br><br>
• Sea una información que tengamos la capacidad de recolectar.<br><br>
ENTREGA 5: Añade al documento enlace enlace: <br><br>
a) En la hoja de cálculo "datos_viviendas.xlsl" en la hoja datos, añade una columna cuyo
prefijo tenga tus iniciales. Ya tiene estas nueve: josrosrod_autor, josrosrod_origen,
josrosrod_municipio, josrosrod_dia, josrosrod_mes, josrosrod_año, josrosrod_lat,
josrosrod_lon, josrosrod_precio<br><br>
b) En la hoja "descripción" añade una descripción del significado de esa columna y de cómo se
puede conseguir. Ya tendrás anotaciones de las características que están añadidas.<br><br>
Cuando ya tengamos definidas las características que vamos a utilizar para esta actividad, vamos a
recolectar datos, al menos 10 cada uno. Intentando completar la información que no dispongamos
(intentaremos no inventar nada, de manera que cuando algo no lo sepamos, tendremos que indicar de
donde lo hemos conseguido). No puedes dejar más de un valor ausente en tus datos.

ENTREGA: <br><br>
a0) Añade a la hoja de cálculo 10 ejemplos y aporta una columna.<br><br>
a) Análisis y preprocesamiento de datos:<br><br>
• Análisis de datos: histogramas, boxplots, cantidad de datos ausentes, presencia de
outliers.<br><br>
• Codificación de categóricas: label-encoding o one-hot-encoding.<br><br>
• Detección e imputación de ausentes.<br><br>
• Detección e imputación de anomalías.<br><br>
• Escalado de numéricas.<br><br>
• Debes ir creando un pipeline de manera que se le facilite uno de los ejemplos y lo
preprocese para dárselo al modelo.<br><br>
a) Selección de características:<br><br>
• Matriz de correlaciones y mapa de calor: más fácil de interpretar si dejas el target como
la primera característica.<br><br>
• Estudio estadístico univariado (eliminar características con poca influencia en target).<br><br>
• Estudio de colinealidad por parejas (eliminar alta correlación entre predictoras).<br><br>
c) Selección de modelos de regresión: debes considerar al menos 5 diferentes y uno de ellos el
método de mínimos cuadrados. Recuerda que tienes LinearRegressor, SGDRegressor, Ridge,
Lasso, ElasticNet, K-NN, polinómico...<br><br>
d) Estudio de varianza de modelos con CV.<br><br>
e) Seleccionar los dos que mejor desempeño muestren justificando su elección.<br><br>
f) Configuración de hiperparámetros con grid-search en los mejores 2 modelos seleccionados.<br><br>
f) Estudio final de errores en las predicciones y gráfico de importancia de características.<br><br>
g) Selección justificada del mejor y su descripción:<br><br>
• Qué predictoras utiliza.<br><br>
• Una descripción de su utilización y procesos que realiza (preprocesamiento, ...).<br><br>
• Qué desempeño alcanza en train y test (indica también la métrica empleada)<br><br>
• Una valoración final de tu modelo según los resultados obtenidos.<br><br>
h) Guarda el modelo en un fichero con el nombre <iniciales>_modelo_u02_p03_a3.joblib
donde <iniciales> son las 3 primeras letras del nombre y apellidos, en mi caso sería
"josrosrod_modelo_u02_p03_a3.joblib".<br><br>
La entrega de esta última actividad es el 70% de la nota de la práctica y se valora:<br><br>
• 50% puntos por la entrega: la realización de las actividades propuestas.<br><br>
• Al modelo que entregues se le pedirá que realice 10 predicciones con datos probablemente no
vistos. Según el error promedio que cometa se le asignará posición en un ranking. En función
de la posición que ocupe (lo bien que lo haga), conseguirá más o menos puntuación adicional
hasta completar el 20% restante


## 1. Carga de datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import mean_squared_error, r2_score
import joblib

# Cargar datos (modificar con el nombre de tu archivo)
df = pd.read_excel("recursos/U02_P03/datos_viviendas.xlsx tu_archivo.csv")
df.head()

## 2. Análisis exploratorio (gráficos, valores ausentes, outliers)


In [None]:
def analisis(df):
    print("Información del dataset:")
    print(df.info())
    print("\nResumen estadístico:")
    print(df.describe())

    # Valores ausentes
    print("\nValores ausentes:")
    print(df.isnull().sum())

    # Histogramas y boxplots
    df.hist(bins=20, figsize=(10, 8))
    plt.show()

    plt.figure(figsize=(10, 6))
    sns.boxplot(data=df)
    plt.xticks(rotation=90)
    plt.show()

# Aplicar análisis exploratorio
analisis(df)

## 3. Preprocesamiento (codificación, imputación, escalado)


In [None]:
# Separar variables numéricas y categóricas
num_features = df.select_dtypes(include=['int64', 'float64']).columns
cat_features = df.select_dtypes(include=['object']).columns

# Pipeline de preprocesamiento
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

cat_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer([
    ('num', num_pipeline, num_features),
    ('cat', cat_pipeline, cat_features)
])

## 4. Selección de características


In [None]:
# División en train y test
y = df['target']  # Modifica 'target' con la variable objetivo correcta
X = df.drop(columns=['target'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 5. Entrenamiento de modelos de regresión


In [None]:
# Entrenar y evaluar modelos
results = {}
for name, model in models.items():
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('regressor', model)
    ])
    scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='r2')
    results[name] = np.mean(scores)
    print(f"{name}: R² medio = {np.mean(scores):.4f}")

## 6. Evaluación y selección de modelos


In [None]:
# Seleccionar los dos mejores modelos
best_models = sorted(results.items(), key=lambda x: x[1], reverse=True)[:2]
print("\nMejores modelos:", best_models)

## 7. Optimización de hiperparámetros


In [None]:
# Grid Search para ajuste de hiperparámetros
param_grid = {
    'Ridge': {'regressor__alpha': [0.1, 1, 10]},
    'KNN': {'regressor__n_neighbors': [3, 5, 7]}
}

## 8.  Guardado del modelo final

In [None]:
best_estimators = {}
for name, _ in best_models:
    model = models[name]
    pipeline = Pipeline([
        ('preprocessor', preprocessor),
        ('regressor', model)
    ])
    grid_search = GridSearchCV(pipeline, param_grid[name], cv=5, scoring='r2')
    grid_search.fit(X_train, y_train)
    best_estimators[name] = grid_search.best_estimator_
    print(f"{name}: Mejor hiperparámetro {grid_search.best_params_}")

# Evaluación final del mejor modelo
final_model = best_estimators[best_models[0][0]]
y_pred = final_model.predict(X_test)
print(f"Mejor modelo: {best_models[0][0]}")
print(f"R² en test: {r2_score(y_test, y_pred):.4f}")
print(f"RMSE en test: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")

# Guardar el modelo
joblib.dump(final_model, "SAM_ART_LOP_modelo_u02_p03_a3.joblib")