# Clasificación de Piso en el Dataset UJIIndoorLoc

---

## Introducción

En este notebook se implementa un flujo completo de procesamiento y análisis para la clasificación del **piso** en un entorno interior utilizando el dataset **UJIIndoorLoc**. Este conjunto de datos contiene mediciones de señales WiFi recopiladas en distintas ubicaciones de un edificio, con información sobre coordenadas, piso, usuario, hora, entre otros.

En esta tarea nos enfocaremos en predecir el **piso** en el que se encuentra un dispositivo, considerando únicamente las muestras etiquetadas con valores válidos para dicha variable. Se tratará como un problema de clasificación multiclase (planta baja, primer piso, segundo piso).

## Objetivos

- **Cargar y explorar** el conjunto de datos UJIIndoorLoc.
- **Preparar** los datos seleccionando las características relevantes y el target (`FLOOR`).
- **Dividir** el dataset en entrenamiento y validación (80/20).
- **Entrenar y optimizar** clasificadores basados en seis algoritmos:
  - K-Nearest Neighbors (KNN)
  - Gaussian Naive Bayes
  - Regresión Logística
  - Árboles de Decisión
  - Support Vector Machines (SVM)
  - Random Forest
- **Seleccionar hiperparámetros óptimos** para cada modelo utilizando validación cruzada (5-fold), empleando estrategias como **Grid Search**, **Randomized Search**, o **Bayesian Optimization** según el algoritmo.
- **Comparar el desempeño** de los modelos sobre el conjunto de validación, usando métricas como *accuracy*, *precision*, *recall*, y *F1-score*.
- **Determinar el mejor clasificador** para esta tarea, junto con sus hiperparámetros óptimos.

Este ejercicio permite no solo evaluar la capacidad predictiva de distintos algoritmos clásicos de clasificación, sino también desarrollar buenas prácticas en validación de modelos y selección de hiperparámetros en contextos del mundo real.

---

## Descripción del Dataset

El dataset utilizado en este análisis es el **UJIIndoorLoc Dataset**, ampliamente utilizado para tareas de localización en interiores a partir de señales WiFi. Está disponible públicamente en la UCI Machine Learning Repository y ha sido recopilado en un entorno real de un edificio universitario.

Cada muestra corresponde a una observación realizada por un dispositivo móvil, donde se registran las intensidades de señal (RSSI) de más de 500 puntos de acceso WiFi disponibles en el entorno. Además, cada fila contiene información contextual como la ubicación real del dispositivo (coordenadas X e Y), el piso, el edificio, el identificador del usuario, y la marca temporal.

El objetivo en esta tarea es predecir el **piso** (`FLOOR`) en el que se encontraba el dispositivo en el momento de la medición, considerando únicamente las características numéricas provenientes de las señales WiFi.

### Estructura del dataset

- **Número de muestras**: ~20,000
- **Número de características**: 520
  - 520 columnas con valores de intensidad de señal WiFi (`WAP001` a `WAP520`)
- **Variable objetivo**: `FLOOR` (variable categórica con múltiples clases, usualmente entre 0 y 4)

### Columnas relevantes

- `WAP001`, `WAP002`, ..., `WAP520`: niveles de señal recibida desde cada punto de acceso WiFi (valores entre -104 y 0, o 100 si no se detectó).
- `FLOOR`: clase objetivo a predecir (nivel del edificio).
- (Otras columnas como `BUILDINGID`, `SPACEID`, `USERID`, `TIMESTAMP`, etc., pueden ser ignoradas o utilizadas en análisis complementarios).

### Contexto del problema

La localización en interiores es un problema complejo en el que tecnologías como el GPS no funcionan adecuadamente. Los sistemas basados en WiFi han demostrado ser una alternativa efectiva para estimar la ubicación de usuarios en edificios. Poder predecir automáticamente el piso en el que se encuentra una persona puede mejorar aplicaciones de navegación en interiores, accesibilidad, gestión de emergencias y servicios personalizados. Este tipo de problemas es típicamente abordado mediante algoritmos de clasificación multiclase.


### Estrategia de evaluación

En este análisis seguiremos una metodología rigurosa para garantizar la validez de los resultados:

1. **Dataset de entrenamiento**: Se utilizará exclusivamente para el desarrollo, entrenamiento y optimización de hiperparámetros de todos los modelos. Este conjunto será dividido internamente en subconjuntos de entrenamiento y validación (80/20) para la selección de hiperparámetros mediante validación cruzada.

2. **Dataset de prueba**: Se reservará únicamente para la **evaluación final** de los modelos ya optimizados. Este conjunto **no debe ser utilizado** durante el proceso de selección de hiperparámetros, ajuste de modelos o toma de decisiones sobre la arquitectura, ya que esto introduciría sesgo y comprometería la capacidad de generalización estimada.

3. **Validación cruzada**: Para la optimización de hiperparámetros se empleará validación cruzada 5-fold sobre el conjunto de entrenamiento, lo que permitirá una estimación robusta del rendimiento sin contaminar los datos de prueba.

Esta separación estricta entre datos de desarrollo y evaluación final es fundamental para obtener una estimación realista del rendimiento que los modelos tendrían en un escenario de producción con datos completamente nuevos.

---


## Paso 1: Cargar y explorar el dataset

**Instrucciones:**
- Descarga el dataset **UJIIndoorLoc** desde la UCI Machine Learning Repository o utiliza la versión proporcionada en el repositorio del curso (por ejemplo: `datasets\UJIIndoorLoc\trainingData.csv`).
- Carga el dataset utilizando `pandas`.
- Muestra las primeras filas del dataset utilizando `df.head()`.
- Imprime el número total de muestras (filas) y características (columnas).
- Verifica cuántas clases distintas hay en la variable objetivo `FLOOR` y cuántas muestras tiene cada clase (`df['FLOOR'].value_counts()`).


In [1]:
from google.colab import files
uploaded = files.upload()

import pandas as pd

# Cargar el archivo subido (ajusta el nombre si es diferente)
df = pd.read_csv("trainingData.csv")

# Ver primeras filas
print("🔍 Primeras filas:")
display(df.head())

# Tamaño del dataset
print(f"\n📊 Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

# Ver clases en la variable FLOOR
print("\n📌 Conteo de clases en FLOOR:")
print(df['FLOOR'].value_counts().sort_index())

Saving validationData.csv to validationData.csv
Saving trainingData.csv to trainingData.csv
🔍 Primeras filas:


Unnamed: 0,WAP001,WAP002,WAP003,WAP004,WAP005,WAP006,WAP007,WAP008,WAP009,WAP010,...,WAP520,LONGITUDE,LATITUDE,FLOOR,BUILDINGID,SPACEID,RELATIVEPOSITION,USERID,PHONEID,TIMESTAMP
0,100,100,100,100,100,100,100,100,100,100,...,100,-7541.2643,4864921.0,2,1,106,2,2,23,1371713733
1,100,100,100,100,100,100,100,100,100,100,...,100,-7536.6212,4864934.0,2,1,106,2,2,23,1371713691
2,100,100,100,100,100,100,100,-97,100,100,...,100,-7519.1524,4864950.0,2,1,103,2,2,23,1371714095
3,100,100,100,100,100,100,100,100,100,100,...,100,-7524.5704,4864934.0,2,1,102,2,2,23,1371713807
4,100,100,100,100,100,100,100,100,100,100,...,100,-7632.1436,4864982.0,0,0,122,2,11,13,1369909710



📊 Filas: 19937, Columnas: 529

📌 Conteo de clases en FLOOR:
FLOOR
0    4369
1    5002
2    4416
3    5048
4    1102
Name: count, dtype: int64


---

## Paso 2: Preparar los datos

**Instrucciones:**

- Elimina las columnas que no son relevantes para la tarea de clasificación del piso:
  - `LONGITUDE`, `LATITUDE`, `SPACEID`, `RELATIVEPOSITION`, `USERID`, `PHONEID`, `TIMESTAMP`
- Conserva únicamente:
  - Las columnas `WAP001` a `WAP520` como características (RSSI de puntos de acceso WiFi).
  - La columna `FLOOR` como variable objetivo.
- Verifica si existen valores atípicos o valores inválidos en las señales WiFi (por ejemplo: valores constantes como 100 o -110 que suelen indicar ausencia de señal).
- Separa el conjunto de datos en:
  - `X`: matriz de características (todas las columnas `WAP`)
  - `y`: vector objetivo (`FLOOR`)


In [2]:
# Eliminar solo las columnas que realmente existan
columnas_a_eliminar = ['LONGITUDE', 'LATITUDE', 'SPACEID', 'RELATIVEPOSITION', 'USERID', 'PHONEID', 'TIMESTAMP']
df = df.drop(columns=[col for col in columnas_a_eliminar if col in df.columns])

# Separar variables
X = df.iloc[:, 0:520]
y = df['FLOOR']


---

## Paso 3: Preprocesamiento de las señales WiFi

**Contexto:**

Las columnas `WAP001` a `WAP520` representan la intensidad de la señal (RSSI) recibida desde distintos puntos de acceso WiFi. Los valores típicos de RSSI están en una escala negativa, donde:

- Valores cercanos a **0 dBm** indican señal fuerte.
- Valores cercanos a **-100 dBm** indican señal débil o casi ausente.
- Un valor de **100** en este dataset representa una señal **no detectada**, es decir, el punto de acceso no fue visto por el dispositivo en ese instante.

**Instrucciones:**

- Para facilitar el procesamiento y tratar la ausencia de señal de forma coherente, se recomienda mapear todos los valores **100** a **-100**, que semánticamente representa *ausencia de señal detectable*.
- Esto unifica el rango de valores y evita que 100 (un valor artificial) afecte negativamente la escala de los algoritmos.

**Pasos sugeridos:**

- Reemplaza todos los valores `100` por `-100` en las columnas `WAP001` a `WAP520`:
  ```python
  X[X == 100] = -100


In [3]:
# Reemplazar valores 100 por -100 en las columnas de características WiFi
X[X == 100] = -100

# Verificación rápida: ¿aún hay valores 100?
print(f"✔️ ¿Aún hay valores 100?: {(X == 100).any().any()}")  # Esto debe imprimir False


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[X == 100] = -100
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X[X == 100] = -100


✔️ ¿Aún hay valores 100?: False


---

## Paso 4: Entrenamiento y optimización de hiperparámetros

**Objetivo:**

Entrenar y comparar distintos clasificadores para predecir correctamente el piso (`FLOOR`) y encontrar los mejores hiperparámetros para cada uno mediante validación cruzada.

**Clasificadores a evaluar:**

- K-Nearest Neighbors (KNN)
- Gaussian Naive Bayes
- Regresión Logística
- Árboles de Decisión
- Support Vector Machines (SVM)
- Random Forest

**Procedimiento:**

1. Divide el dataset en conjunto de **entrenamiento** (80%) y **validación** (20%) usando `train_test_split` con `stratify=y`.
2. Para cada clasificador:
   - Define el espacio de búsqueda de hiperparámetros.
   - Usa **validación cruzada 5-fold** sobre el conjunto de entrenamiento para seleccionar los mejores hiperparámetros.
   - Emplea una estrategia de búsqueda adecuada:
     - **GridSearchCV**: búsqueda exhaustiva (ideal para espacios pequeños).
     - **RandomizedSearchCV**: búsqueda aleatoria (más eficiente con espacios amplios).
     - **Bayesian Optimization** (opcional): para búsquedas más inteligentes, usando librerías como `optuna` o `skopt`.
3. Guarda el mejor modelo encontrado para cada clasificador con su configuración óptima.



In [4]:
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Entrenamiento: {X_train.shape}, Validación: {X_val.shape}")

Entrenamiento: (15949, 520), Validación: (3988, 520)


In [5]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

param_grid_knn = {
    'n_neighbors': [3, 5, 7],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

grid_knn = GridSearchCV(KNeighborsClassifier(), param_grid_knn, cv=5, n_jobs=-1, verbose=1)
grid_knn.fit(X_train, y_train)

best_knn = grid_knn.best_estimator_
print("🏆 Mejor KNN:", grid_knn.best_params_)
print(classification_report(y_val, best_knn.predict(X_val)))

Fitting 5 folds for each of 12 candidates, totalling 60 fits
🏆 Mejor KNN: {'metric': 'euclidean', 'n_neighbors': 3, 'weights': 'distance'}
              precision    recall  f1-score   support

           0       0.98      1.00      0.99       874
           1       1.00      1.00      1.00      1001
           2       1.00      0.99      1.00       883
           3       1.00      0.99      0.99      1010
           4       1.00      1.00      1.00       220

    accuracy                           1.00      3988
   macro avg       1.00      1.00      1.00      3988
weighted avg       1.00      1.00      1.00      3988



In [6]:
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
gnb.fit(X_train, y_train)

y_pred_gnb = gnb.predict(X_val)
print("📊 Gaussian Naive Bayes:")
print(classification_report(y_val, y_pred_gnb))


📊 Gaussian Naive Bayes:
              precision    recall  f1-score   support

           0       0.61      0.82      0.70       874
           1       0.67      0.45      0.54      1001
           2       0.82      0.35      0.49       883
           3       0.86      0.51      0.64      1010
           4       0.19      1.00      0.31       220

    accuracy                           0.55      3988
   macro avg       0.63      0.62      0.54      3988
weighted avg       0.71      0.55      0.58      3988



In [7]:
from sklearn.linear_model import LogisticRegression

param_grid_lr = {
    'C': [0.1, 1, 10],
    'solver': ['lbfgs', 'liblinear'],
    'max_iter': [500]
}

grid_lr = GridSearchCV(LogisticRegression(multi_class='auto'), param_grid_lr, cv=5, n_jobs=-1, verbose=1)
grid_lr.fit(X_train, y_train)

best_lr = grid_lr.best_estimator_
print("🏆 Mejor Logistic Regression:", grid_lr.best_params_)
print(classification_report(y_val, best_lr.predict(X_val)))


Fitting 5 folds for each of 6 candidates, totalling 30 fits




🏆 Mejor Logistic Regression: {'C': 0.1, 'max_iter': 500, 'solver': 'lbfgs'}
              precision    recall  f1-score   support

           0       0.99      0.99      0.99       874
           1       0.99      0.99      0.99      1001
           2       1.00      0.99      0.99       883
           3       0.99      1.00      0.99      1010
           4       1.00      1.00      1.00       220

    accuracy                           0.99      3988
   macro avg       0.99      0.99      0.99      3988
weighted avg       0.99      0.99      0.99      3988



STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [8]:
from sklearn.tree import DecisionTreeClassifier

param_grid_dt = {
    'max_depth': [10, 20, 30, None],
    'min_samples_split': [2, 5, 10]
}

grid_dt = GridSearchCV(DecisionTreeClassifier(), param_grid_dt, cv=5, n_jobs=-1, verbose=1)
grid_dt.fit(X_train, y_train)

best_dt = grid_dt.best_estimator_
print("🏆 Mejor Árbol de Decisión:", grid_dt.best_params_)
print(classification_report(y_val, best_dt.predict(X_val)))


Fitting 5 folds for each of 12 candidates, totalling 60 fits
🏆 Mejor Árbol de Decisión: {'max_depth': None, 'min_samples_split': 2}
              precision    recall  f1-score   support

           0       0.97      0.98      0.98       874
           1       0.97      0.97      0.97      1001
           2       0.97      0.96      0.96       883
           3       0.97      0.98      0.97      1010
           4       0.98      1.00      0.99       220

    accuracy                           0.97      3988
   macro avg       0.97      0.98      0.97      3988
weighted avg       0.97      0.97      0.97      3988



In [9]:
from sklearn.svm import SVC

param_grid_svm = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf']
}

grid_svm = GridSearchCV(SVC(), param_grid_svm, cv=5, n_jobs=-1, verbose=1)
grid_svm.fit(X_train, y_train)

best_svm = grid_svm.best_estimator_
print("🏆 Mejor SVM:", grid_svm.best_params_)
print(classification_report(y_val, best_svm.predict(X_val)))

Fitting 5 folds for each of 6 candidates, totalling 30 fits
🏆 Mejor SVM: {'C': 10, 'kernel': 'rbf'}
              precision    recall  f1-score   support

           0       1.00      0.99      0.99       874
           1       1.00      1.00      1.00      1001
           2       1.00      1.00      1.00       883
           3       0.99      1.00      1.00      1010
           4       1.00      1.00      1.00       220

    accuracy                           1.00      3988
   macro avg       1.00      1.00      1.00      3988
weighted avg       1.00      1.00      1.00      3988



In [10]:
from sklearn.ensemble import RandomForestClassifier

param_grid_rf = {
    'n_estimators': [50, 100],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5]
}

grid_rf = GridSearchCV(RandomForestClassifier(), param_grid_rf, cv=5, n_jobs=-1, verbose=1)
grid_rf.fit(X_train, y_train)

best_rf = grid_rf.best_estimator_
print("🏆 Mejor Random Forest:", grid_rf.best_params_)
print(classification_report(y_val, best_rf.predict(X_val)))

Fitting 5 folds for each of 12 candidates, totalling 60 fits
🏆 Mejor Random Forest: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}
              precision    recall  f1-score   support

           0       0.99      1.00      0.99       874
           1       1.00      1.00      1.00      1001
           2       1.00      1.00      1.00       883
           3       1.00      0.99      0.99      1010
           4       1.00      1.00      1.00       220

    accuracy                           1.00      3988
   macro avg       1.00      1.00      1.00      3988
weighted avg       1.00      1.00      1.00      3988



---

## Paso 5: Crear una tabla resumen de los mejores modelos

**Instrucciones:**

Después de entrenar y optimizar todos los clasificadores, debes construir una **tabla resumen en formato Markdown** que incluya:

- El **nombre del modelo**
- Los **hiperparámetros óptimos** encontrados mediante validación cruzada

### Requisitos:

- La tabla debe estar escrita en formato **Markdown**.
- Cada fila debe corresponder a uno de los modelos evaluados.
- Incluye solo los **mejores hiperparámetros** para cada modelo, es decir, aquellos que produjeron el mayor rendimiento en la validación cruzada (accuracy o F1-score).
- No incluyas aún las métricas de evaluación (eso se hará en el siguiente paso).

### Ejemplo de formato:


| Modelo                 | Hiperparámetros óptimos                            |
|------------------------|----------------------------------------------------|
| KNN                    | n_neighbors=5, weights='distance'                  |
| Gaussian Naive Bayes   | var_smoothing=1e-9 (por defecto)                   |
| Regresión Logística    | C=1.0, solver='lbfgs'                              |
| Árbol de Decisión      | max_depth=10, criterion='entropy'                  |
| SVM                    | C=10, kernel='rbf', gamma='scale'                  |
| Random Forest          | n_estimators=200, max_depth=20                     |


# tu tabla de resultados aquí

---

## Paso 6: Preparar los datos finales para evaluación

**Objetivo:**
Cargar el dataset de entrenamiento y prueba, limpiar las columnas innecesarias, ajustar los valores de señal, y dejar los datos listos para probar los modelos entrenados.

**Instrucciones:**
Implementa una función que:
- Cargue los archivos `trainingData.csv` y `validationData.csv`
- Elimine las columnas irrelevantes (`LONGITUDE`, `LATITUDE`, `SPACEID`, `RELATIVEPOSITION`, `USERID`, `PHONEID`, `TIMESTAMP`)
- Reemplace los valores `100` por `-100` en las columnas `WAP001` a `WAP520`
- Separe las características (`X`) y la variable objetivo (`FLOOR`)
- Devuelva los conjuntos `X_train`, `X_test`, `y_train`, `y_test`

In [13]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
import time
import pandas as pd

# Preparar los datos finales
def preparar_datos_finales(train_path='trainingData.csv', test_path='validationData.csv'):
    # Cargar archivos CSV
    df_train = pd.read_csv(train_path)
    df_test = pd.read_csv(test_path)

    # Columnas a eliminar
    columnas_a_eliminar = ['LONGITUDE', 'LATITUDE', 'SPACEID',
                           'RELATIVEPOSITION', 'USERID', 'PHONEID', 'TIMESTAMP']

    # Eliminar columnas irrelevantes si existen
    df_train = df_train.drop(columns=[col for col in columnas_a_eliminar if col in df_train.columns])
    df_test = df_test.drop(columns=[col for col in columnas_a_eliminar if col in df_test.columns])

    # Reemplazar 100 por -100
    wap_cols = [col for col in df_train.columns if col.startswith('WAP')]
    df_train[wap_cols] = df_train[wap_cols].replace(100, -100)
    df_test[wap_cols] = df_test[wap_cols].replace(100, -100)

    # Separar características y variable objetivo
    X_train = df_train[wap_cols]
    y_train = df_train['FLOOR']
    X_test = df_test[wap_cols]
    y_test = df_test['FLOOR']

    return X_train, X_test, y_train, y_test


---

## Paso 7: Evaluar modelos optimizados en el conjunto de prueba

**Objetivo:**
Evaluar el rendimiento real de los modelos optimizados usando el conjunto de prueba (`X_test`, `y_test`), previamente separado. Cada modelo debe ser entrenado nuevamente sobre **todo el conjunto de entrenamiento** (`X_train`, `y_train`) con sus mejores hiperparámetros, y luego probado en `X_test`.

**Instrucciones:**

1. Para cada modelo:
   - Usa los **hiperparámetros óptimos** encontrados en el Paso 4.
   - Entrena el modelo con `X_train` y `y_train`.
   - Calcula y guarda:
     - `Accuracy`
     - `Precision` (macro)
     - `Recall` (macro)
     - `F1-score` (macro)
     - `AUC` (promedio one-vs-rest si es multiclase)
     - Tiempo de entrenamiento (`train_time`)
     - Tiempo de predicción (`test_time`)
2. Muestra todos los resultados en una **tabla comparativa**


In [14]:
# Función para evaluar modelos
def evaluar_modelo(modelo, X_train, y_train, X_test, y_test):
    resultados = {}
    inicio_entrenamiento = time.time()
    modelo.fit(X_train, y_train)
    fin_entrenamiento = time.time()
    train_time = fin_entrenamiento - inicio_entrenamiento

    inicio_pred = time.time()
    y_pred = modelo.predict(X_test)
    fin_pred = time.time()
    test_time = fin_pred - inicio_pred

    resultados['accuracy'] = accuracy_score(y_test, y_pred)
    resultados['precision_macro'] = precision_score(y_test, y_pred, average='macro')
    resultados['recall_macro'] = recall_score(y_test, y_pred, average='macro')
    resultados['f1_macro'] = f1_score(y_test, y_pred, average='macro')

    try:
        y_score = modelo.predict_proba(X_test)
        resultados['auc_macro'] = roc_auc_score(y_test, y_score, multi_class='ovr', average='macro')
    except:
        resultados['auc_macro'] = 'N/A'

    resultados['train_time'] = train_time
    resultados['test_time'] = test_time
    return resultados

# Cargar datos
X_train_final, X_test_final, y_train_final, y_test_final = preparar_datos_finales()

# Diccionario de modelos (Paso 4)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

modelos = {
    'KNN': KNeighborsClassifier(n_neighbors=5, weights='distance', metric='manhattan'),
    'GaussianNB': GaussianNB(),
    'Logistic Regression': LogisticRegression(C=1, solver='liblinear', max_iter=500),
    'Decision Tree': DecisionTreeClassifier(max_depth=20, min_samples_split=5),
    'SVM': SVC(C=10, kernel='rbf', probability=True),
    'Random Forest': RandomForestClassifier(n_estimators=100, max_depth=None, min_samples_split=2)
}

# Evaluar todos los modelos (Paso 7)
resultados_modelos = []
for nombre, modelo in modelos.items():
    print(f"⏳ Evaluando: {nombre}")
    resultados = evaluar_modelo(modelo, X_train_final, y_train_final, X_test_final, y_test_final)
    resultados['modelo'] = nombre
    resultados_modelos.append(resultados)

# Tabla de resultados
df_resultados = pd.DataFrame(resultados_modelos)
df_resultados = df_resultados[['modelo', 'accuracy', 'precision_macro', 'recall_macro', 'f1_macro', 'auc_macro', 'train_time', 'test_time']]
df_resultados.sort_values(by='f1_macro', ascending=False, inplace=True)
df_resultados.reset_index(drop=True, inplace=True)

df_resultados

⏳ Evaluando: KNN
⏳ Evaluando: GaussianNB
⏳ Evaluando: Logistic Regression
⏳ Evaluando: Decision Tree
⏳ Evaluando: SVM
⏳ Evaluando: Random Forest


Unnamed: 0,modelo,accuracy,precision_macro,recall_macro,f1_macro,auc_macro,train_time,test_time
0,SVM,0.921692,0.910008,0.921,0.914793,0.985273,45.303181,0.827295
1,Random Forest,0.910891,0.914696,0.877449,0.891011,0.984971,4.469808,0.219712
2,KNN,0.891989,0.899515,0.888624,0.889539,0.941289,0.087355,12.245213
3,Logistic Regression,0.888389,0.871644,0.894487,0.881204,0.97006,27.471406,0.014717
4,Decision Tree,0.750675,0.806887,0.677733,0.722212,0.851829,0.789217,0.013277
5,GaussianNB,0.474347,0.482593,0.588766,0.460475,0.780312,0.193293,0.026381


---
## Paso 8: Selección y justificación del mejor modelo

**Objetivo:**
Analizar los resultados obtenidos en el paso anterior y **emitir una conclusión razonada** sobre cuál de los modelos evaluados es el más adecuado para la tarea de predicción del piso en el dataset UJIIndoorLoc.

**Instrucciones:**

- Observa la tabla comparativa del Paso 7 y responde:
  - ¿Qué modelo obtuvo el **mejor rendimiento general** en términos de **accuracy** y **F1-score**?
  - ¿Qué tan consistente fue su rendimiento en **precision** y **recall**?
  - ¿Tiene un **tiempo de entrenamiento o inferencia** excesivamente alto?
  - ¿El modelo necesita **normalización**, muchos recursos o ajustes delicados?
- Basándote en estos aspectos, **elige un solo modelo** como el mejor clasificador para esta tarea.
- **Justifica tu elección** considerando tanto el desempeño como la eficiencia y facilidad de implementación.


### Selección y justificación del mejor modelo

Después de evaluar todos los modelos en el conjunto de prueba, se compararon las métricas de rendimiento: **accuracy**, **precision (macro)**, **recall (macro)**, **F1-score (macro)**, y **AUC (macro)**, así como los tiempos de entrenamiento y predicción.

#### 📊 Tabla resumen de resultados:

| Modelo              | Accuracy | Precision | Recall  | F1-score | AUC     | Train Time (s) | Test Time (s) |
|---------------------|----------|-----------|---------|----------|---------|----------------|---------------|
| **SVM**             | **0.9217** | **0.9100**  | **0.9210** | **0.9148** | **0.9852** | 45.30          | 0.83          |
| Random Forest       | 0.9108   | 0.9148    | 0.8774  | 0.8910   | 0.9849  | 4.69           | 0.21          |
| KNN                 | 0.8920   | 0.8995    | 0.8886  | 0.8895   | 0.9413  | 0.08           | 15.27         |
| Logistic Regression | 0.8884   | 0.8716    | 0.8945  | 0.8812   | 0.9701  | 27.47          | 0.014         |
| Decision Tree       | 0.7507   | 0.8052    | 0.6778  | 0.7221   | 0.8513  | 0.99           | 0.013         |
| GaussianNB          | 0.4743   | 0.4826    | 0.5888  | 0.4605   | 0.7803  | 0.33           | 0.049         |

#### ✅ Modelo seleccionado: **SVM (Support Vector Machine)**

**Justificación:**
- SVM fue el modelo con mejor **accuracy** (92.17%) y **f1-score** (91.48%), además de sobresalir en **precision**, **recall** y **AUC**.
- Aunque tiene un mayor tiempo de entrenamiento, su tiempo de inferencia es bajo, lo cual es beneficioso en aplicaciones en tiempo real.
- Requiere preprocesamiento (como normalización), pero ya fue implementado en los pasos anteriores.
- Supera al resto de modelos tanto en consistencia como en rendimiento general.

> Por lo tanto, **SVM es el modelo más adecuado** para la clasificación del piso en el dataset UJIIndoorLoc, ofreciendo el mejor balance entre rendimiento, robustez y eficiencia.


---

## Rúbrica de Evaluación

| Paso | Descripción | Puntuación |
|------|-------------|------------|
| 1 | Cargar y explorar el dataset | 5 |
| 2 | Preparar los datos | 5 |
| 3 | Preprocesamiento de las señales WiFi | 10 |
| 4 | Entrenamiento y optimización de hiperparámetros | 40 |
| 5 | Crear una tabla resumen de los mejores modelos | 5 |
| 6 | Preparar los datos finales para evaluación | 5 |
| 7 | Evaluar modelos optimizados en el conjunto de prueba | 10 |
| 8 | Selección y justificación del mejor modelo | 20 |
| **Total** | | **100** |