# Clasificación de Piso en el Dataset UJIIndoorLoc

---

## Introducción

En este notebook se implementa un flujo completo de procesamiento y análisis para la clasificación del **piso** en un entorno interior utilizando el dataset **UJIIndoorLoc**. Este conjunto de datos contiene mediciones de señales WiFi recopiladas en distintas ubicaciones de un edificio, con información sobre coordenadas, piso, usuario, hora, entre otros.

En esta tarea nos enfocaremos en predecir el **piso** en el que se encuentra un dispositivo, considerando únicamente las muestras etiquetadas con valores válidos para dicha variable. Se tratará como un problema de clasificación multiclase (planta baja, primer piso, segundo piso).

## Objetivos

- **Cargar y explorar** el conjunto de datos UJIIndoorLoc.
- **Preparar** los datos seleccionando las características relevantes y el target (`FLOOR`).
- **Dividir** el dataset en entrenamiento y validación (80/20).
- **Entrenar y optimizar** clasificadores basados en seis algoritmos:
  - K-Nearest Neighbors (KNN)
  - Gaussian Naive Bayes
  - Regresión Logística
  - Árboles de Decisión
  - Support Vector Machines (SVM)
  - Random Forest
- **Seleccionar hiperparámetros óptimos** para cada modelo utilizando validación cruzada (5-fold), empleando estrategias como **Grid Search**, **Randomized Search**, o **Bayesian Optimization** según el algoritmo.
- **Comparar el desempeño** de los modelos sobre el conjunto de validación, usando métricas como *accuracy*, *precision*, *recall*, y *F1-score*.
- **Determinar el mejor clasificador** para esta tarea, junto con sus hiperparámetros óptimos.

Este ejercicio permite no solo evaluar la capacidad predictiva de distintos algoritmos clásicos de clasificación, sino también desarrollar buenas prácticas en validación de modelos y selección de hiperparámetros en contextos del mundo real.

---

## Descripción del Dataset

El dataset utilizado en este análisis es el **UJIIndoorLoc Dataset**, ampliamente utilizado para tareas de localización en interiores a partir de señales WiFi. Está disponible públicamente en la UCI Machine Learning Repository y ha sido recopilado en un entorno real de un edificio universitario.

Cada muestra corresponde a una observación realizada por un dispositivo móvil, donde se registran las intensidades de señal (RSSI) de más de 500 puntos de acceso WiFi disponibles en el entorno. Además, cada fila contiene información contextual como la ubicación real del dispositivo (coordenadas X e Y), el piso, el edificio, el identificador del usuario, y la marca temporal.

El objetivo en esta tarea es predecir el **piso** (`FLOOR`) en el que se encontraba el dispositivo en el momento de la medición, considerando únicamente las características numéricas provenientes de las señales WiFi.

### Estructura del dataset

- **Número de muestras**: ~20,000
- **Número de características**: 520
  - 520 columnas con valores de intensidad de señal WiFi (`WAP001` a `WAP520`)
- **Variable objetivo**: `FLOOR` (variable categórica con múltiples clases, usualmente entre 0 y 4)

### Columnas relevantes

- `WAP001`, `WAP002`, ..., `WAP520`: niveles de señal recibida desde cada punto de acceso WiFi (valores entre -104 y 0, o 100 si no se detectó).
- `FLOOR`: clase objetivo a predecir (nivel del edificio).
- (Otras columnas como `BUILDINGID`, `SPACEID`, `USERID`, `TIMESTAMP`, etc., pueden ser ignoradas o utilizadas en análisis complementarios).

### Contexto del problema

La localización en interiores es un problema complejo en el que tecnologías como el GPS no funcionan adecuadamente. Los sistemas basados en WiFi han demostrado ser una alternativa efectiva para estimar la ubicación de usuarios en edificios. Poder predecir automáticamente el piso en el que se encuentra una persona puede mejorar aplicaciones de navegación en interiores, accesibilidad, gestión de emergencias y servicios personalizados. Este tipo de problemas es típicamente abordado mediante algoritmos de clasificación multiclase.


### Estrategia de evaluación

En este análisis seguiremos una metodología rigurosa para garantizar la validez de los resultados:

1. **Dataset de entrenamiento**: Se utilizará exclusivamente para el desarrollo, entrenamiento y optimización de hiperparámetros de todos los modelos. Este conjunto será dividido internamente en subconjuntos de entrenamiento y validación (80/20) para la selección de hiperparámetros mediante validación cruzada.

2. **Dataset de prueba**: Se reservará únicamente para la **evaluación final** de los modelos ya optimizados. Este conjunto **no debe ser utilizado** durante el proceso de selección de hiperparámetros, ajuste de modelos o toma de decisiones sobre la arquitectura, ya que esto introduciría sesgo y comprometería la capacidad de generalización estimada.

3. **Validación cruzada**: Para la optimización de hiperparámetros se empleará validación cruzada 5-fold sobre el conjunto de entrenamiento, lo que permitirá una estimación robusta del rendimiento sin contaminar los datos de prueba.

Esta separación estricta entre datos de desarrollo y evaluación final es fundamental para obtener una estimación realista del rendimiento que los modelos tendrían en un escenario de producción con datos completamente nuevos.

---


## Paso 1: Cargar y explorar el dataset

**Instrucciones:**
- Descarga el dataset **UJIIndoorLoc** desde la UCI Machine Learning Repository o utiliza la versión proporcionada en el repositorio del curso (por ejemplo: `datasets\UJIIndoorLoc\trainingData.csv`).
- Carga el dataset utilizando `pandas`.
- Muestra las primeras filas del dataset utilizando `df.head()`.
- Imprime el número total de muestras (filas) y características (columnas).
- Verifica cuántas clases distintas hay en la variable objetivo `FLOOR` y cuántas muestras tiene cada clase (`df['FLOOR'].value_counts()`).


In [22]:
# Importar librerías y cargar el dataset
import pandas as pd
import numpy as np
from pathlib import Path

# Ruta al dataset proporcionado
train_path = Path('/home/josephjosue/Documents/UIP/Inteligencia Artificial/IA_JOSEPH_LOO/Asignaciones/Proyecto_2/dataset/trainingData.csv')

df = pd.read_csv(train_path)
print('Dimensiones del dataset:', df.shape)
print('\nPrimeras filas:')
display(df.head())

print('\nDistribución de la variable objetivo FLOOR:')
print(df['FLOOR'].value_counts().sort_index())


Dimensiones del dataset: (19937, 529)

Primeras filas:


Unnamed: 0,WAP001,WAP002,WAP003,WAP004,WAP005,WAP006,WAP007,WAP008,WAP009,WAP010,...,WAP520,LONGITUDE,LATITUDE,FLOOR,BUILDINGID,SPACEID,RELATIVEPOSITION,USERID,PHONEID,TIMESTAMP
0,100,100,100,100,100,100,100,100,100,100,...,100,-7541.2643,4864921.0,2,1,106,2,2,23,1371713733
1,100,100,100,100,100,100,100,100,100,100,...,100,-7536.6212,4864934.0,2,1,106,2,2,23,1371713691
2,100,100,100,100,100,100,100,-97,100,100,...,100,-7519.1524,4864950.0,2,1,103,2,2,23,1371714095
3,100,100,100,100,100,100,100,100,100,100,...,100,-7524.5704,4864934.0,2,1,102,2,2,23,1371713807
4,100,100,100,100,100,100,100,100,100,100,...,100,-7632.1436,4864982.0,0,0,122,2,11,13,1369909710



Distribución de la variable objetivo FLOOR:
FLOOR
0    4369
1    5002
2    4416
3    5048
4    1102
Name: count, dtype: int64


### Justificación
La exploración inicial es fundamental para entender la naturaleza del problema. Se verifica la dimensión de los datos para confirmar que la carga fue correcta y se revisa la distribución de la variable objetivo (`FLOOR`).

### Análisis de Resultados
- **Volumen de datos:** El dataset cuenta con **19,937 muestras** y **529 columnas**, lo que indica una alta dimensionalidad. Esto sugiere que modelos que manejan bien muchas características (como Random Forest o SVM) podrían tener ventaja.
- **Desbalance de clases:** Al observar el conteo de `FLOOR`, notamos que los pisos 0, 1, 2 y 3 tienen entre 4,000 y 5,000 muestras cada uno, pero el **piso 4 es una clase minoritaria** con solo ~1,100 muestras. Esto es crucial, ya que el modelo podría tener dificultades para predecir el piso 4 si no se utiliza una estrategia de validación estratificada (`stratify=y`).

---

## Paso 2: Preparar los datos

**Instrucciones:**

- Elimina las columnas que no son relevantes para la tarea de clasificación del piso:
  - `LONGITUDE`, `LATITUDE`, `SPACEID`, `RELATIVEPOSITION`, `USERID`, `PHONEID`, `TIMESTAMP`
- Conserva únicamente:
  - Las columnas `WAP001` a `WAP520` como características (RSSI de puntos de acceso WiFi).
  - La columna `FLOOR` como variable objetivo.
- Verifica si existen valores atípicos o valores inválidos en las señales WiFi (por ejemplo: valores constantes como 100 o -110 que suelen indicar ausencia de señal).
- Separa el conjunto de datos en:
  - `X`: matriz de características (todas las columnas `WAP`)
  - `y`: vector objetivo (`FLOOR`)


In [4]:
# Seleccionar columnas relevantes (WAPs y FLOOR) y eliminar las irrelevantes
cols_to_drop = ['LONGITUDE', 'LATITUDE', 'SPACEID', 'RELATIVEPOSITION', 'USERID', 'PHONEID', 'TIMESTAMP']
df_model = df.drop(columns=cols_to_drop)

# Columnas de características (WAP001 a WAP520)
wap_cols = [col for col in df_model.columns if col.startswith('WAP')]
X_raw = df_model[wap_cols].copy()
y = df_model['FLOOR'].copy()

print('Número de columnas WAP:', len(wap_cols))
print('Valores atípicos (100) antes del reemplazo:', (X_raw == 100).sum().sum())
print('Valores -110 presentes:', (X_raw == -110).sum().sum())


Número de columnas WAP: 520
Valores atípicos (100) antes del reemplazo: 10008477
Valores -110 presentes: 0


### Justificación
Se eliminaron columnas de contexto como `USERID`, `PHONEID` y `TIMESTAMP`. La razón es evitar que el modelo aprenda sesgos específicos (ej. "el usuario X siempre está en el piso Y") en lugar de aprender la relación real entre la señal WiFi y la ubicación. Queremos un modelo generalizable a cualquier usuario.

### Análisis de Resultados
- **Valores atípicos (100):** Se detectaron más de **10 millones** de valores iguales a `100`. Dado que la matriz es de ~10.5 millones de celdas en total (19k filas x 520 columnas), esto confirma que la matriz es "dispersa" (sparse): la gran mayoría de los puntos de acceso no son detectados en cada escaneo.
- **Limpieza:** No se encontraron valores `-110` (otro código de error común), por lo que el único "ruido" principal a tratar es el valor 100.

--- 

## Paso 3: Preprocesamiento de las señales WiFi

**Contexto:**

Las columnas `WAP001` a `WAP520` representan la intensidad de la señal (RSSI) recibida desde distintos puntos de acceso WiFi. Los valores típicos de RSSI están en una escala negativa, donde:

- Valores cercanos a **0 dBm** indican señal fuerte.
- Valores cercanos a **-100 dBm** indican señal débil o casi ausente.
- Un valor de **100** en este dataset representa una señal **no detectada**, es decir, el punto de acceso no fue visto por el dispositivo en ese instante.

**Instrucciones:**

- Para facilitar el procesamiento y tratar la ausencia de señal de forma coherente, se recomienda mapear todos los valores **100** a **-100**, que semánticamente representa *ausencia de señal detectable*.
- Esto unifica el rango de valores y evita que 100 (un valor artificial) afecte negativamente la escala de los algoritmos.

**Pasos sugeridos:**

- Reemplaza todos los valores `100` por `-100` en las columnas `WAP001` a `WAP520`:
  ```python
  X[X == 100] = -100


In [5]:
# Reemplazar valores 100 por -100 para representar ausencia de señal
X = X_raw.replace(100, -100)

print('Valores 100 después del reemplazo:', (X == 100).sum().sum())
print('Rango de valores tras preprocesamiento:', (X.min().min(), X.max().max()))


Valores 100 después del reemplazo: 0
Rango de valores tras preprocesamiento: (np.int64(-104), np.int64(0))


### Justificación
El valor `100` es un indicador simbólico de "no señal", pero numéricamente es un valor positivo alto. Los algoritmos de ML interpretan esto como una señal **muy fuerte** (mayor que -30 dBm), lo cual es opuesto a la realidad.
Se reemplazó por `-100` para ubicarlo en el extremo inferior de la escala de decibelios.

### Análisis de Resultados
- **Consistencia Matemática:** El rango de valores ahora va de **-104 a 0**. Esto crea una escala continua y lógica donde "mayor valor" significa estrictamente "mayor intensidad de señal", facilitando el aprendizaje de algoritmos basados en distancia (KNN) o gradiente (Regresión Logística).

--- 

## Paso 4: Entrenamiento y optimización de hiperparámetros

**Objetivo:**

Entrenar y comparar distintos clasificadores para predecir correctamente el piso (`FLOOR`) y encontrar los mejores hiperparámetros para cada uno mediante validación cruzada.

**Clasificadores a evaluar:**

- K-Nearest Neighbors (KNN)
- Gaussian Naive Bayes
- Regresión Logística
- Árboles de Decisión
- Support Vector Machines (SVM)
- Random Forest

**Procedimiento:**

1. Divide el dataset en conjunto de **entrenamiento** (80%) y **validación** (20%) usando `train_test_split` con `stratify=y`.
2. Para cada clasificador:
   - Define el espacio de búsqueda de hiperparámetros.
   - Usa **validación cruzada 5-fold** sobre el conjunto de entrenamiento para seleccionar los mejores hiperparámetros.
   - Emplea una estrategia de búsqueda adecuada:
     - **GridSearchCV**: búsqueda exhaustiva (ideal para espacios pequeños).
     - **RandomizedSearchCV**: búsqueda aleatoria (más eficiente con espacios amplios).
     - **Bayesian Optimization** (opcional): para búsquedas más inteligentes, usando librerías como `optuna` o `skopt`.
3. Guarda el mejor modelo encontrado para cada clasificador con su configuración óptima.



In [8]:
# Crear conjuntos de entrenamiento y validación
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

best_models = {}
best_params = {}


In [9]:
# Entrenar y optimizar KNN
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

knn_pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('model', KNeighborsClassifier())
])

knn_params = {
    'model__n_neighbors': [3, 5, 7],
    'model__weights': ['uniform', 'distance']
}

grid_knn = GridSearchCV(
    knn_pipe,
    knn_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_knn.fit(X_train, y_train)
best_models['KNN'] = grid_knn.best_estimator_
best_params['KNN'] = grid_knn.best_params_

print('Mejores hiperparámetros KNN:', grid_knn.best_params_)
print('Mejor accuracy de validación:', grid_knn.best_score_)


Mejores hiperparámetros KNN: {'model__n_neighbors': 3, 'model__weights': 'distance'}
Mejor accuracy de validación: 0.9873974703403452


### Justificación
KNN basa su predicción en la similitud de las huellas de señal. Se probaron distintos valores de vecinos (`n_neighbors`) y pesos. La elección de `StandardScaler` en el pipeline es crítica aquí, ya que KNN es muy sensible a la escala de las distancias, y estandarizar asegura que todos los WAPs contribuyan equitativamente.

### Análisis de Resultados
- **Rendimiento:** El modelo obtuvo un accuracy de validación muy alto (**~98.7%**).
- **Configuración ganadora:** `n_neighbors=3` con `weights='distance'`.
  - El hecho de que prefiera **3 vecinos** (un número bajo) indica que la localización es muy específica: la señal cambia rápidamente al moverse y solo las muestras muy cercanas son representativas.
  - El peso por **distancia** implica que las muestras más cercanas (señales más parecidas) tienen mayor voto que las lejanas, lo cual tiene sentido físico en la propagación de ondas de radio.

In [10]:
# Entrenar y optimizar Gaussian Naive Bayes
from sklearn.naive_bayes import GaussianNB

# Búsqueda sencilla sobre var_smoothing
from sklearn.model_selection import GridSearchCV

gnb_pipe = Pipeline([
    ('scaler', StandardScaler(with_mean=False)),  # mantener dispersión sin centrar en 0
    ('model', GaussianNB())
])

gnb_params = {
    'model__var_smoothing': np.logspace(-11, -7, 5)
}

grid_gnb = GridSearchCV(
    gnb_pipe,
    gnb_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_gnb.fit(X_train, y_train)
best_models['GaussianNB'] = grid_gnb.best_estimator_
best_params['GaussianNB'] = grid_gnb.best_params_

print('Mejores hiperparámetros GaussianNB:', grid_gnb.best_params_)
print('Mejor accuracy de validación:', grid_gnb.best_score_)


Mejores hiperparámetros GaussianNB: {'model__var_smoothing': np.float64(1e-07)}
Mejor accuracy de validación: 0.5575273151929979


### Justificación
Se incluyó este modelo como una línea base probabilística simple. Se optimizó el parámetro `var_smoothing` para ayudar a la estabilidad numérica. Naive Bayes asume que la intensidad de cada WAP es independiente de los demás dado el piso.

### Análisis de Resultados
- **Rendimiento:** El accuracy fue bajo (**~55.7%**), siendo el peor de todos los modelos probados.
- **Causa del bajo desempeño:** La suposición de "independencia" es falsa en este contexto. En la realidad, si un punto de acceso tiene señal fuerte, es muy probable que los puntos de acceso vecinos también la tengan. Esta fuerte correlación entre las características (WAPs) viola la hipótesis central del algoritmo, impidiendo que aprenda correctamente la estructura de los datos.

In [12]:
# Entrenar y optimizar Regresión Logística
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

logreg_pipe = Pipeline([
    ('scaler', StandardScaler()),
    # Se eliminó 'multi_class="auto"' para corregir el warning
    ('model', LogisticRegression(max_iter=500, n_jobs=-1))
])

logreg_params = {
    'model__C': [0.1, 1.0, 10.0],
    'model__penalty': ['l2'],
    'model__solver': ['lbfgs']
}

grid_logreg = GridSearchCV(
    logreg_pipe,
    logreg_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_logreg.fit(X_train, y_train)
best_models['LogisticRegression'] = grid_logreg.best_estimator_
best_params['LogisticRegression'] = grid_logreg.best_params_

print('Mejores hiperparámetros Regresión Logística:', grid_logreg.best_params_)
print('Mejor accuracy de validación:', grid_logreg.best_score_)


Mejores hiperparámetros Regresión Logística: {'model__C': 1.0, 'model__penalty': 'l2', 'model__solver': 'lbfgs'}
Mejor accuracy de validación: 0.9931658886198738


### Justificación
Se evaluó un modelo lineal para verificar si las fronteras de decisión entre pisos son simples. Se utilizó el solver `lbfgs` por su eficiencia en problemas multiclase y penalización `l2` para controlar el sobreajuste en un espacio de 520 dimensiones.

### Análisis de Resultados
- **Rendimiento:** Sorprendentemente alto (**~99.3%**), superando a KNN.
- **Interpretación:** Esto sugiere que, tras el preprocesamiento (cambiar 100 por -100), los datos son **linealmente separables** en el hiperespacio. El modelo logró encontrar hiperplanos que dividen claramente los pisos basándose en la combinación lineal de las intensidades de señal, siendo una opción muy eficiente y precisa.

In [13]:
# Entrenar y optimizar Árbol de Decisión
from sklearn.tree import DecisionTreeClassifier

cart_params = {
    'model__criterion': ['gini', 'entropy'],
    'model__max_depth': [10, 20, None],
    'model__min_samples_split': [2, 10]
}

cart_pipe = Pipeline([
    ('model', DecisionTreeClassifier(random_state=42))
])

grid_cart = GridSearchCV(
    cart_pipe,
    cart_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_cart.fit(X_train, y_train)
best_models['DecisionTree'] = grid_cart.best_estimator_
best_params['DecisionTree'] = grid_cart.best_params_

print('Mejores hiperparámetros Árbol de Decisión:', grid_cart.best_params_)
print('Mejor accuracy de validación:', grid_cart.best_score_)


Mejores hiperparámetros Árbol de Decisión: {'model__criterion': 'gini', 'model__max_depth': None, 'model__min_samples_split': 2}
Mejor accuracy de validación: 0.965703402467927


### Justificación
Los árboles de decisión permiten capturar relaciones no lineales mediante reglas del tipo "Si WAP1 < -80 y WAP2 > -50, entonces Piso 1". Se exploró la profundidad máxima y el criterio de división para evitar árboles demasiado complejos que memoricen los datos.

### Análisis de Resultados
- **Rendimiento:** Bueno (**~96.5%**), pero inferior a KNN y Regresión Logística.
- **Configuración:** Eligió `max_depth=None`, lo que significa que el árbol creció completamente hasta clasificar puramente las hojas. Aunque tiene un buen accuracy en validación, un árbol sin límite de profundidad suele ser propenso a sufrir varianza (pequeños cambios en los datos cambian la estructura del árbol), lo que explica por qué rinde un poco menos que los modelos más robustos.

In [14]:
# Entrenar y optimizar Support Vector Machine
from sklearn.svm import SVC

svm_pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('model', SVC(probability=True, random_state=42))
])

svm_params = {
    'model__C': [1, 10],
    'model__kernel': ['rbf'],
    'model__gamma': ['scale', 'auto']
}

grid_svm = GridSearchCV(
    svm_pipe,
    svm_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_svm.fit(X_train, y_train)
best_models['SVM'] = grid_svm.best_estimator_
best_params['SVM'] = grid_svm.best_params_

print('Mejores hiperparámetros SVM:', grid_svm.best_params_)
print('Mejor accuracy de validación:', grid_svm.best_score_)


Mejores hiperparámetros SVM: {'model__C': 10, 'model__gamma': 'auto', 'model__kernel': 'rbf'}
Mejor accuracy de validación: 0.99216261620323


### Justificación
SVM busca el hiperplano óptimo que maximiza el margen entre clases. Dado que los datos pueden no ser linealmente separables en su forma original, se probó el kernel `rbf` (Radial Basis Function) para proyectar los datos a una dimensión superior donde sí lo sean.

### Análisis de Resultados
- **Rendimiento:** Excelente (**~99.2%**), prácticamente empatado con la Regresión Logística.
- **Configuración:** `C=10` y kernel `rbf`. Un valor de `C` alto indica que el modelo priorizó clasificar correctamente todos los puntos de entrenamiento (margen duro) sobre tener un margen más suave. Aunque el resultado es muy bueno, el costo computacional de entrenar SVM con kernel no lineal en casi 20,000 muestras es significativamente mayor que en los otros modelos.

In [15]:
# Entrenar y optimizar Random Forest
from sklearn.ensemble import RandomForestClassifier

rf_pipe = Pipeline([
    ('model', RandomForestClassifier(random_state=42, n_jobs=-1))
])

rf_params = {
    'model__n_estimators': [100, 200],
    'model__max_depth': [None, 20],
    'model__max_features': ['sqrt']
}

grid_rf = GridSearchCV(
    rf_pipe,
    rf_params,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_rf.fit(X_train, y_train)
best_models['RandomForest'] = grid_rf.best_estimator_
best_params['RandomForest'] = grid_rf.best_params_

print('Mejores hiperparámetros Random Forest:', grid_rf.best_params_)
print('Mejor accuracy de validación:', grid_rf.best_score_)


Mejores hiperparámetros Random Forest: {'model__max_depth': None, 'model__max_features': 'sqrt', 'model__n_estimators': 200}
Mejor accuracy de validación: 0.9964888709327026


### Justificación
Random Forest combina cientos de árboles de decisión para reducir la varianza y el riesgo de sobreajuste del árbol individual. Se probó con 100 y 200 estimadores para ver si aumentar la cantidad de árboles mejoraba la estabilidad.

### Análisis de Resultados
- **Rendimiento:** El mejor de todos (**~99.6%** en validación).
- **Configuración:** `n_estimators=200` y `max_features='sqrt'`.
- **Interpretación:** Al promediar 200 árboles, el modelo logra cancelar los errores individuales y el ruido inherente a las señales WiFi fluctuantes. Es el clasificador más robusto, capturando la complejidad no lineal del entorno sin caer en el sobreajuste que podría afectar a un solo árbol de decisión.

---

## Paso 5: Crear una tabla resumen de los mejores modelos

**Instrucciones:**

Después de entrenar y optimizar todos los clasificadores, debes construir una **tabla resumen en formato Markdown** que incluya:

- El **nombre del modelo**
- Los **hiperparámetros óptimos** encontrados mediante validación cruzada

### Requisitos:

- La tabla debe estar escrita en formato **Markdown**.
- Cada fila debe corresponder a uno de los modelos evaluados.
- Incluye solo los **mejores hiperparámetros** para cada modelo, es decir, aquellos que produjeron el mayor rendimiento en la validación cruzada (accuracy o F1-score).
- No incluyas aún las métricas de evaluación (eso se hará en el siguiente paso).

### Ejemplo de formato:


| Modelo                 | Hiperparámetros óptimos                            |
|------------------------|----------------------------------------------------|
| KNN                    | n_neighbors=5, weights='distance'                  |
| Gaussian Naive Bayes   | var_smoothing=1e-9 (por defecto)                   |
| Regresión Logística    | C=1.0, solver='lbfgs'                              |
| Árbol de Decisión      | max_depth=10, criterion='entropy'                  |
| SVM                    | C=10, kernel='rbf', gamma='scale'                  |
| Random Forest          | n_estimators=200, max_depth=20                     |


In [17]:
%pip install tabulate

Collecting tabulate
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
Installing collected packages: tabulate
Successfully installed tabulate-0.9.0
Note: you may need to restart the kernel to use updated packages.


In [18]:
#Resumen en tabla Markdown de los mejores hiperparámetros
import pandas as pd

summary_rows = []
for model_name, params in best_params.items():
    readable = ', '.join(f"{k.split('__')[-1]}={v}" for k, v in params.items())
    summary_rows.append({'Modelo': model_name, 'Hiperparámetros óptimos': readable})

summary_df = pd.DataFrame(summary_rows).sort_values('Modelo')

print(summary_df.to_markdown(index=False))

| Modelo             | Hiperparámetros óptimos                             |
|:-------------------|:----------------------------------------------------|
| DecisionTree       | criterion=gini, max_depth=None, min_samples_split=2 |
| GaussianNB         | var_smoothing=1e-07                                 |
| KNN                | n_neighbors=3, weights=distance                     |
| LogisticRegression | C=1.0, penalty=l2, solver=lbfgs                     |
| RandomForest       | max_depth=None, max_features=sqrt, n_estimators=200 |
| SVM                | C=10, gamma=auto, kernel=rbf                        |


| Modelo             | Hiperparámetros óptimos                             |
|:-------------------|:----------------------------------------------------|
| DecisionTree       | criterion=gini, max_depth=None, min_samples_split=2 |
| GaussianNB         | var_smoothing=1e-07                                 |
| KNN                | n_neighbors=3, weights=distance                     |
| LogisticRegression | C=1.0, penalty=l2, solver=lbfgs                     |
| RandomForest       | max_depth=None, max_features=sqrt, n_estimators=200 |
| SVM                | C=10, gamma=auto, kernel=rbf                        |

### Análisis de la Configuración Óptima
La tabla resume la "mejor versión" de cada algoritmo. Destaca que:
- **SVM** requirió un kernel `rbf` (radial basis function), lo que confirma que las relaciones en los datos son complejas y no lineales.
- **Decision Tree** no requirió limitar la profundidad (`max_depth=None`), lo que implica que el árbol creció completamente para ajustarse a los datos de entrenamiento; esto suele ser propenso al overfitting, pero Random Forest corrige esto mediante el ensamble.

---

## Paso 6: Preparar los datos finales para evaluación

**Objetivo:**
Cargar el dataset de entrenamiento y prueba, limpiar las columnas innecesarias, ajustar los valores de señal, y dejar los datos listos para probar los modelos entrenados.

**Instrucciones:**
Implementa una función que:
- Cargue los archivos `trainingData.csv` y `validationData.csv`
- Elimine las columnas irrelevantes (`LONGITUDE`, `LATITUDE`, `SPACEID`, `RELATIVEPOSITION`, `USERID`, `PHONEID`, `TIMESTAMP`)
- Reemplace los valores `100` por `-100` en las columnas `WAP001` a `WAP520`
- Separe las características (`X`) y la variable objetivo (`FLOOR`)
- Devuelva los conjuntos `X_train`, `X_test`, `y_train`, `y_test`

In [20]:
# Función para preparar datos finales de entrenamiento y prueba
from typing import Tuple

def load_and_prepare_data() -> Tuple[pd.DataFrame, pd.DataFrame, pd.Series, pd.Series]:
    train_path = Path('/home/josephjosue/Documents/UIP/Inteligencia Artificial/IA_JOSEPH_LOO/Asignaciones/Proyecto_2/dataset/trainingData.csv')
    test_path = Path('/home/josephjosue/Documents/UIP/Inteligencia Artificial/IA_JOSEPH_LOO/Asignaciones/Proyecto_2/dataset/validationData.csv')

    train_df = pd.read_csv(train_path)
    test_df = pd.read_csv(test_path)

    cols_to_drop = ['LONGITUDE', 'LATITUDE', 'SPACEID', 'RELATIVEPOSITION', 'USERID', 'PHONEID', 'TIMESTAMP']
    train_df = train_df.drop(columns=cols_to_drop)
    test_df = test_df.drop(columns=cols_to_drop)

    wap_cols = [col for col in train_df.columns if col.startswith('WAP')]

    X_train_full = train_df[wap_cols].replace(100, -100)
    y_train_full = train_df['FLOOR']

    X_test_full = test_df[wap_cols].replace(100, -100)
    y_test_full = test_df['FLOOR']

    return X_train_full, X_test_full, y_train_full, y_test_full

# Preparar los datos finales
X_train_full, X_test_full, y_train_full, y_test_full = load_and_prepare_data()

print('Dimensiones entrenamiento:', X_train_full.shape)
print('Dimensiones prueba:', X_test_full.shape)


Dimensiones entrenamiento: (19937, 520)
Dimensiones prueba: (1111, 520)


---

## Paso 7: Evaluar modelos optimizados en el conjunto de prueba

**Objetivo:**
Evaluar el rendimiento real de los modelos optimizados usando el conjunto de prueba (`X_test`, `y_test`), previamente separado. Cada modelo debe ser entrenado nuevamente sobre **todo el conjunto de entrenamiento** (`X_train`, `y_train`) con sus mejores hiperparámetros, y luego probado en `X_test`.

**Instrucciones:**

1. Para cada modelo:
   - Usa los **hiperparámetros óptimos** encontrados en el Paso 4.
   - Entrena el modelo con `X_train` y `y_train`.
   - Calcula y guarda:
     - `Accuracy`
     - `Precision` (macro)
     - `Recall` (macro)
     - `F1-score` (macro)
     - `AUC` (promedio one-vs-rest si es multiclase)
     - Tiempo de entrenamiento (`train_time`)
     - Tiempo de predicción (`test_time`)
2. Muestra todos los resultados en una **tabla comparativa**


In [21]:
# Evaluar los modelos optimizados en el conjunto de prueba
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.preprocessing import label_binarize
from sklearn.base import clone
import time

results = []
classes = np.unique(y_train_full)

for name, model in best_models.items():
    start_train = time.perf_counter()
    fitted = clone(model).fit(X_train_full, y_train_full)
    train_time = time.perf_counter() - start_train

    start_test = time.perf_counter()
    y_pred = fitted.predict(X_test_full)
    test_time = time.perf_counter() - start_test

    # Obtener probabilidades para AUC si están disponibles
    y_score = None
    if hasattr(fitted, 'predict_proba'):
        y_score = fitted.predict_proba(X_test_full)
    elif hasattr(fitted, 'decision_function'):
        y_score = fitted.decision_function(X_test_full)

    if y_score is not None:
        y_test_bin = label_binarize(y_test_full, classes=classes)
        auc = roc_auc_score(y_test_bin, y_score, average='macro', multi_class='ovr')
    else:
        auc = np.nan

    results.append({
        'Modelo': name,
        'Accuracy': accuracy_score(y_test_full, y_pred),
        'Precision_macro': precision_score(y_test_full, y_pred, average='macro', zero_division=0),
        'Recall_macro': recall_score(y_test_full, y_pred, average='macro', zero_division=0),
        'F1_macro': f1_score(y_test_full, y_pred, average='macro', zero_division=0),
        'AUC_macro': auc,
        'train_time_s': train_time,
        'test_time_s': test_time
    })

results_df = pd.DataFrame(results).sort_values('Accuracy', ascending=False)
results_df


Unnamed: 0,Modelo,Accuracy,Precision_macro,Recall_macro,F1_macro,AUC_macro,train_time_s,test_time_s
5,RandomForest,0.911791,0.92028,0.886258,0.899047,0.987003,4.139536,0.094134
2,LogisticRegression,0.885689,0.865869,0.890995,0.876255,0.97311,6.491721,0.011324
0,KNN,0.814581,0.831712,0.815868,0.818992,0.904229,0.872698,0.60905
3,DecisionTree,0.812781,0.819311,0.800071,0.806209,0.876567,1.256583,0.00653
4,SVM,0.792079,0.812374,0.788334,0.786633,0.960829,191.011419,1.851737
1,GaussianNB,0.453645,0.468592,0.570678,0.442186,0.769796,0.90141,0.088139


### Justificación de la Evaluación Final
Se evaluaron los modelos en el conjunto `test` (validationData.csv), que nunca fue visto durante el entrenamiento ni la selección de hiperparámetros. Esto simula el rendimiento real en producción. Se midieron también los tiempos de ejecución para evaluar la viabilidad de implementación en tiempo real.

### Análisis Comparativo de Resultados
1. **Mejor Modelo (Random Forest):**
   - **Accuracy: 91.18%**. Es el ganador indiscutible. Su capacidad para manejar características irrelevantes (puntos de acceso apagados) y correlaciones no lineales lo hace ideal.
   - **Estabilidad:** Muestra un equilibrio excelente entre Precision y Recall.

2. **La Alternativa Eficiente (Regresión Logística):**
   - **Accuracy: 88.57%**. Aunque es 2.5% menos preciso que el Random Forest, su tiempo de predicción es **8 veces más rápido** (0.01s vs 0.09s). Si el sistema se fuera a implementar en un microcontrolador simple, este sería el modelo a elegir.

3. **Modelos a Descartar:**
   - **Gaussian Naive Bayes (45%):** Completamente ineficaz para este tipo de datos correlacionados.
   - **SVM (79%):** A pesar de ser un algoritmo potente, fue **extremadamente lento** en entrenamiento (191 segundos) y tuvo un rendimiento inferior a modelos más simples como KNN o Regresión Logística en este escenario específico.

4. **Conclusión Técnica:**
   El problema de clasificación de pisos se resuelve mejor con métodos de ensamble (**Random Forest**) debido a la naturaleza ruidosa y de alta dimensión de las señales RSSI.

---
## Paso 8: Selección y justificación del mejor modelo

**Objetivo:**
Analizar los resultados obtenidos en el paso anterior y **emitir una conclusión razonada** sobre cuál de los modelos evaluados es el más adecuado para la tarea de predicción del piso en el dataset UJIIndoorLoc.

**Instrucciones:**

- Observa la tabla comparativa del Paso 7 y responde:
  - ¿Qué modelo obtuvo el **mejor rendimiento general** en términos de **accuracy** y **F1-score**?
  - ¿Qué tan consistente fue su rendimiento en **precision** y **recall**?
  - ¿Tiene un **tiempo de entrenamiento o inferencia** excesivamente alto?
  - ¿El modelo necesita **normalización**, muchos recursos o ajustes delicados?
- Basándote en estos aspectos, **elige un solo modelo** como el mejor clasificador para esta tarea.
- **Justifica tu elección** considerando tanto el desempeño como la eficiencia y facilidad de implementación.


La comparación en el conjunto de prueba muestra que el modelo con mayor **accuracy** y **F1 macro** es el que se posiciona como mejor opción. Considerando también que su `precision` y `recall` son consistentes y que los tiempos de entrenamiento/inferencia son razonables frente al resto, el modelo seleccionado es el que encabeza la tabla anterior (generalmente SVM o Random Forest en este problema). Este modelo ofrece un equilibrio adecuado entre desempeño y eficiencia para la clasificación de pisos en el dataset UJIIndoorLoc.


---
## 1. Análisis de Resultados

Al observar la tabla comparativa generada en el paso anterior, podemos extraer las siguientes conclusiones sobre las métricas clave:

- **Mejor Rendimiento General (Accuracy y F1-Score):**
  El modelo **Random Forest** obtuvo el mejor desempeño global, logrando un **Accuracy del 91.18%** y un **F1-Score (macro) del 89.90%**. Esto indica que es el clasificador que mejor generaliza los patrones de señal WiFi para determinar el piso correcto.

- **Consistencia (Precision vs Recall):**
  Random Forest mostró una gran solidez, con una Precision macro de **92.03%** y un Recall macro de **88.63%**. La cercanía entre ambos valores sugiere que el modelo es equilibrado: no solo acierta cuando predice, sino que es capaz de recuperar la mayoría de las instancias de cada clase sin sesgarse excesivamente.

- **Eficiencia (Tiempos de Entrenamiento e Inferencia):**
  - **Entrenamiento:** Random Forest entrenó en **~4.14 segundos**, un tiempo muy competitivo. En contraste, **SVM** fue extremadamente ineficiente, tomando **~191 segundos** (casi 3 minutos) debido a la complejidad del kernel RBF en este volumen de datos.
  - **Inferencia:** Aunque la Regresión Logística fue la más rápida en predecir (0.01s), el tiempo de inferencia de Random Forest (**0.09s** para todo el set de prueba) es despreciable y perfectamente apto para aplicaciones en tiempo real.

- **Complejidad y Ajustes:**
  A diferencia de SVM, que requirió un ajuste costoso y estandarización estricta para rendir decentemente (y aun así quedó por debajo en accuracy con un 79.2%), Random Forest demostró ser robusto "out-of-the-box", manejando bien la alta dimensionalidad y el ruido inherente a las señales RSSI sin requerir tanta manipulación.

### 2. Conclusión y Selección del Modelo

> **Modelo Seleccionado:** **Random Forest**

### 3. Justificación de la Elección

Se elige **Random Forest** como el modelo definitivo para este proyecto por las siguientes razones:

1.  **Superioridad en Métricas:** Fue el único modelo que superó la barrera del 90% de exactitud en el conjunto de prueba, superando a la Regresión Logística (88.5%) y dejando muy atrás a SVM (79.2%) y Naive Bayes (45.3%).
2.  **Robustez:** Su naturaleza de ensamble (200 árboles) le permite reducir la varianza y manejar eficazmente los valores atípicos y las características irrelevantes (puntos de acceso sin señal), lo cual es crítico en este dataset.
3.  **Eficiencia Práctica:** Ofrece el mejor equilibrio costo-beneficio. Aunque no es el más rápido de todos, su velocidad es suficiente para producción, y su precisión extra justifica el costo computacional frente a modelos lineales más simples.

Por lo tanto, **Random Forest** es la solución más confiable y precisa para la tarea de localización de pisos en el edificio de la UJI.

---

## Rúbrica de Evaluación

| Paso | Descripción | Puntuación |
|------|-------------|------------|
| 1 | Cargar y explorar el dataset | 5 |
| 2 | Preparar los datos | 5 |
| 3 | Preprocesamiento de las señales WiFi | 10 |
| 4 | Entrenamiento y optimización de hiperparámetros | 40 |
| 5 | Crear una tabla resumen de los mejores modelos | 5 |
| 6 | Preparar los datos finales para evaluación | 5 |
| 7 | Evaluar modelos optimizados en el conjunto de prueba | 10 |
| 8 | Selección y justificación del mejor modelo | 20 |
| **Total** | | **100** |