# <img src="uni-logo.png" alt="Logo UNI" width=150 hight=300 align="right">


<br><br><br>
<h1><font color="#7F000E" size=4>Minería de Datos (CC442)</font></h1>



<h1><font color="#7F000E" size=6>Teoría: Algoritmo del KD-Tree </font></h1>

<br>
<div style="text-align: right">
<font color="#7F000E" size=3>Yuri Coicca, M.Sc.</font><br>
<font color="#7F000E" size=3>Facultad de Ciencias</font><br>
<font color="#7F000E" size=3>Ciencia de la Computación - UNI</font><br>
</div>

El **KD-Tree** (K-Dimensional Tree) es una estructura de datos de tipo árbol binario utilizada en **Machine Learning** para organizar puntos en un espacio de $K$ dimensiones. Su objetivo principal es optimizar la búsqueda de vecinos cercanos (**K-Nearest Neighbors**), reduciendo la complejidad de una búsqueda lineal $O(n)$ a una búsqueda logarítmica $O(\log n)$ en promedio.

A continuación, te explico cómo funciona el algoritmo de construcción y el de búsqueda.

---

### 1. Construcción del KD-Tree
El árbol se construye dividiendo recursivamente el conjunto de datos en dos mitades usando hiperplanos perpendiculares a los ejes de las coordenadas.

#### Pasos del algoritmo:
1.  **Elegir dimensión:** Se selecciona un eje (dimensión) para dividir los datos. Una forma común es alternar el eje según la profundidad del árbol: `eje = profundidad % k`.
2.  **Encontrar la mediana:** Se ordena el conjunto de puntos respecto al eje elegido y se selecciona el punto que representa la **mediana**.
3.  **Crear nodo:** La mediana se convierte en el nodo actual (raíz del subárbol).
4.  **Dividir y repetir:** 
    *   Los puntos con valores menores a la mediana van al **subárbol izquierdo**.
    *   Los puntos con valores mayores van al **subárbol derecho**.
5.  Se repite el proceso recursivamente hasta que no queden puntos.

#### Pseudocódigo (Construcción):
```python
def construir_kdtree(puntos, profundidad=0):
    if not puntos:
        return None
    
    k = len(puntos[0]) # Número de dimensiones
    eje = profundidad % k
    
    # Ordenar y elegir mediana
    puntos.sort(key=lambda x: x[eje])
    indice_mediana = len(puntos) // 2
    
    # Crear nodo y construir subárboles
    return {
        'punto': puntos[indice_mediana],
        'izquierdo': construir_kdtree(puntos[:indice_mediana], profundidad + 1),
        'derecho': construir_kdtree(puntos[indice_mediana + 1:], profundidad + 1)
    }
```

---

### 2. Búsqueda del Vecino más Cercano (Nearest Neighbor)
La búsqueda es eficiente porque permite descartar regiones enteras del espacio sin tener que calcular la distancia de cada punto.

#### Pasos del algoritmo:
1.  **Descenso rápido:** Se baja por el árbol desde la raíz como si se estuviera insertando el punto de consulta, hasta llegar a una hoja.
2.  **Actualizar mejor candidato:** El punto en la hoja se marca inicialmente como el "mejor vecino" actual.
3.  **Backtracking (Retroceso):** Se sube por el árbol evaluando cada nodo padre:
    *   Si la distancia al padre es menor que la del "mejor vecino", se actualiza.
    *   **Poda (Crucial):** Se comprueba si existe la posibilidad de que haya puntos mejores en el *otro lado* del hiperplano de división. Si la distancia perpendicular desde el punto de consulta al hiperplano es menor que la distancia al "mejor vecino" actual, entonces **se debe explorar la otra rama**.
4.  El proceso termina al regresar a la raíz.

---

### 3. Ventajas y Desventajas

| Ventaja | Desventaja |
| :--- | :--- |
| **Velocidad:** En dimensiones bajas ($< 20$), la búsqueda es extremadamente rápida $O(\log n)$. | **Maldición de la dimensionalidad:** En dimensiones muy altas, el algoritmo termina revisando casi todas las ramas, volviéndose tan lento como la búsqueda lineal. |
| **Memoria:** Estructura compacta que organiza el espacio de forma eficiente. | **Datos estáticos:** Es costoso reequilibrar el árbol si se añaden o eliminan puntos constantemente. |

### Implementación en Python
En la práctica, no necesitas programarlo desde cero. La librería **Scikit-learn** lo tiene optimizado:

```python
from sklearn.neighbors import KDTree
import numpy as np

# Datos de ejemplo (2D)
X = np.array([[1, 2], [3, 4], [5, 6], [8, 8]])

# 1. Construir el árbol
tree = KDTree(X, leaf_size=2)

# 2. Buscar el vecino más cercano a un punto nuevo
dist, ind = tree.query([[2, 3]], k=1)

print(f"Vecino más cercano: {X[ind[0]]}, Distancia: {dist[0]}")
```

**¿Cuándo usarlo?** Es ideal para algoritmos de **KNN** o **clustering** (como Mean Shift) cuando tienes muchos datos pero pocas características (features). Si tienes cientos de dimensiones, es mejor usar alternativas como **Ball Trees** o **LSH** (Locality Sensitive Hashing).