# Optimizaci칩n de Consultas

## Recordando


Vimos c칩mo el concepto de una junta o `JOIN` puede entenderse como un **producto cartesiano** entre dos relaciones, seguido de un filtrado mediante el **predicado de la junta** para descartar filas irrelevantes.

Sin embargo, esto no es lo que ocurre en la pr치ctica: calcular el producto cartesiano completo implicar칤a procesar NxM filas, lo cual resulta ineficiente, ya que la mayor칤a de esas combinaciones no aportan valor. Por eso, los sistemas de bases de datos emplean estrategias m치s **optimizadas** para evaluar los `JOIN`, evitando generar combinaciones innecesarias.


>**NOTA:**
>
> Los **칤ndices** en bases de datos son estructuras auxiliares (como 치rboles o tablas hash) que permiten **acceder r치pidamente** a filas seg칰n los valores de una o m치s columnas, evitando recorrer toda la tabla. Funcionan de manera similar al 칤ndice de un libro.


## Componentes de Ejecuci칩n en un Motor de Base de Datos





El proceso de ejecuci칩n de una consulta SQL pasa por varias etapas clave:

1. **Int칠rprete**: Traduce la consulta `SELECT` escrita en SQL a una **expresi칩n del 츼lgebra Relacional**. Esta primera forma suele ser **ineficiente**, ya que refleja literalmente la estructura de la consulta.

2. **Optimizador**: Toma esa expresi칩n ineficiente y, bas치ndose en **reglas de transformaci칩n** (que veremos m치s adelante), genera una **expresi칩n equivalente pero m치s eficiente** para ejecutar.

3. **Generador de c칩digo**: Convierte la expresi칩n optimizada en un plan de ejecuci칩n f칤sico, es decir, en un **programa eficiente** que accede a los datos reales de forma 칩ptima.

> 游댍 El **optimizador** es un componente central del motor de base de datos: su funci칩n es elegir la forma m치s r치pida de obtener los datos pedidos, sin alterar el resultado final.

## Optimizaci칩n basada en Reglas

### Reglas Generales de Optimizaci칩n en el Motor de Base de Datos




El optimizador aplica un conjunto de transformaciones sobre la expresi칩n del 츼lgebra Relacional con el fin de mejorar el rendimiento sin alterar el resultado. Algunas reglas clave son:

- **Empujar predicados de selecci칩n** lo m치s profundo posible en la expresi칩n: permite **filtrar filas tempranamente**, reduciendo el volumen de datos a procesar en etapas posteriores.

- **Eliminar atributos innecesarios** cuanto antes: reduce el tama침o de las tuplas intermedias y evita cargar o mover datos irrelevantes.

- **Reordenar las juntas (`JOIN`)**: el orden en que se aplican las juntas afecta el costo. Explorar distintos 칩rdenes puede reducir dr치sticamente la cantidad de combinaciones necesarias.

> Estas reglas no cambian el resultado l칩gico de la consulta, pero s칤 impactan fuertemente en su **eficiencia**.

### Reglas de Reescritura


Aunque no trabajemos directamente con 츼lgebra Relacional, muchas optimizaciones pueden analizarse a nivel de las cl치usulas SQL. Algunas reglas comunes son:

- **Unificaci칩n de predicados `WHERE`**: m칰ltiples condiciones `WHERE` encadenadas pueden agruparse en un solo predicado con operadores `AND`, sin alterar el resultado.

- **Orden de filtros por destructividad**: aplicar primero el filtro m치s restrictivo (el que descarta m치s filas) es l칩gicamente equivalente a aplicar los filtros m치s suaves de forma incremental, pero suele ser m치s eficiente.

- **Conmutatividad y asociatividad de `JOIN`**: el orden l칩gico en que se escriben las juntas no afecta el resultado final, lo que permite al optimizador reordenarlas buscando la forma m치s r치pida de ejecutarlas.

- **Mapeo de productos cartesianos a juntas**: si despu칠s de un `CROSS JOIN` se aplica un `WHERE` que relaciona columnas de ambas tablas, el optimizador puede reescribirlo como un `INNER JOIN` m치s eficiente.

- **Mover selecciones dentro de juntas** (*predicados locales*): si una condici칩n del `WHERE` involucra solo una de las tablas de una junta, puede aplicarse **antes** de la junta para reducir el tama침o de entrada.


## Algoritmos de Resoluci칩n de Juntas




Los algoritmos para ejecutar `JOIN` definen c칩mo combinar eficientemente las tuplas de dos relaciones. A continuaci칩n se presentan dos enfoques b치sicos:

#### Iteraci칩n ingenua
- Examina **todos los pares posibles** de tuplas entre las dos relaciones.
- Muy costosa si ambas relaciones son grandes.
- **Costo**: `bloques(A) + tuplas(A) * bloques(B)`

#### Iteraci칩n por bloques (p치ginas)
- Se toma cada bloque de A y se **itera sobre los bloques de B**, buscando coincidencias.
- M치s eficiente si una de las relaciones cabe completamente en memoria.
- **Costo**: `bloques(A) + bloques(A) * bloques(B)`

#### M칠todo Hash
- Se construye en **memoria** una **tabla hash** con los valores de los atributos de junta de la **relaci칩n m치s peque침a** (almacenando sus direcciones).
- Luego se **recorre la otra relaci칩n**, aplicando la funci칩n hash y buscando coincidencias en la tabla construida.
- Es muy eficiente cuando una de las relaciones **cabe completamente en memoria**.
- **Costo**: Es aproximadamente la suma de las p치ginas/bloques de ambas relaciones.

#### Uso de 칤ndices
- Se aprovechan **estructuras de ordenaci칩n** ya existentes en el SGBD para acceder directamente a las tuplas relevantes.
- Muy 칰til cuando solo una **fracci칩n** de la relaci칩n secundaria participa en la junta.
- **Costo**: acceso al **칤ndice** + acceso a las **tuplas correspondientes**.

#### Sort-Merge
- Se **ordenan ambas relaciones** por los atributos de junta y luego se recorren secuencialmente en paralelo, uniendo las coincidencias.
- Requiere ordenar si los datos no est치n ya ordenados.
- **Costo**: costo de ordenaci칩n (`B log B`) + **suma de bloques** de ambas relaciones.

