## **Parte 1: Archivos de datos, índices y árboles B.**

---

**1.** Considere que desea almacenar en un archivo la información correspondiente a los alumnos de la Facultad de Informática de la UNLP. De los mismos deberá guardarse nombre y apellido, DNI, legajo y año de ingreso. Suponga que dicho archivo se organiza como un árbol B de orden M.

**a.** Defina en Pascal las estructuras de datos necesarias para organizar el archivo de alumnos como un árbol B de orden M. 

````pascal
program Ejercicio1;

const
    orden = M;

type
    reg_alumno = record
        nombre_apellido: string;
        DNI: string[8];
        legajo: string;
        ingreso: integer;
    end;

    nodo = record;
        cantidad_datos: integer;
        datos: array [1..(M-1)] of reg_alumno;
        hijos: array [1..M] of integer;
    end;

    archivo_arbol = file of nodo;
````  

**b.** Suponga que la estructura de datos que representa una persona (registro de persona) ocupa 64 bytes, que cada nodo del árbol B tiene un tamaño de 512 bytes y que los números enteros ocupan 4 bytes, ¿cuántos registros de persona entrarían en un nodo del árbol B? ¿Cuál sería el orden del árbol B en este caso (el valor de M)? Para resolver este inciso, puede utilizar la fórmula N = (M-1) * A + M * B + C, donde N es el tamaño del nodo (en bytes), A es el tamaño de un registro (en bytes), B es el tamaño de cada enlace a un hijo y C es el tamaño que ocupa el campo referido a la cantidad de claves. El objetivo es reemplazar estas variables con los valores dados y obtener el valor de M (M debe ser un número entero, ignorar la parte decimal). 

- Dado N = (M-1) * A + M * B + C, sabemos que:  
    N = 512 bytes  
    A = 64 bytes  
    B = 4 bytes  
    C = 4 bytes  

- De esa forma...  
    512b = (M-1) * 64b + M * 4b + 4b  
    512b - 4b = (M-1) * 64b + M * 4b  
    508b = (M-1) * 64b + M * 4b  
    508b = 4b(16 * (M-1) + M)  
    508b/4b = 16 * (M-1) + M  
    127 = 16 * M - 16 + M  
    127 + 16 = 16 * M + M  
    143 = 17 * M  
    143/17 = M  
    8,4117... = M  

- En un nodo del árbol B entrarían 7 registros y el orden sería de M = 8.  

**c.** ¿Qué impacto tiene sobre el valor de M organizar el archivo con toda la información de los alumnos como un árbol B? 

- Que yo sepa la organización del archivo no influye sobre M sino que es M quién influye sobre la organización del archivo.

**d.** ¿Qué dato seleccionaría como clave de identificación para organizar los elementos (alumnos) en el árbol B? ¿Hay más de una opción? 

- Yo seleccionaría el legajo puesto que es la clave primaria (unívoca) más corta, pero también podría seleccionarse cualquier otro atributo ya que la organización puede estar dada por cualquier clave, ya sea primaria o secundaria.

**e.** Describa el proceso de búsqueda de un alumno por el criterio de ordenamiento especificado en el punto previo. ¿Cuántas lecturas de nodos se necesitan para encontrar un alumno por su clave de identificación en el peor y en el mejor de los casos? ¿Cuáles serían estos casos?

- Si utilizamos el legajo como clave para buscar cualquier elemento deberíamos empezar por la raíz y, en caso de no hallar el dato, avanzar por el camino que corresponda. En el peor de los casos, sea h la altura del árbol, realizaríamos h lecturas si el alumno se encuentra en un nodo terminal, y en el mejor de los casos solo necesitaríamos 1 lectura si el alumno estuviese en la raíz.

**f.** ¿Qué ocurre si desea buscar un alumno por un criterio diferente? ¿Cuántas lecturas serían necesarias en el peor de los casos?

- Dado que el árbol está ordenado por un solo criterio, si quisiéramos buscar un alumno por otro atributo el orden establecido sería inservible y la performance de la búsqueda caería. En el peor de los casos, sería necesario realizar tantas lecturas como nodos tuviese el árbol.

---

**2.** Una mejora respecto a la solución propuesta en el ejercicio 1 sería mantener por un lado el archivo que contiene la información de los alumnos de la Facultad de Informática (archivo de datos no ordenado) y por otro lado mantener un índice al archivo de datos que se estructura como un árbol B que ofrece acceso indizado por DNI de los alumnos.

**a.** Defina en Pascal las estructuras de datos correspondientes para el archivo de alumnos y su índice.

````pascal
program Ejercicio2;

const
    orden = M;

type
    reg_alumno = record
        nombre_apellido: string;
        DNI: integer;
        legajo: string;
        ingreso: integer;
    end;

    nodo = record;
        cantidad_datos: integer;
        datos: array [1..(M-1)] of integer;
        enlaces: array [1..(M-1)] of integer;
        hijos: array [1..M] of integer;
    end;

    archivo_indice = file of nodo;
    archivo_alumnos = file of reg_alumno;
````  

**b.** Suponga que cada nodo del árbol B cuenta con un tamaño de 512 bytes. ¿Cuál sería el orden del árbol B (valor de M) que se emplea como índice? Asuma que los números enteros ocupan 4 bytes. Para este inciso puede emplear una fórmula similar al punto 1b, pero considere además que en cada nodo se deben almacenar los M-1 enlaces a los registros correspondientes en el archivo de datos.

- Dado N = (M-1) * D + (M-1) * E + M * B + C, sabemos que:  
    N = 512 bytes  
    D (dato) = 4 bytes  
    E (enlace) = 4 bytes   
    B = 4 bytes  
    C = 4 bytes  

- De esa forma...  
    512b = (M-1) * 4b + (M-1) * 4b + M * 4b + 4b  
    512b - 4b = (M-1) * 4b + (M-1) * 4b + M * 4b  
    508b = 4b ((M-1) + (M-1) + M)  
    508b/4b = (M-1) + (M-1) + M  
    127 = 2 * (M-1) + M  
    127 = 2 * M - 2 + M  
    127 + 2 = 3 * M  
    129/3 = M  
    43 = M  

- En orden del árbol B sería de M = 43.   

**c.** ¿Qué implica que el orden del árbol B sea mayor que en el caso del ejercicio 1?

- Esto implica que los nodos harán referencia a una mayor cantidad de alumnos, permitiendo que el árbol se ensanche y reduzca su altura para la misma cantidad de elementos. Además, con una altura menor, la búsqueda mejora con respecto al caso anterior.

**d.** Describa con sus palabras el proceso para buscar el alumno con el DNI 12345678 usando el índice definido en este punto.

- Para buscar ese alumno, o cualquier otro, se relizarán los mismos pasos descriptos anteriormente: Siempre se empieza desde la raíz y, en caso de no encontrar la clave, se avanza por el camnino que corresponda. Es necesario conocer la organización del árbol y distinguir, por ejemplo, de qué lado se almacenaron los menores y de qué lado los mayores (dado el uso del DNI que es una clave primaria, en este caso no será necesario revisar el caso de los duplicados). De esta manera elegiremos el camino adecuado y repetiremos el proceso nodo a nodo hasta encontar la clave o llegar a un nodo terminal (y en caso de no encontrar el dato, darlo por inexistente). Una vez hallada la clave, como el árbol solo funciona como índice y ya no contiene a los registros en su totalidad, será necesario obtener el enlace de la clave para finalmente accederla de forma directa en el archivo real.

**e.** ¿Qué ocurre si desea buscar un alumno por su número de legajo? ¿Tiene sentido usar el índice que organiza el acceso al archivo de alumnos por DNI? ¿Cómo haría para brindar acceso indizado al archivo de alumnos por número de legajo?

- Si quisieramos buscar un alumno por su número de legajo el índice no tendría utilidad y dado que podría ser necesario recorrerlo en su totalidad para hallar el dato, creo que sería mejor simplemente buscar la información en el archivo original para ahorrarnos luego el acceso extra que implica rescatar el enlace y recuperar los datos.
- Para brindar acceso indizado al archivo de alumnos por número de legajo podría crear un nuevo índice que trabaje a partir de las posiciones ya guardadas en mi índice de clave primaria.


**f.** Suponga que desea buscar los alumnos que tienen DNI en el rango entre 40000000 y 45000000. ¿Qué problemas tiene este tipo de búsquedas con apoyo de un árbol B que solo provee acceso indizado por DNI al archivo de alumnos?

- El problema fundamental de este tipo de búsquedas es que, en los árboles B, no existe una forma eficiente de recorrer rangos por lo que es probable que se necesite avanzar y retroceder sobre los nodos verificando cada situación, lo que disminuye la eficiencia de búsqueda. Además, recordemos que nuestro árbol solo posee referencias a los NRR de los registros reales, por lo que para cada elemento que corresponda al rango también sería necesario almacenar los respectivos enlaces (al menos hasta finalizar la búsqueda) o realizar los accesos y trabajar sobre los datos a medida que son identificados.

---

**3.** Los árboles B+ representan una mejora sobre los árboles B dado que conservan la propiedad de acceso indexado a los registros del archivo de datos por alguna clave, pero permiten además un recorrido secuencial rápido. Al igual que en el ejercicio 2, considere que por un lado se tiene el archivo que contiene la información de los alumnos de la Facultad de Informática (archivo de datos no ordenado) y por otro lado se tiene un índice al archivo de datos, pero en este caso el índice se estructura como un árbol B+ que ofrece acceso indizado por DNI al archivo de alumnos. Resuelva los siguientes incisos:

**a.** ¿Cómo se organizan los elementos (claves) de un árbol B+? ¿Qué elementos se encuentran en los nodos internos y que elementos se encuentran en los nodos hojas?

- En el caso de los árboles B+, los nodos hojas contienen las claves reales mientras que los nodos internos representan copias de las claves de los datos que funcionan como separadores.

**b.** ¿Qué característica distintiva presentan los nodos hojas de un árbol B+? ¿Por qué?

- Los nodos hojas de los árboles B+ no solo tienen la particularidad de ser los verdaderos elementos del árbol, sino que también poseen un enlace a su hermano adyascente funcionando como una especie de lista que permite realizar recorridos secuenciales rápidos.

**c.** Defina en Pascal las estructuras de datos correspondientes para el archivo de alumnos y su índice (árbol B+). Por simplicidad, suponga que todos los nodos del árbol B+ (nodos internos y nodos hojas) tienen el mismo tamaño

````pascal
program Ejercicio3;

const
    orden = M;

type
    reg_alumno = record
        nombre_apellido: string;
        DNI: integer;
        legajo: string;
        ingreso: integer;
    end;

    nodo_lista = ^nodo_arbol;

    nodo_arbol = record;
        cantidad_datos: integer;
        datos: array [1..(M-1)] of integer;
        enlaces: array [1..(M-1)] of integer;
        hijos: array [1..M] of integer;
        siguiente: nodo_lista;
    end;

    archivo_indice = file of nodo_arbol;
    archivo_alumnos = file of reg_alumno;
````  

**d.** Describa, con sus palabras, el proceso de búsqueda de un alumno con un DNI específico haciendo uso de la estructura auxiliar (índice) que se organiza como un árbol B+. ¿Qué diferencia encuentra respecto a la búsqueda en un índice estructurado como un árbol B?

- Cuando se trata de árboles B+ la búsqueda no es muy distinta: se empieza desde la raíz y se elije el camino adecuado en dependencia de la clave que se busca, sin embargo, como los datos reales solo están en las hojas y los nodos internos pueden contener copias de claves inexistentes, para verdaderamente encontrar un elemento no es suficiente encontrar la clave sino que se necesita verificar que esté en un nodo hoja, es decir, que sea un dato real.

**e.** Explique con sus palabras el proceso de búsqueda de los alumnos que tienen DNI en el rango entre 40000000 y 45000000, apoyando la búsqueda en un índice organizado como un árbol B+. ¿Qué ventajas encuentra respecto a este tipo de búsquedas en un árbol B?

- En este caso, al tener la posibilidad de recorrer los datos del árbol como si fuesen una lista ordenada, la búsqueda por rangos se vuelve más fácil. Avanzando sobre los nodos terminales es posible encontrar el primer elemento que se encuentre en el rango y continuar ordenadamente sobre los siguientes teniendo la seguridad de que, hasta no encontrar un dato que exceda el extremo superior, todos los valores procesados hasta el momento estarán contenidos en el rango.
  
---

**4.** Dado el siguiente algoritmo de búsqueda en un árbol B:

````pascal
procedure buscar(NRR, clave, NRR_encontrado, pos_encontrada, resultado);
var clave_encontrada: boolean;
begin
    if (nodo = null)
        resultado:= false; {clave no encontrada}
    else begin
        posicionarYLeerNodo(A, nodo, NRR);
        claveEncontrada(A, nodo, clave, pos, clave_encontrada);
        if (clave_encontrada) then begin
            NRR_encontrado:= NRR; { NRR actual }
            pos_encontrada:= pos; { posicion dentro del array }
            resultado:= true;
        end
        else
            buscar(nodo.hijos[pos], clave, NRR_encontrado, pos_encontrada, resultado)
    end;
end;
````  

Asuma que para la primera llamada, el parámetro NRR contiene la posición de la raíz del árbol. Responda detalladamente:

**a.** PosicionarYLeerNodo(): Indique qué hace y la forma en que deben ser enviados los parámetros (valor o referencia). Implemente este módulo en Pascal.

- Si A refiere al archivo, entiendo que el proceso debería recibir A por referencia, posicionarse en la posición NRR del archivo y leer los datos del nodo (que también debería ser enviado por referencia para poder cargar los datos).

````pascal
procedure posicionarYLeerNodo(var A, var nodo, NRR);
begin
    reset(A);

    // Leo el nodo
    seek(A, NRR);
    read(A, nodo);

    close(A);
end;
````  

**b.** claveEncontrada(): Indique qué hace y la forma en que deben ser enviados los parámetros (valor o referencia). ¿Cómo lo implementaría?

- claveEncontrada() debería verificar si en el nodo que fue leído está la clave que se busca aunque no termino de entender para qué necesitaría tener el archivo. 

````pascal
procedure claveEncontrada(nodo, clave, var pos, var clave_encontrada);
begin
    clave_encontrada:= false;
    pos:= 1;
    while (pos <= nodo.cant_elementos) and not clave_encontrada and (nodo.datos[pos] <= clave) do begin
        if (nodo.datos[pos] = clave) then clave_encontrada:= true
        else pos:= pos + 1;
    end;
end;

**c.** ¿Existe algún error en este código? En caso afirmativo, modifique lo que considere necesario.

- En ningún momento se declaran las variables pos, nodo y A. Además, en lugar de preguntar si el nodo es null preguntaría si NRR es -1, dado que en la recursión, al llamar a buscar con nodo.hijos[pos] le estoy pasando el NRR del próximo nodo que, en caso de ser -1, significa que no existe.

````pascal
procedure buscar(NRR, var A, clave, var NRR_encontrado, var pos_encontrada, var resultado);
var 
    clave_encontrada: boolean; pos: integer; nodo: reg_nodo;
begin
    if (NRR = -1)
        resultado:= false; {clave no encontrada}
    else begin
        posicionarYLeerNodo(A, nodo, NRR);
        claveEncontrada(A, nodo, clave, pos, clave_encontrada);
        if (clave_encontrada) then begin
            NRR_encontrado:= NRR; { NRR actual }
            pos_encontrada:= pos; { posicion dentro del array }
            resultado:= true;
        end
        else
            buscar(nodo.hijos[pos], clave, NRR_encontrado, pos_encontrada, resultado)
    end;
end;
````  

**d.** ¿Qué cambios son necesarios en el procedimiento de búsqueda implementado sobre un árbol B para que funcione en un árbol B+?

- Para que el procedimiento funcione en árboles B+ le agregaría a claveEncontrada algún chequeo para que solo ponga la variable clave_encontrada en true si el nodo en el que está posicionado es un nodo terminal.

---

**5.** Defina los siguientes conceptos:  

 ● Overflow: Es un evento que se produce cuando un elemento desea ser insertado en un nodo que ya está completo, es decir, que ya posee la cantidad máxima de elementos permitidos (cant. de Datos = M-1).  
 ● Underflow: Es un evento que se produce cuando un elemento desea ser removido de un nodo que quedará por debajo de la cantidad mínima de elementos permitidos. Por ejemplo, en los árboles B cada nodo no puede contener menos de (M/2) - 1 elementos (a excepción de la raíz).  
 ● Redistribución: Es una técnica que consiste en distribuir los elementos de un nodo con alguno de sus hermanos adyascentes, en ocasiones también incluyendo el dato contenido por su padre. Dependiendo la política elegida la redistribución puede hacerse hacia a izquierda, derecha, izquierda o derecha, derecha o izquierda, izquierda y derecha o derecha e izquierda.  
 ● Fusión o concatenación: Es una técnica que consiste en agrupar los elementos de un nodo con los de su hermano adyascente (en algunos casos también se incluye el elemento del padre).  

En los dos últimos casos, ¿cuándo se aplica cada uno?
- La redistribución puede aplicarse tanto en casos de underflow como de overflow, sin embargo la fusión solo se utiliza en el underflow puesto que dado un overflow, fusionar el nodo con su hermano nunca lo hará disminuir la cantidad de elementos que posee. En caso de underflow, la redistribución buscará si el nodo posee algún hermano que en principio tenga la cantidad necesaria de elemetos para "compartir" con su hermano, es decir, la cantidad necesaria para no propagar el underflow; mientras que la fusión deberá revisar que el nodo, luego de aceptar los elementos de su hermano, no produzca un overflow. Por otra parte, en los casos de overflow la redistribución deberá revisar que el hermano elegido no propague el overflow inicial.

---