## Objetivos del módulo
Conocer el concepto de tipos abstractos de datos y aprender a definir, interpretar e implementar estructuras de datos usando esta técnica.

## Preguntas básicas
1. ¿Qué es una tipo abstracto de datos (TAD)?
2. ¿Qué significa 'abstracto'?
3. ¿Cómo se define un TAD?
4. ¿Cómo se implementa un TAD?
5. ¿Cómo se mide el rendimiento de una implementación?


## Introducción
Uno de los temas de mayor importancia en el desarrollo de software es la definición de estructuras de datos en abstracto, es decir, independiente de su representación. Dicha definición conduce hacia la programación orientada a objetos (POO) y a una de sus principales características: el encapsulamiento.

- **TIPO** (_type_): es un conjunto de valores. P.ej. [`True`, `False`], $\mathbb{N}$, $\mathbb{Z}$
- **TIPO ABSTRACTO DE DATOS (TAD)** ([_abstract data type_](https://www.wikiwand.com/en/Abstract_data_type), _ADT_): es un tipo de datos, **MÁS** una definición de conjunto de operaciones sobre este tipo de datos, **MÁS** un conjunto de axiomas que definen la semántica de las operaciones.
- **ESTRUCTURA DE DATOS** (_data structure_): es una realización de un TAD en un lenguaje de programación concreto.

es preciso observar que:

- Un TAD es una **definición abstracta** en algún _idioma_ matemático o informal.
- Un TAD especifica **QUÉ** hace una operación, pero no **CÓMO**.
- Los axiomas suelen definir **precondiciones** y **poscondiciones** de las operaciones.
- Si la definición de un TAD es **totalmente matemática** podríamos en teoría probar formalmente propiedades y algoritmos (i.e. [verificación formal](https://www.wikiwand.com/en/Formal_verification), [derivación de programas](https://www.wikiwand.com/en/Program_derivation), [reparación de bugs](https://www.wikiwand.com/en/Automatic_bug_fixing), etc.).
- Algunos tipos están ya implementados (_built-in_) en la base de Java, Python, Haskell, C, ...
- Un TAD suele imlpementarse como una **clase** en distintos lenguajes de programación.

## Ejemplo. Lista Ordenada

### Definición informal

- **tipo de datos**:
    - los elementos de una lista ordenada son de un determinado tipo (p.ej. $\mathbb{N}$, o `string`) que **admite una función de comparación** (1 **<** 2, "albert" **<** "arbol").
 
- **funciones**:
    - `OrderedList(tipo)`: crea una lista ordenada vacía para elementos de tipo de datos `tipo`. **Precondición**: El tipo de datos ha de admitir comparación.
    - `add(item)`: añade un nuevo ítem a la lista preservando el orden de la misma. Si el ítem ya existe en la lista la operación no modifica la lista. **Precondición**: El ítem ha de ser del tipo de la lista.
    - `remove(item)`: elimina un ítem de la lista preservando el orden de la misma. **Precondición**: El ítem ha de existir en la lista.
    - `contains(item)`: devuelve un booleano indicando si el ítem está en la lista.
    - `len()`: devuelve un entero con el número de elementos que tiene la lista.
    - `first()`: devuelve el primer item de la lista y establece un **cursor** en el primer item. **Precondición**: la lista no puede estar vacia.
    - `next()`: mueve el cursor al siguiente item de la lista y devuelve el item. **Precondición**: el cursor no puede estar en el último item.
    - `has_more()`: devuelve un booleano `True` si el cursor está en el último item. Si no, devuelve `False`

### Definición por axiomas

$\forall \mathbb{T} \in Types, L \in OrderedList; a \in \mathbb{T}; n\in\mathbb{Z} $

- signatures:
$$
\begin{align}
OrderedList (\mathbb{T}) &\rightarrow OrderedList\\
add(a) &\rightarrow None\\
remove(a) &\rightarrow None\\
contains(a) &\rightarrow Bool\\
len() &\rightarrow \mathbb{Z}\\
first() &\rightarrow \mathbb{T}\\
next() &\rightarrow \mathbb{T}\\
has\_more() &\rightarrow Bool\\
\end{align}
$$    

- definitions:
   - $L^n ::= L.first(); [L.next()]^{n-1} \;\;with\;\;  n\in[1,len(L)]$



- preconditions

<table>
    <tr><th width=200>operación</th><th width=200>precondición</th></tr>
    <tr><td>$OrderedList (\mathbb{T})$</td><td>$\mathbb{T}$ admite comparación</td></tr>
    <tr><td>$L.add(a)$</td><td>$ a \in \mathbb{T}$</td></tr>
    <tr><td>$L.remove(a)$</td><td>$ L.contains(a)$</td></tr>
    <tr><td>$L.first()$</td><td>$len(L)>0$</td></tr>
    <tr><td>$L^n$</td><td>$n\in[1,len(L)]$</td></tr>
</table>


- axioms (post conditions):
   - **axiom 1**: $len(OrderedList(\mathbb{T}))=0$
   - **axiom 2**: $L^n < L^{n+1}$
   - **axiom 3**: $L.contains(a) \iff \exists n \;\;|\;\; a = L^n$
   - **axiom 4**: $len(L.add(a)) = len(L)+ L.contains(a)$
   - **axiom 5**: $len(L.remove(a)) = len(L)-1$
   - **axiom 6**: $L.add(a) \Rightarrow L.contains(a)$
   - **axiom 7**: $L.remove(a) \Rightarrow \neg L.contains(a)$
   - **axiom 8**: $L.has\_more() \iff L^n$ `and` $n<len(L)$

Dada una implementación concreta, los axiomas nos permiten verificar si la implementación es correcta.

## Ejemplo: Implementación en Python

**Observa**:

- el TAD se implementa como una clase de Python
- las precondiciones las implementamos con `assert`
- ¿qué tan eficiente es esta implementación?

In [2]:
class OrderedList:
    
    def __init__(self, item_type):
        self.item_type = item_type
        self.list = []
        self.cursor = 0
        
    def add(self, item):
        assert type(item)==self.item_type, "must comply with declared type"
        self.list = [i for i in self.list if i<item] + [item] + [i for i in self.list if i>item]
        
    def remove(self, item):
        assert self.contains(item), "item not in list"
        self.list = [i for i in self.list if item!=i]
        
    def contains(self, item):
        return item in self.list
    
    def first(self):
        self.cursor = 1
        return self.list[self.cursor-1]
    
    def next(self):
        assert self.has_more(), "no more items in list"
        self.cursor += 1
        return self.list[self.cursor-1]
    
    def has_more(self):
        return self.cursor<len(self.list)
    
    def len(self):
        return len(self.list)
    

comprobamos a mano la implementación

In [3]:
k = OrderedList(int)
k.add(10)
k.add(1)
k.add(2)
print k.list
k.remove(2)
print k.list

[1, 2, 10]
[1, 10]


comprobamos alguna precondición

In [4]:
print k.first(), k.has_more()
print k.next(), k.has_more()
print k.next()

1 True
10 False


AssertionError: no more items in list

In [5]:
k.add("ho")

AssertionError: must comply with declared type

In [6]:
k.remove(2)

AssertionError: item not in list

### tests unitarios con los axiomas

estos tests son **independientes de la implementación**

**axiom 1**: $len(OrderedList(\mathbb{T}))=0$

In [7]:
def test_axiom1(ordered_list_class):
    L = ordered_list_class(int)
    print "new list length:", L.len()
    assert L.len()==0
    
test_axiom1(OrderedList)   

new list length: 0


**axiom 2**: $L^n < L^{n+1}$

In [8]:
def test_axiom2(ordered_list_class):
    import numpy as np
    
    L = ordered_list_class(int)
    print "inserting", 
    for i in range(20):
        k = np.random.randint(1000)
        print k, 
        L.add(k)
    print "\n\ntesting with list", L.list, "\n"
    
    item = L.first()
    while L.has_more():
        k = L.next()
        print item,"<",k, "  ",
        assert item < k, "wrong list order: %d before %d"%(item,k)
        item = k
        
test_axiom2(OrderedList)       

inserting 772 330 406 238 610 179 584 455 364 317 429 253 577 670 185 727 946 294 138 581 

testing with list [138, 179, 185, 238, 253, 294, 317, 330, 364, 406, 429, 455, 577, 581, 584, 610, 670, 727, 772, 946] 

138 < 179    179 < 185    185 < 238    238 < 253    253 < 294    294 < 317    317 < 330    330 < 364    364 < 406    406 < 429    429 < 455    455 < 577    577 < 581    581 < 584    584 < 610    610 < 670    670 < 727    727 < 772    772 < 946   


## Ejemplo: Otra implementación en Python

usamos la librería [bisect](https://docs.python.org/2/library/bisect.html). observa este ejemplo

In [9]:
import bisect        
l = [1,2,10,12,30]
print bisect.bisect_left(l,11), bisect.bisect_right(l,11)
print bisect.bisect_left(l,12), bisect.bisect_right(l,12)
bisect.insort_left(l,9)
print l

3 3
3 4
[1, 2, 9, 10, 12, 30]


Observa cómo usamos herencia para redefinir sólo los métodos que queremos

In [10]:
class OrderedList_bisect(OrderedList):
    
    def add(self, item):
        assert type(item)==self.item_type, "must comply with declared type"
        if not self.contains(item):
            bisect.insort_left(self.list, item)
        
    def remove(self, item):
        k = bisect.bisect_left(self.list, item)
        assert k<len(self.list) and self.list[k]==item,  "item not in list"        
        self.list = self.list[:k]+self.list[k+1:]
        
    def contains(self, item):
        k = bisect.bisect_left(self.list, item)
        return k<len(self.list) and self.list[k]==item

### verificamos los axiomas que tenemos implementados

In [11]:
test_axiom1(OrderedList)
test_axiom1(OrderedList_bisect)

new list length: 0
new list length: 0


In [12]:
test_axiom2(OrderedList)

inserting 433 732 280 508 407 65 407 134 697 400 366 577 981 438 668 952 128 232 800 693 

testing with list [65, 128, 134, 232, 280, 366, 400, 407, 433, 438, 508, 577, 668, 693, 697, 732, 800, 952, 981] 

65 < 128    128 < 134    134 < 232    232 < 280    280 < 366    366 < 400    400 < 407    407 < 433    433 < 438    438 < 508    508 < 577    577 < 668    668 < 693    693 < 697    697 < 732    732 < 800    800 < 952    952 < 981   


In [13]:
test_axiom2(OrderedList_bisect)

inserting 987 325 270 544 380 170 575 448 669 102 18 504 122 761 404 330 4 292 420 445 

testing with list [4, 18, 102, 122, 170, 270, 292, 325, 330, 380, 404, 420, 445, 448, 504, 544, 575, 669, 761, 987] 

4 < 18    18 < 102    102 < 122    122 < 170    170 < 270    270 < 292    292 < 325    325 < 330    330 < 380    380 < 404    404 < 420    420 < 445    445 < 448    448 < 504    504 < 544    544 < 575    575 < 669    669 < 761    761 < 987   


### medimos rendimiento de ambas implementaciones

In [14]:
import numpy as np
l = np.random.randint(100000,size=1000)
print len(l), len(np.unique(l))

1000 995


para la operación de `add`

In [229]:
L1 = OrderedList(np.int64)
L2 = OrderedList_bisect(np.int64)

In [230]:
%%timeit
for i in l:
    L1.add(i)

10 loops, best of 3: 228 ms per loop


In [231]:
%%timeit
for i in l:
    L2.add(i)

1000 loops, best of 3: 2.21 ms per loop


para la operación `contains`

In [232]:
L1 = OrderedList(np.int64)
L2 = OrderedList_bisect(np.int64)
for i in l:
    L1.add(i)
    L2.add(i)
print L1.len(), L2.len()

997 997


In [233]:
%%timeit
for i in l:
    L1.contains(i)

10 loops, best of 3: 21.3 ms per loop


In [234]:
%%timeit
for i in l:
    L2.contains(i)

1000 loops, best of 3: 1.71 ms per loop
