# Mapas e dicionários

Uma mapa (tabela de símbolos ou dicionário), é uma estrutura para armazenar elementos de forma que possam ser
encontrados rapidamente usando chaves. A motivação de tais buscas é porque muitas vezes tal elemento armazena
informações além da chave. Uma mapa armazena pares chave-valor, chamados de entradas. Ainda, o tipo
abstrato de dados mapa requer que as chaves sejam únicas (como as palavras de um dicionário, que
estão associadas ao seus significados).

De certa forma, as chaves podem ser vistas com endereços para seus respectivos valores. Por exemplo,
para armazenar registros com informações de estudantes, pode se utilizar o número de identificação
de cada estudante. 

## Dicionário em Python

O Python fornece um dicionário de forma nativa. É possível declará-lo inicialmente vazio ou com alguns pares chave-valor, sendo chave e valor separados por dois-pontos.

In [1]:
d = {}  # Defining an empty dictionary.
d_init = {1: '1', 2: '2', 3:"Three"}

A ideia desse seção do curso é construir estruturas da dados que implementam as funcionalidades de um dicionário, como faz o Python.

Algumas operações básicas são apresentadas a seguir.

In [None]:
M = {1: '1', 2: '2', 3:"Three"}  # Declaration.
M[1]  # Return value associated with key 1.
M[4] = 'One'  # Add pair 4:'One' to the dictionary.
del M[1]  # Remove item with key 1 from the dictionary.
len(M)  # Return the number of items in the dictionary.

Além disso, algumas outras operações podem ser úteis.

In [9]:
M = {1: '1', 2: '2', 3:"Three"}  # Declaration.
1 in M  # Check whether an item with key 1 is in M.

k = 2
d = 0
# Return M[k] if key k is in map, otherwise, returns d:
M.get(k, d)

# If key k exists return M[k], otherwise, set M[k] = d
# and return 2.
M.setdefault(k, d)

# Remove item associated with key k and return M[k], 
# if k not in M return the default value.
M.pop(k, d)

0

# Aplicação: Contando a frequência de palavras

Considere o problema de contar a frequência de cada palavra presente em um arquivo de texto. 

A solução desse problema pode ser feita com um dicionário em que as chaves são as palavras e a frequência são seus respectivos valores. Com isso, basta percorrer o arquivo, palavra a palavra, e incrementar a respectiva frequência no dicionário.

In [19]:
def compute_frequencies(filename):
    freq = {}
    with open(filename) as fd:
        text = fd.read()

    for piece in text.lower().split():
        word = ''.join(c for c in piece if c.isalpha())
        if word:  # Has to be at least one character long
            freq[word] = 1 + freq.get(word, 0)

    for item in freq.items():
        print(item)
compute_frequencies("./Aula08_MapasDicionários.ipynb")

('cells', 2)
('celltype', 12)
('markdown', 8)
('metadata', 14)
('source', 12)
('mapas', 2)
('e', 6)
('dicionáriosn', 2)
('n', 320)
('uma', 4)
('mapa', 4)
('tabela', 2)
('de', 20)
('símbolos', 2)
('ou', 3)
('dicionário', 13)
('é', 5)
('estrutura', 2)
('para', 4)
('armazenar', 3)
('elementos', 2)
('forma', 4)
('que', 9)
('possam', 2)
('sern', 2)
('encontrados', 2)
('rapidamente', 2)
('usando', 2)
('chaves', 5)
('a', 11)
('motivação', 2)
('tais', 2)
('buscas', 2)
('porque', 2)
('muitas', 2)
('vezes', 2)
('tal', 2)
('elemento', 2)
('armazenan', 2)
('informações', 3)
('além', 3)
('da', 3)
('chave', 6)
('armazena', 2)
('pares', 3)
('chavevalor', 3)
('chamados', 2)
('entradas', 2)
('ainda', 2)
('o', 15)
('tipon', 2)
('abstrato', 2)
('dados', 3)
('requer', 2)
('as', 8)
('sejam', 2)
('únicas', 2)
('como', 3)
('palavras', 4)
('um', 16)
('quen', 2)
('estão', 2)
('associadas', 2)
('ao', 5)
('seus', 4)
('significadosn', 2)
('certa', 2)
('podem', 3)
('ser', 7)
('vistas', 2)
('com', 7)
('endereços', 

## Implementações de um dicionário

Há diversas estruturas de dados possíveis para a implementação de um dicionário (ou table de símbolos), o objetivo, aqui, é estudar algumas delas. Para facilitar o desenvolvimento, é desenvolvida uma super classe <i>MapBase</i> que será herdada pelas opções de implementação. A classe <i>MapBase</i> define a entrada da tabela de símbolos como sendo um item, com chave e valor, além de algumas operações relacionais.

In [22]:
from collections import MutableMapping

class MapBase(MutableMapping):
    """Our own abstract base class that includes a nonpublic _Item class."""

  #------------------------------- nested _Item class -------------------------------
    class _Item:
        """Lightweight composite to store key-value pairs as map items."""
        __slots__ = '_key', '_value'

        def __init__(self, k, v):
            self._key = k
            self._value = v

    def __eq__(self, other):               
        return self._key == other._key   # compare items based on their keys

    def __ne__(self, other):
        return not (self == other)       # opposite of __eq__

    def __lt__(self, other):               
        return self._key < other._key    # compare items based on their keys

### Implementação de um dicionário com lista não ordenada (<i>UnsortedTableMap</i>)

Uma possível implementação de um dicionário é uma lista de pares chave-valor. 

In [None]:
class UnsortedTableMap(MapBase):
    """Map implementation using an unordered list."""

    def __init__(self):
        """Create an empty map."""
        self._table = [] 

#### Operação M[k]

A operação de busca por um valor associado à chave $k$ pode ser realizada percorrendo a lista de chaves-valores. Como pode ser necessário percorrer toda a lista, a operação é $O(n)$, no pior caso.

In [None]:
def __getitem__(self, k):
    """Return value associated with key k (raise KeyError if not found)."""
    for item in self._table:
        if k == item._key:
            return item._value
    raise KeyError('Key Error: ' + repr(k))

#### Operação $M[k] = v$

A operação $M[k] = v$, busca pela chave $k$, caso $k$ seja encontrado, atualiza-se o seu valor para $v$, caso contrário, adiciona-se o par $(k, v)$ na lista. A operação é $O(n)$ no pior caso, devido à necessidade de se percorrer toda a lista.

In [None]:
def __setitem__(self, k, v):
    """Assign value v to key k, overwriting existing value if present."""
    for item in self._table:
        if k == item._key:        # Found a match:
            item._value = v       # reassign value
            return                # and quit    
    # did not find match for key
    self._table.append(self._Item(k,v))

#### del M[k]

Para a remoção de um item do dicionário, também é necessário percorrer a lista de chaves-valores. Portanto, trata-se de uma operação $O(n)$.

In [None]:
def __delitem__(self, k):
    """Remove item associated with key k (raise KeyError if not found)."""
    for j in range(len(self._table)):
        if k == self._table[j]._key:                # Found a match:
            self._table.pop(j)                        # remove item
            return                                    # and quit    
    raise KeyError('Key Error: ' + repr(k))

#### Implementação da classe <i>UnsortedTableMap</i> 

In [None]:
class UnsortedTableMap(MapBase):
    """Map implementation using an unordered list."""

    def __init__(self):
        """Create an empty map."""
        self._table = []                              # list of _Item's
  
    def __getitem__(self, k):
        """Return value associated with key k (raise KeyError if not found)."""
        for item in self._table:
            if k == item._key:
                return item._value
        raise KeyError('Key Error: ' + repr(k))

    def __setitem__(self, k, v):
        """Assign value v to key k, overwriting existing value if present."""
        for item in self._table:
            if k == item._key:                          # Found a match:
                item._value = v                           # reassign value
                return                                    # and quit    
        # did not find match for key
        self._table.append(self._Item(k,v))

    def __delitem__(self, k):
        """Remove item associated with key k (raise KeyError if not found)."""
        for j in range(len(self._table)):
            if k == self._table[j]._key:                # Found a match:
                self._table.pop(j)                        # remove item
                return                                    # and quit    
        raise KeyError('Key Error: ' + repr(k))

    def __len__(self):
        """Return number of items in the map."""
        return len(self._table)

    def __iter__(self):                             
        """Generate iteration of the map's keys."""
        for item in self._table:
            yield item._key                             # yield the KEY

#### Utilizando a classe <i>UnsortedTableMap</i>

In [27]:
from collections import MutableMapping

class MapBase(MutableMapping):
    """Our own abstract base class that includes a nonpublic _Item class."""

  #------------------------------- nested _Item class -------------------------------
    class _Item:
        """Lightweight composite to store key-value pairs as map items."""
        __slots__ = '_key', '_value'

        def __init__(self, k, v):
            self._key = k
            self._value = v

    def __eq__(self, other):               
        return self._key == other._key   # compare items based on their keys

    def __ne__(self, other):
        return not (self == other)       # opposite of __eq__

    def __lt__(self, other):               
        return self._key < other._key    # compare items based on their keys


class UnsortedTableMap(MapBase):
    """Map implementation using an unordered list."""

    def __init__(self):
        """Create an empty map."""
        self._table = []                              # list of _Item's
  
    def __getitem__(self, k):
        """Return value associated with key k (raise KeyError if not found)."""
        for item in self._table:
            if k == item._key:
                return item._value
        raise KeyError('Key Error: ' + repr(k))

    def __setitem__(self, k, v):
        """Assign value v to key k, overwriting existing value if present."""
        for item in self._table:
            if k == item._key:                          # Found a match:
                item._value = v                           # reassign value
                return                                    # and quit    
        # did not find match for key
        self._table.append(self._Item(k,v))

    def __delitem__(self, k):
        """Remove item associated with key k (raise KeyError if not found)."""
        for j in range(len(self._table)):
            if k == self._table[j]._key:                # Found a match:
                self._table.pop(j)                        # remove item
                return                                    # and quit    
        raise KeyError('Key Error: ' + repr(k))

    def __len__(self):
        """Return number of items in the map."""
        return len(self._table)

    def __iter__(self):                             
        """Generate iteration of the map's keys."""
        for item in self._table:
            yield item._key                             # yield the KEY


def compute_frequencies(filename):
    freq = UnsortedTableMap()
    with open(filename) as fd:
        text = fd.read()

    for piece in text.lower().split():
        word = ''.join(c for c in piece if c.isalpha())
        if word:  # Has to be at least one character long
            freq[word] = 1 + freq.get(word, 0)

    for item in freq.items():
         print(item)
compute_frequencies("./Aula08_MapasDicionários.ipynb")

('cells', 3)
('celltype', 26)
('markdown', 15)
('metadata', 28)
('source', 26)
('mapas', 3)
('e', 8)
('dicionáriosn', 3)
('n', 843)
('uma', 9)
('mapa', 5)
('tabela', 4)
('de', 36)
('símbolos', 5)
('ou', 5)
('dicionário', 18)
('é', 12)
('estrutura', 3)
('para', 9)
('armazenar', 4)
('elementos', 3)
('forma', 5)
('que', 11)
('possam', 3)
('sern', 3)
('encontrados', 3)
('rapidamente', 3)
('usando', 3)
('chaves', 6)
('a', 33)
('motivação', 3)
('tais', 3)
('buscas', 3)
('porque', 3)
('muitas', 3)
('vezes', 3)
('tal', 3)
('elemento', 3)
('armazenan', 3)
('informações', 4)
('além', 5)
('da', 6)
('chave', 10)
('armazena', 3)
('pares', 5)
('chavevalor', 5)
('chamados', 3)
('entradas', 3)
('ainda', 3)
('o', 20)
('tipon', 3)
('abstrato', 3)
('dados', 5)
('requer', 3)
('as', 12)
('sejam', 3)
('únicas', 3)
('como', 6)
('palavras', 5)
('um', 23)
('quen', 3)
('estão', 3)
('associadas', 3)
('ao', 6)
('seus', 5)
('significadosn', 3)
('certa', 3)
('podem', 4)
('ser', 10)
('vistas', 3)
('com', 10)
('ender

#### Comentários

A classe <i>UnsortedTableMap</i> realiza as operações principais de busca, inserção e remoção em tempo linear, $O(n)$. O que, nesse contexto, não é considerado muito eficiente. Uma alternativa seria utilizar uma lista ordenada (pelas chaves) para armazenar os pares chave-valor de um dicionário. Com isso, pode-se utilizar busca binária pra encontrar os elementos desejados. Uma opção ainda mais eficiente, é a utilização de Tabelas de Espalhamento (Tabelas <i>Hash</i>).


# Exercícios
1. Seja $M$ um dicionário do Python, o que acontece ao ser executado o comando $M[2]$ se não houver um item associado à chave $2$ no dicionário?
2. Seja $M$ um dicionário do Python, o que acontece ao ser executado o comando $M[2] = 'two'$ se já houver um item associado à chave $2$ no dicionário? 
3. Seja $M$ um dicionário do Python, o que acontece ao ser executado o comando $del M[1]$ se não houver um item associado à chave um no dicionário?
4. Utilizando o dicionário do Python, faça um programa que lê o texto de um arquivo e computa a frequência das palavras com mais de dois caracteres.
5. Implemente a classe <i>SortedTableMap</i>, que utiliza uma lista ordenada pelas chaves para armazenar os pares chave-valor do dicionário. Sempre que possível, utilize a busca binária para implementar suas operações. Compare a eficiência das operações realizadas pela <i>SortedTableMap</i> e pela <i>UnsortedTableMap</i>.

# Referências
- Material do Prof. Dr. Mário Felice. http://www2.dc.ufscar.br/~mario/ensino/2019s2/aed1/aed1.php
- Goodrich, Michael T., Roberto Tamassia, and Michael H. Goldwasser. Data structures and algorithms in Python. John Wiley & Sons Ltd, 2013.