## 4. Маппинг и хеширование

### Sets and Maps

Определяющей характеристикой карты является ее структура "ключ-значение".  
Фактически словарь в Computer Science - это карта. 

Set - структура данных, сравнимая со списком. Самое большое отличие заключается в том, что список имеет определенный порядок элементов, в то время как set - это неупорядоченная структура данных. Также наборы не допускают повторения элементов.

Наборы в Python изменяемы. Это означает, что вы можете добавлять или удалять элементы из набора.   
Однако важно отметить, что, хотя сам набор может быть изменен, элементы, содержащиеся в наборе, должны быть неизменяемого типа.

#### Task 1. 

In [1]:
locations = {'North America': {'USA': ['Mountain View']}}

cities_to_add = ['Bangalore (India, Asia)',
                 'Atlanta (USA, North America)',
                 'Cairo (Egypt, Africa)',
                 'Shanghai (China, Asia)']


# helper function to unfold a sublist in a list
def unfold(lst):
    ans = []
    for i in lst:
        if type(i) != list:
            ans.append(i)
        else:
            ans.extend(i)
    return ans

# adding data to our dictionary
for city in cities_to_add:
    city = city.split(', ')
    city[0] = city[0].replace('(', '').replace(',', '').split(' ')
    city[1] = city[1].replace(')', '')
    city = unfold(city)
    if city[2] in locations:
        if city[1] in locations[city[2]]:
            locations[city[2]][city[1]].append(city[0])
        else:
            locations[city[2]][city[1]] = [city[0]]
    else:
        locations[city[2]] = {city[1]: [city[0]]}


# Print a list of all cities in the USA in alphabetic order.
for k, v in locations.items():
    if k == 'North America' and 'USA' in v:
        for country, cities in v.items():
            if country == 'USA':
                print(1, *sorted(cities), sep='\n')
            
            
# Print all cities in Asia, in alphabetic order, next to the name of the country
for k, v in locations.items():
    if k == 'Asia':
        ans = []
        for country, cities in v.items():
            for c in cities:
                to_add = c + ' - ' + country
                ans.append(to_add)
print(2, *sorted(ans), sep='\n')

1
Atlanta
Mountain View
2
Bangalore - India
Shanghai - China


### Хэшироваие

Использование структуры данных, использующей хэш-функцию, позволяет выполнять поиск за постоянное время. Все остальные структуры данных, которые мы изучили до сих пор, позволяют выполнять поиск за O(n).

Хэш-функции преобразуют некоторое значение в хэш-функцию и получают хэш-значение.  

Обычно мы используем деление на 10 в качестве хэш-функции и остаток в качестве хэш-значения.  

Значение хэша будет действовать как индекс в массиве, где мы будем хранить наши исходные значения. И мы можем искать элемент по его индексу в течение постоянного времени.

### Коллизия

Коллизия возникает, когда два разных значения имеют одинаковое хэш-значение.  

Существует два основных метода борьбы с коллизиями:
- измените хэш-функцию, чтобы после нее остатки были другими
- измените структуру вашего массива и вместо того, чтобы хранить отдельные значения в каждой ячейке, вы можете хранить список значений (коллекцию) с одинаковым хэш-номером в каждой ячейке (корзине).    

Первый вариант займет много дополнительного места, но по-прежнему будет иметь постоянную сложность во времени поиска.  

Обычно используется второй вариант. И в худшем случае временная сложность будет равна O(m), где m - длина коллекции в корзине.

### Хеш таблицы

In [2]:
class HashTable:
    def __init__(self):
        self.table = [None]*10000
    
    def calculate_hash_value(self, string):
        """Helper function to calculate a hash value from a string."""
        hash_value = ord(string[0]) * 100 + ord(string[1])
        return hash_value
    
    def store(self, string):
        """Input a string that's stored in the table."""
        hash_value = self.calculate_hash_value(string)
        if self.table[hash_value] is not None:
            self.table[hash_value].append(string)
        else:
            self.table[hash_value] = [string]
    
    def lookup(self, string):
        """Return the hash value if the string is already in the table. Return -1 otherwise."""
        hash_value = self.calculate_hash_value(string)
        if self.table[hash_value] is not None:
            if string in self.table[hash_value]:
                return hash_value
        return -1
    
    
# Setup
hash_table = HashTable()

# Test calculate_hash_value
# Should be 8568
print(hash_table.calculate_hash_value('UDACITY'))

# Test lookup edge case
# Should be -1
print(hash_table.lookup('UDACITY'))

# Test store
hash_table.store('UDACITY')
# Should be 8568
print(hash_table.lookup('UDACITY'))

# Test store edge case
hash_table.store('UDACIOUS')
# Should be 8568
print(hash_table.lookup('UDACIOUS'))


8568
-1
8568
8568
