### Heap

In [14]:
# Задача хранения ограниченной истории — отличный повод применить *collections.deque*. Например, следующий фрагмент кода производит простое сопоставление текста с последовательностью строк, а при совпадении выдает совпавшие строки вместе с N предыдущими строками контекста:
from collections import deque
from collections import deque    
def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)

# Пример использования
# if __name__ == '__main__':
#     with open('somefile.txt') as f:
#         for line, prevlines in search(f, 'python', 5):
#             for pline in prevlines:
#                 print(pline, end='')
#             print(line, end='')
#             print('-'*20)
            
# Использование *deque(maxlen=N)* создает очередь фиксированной длины. Когда новые элементы добавлены и очередь заполнена, самый старый элемент автоматически удаляется
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)
print(q)
q = deque([1, 2, 3], maxlen=3)
q.append(4)
print(q)
q = deque()
q.append(1)
q.append(2)
q.append(3)
print(q)

deque([1, 2, 3], maxlen=3)
deque([2, 3, 4], maxlen=3)
deque([1, 2, 3])


In [17]:
# Вы хотите создать список N максимальных или минимальных элементов коллекции.
# У модуля *heapq* есть две функции, *nlargest()* и *nsmallest()*, которые делают именно то, что вам нужно. Например:
import heapq
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print(cheap)

[{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]


In [30]:
# Вы хотите реализовать очередь, которая сортирует элементы по заданному приоритету и всегда возвращает элемент с наивысшим приоритетом при каждой операции получения (удаления) элемента.
import heapq

class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
    
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]
    
# пример использования:

class Item:
    def __init__(self, name):
        self.name = name
    
    def __repr__(self):
        return 'Item({!r})'.format(self.name)
    
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.pop()


Item('bar')

### Dictinaries

In [32]:
# Чтобы легко создавать такие словари, вы можете использовать *defaultdict* из модуля *collections*. Особенность *defautdict* заключается в автоматической инициализации первого значения, так что вы можете сосредоточиться на добавлении элементов.

from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)
print(d)
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)
print(d)

defaultdict(<class 'list'>, {'a': [1, 2], 'b': [4]})
defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {4}})


In [33]:
# инициализация первого значения
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)

{1, 2}

In [35]:
# Вы хотите создать словарь, который позволит контролировать порядок элементов при итерировании по нему или при сериализации.
from collections import OrderedDict

d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

# Выведет "foo 1", "bar 2", "spam 3", "grok 4"
import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

In [39]:
# вот так можно найти минимальную и максимальную цену, а также соответствующий тикер
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
min_price = min(zip(prices.values(), prices.keys()))
print(min_price) #— (10.75, 'FB')

max_price = max(zip(prices.values(), prices.keys()))
print(max_price) #— (612.78, 'AAPL')

# неправильно
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names))  # OK
print(max(prices_and_names))  # ValueError: max() arg is an empty sequence

(10.75, 'FB')
(612.78, 'AAPL')
(10.75, 'FB')


ValueError: max() arg is an empty sequence

In [41]:
# чтобы получить минимальное значение, вам потребуется дополнительное обращение. Например:
min(prices, key=lambda k: prices[k]), prices[min(prices, key=lambda k: prices[k])]

('FB', 10.75)

In [43]:
a = {
    'x' : 1,
    'y' : 2,
    'z' : 3
}

b = {
    'w' : 10,
    'x' : 11,
    'y' : 2
}
# Создаём новый словарь, из которого удалены некоторые ключи
c = {key:a[key] for key in a.keys() - {'z', 'w'}}
c

{'y': 2, 'x': 1}

In [46]:
# Вы хотите исключить дублирующиеся значения из последовательности, но при этом сохранить порядок следования оставшихся элементов.

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

In [47]:
# удалить дубликаты в последовательности из нехэшируемых типов (таких как словари)
a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]

def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)
            
list(dedupe(a, key=lambda d: (d['x'],d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [75]:
# У вас есть последовательность элементов, и вы хотите узнать, какие элементы встречаются в ней чаще всего.
from collections import Counter
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', "you're", 'under'
]
count_words = Counter(words)
count_words.most_common(3)

[('eyes', 8), ('the', 5), ('look', 4)]

In [84]:
# У вас есть список словарей, и вы хотите отсортировать записи согласно одному или более значениям.
from operator import itemgetter

rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

rows_by_fname = sorted(rows, key=itemgetter('fname'))
rows_by_uid = sorted(rows, key=itemgetter('uid'))

print(rows_by_fname)
print()
print(rows_by_uid)
# itemgetter быстрее, чем
rows_by_fname = sorted(rows, key=lambda r: r['fname'])
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'],r['fname']))

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [102]:
# Вы хотите отсортировать объекты одного класса, но они не поддерживают операции сравнения.
from operator import attrgetter

class User:
    def __init__(self, user_id):
        self.user_id = user_id
        
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
user_lst = [User(3), User(6), User(4)]
print(sorted(user_lst,key=lambda u: u.user_id))
print(sorted(user_lst, key=attrgetter('user_id')))

[User(3), User(4), User(6)]
[User(3), User(4), User(6)]


In [108]:
# Группирование записей на основе полей
from operator import itemgetter
from itertools import groupby
rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

sorted_rows = sorted(rows, key=itemgetter('date'))
for date, item in groupby(sorted_rows, key=itemgetter('date')):
    print(date)
    for i in item:
        print(i)

07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
{'address': '5800 E 58TH', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
{'address': '5148 N CLARK', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}


In [117]:
# У вас есть данные внутри последовательности, и вы хотите извлечь значения или сократить последовательность по какому-либо критерию.
values = ['1', '2', '-3', '-', '4', 'N/A', '5']

def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

ivals = list(filter(is_int, values))
print('ivals =', ivals)

# Другая фильтрация
from itertools import compress
addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK'
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]

counts = [ 0, 3, 10, 4, 1, 7, 6, 1]
counts_bool = [n > 5 for n in counts]
print('bool ', counts_bool)
[item for item in compress(addresses, counts_bool)]


ivals = ['1', '2', '-3', '4', '5']
bool  [False, False, True, False, False, True, True, False]


['5800 E 58TH', '4801 N BROADWAY', '1039 W GRANVILLE']

In [119]:
# У вас есть код, который осуществляет доступ к элементам в списке или кортеже по позиции. Однако такой подход часто делает программу нечитабельной. Также вы можете захотеть уменьшить зависимость от позиции в структуре данных путём перехода к принципу доступа к элементам по имени.
from collections import namedtuple

def compute_cost(records):
    total = 0.0
    for rec in records:
        total += rec[1] * rec[2]
    return total

Stock = namedtuple('Stock', ['name', 'shares', 'price'])
def compute_cost(records):
    total = 0
    for rec in records:
        s = Stock(*rec)
        total = s.shares * s.price
    return total    


In [118]:
#  Объединение нескольких отображений в одно
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

from collections import ChainMap
c = ChainMap(a,b)
print(c['x'])  # Выводит 1 (из a)
print(c['y'])  # Выводит 2 (из b)
print(c['z'])  # Выводит 3 (из a)

1
2
3


### Последовательности

In [59]:
# Ваша программа превратилась в нечитабельную массу индексов срезов, и вы хотите всё это расчистить.
record = '....................100 .......513.25 ..........'
cost = int(record[20:23]) * float(record[31:37])
print(cost)
SHARES = slice(20,23)
PRICE  = slice(31,37)

cost = int(record[SHARES]) * float(record[PRICE])
print(cost)

51325.0
51325.0


In [72]:
a = slice(5, 10, 2)
print(a.start)
print(a.stop)
print(a.step)
s = 'HelloWorld'
s[a]

5
10
2


'Wrd'