In [1]:
from python_learning import sequences as seq

## Распаковка элементов из произвольной последовательности

In [2]:
arb_len_seq = list(range(10))
arb_len_seq

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [3]:
seq.arbitrary_len(arb_len_seq, mode="first")

0

In [4]:
seq.arbitrary_len(arb_len_seq, mode="middle")

[1, 2, 3, 4, 5, 6, 7, 8]

In [5]:
seq.arbitrary_len(arb_len_seq, mode="last")

9

## Получение N последних элементов последовательности

In [6]:
with open('python_learning/content/some_text.txt') as some_text:
    for elem, prev_elem in seq.search_and_scrop(some_text, 
                                                pattern='текст', N=3):
        for pelem in prev_elem:
            print('pelem: {0}'.format(pelem), end='')
        print('\nelem: {0}\n'.format(elem), end='')


elem: Текст и тексты

pelem: Текст и тексты
pelem: «Настройка» и «подписка» существуют только в единственном числе. Это все знают, потому что проверяли по словарю Ушакова.

elem: А мне еще кажется, что «текст» тоже следует использовать только в единственном числе:

pelem: «Настройка» и «подписка» существуют только в единственном числе. Это все знают, потому что проверяли по словарю Ушакова.
pelem: А мне еще кажется, что «текст» тоже следует использовать только в единственном числе:
pelem: Плохо

elem: Написать тексты для сайта

pelem: А мне еще кажется, что «текст» тоже следует использовать только в единственном числе:
pelem: Плохо
pelem: Написать тексты для сайта

elem: Написать текст для сайта

pelem: Плохо
pelem: Написать тексты для сайта
pelem: Написать текст для сайта

elem: Написать текст сайта



## Получение N максимальных или минимальных элементов через поиск в куче

In [7]:
import random
nums = [random.randint(0, 15) for x in range(10)]
nums

[12, 1, 6, 15, 5, 3, 3, 12, 15, 3]

In [8]:
seq.searc_for_minmax(nums, mode="min")

[1, 3, 3]

In [9]:
seq.searc_for_minmax(nums, mode="max", N=5)

[15, 15, 12, 12, 6]

In [10]:
mult_nums = [[random.randint(0, 15) for x in range(10)] for y in range(10)]
mult_nums

[[7, 9, 8, 13, 11, 9, 7, 13, 12, 9],
 [6, 10, 2, 10, 8, 4, 11, 12, 4, 1],
 [11, 13, 5, 15, 3, 10, 11, 1, 6, 15],
 [6, 10, 8, 5, 3, 3, 13, 1, 2, 6],
 [1, 15, 11, 3, 1, 5, 3, 6, 15, 9],
 [14, 14, 1, 1, 11, 8, 0, 14, 6, 12],
 [4, 5, 13, 3, 15, 14, 0, 15, 13, 6],
 [15, 1, 9, 1, 2, 10, 15, 2, 4, 11],
 [9, 10, 5, 13, 2, 11, 13, 14, 12, 12],
 [14, 5, 14, 3, 10, 14, 14, 9, 15, 8]]

In [11]:
# two lists with smallest number in first 3 position
seq.searc_for_minmax(mult_nums, mode="min", key=lambda s: s[0:3], N=2)

[[1, 15, 11, 3, 1, 5, 3, 6, 15, 9], [4, 5, 13, 3, 15, 14, 0, 15, 13, 6]]

## Очередь с приоритетом

In [12]:
q = seq.PriorityQueue()
q.push(seq.Item('foo'), 1)
q.push(seq.Item('bar'), 5)
q.push(seq.Item('spam'), 4)
q.push(seq.Item('grok'), 1)
q.pop()

Item('bar')

In [13]:
q.pop()

Item('spam')

In [14]:
q.pop()

Item('foo')

In [15]:
q.pop()

Item('grok')

## Отображение ключей словаря на неск.значений

Если надо отобразить ключ более чем на одно значение, используется list или set

list - для сохранения упорядоченности

set - для устранения дубликатов

```python

a = {'b': [1, 2, 3]}
```

### Вариант 1. Через defaultdict

*автоматически создает запись словаря для ключей, даже если в данный момент их нет в словаре

In [16]:
from collections import defaultdict

d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d

defaultdict(list, {'a': [1, 2]})

In [17]:
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['a'].add(1)
d

defaultdict(set, {'a': {1, 2}})

### Вариант 2. Через setdefault для обычного словаря

In [18]:
d = {}
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(2)
d

{'a': [1, 2]}

## OrderdDict

Не смотря на то, что с 3.6 словари упорядочены, поддерживается OrderdDict, который удобно использовать для сериализации или кодирования в другой формат словарей

<span class="mark">Дорого по памяти и начиная с 3.7 это legacy</span>

In [19]:
from collections import OrderedDict

d = OrderedDict()
d['one'] = 1
d['two'] = 2
d['three'] = 3
for key in d:
    print(key, d[key])

one 1
two 2
three 3


## Получение ключа значения словаря, соответствующего некоторой вычислительной метрике

Используется zip() для обращения ключей и значений в последовательность пар (значение, ключ). Значения в таком случае будут использоваться в метриках первыми, а при их равестве - ключи. Это удобно для min/max 

<span class="burk">Важно</span>: zip() вернет итератор, по которому можно проти только один раз.

In [20]:
for_met = {
    'what': 34.5,
    'where': 56.7,
    'who': 24.2
}
seq.dict_val_comparison(for_met, mode='min')

(24.2, 'who')

In [21]:
seq.dict_val_comparison(for_met, mode='max')

(56.7, 'where')

In [22]:
seq.dict_val_comparison(for_met, mode='sorted')

[(24.2, 'who'), (34.5, 'what'), (56.7, 'where')]

In [23]:
# тоже самое через ООП
met = seq.DictValComparison(for_met)

In [24]:
met.compMin()

(24.2, 'who')

In [25]:
met.compMax()

(56.7, 'where')

In [26]:
met.compSort()

[(24.2, 'who'), (34.5, 'what'), (56.7, 'where')]

## Поиск общих элементов в словарях

- keys() возвращает объект, который поддерживает операции над множествами
- items() возвращает пары ключ и значение и тоже поддерживает операции над множествами
- values() операции над множествами не поддерживает


In [27]:
a = {
    'x': 1,
    'y': 2,
    'z': 3
}
b = {
    'w': 0,
    'x': 1,
    'y': 2
}

In [28]:
# пересечение ключей
a.keys() & b.keys()

{'x', 'y'}

In [29]:
# разность ключей
a.keys() - b.keys()

{'z'}

In [30]:
b.keys() - a.keys()

{'w'}

In [31]:
# объединение ключей
a.keys() | b.keys()

{'w', 'x', 'y', 'z'}

In [32]:
# пересечение пар
a.items() & b.items()

{('x', 1), ('y', 2)}

In [33]:
# новый словарь (удалим общие пары)
c = {key:a[key] for key in a.keys() - (a.keys() & b.keys())}

In [34]:
c

{'z': 3}

## Удаление дубликатов из последовательностей с сохранением порядка

Используем массивы для удалениядублей, при этом сохраняем порядок элементов. Для нехешируемых последовательностей (например для списков словарей) используем аргумнт k, в котором задаем список элементов последовательности, по которым будем дедублицировать.

In [35]:
def dedubl(some_seq, key=None):
    dd = seq.Deuduliacate(some_seq)
    try:
        return list(dd.dedubl_hash())
    except TypeError:
        return list(dd.dedubl_nonhash(key))

In [36]:
nums = [random.randint(0, 15) for x in range(10)]
nums

[13, 11, 6, 4, 5, 6, 9, 14, 0, 15]

In [37]:
dedubl(nums)

[13, 11, 6, 4, 5, 9, 14, 0, 15]

In [38]:
nonhash = [
    {'a': 1, 'b': 3},
    {'a': 1, 'b': 2},
    {'a': 2, 'b': 3},
    {'a': 2, 'b': 3}
]

In [39]:
dedubl(nonhash, key=lambda x: x['a'])

[{'a': 1, 'b': 3}, {'a': 2, 'b': 3}]

In [40]:
dedubl(nonhash, key=lambda x: x['b'])

[{'a': 1, 'b': 3}, {'a': 1, 'b': 2}]

In [41]:
dedubl(nonhash, key=lambda x: (x['a'],x['b']))

[{'a': 1, 'b': 3}, {'a': 1, 'b': 2}, {'a': 2, 'b': 3}]

## Присваивание имен срезам

Можно использовать встроенную функцию slice()? которая возвращает объект среза

In [42]:
nums = [random.randint(0, 15) for x in range(10)]
nums

[2, 1, 6, 13, 8, 7, 3, 0, 1, 10]

In [43]:
a = slice(2, 9, 2)
a

slice(2, 9, 2)

In [44]:
a.start

2

In [45]:
a.stop

9

In [46]:
a.step

2

In [47]:
nums[2:9:2]

[6, 8, 3, 1]

In [48]:
nums[a]

[6, 8, 3, 1]

С помощью метода indices(size) можно получить кортеж start, stop, step со значениями, ограниченными, так чтобы вписаться в границы

In [49]:
word = 'someword'
a.indices(len(word))

(2, 8, 2)

In [50]:
[word[i] for i in range(*a.indices(len(word)))]

['m', 'w', 'r']

## Подсчет элементов в последовательности

Наиболее часто встречающиеся с помощью Counter и метода most_common()

Объект Counter(), который из себя представляет словарь вида item: frequincy так-же поддерживает арифметические операции

In [51]:
words = ['aaa', 'bbb', 'ccc', 'ddd', 'aaa',
        'zzz', 'aaa', 'bbb', 'ccc', 'ddd',
        'bbb', 'ccc', 'aaa', 'bbb', 'aaa',
        'ccc', 'zzz', 'aaa', 'bbb', 'iii']

In [52]:
ww = seq.CountsOfItems(words)

In [53]:
ww.most_freq(3)

[('aaa', 6), ('bbb', 5), ('ccc', 4)]

In [54]:
another_words = ['aaa', 'bbb', 'ccc', 'ddd', 'aaa',
                'zzz', 'aaa', 'bbb', 'ccc', 'ddd',
                'bbb', 'ccc', 'aaa', 'bbb', 'aaa']

In [55]:
ww.most_freq_operation(another_words, N=2, mode="sum")

[('aaa', 11), ('bbb', 9)]

In [56]:
ww.most_freq_operation(another_words, N=2, mode="diff")

[('aaa', 1), ('bbb', 1)]

## Сортировка списка словарей по общему ключу

функция itemgetter модуля operator

In [57]:
rows = [
    {'this': 1000, 'that': 'aaaa'},
    {'this': 1200, 'that': 'eeee'},
    {'this': 4000, 'that': 'bbbb'},
    {'this': 500, 'that': 'zzzz'},
]

In [58]:
from operator import itemgetter
r_sorted_1 = sorted(rows, key=itemgetter('this'))
r_sorted_2 = sorted(rows, key=itemgetter('that'))

In [59]:
r_sorted_1

[{'this': 500, 'that': 'zzzz'},
 {'this': 1000, 'that': 'aaaa'},
 {'this': 1200, 'that': 'eeee'},
 {'this': 4000, 'that': 'bbbb'}]

In [60]:
r_sorted_2

[{'this': 1000, 'that': 'aaaa'},
 {'this': 4000, 'that': 'bbbb'},
 {'this': 1200, 'that': 'eeee'},
 {'this': 500, 'that': 'zzzz'}]

In [61]:
r_sorted_3 = sorted(rows, key=itemgetter('this', 'that'))
r_sorted_3

[{'this': 500, 'that': 'zzzz'},
 {'this': 1000, 'that': 'aaaa'},
 {'this': 1200, 'that': 'eeee'},
 {'this': 4000, 'that': 'bbbb'}]

Функция itemgetter() создает итерируемый объект, который принимает элемент из последовательности и возвращает значение, которое будет использовано для сортировки

Соответственно sorted() принимает в качестве аргумента key не только объекты itemgetter(), но и, к примеру, lambda-функции. Itemgetter() обычно быстрее

Так-же можно применять и к min()/max()

#### Сортировка объектов, не поддерживающих сравнение

Можно попробовать отсортировать по значениям, содержащимся в атрибутах, например в атрибутах экземпляров класса, подав их в sorted() через атрибут key в lambda или через operator.attgetter()

In [62]:
members = [seq.Member(22), seq.Member(115), seq.Member(12)]

In [63]:
members

[Member(22), Member(115), Member(12)]

In [64]:
sorted(members, key=lambda z: z.member_id)

[Member(12), Member(22), Member(115)]

In [65]:
# более явный с точки зрения семантики кода вариант. К тому же так быстрее и позволяет извлечь несколько полей
from operator import attrgetter

sorted(members, key=attrgetter('member_id'))

[Member(12), Member(22), Member(115)]

## Группировка словарей в последовательности по значениям ключей

itemgetter() для сортировки
groupby() для итерации в группах

groupby() сканирует последовательность и ищетпоследовательные партии одинаковых значений. В каждой итерации фцнкция возвращает значение вместе с итератором, который выводит все элементы в группу с одинаковым значением

Для groupby() требуется предварительная сортировка, так как метод проверяет только последовательные элементы

In [66]:
rows = [
    {'rhis': '12345', 'date': '07/07/2020'},
    {'rhis': '55555', 'date': '07/07/2020'},
    {'rhis': '55455', 'date': '15/11/2020'},
    {'rhis': '90909', 'date': '15/01/2020'},
    {'rhis': '70707', 'date': '07/12/2015'},
    {'rhis': '33333', 'date': '03/01/2020'},
    {'rhis': '44444', 'date': '15/01/2020'},
    {'rhis': '12222', 'date': '15/01/2020'},
    {'rhis': '00000', 'date': '04/01/2020'},
    {'rhis': '11111', 'date': '11/01/2020'}
]

In [67]:
row_sort = seq.SortSeqOfDicts(rows)

In [68]:
# сортировку по датена самом деле надо по другому
row_sort.sort_and_group_by_date()

03/01/2020
  {'rhis': '33333', 'date': '03/01/2020'}
04/01/2020
  {'rhis': '00000', 'date': '04/01/2020'}
07/07/2020
  {'rhis': '12345', 'date': '07/07/2020'}
  {'rhis': '55555', 'date': '07/07/2020'}
07/12/2015
  {'rhis': '70707', 'date': '07/12/2015'}
11/01/2020
  {'rhis': '11111', 'date': '11/01/2020'}
15/01/2020
  {'rhis': '90909', 'date': '15/01/2020'}
  {'rhis': '44444', 'date': '15/01/2020'}
  {'rhis': '12222', 'date': '15/01/2020'}
15/11/2020
  {'rhis': '55455', 'date': '15/11/2020'}


In [70]:
# получение сгруппироанных записей по нужной дате через defaultdict()
row_sort.sort_and_group_in_large_structure('15/01/2020')

{'rhis': '90909', 'date': '15/01/2020'}
{'rhis': '44444', 'date': '15/01/2020'}
{'rhis': '12222', 'date': '15/01/2020'}


## Фильтрация элементов последовательности

In [71]:
nums = [random.randint(0, 15) for x in range(10)]
nums

[0, 7, 9, 4, 6, 5, 3, 1, 6, 9]

In [73]:
# через генератор списка
nums_filtred = [n for n in nums if n > 4]

In [74]:
nums_filtred

[7, 9, 6, 5, 6, 9]

In [84]:
# если список большой - использовать генератор списков, чтобы не загромождать память
nums_filtred = (n for n in nums if n > 4)

In [85]:
nums_filtred

<generator object <genexpr> at 0x7f7f302ed8d0>

In [86]:
for i in nums_filtred:
    print(i)

7
9
6
5
6
9


In [88]:
# или так (надо помнить, что объект генератора поддерживает один проход, поэтому повторный вызов ничего не даст)
list(nums_filtred)

[]

In [90]:
# если критерий фильтрации не может быть выражен генератором списка,
# обернуть фильтрующий код в функцию и использовать filter()
# filter() создает итератор, к нему тоже надо обращаться через list()
values = ['1', '2', '55', '-', '4', 'NAN', '5']

In [91]:
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False

In [92]:
int_values = filter(is_int, values)

In [93]:
print(list(int_values))

['1', '2', '55', '4', '5']


In [94]:
# генераторы списков и генераторные выражения позволяют менять данные на лету
nums = [random.randint(0, 15) for x in range(10)]
nums

[8, 0, 8, 1, 6, 12, 6, 12, 7, 12]

In [96]:
import math
[math.sqrt(n) for n in nums if n > 7]

[2.8284271247461903,
 2.8284271247461903,
 3.4641016151377544,
 3.4641016151377544,
 3.4641016151377544]

In [97]:
# отбраковку значений можно осуществить с помощью переменного критерия фильтрации
nums = [random.randint(0, 15) for x in range(10)]
nums

[1, 4, 0, 4, 6, 2, 3, 15, 7, 7]

In [102]:
[n if n > 3 else 0 for n in nums]

[0, 4, 0, 4, 6, 0, 0, 15, 7, 7]

In [105]:
# с помощью itertools.comperss() и последовательности-селектора из булевых значений
# можно фильтровать по булям
some = [
    '1111',
    '2222',
    '3333',
    '4444',
    '5555'
]
count = [1, 0, 5, 3, 4]

In [109]:
from itertools import compress

# вначале создадим последовательность булевых значений
n_count = [n > 3 for n in count]
n_count

[False, False, True, False, True]

In [110]:
# затем получим результат фильтрации
filtered = compress(some, n_count)
list(filtered)

['3333', '5555']