<img src="../Img/ФинУ.jpg">

# Алгоритмы и структуры данных в языке Python

# Лекция 3. Словари, множества, выражения-генераторы

# Часть 2.  Выражения-генераторы

Лектор: Смирнов Михаил Викторович, доцент кафедры анализа данных Финансового университета при Правительстве Российской Федерации

## Разделы: <a class="anchor" id="разделы"></a>
* [К оглавлению](#разделы)

* [Выражения-генераторы](#генераторы)
* [Выражения-генераторы для списков](#генераторы-списков)
    * [Пример: задача приведения списка к "плоскому" виду](#пример-плоский)
* Выражения-генераторы, генераторы множеств и словарей
    * [Выражения-генераторы](#выражения-генераторы)
    * [Генераторы множеств](#генераторы-множеств)
    * [Генераторы словарей](#генераторы-словарей)    
-
* [к оглавлению](#разделы)

In [1]:
# загружаем стиль для оформления презентации
from IPython.display import HTML
from urllib.request import urlopen
html = urlopen("file:./lec_v1.css")
HTML(html.read().decode('utf-8'))

# Выражения-генераторы <a class="anchor" id="генераторы"></a>
* [к оглавлению](#разделы)

## Выражения-генераторы для списков <a class="anchor" id="генераторы-списков"></a>
* [к оглавлению](#разделы)

Допустим, у нас есть список, содержащий числа. Мы хотим получить новый список, содержащий удвоенные значения исходного списка. Как это можно сделать?

In [1]:
lst_val = [1, 2, 7, 11, 8, 2]

lst_new = []
for el in lst_val:
    lst_new.append(el * 2)
lst_new

[2, 4, 14, 22, 16, 4]

Теперь сделаем это с помощью выражения-генератора.

In [3]:
lst_gen = [el * 2 for el in lst_val]
lst_gen

[2, 4, 14, 22, 16, 4]

Решим другую задачу, допустим нам требуется создать список, состоящий из удвоенных четных чисел исходного списка. Решим эту задачу сначала с помощью цикла *for* и условного оператора *if*.

In [3]:
# создание списка с помощью цикла и условия (фильтра)
lst_new2 = []
for el in lst_val:
    if el % 2 == 0: # число el четное (остаток от деления на 2 равен 0)
        lst_new2.append(el * 2)
lst_new2

[4, 16, 4]

Выражения-генераторы позволяют фильтровать элементы коллекции, поэтому вместо цикла с условным оператором мы можем использовать выражение-генератор.

In [4]:
lst_gen2 = [el * 2 for el in lst_val if el % 2 == 0]
lst_gen2

[4, 16, 4]

### Задача обхода и модификации списка

<u>Пример</u>.  Отфильтровать список, оставив в нем только нечетные числа.

In [2]:
# исходный список:
filt_list = [1, 3, 2, 8, 4, 11, 8, 9]

In [3]:
# НЕ работающий вариант:
for el in filt_list:
    if el % 2 == 0:
        del el # НЕ модифицирует список, удаляет переменную el, на следующей итерации цикла она снова создается
filt_list

[1, 3, 2, 8, 4, 11, 8, 9]

In [4]:
filt_list = [1, 3, 2, 8, 4, 11, 10, 9]
print(f'длина списка: {len(filt_list)}')

# Еще один НЕ работающий вариант: 
for ind, el in enumerate(filt_list):
    print(f'ind: {ind}, el: {el}')
    if el % 2 == 0:
        print('removing')
        del filt_list[ind]
        # мы "пилим сук, на котором сидим": удаление элемента влияет на работу итератора
        # после удаления элемента с индексом ind его место занимает следующий элемент =>
        # на следующей итерации он не будет рассмотрен!
filt_list 

длина списка: 8
ind: 0, el: 1
ind: 1, el: 3
ind: 2, el: 2
removing
ind: 3, el: 4
removing
ind: 4, el: 10
removing


[1, 3, 8, 11, 9]

В результате выполнения `del filt_list[ind]` итератор "перескочил" значение 8, 11, 9.

Для решения будем обходить элементы списка с конца.

In [5]:
filt_list = [1, 3, 2, 8, 4, 11, 10, 9]

for ind in range(len(filt_list)-1, -1, -1): # идем с конца в начало с шагом -1
    # в явном виде итерируемся по индексу (целочисленная перменная ind), а не по элементам списка
    el = filt_list[ind]
    print(f'ind: {ind}, el: {el}')    

    if el % 2 == 0:
        print('removing')        
        del filt_list[ind]
        # удаление элементов при обходе с хвоста списка не меняет индексов предыдущих элементов =>
        # после удаления мы не "перескакиваем" очередное (предыдущее) значение
filt_list # РАБОТАЕТ!

ind: 7, el: 9
ind: 6, el: 10
removing
ind: 5, el: 11
ind: 4, el: 4
removing
ind: 3, el: 8
removing
ind: 2, el: 2
removing
ind: 1, el: 3
ind: 0, el: 1


[1, 3, 11, 9]

Выполним задачу фильтрации списка с помощью выражения-генератора.

In [11]:
filt_list = [1, 3, 2, 8, 4, 11, 10, 9]
print(id(filt_list))
filt_list = [el for el in filt_list if el%2 == 1]
print(filt_list)
id(filt_list)

2313315440960
[1, 3, 11, 9]


2313328785856

Важно понимать, что при таком решении задачи мы получили другой объект *filt_list*, так как итератор обошел исходный список и создал новый список. Иногда бывает важно произвести изменения именно в исходном списке. Для этого используем срезку `[:]`, с ее помощью мы заменим все элементы исходного списка новыми, полученными от выражения-генератора.

In [15]:
filt_list = [1, 3, 2, 8, 4, 11, 10, 9]
print(id(filt_list))
filt_list[:] = [el for el in filt_list if el % 2 == 1]
print(filt_list)
id(filt_list)

2313328815232
[1, 3, 11, 9]


2313328815232

# >

-------

### Задача приведения списка к "плоскому" виду  <a class="anchor" id="пример-плоский"></a>
* [к оглавлению](#разделы)

"Плоский" список (flatten list)

In [27]:
list2d = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]

Решим задачу с помощью двух циклов *for*: внешнего и вложенного.

In [28]:
flat_list = []

for sublist in list2d:
    for item in sublist:
        flat_list.append(item)
        
flat_list

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [33]:
[el for lst in list2d for el in lst]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Теперь выполним эту же задачу с помощью генератора списков. Генераторы списков тоже могут быть вложенными.

In [32]:
# Вложенные генераторы списокв:
flat_list = [item for sublist in list2d for item in sublist]
flat_list

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Здесь фраза 
```python
for sublist in list2d
```
означает, что итератор перебирает внутренние списки как цельные элементы внешнего списка.

Фраза 
```python
for item in sublist
```
означает, что итератор проходит по элементам внутренних списков.

И наконец 
```python
[item ...
```
означает, что полученные таким образом элементы необходимо поместить в список.

In [34]:
%%timeit
list2d = [[1, 2, 3], [4, 5, 6], [7], [8, 9]] * 10
for sublist in list2d:
    for item in sublist:
        flat_list.append(item)

6.09 µs ± 365 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


µs означает микросекунда

In [35]:
%%timeit 
list2d = [[1, 2, 3], [4, 5, 6], [7], [8, 9]] * 10
[item for sublist in list2d for item in sublist]

3.65 µs ± 147 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


=> Генераторы списков обычно существенно быстрее аналогичных циклов.

Приведение к плоскому виду с помощью функции `sum()`:

* Вид функции `sum(iterable, start=0)`
* Необязательный параметр start — это исходный накопитель, по умолчанию равен нулю.

In [2]:
list2d = [[1, 2, 3], [4, 5, 6], [7], [8, 9]]
sum(list2d, [])

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [41]:
%%timeit
list2d = [[1, 2, 3], [4, 5, 6], [7], [8, 9]] * 10
sum(list2d, [])

6.22 µs ± 155 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Приведем еще несколько способов приведения списка к плоскому виду.

In [1]:
import functools
import itertools
import numpy

def functools_reduce(a):
    return functools.reduce(operator.concat, a)


def itertools_chain(a):
    return list(itertools.chain.from_iterable(a))


def numpy_flat(a):
    return list(numpy.array(a).flat)


def numpy_concatenate(a):
    return list(numpy.concatenate(a))

# >

----

# Выражения-генераторы, генераторы множеств и словарей

## Выражения-генераторы <a class="anchor" id="выражения-генераторы"></a>
* [к оглавлению](#разделы)

Продолжим изучать выражения-генераторы. Пусть у нас есть список значений.

In [27]:
lst_val = [1, 2, 7, 11, 8, 2]

На его базе создадим выражение-генератор, выглядит оно так же, как и генератор списков, только заключено в круглые скобки.

In [28]:
(x for x in lst_val)

<generator object <genexpr> at 0x0000026E9C1B8930>

In [29]:
cor_gen = (el * .5 for el in lst_val)
cor_gen # Итерируемый объект

<generator object <genexpr> at 0x0000026E9C0A2E90>

В результате создания выражения-генератора мы получили итерируемый объект. В отличие от генератора списков, здесь мы получили объект отложенных вычислений. То есть выражение-генратор знает, как выполнить действия для получения структуры данных, но пока эти действия не выполнены. Эти действия будут выполнены тогда, когда по итерируемому объекту начнется итерация, например при вызове функции *next()*. Такой подход позволяет эффективно использовать память.

In [30]:
# использование выражения генератора в качестве источника итерируемых данных:
sum(cor_gen)

15.5

Выражение-генератор не обязательно связывать с переменной, его можно передавать в функцию напрямую.

In [33]:
# передаем генератор напрямую:
sum((el * .5 for el in lst_val))

15.5

По выражению-генератору можно выполнить итерацию и с помощью цикла *for*.

In [35]:
# итерирование по генератору с помощью цикла for
lst_val = [1, 2, 7, 11, 8, 2]
cor_gen = (el * .5 for el in lst_val)
for e in cor_gen:
    print(e)

0.5
1.0
3.5
5.5
4.0
1.0


In [36]:
lst_val = [1, 2, 7, 11, 8, 2]
cor_gen = (el * .5 for el in lst_val)
cor_gen

<generator object <genexpr> at 0x0000026E9BF40450>

С помощью next() мы можем извлекать очередное значение.

In [37]:
next(cor_gen)

0.5

<u>Пример</u>. Допустим, нам надо произвести вычиселние функции каждого элемента большого набора данных, а затем значения суммировать.

In [39]:
import math

In [40]:
sum((math.sin(v) for v in range(10000)))

1.9395054106807046

Мы не создавали структуры данных, такой как список. На каждом шаге итерации функция *range()* возвращала одно значение набора данных, затем вычислялась функция и проводилось накопление суммы. Такой подход позволяет эффективно использовать память компьютера.

In [41]:
# Возможен и более компактный синтаксис.
sum(math.sin(v) for v in range(10000)) 

1.9395054106807046

## Генераторы множеств <a class="anchor" id="генераторы-множеств"></a>
* [к оглавлению](#разделы)

Помимо генераторов списков язык Python поддерживает генераторы множеств. Синтаксис генераторов множеств похож на синтаксис генераторов списков, только вместо квадратных скобок используются фигурные.

In [42]:
sg1 = {х**2 for х in [1, 2, 1, 2, 1, 2, 3]}
sg1

{1, 4, 9}

In [43]:
sg2 = [x**3 for x in sg1]
sg2

[1, 64, 729]

In [44]:
{x for x in [1, 2, 1, 2, 1, 2, 3] if x % 2 == 0}

{2}

In [45]:
# нужно помнить, что так пустое множество НЕ объявляется:
v = {}

In [46]:
type(v)

dict

In [47]:
v2 = set()

In [48]:
type(v2)

set

In [49]:
# Однако,
{e for e in [1, 2, 3] if e > 10}

set()

## Генераторы словарей <a class="anchor" id="генераторы-словарей"></a>
* [к оглавлению](#разделы)

Помимо генераторов списков и множеств язык Python поддерживает генераторы словарей. Синтаксис генераторов словарей похож на синтаксис генераторов списков, но имеет два отличия: 
* выражение заключается в фигурные скобки, а не в квадратные; 
* внутри выражения перед циклом for  указываются два значения через двоеточие, а не одно:
    * значение, расположенное слева от двоеточия — ключ
    * значение, расположенное справа от двоеточия — значение.

In [56]:
d18 = {k: v for (k,  v) in [['a', 1], ['b', 2]]}
d18

{'a': 1, 'b': 2}

In [57]:
keys = ['a', 'b'] # Список ключей
values = [1, 2]  # Список значений
d18 = {k: v for (k,  v) in zip(keys,  values)} 
d18

{'a': 1, 'b': 2}

In [58]:
{k: 2 * v for (k,  v) in d18.items()}

{'a': 2, 'b': 4}

In [59]:
# Скобки при распаковке картежа можно опускать
{k: 2 * v for k, v in d18.items()}

{'a': 2, 'b': 4}

In [60]:
{e: e ** 2 for e in range(10)}

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}

In [61]:
print(d18)
{k: 2 * v for k, v in d18.items() if v % 2 == 0}

{'a': 1, 'b': 2}


{'b': 4}

In [62]:
{k: 0 for k in d18} 

{'a': 0, 'b': 0}

# >

---