# Elements of functional programming

Немного об этом от самого [Гвидо](http://python-history.blogspot.com/2009/04/origins-of-pythons-functional-features.html)

In [15]:
from operator import itemgetter, attrgetter, methodcaller

## itemgetter

In [16]:
some_data = [
    ('A', 'JP', 36.933, (1, 139.691667)),
    ('B', 'IN', 21.935, (28.613889, 77.208889)),
    ('C', 'MX', 20.142, (19.433333, -99.133333)),
    ('A', 'US', 20.104, (-1, -74.020386)),
    ('B', 'BR', 19.649, (-23.547778, -46.635833)),
]

In [17]:
sorted(some_data, key=itemgetter(0))

[('A', 'JP', 36.933, (1, 139.691667)),
 ('A', 'US', 20.104, (-1, -74.020386)),
 ('B', 'IN', 21.935, (28.613889, 77.208889)),
 ('B', 'BR', 19.649, (-23.547778, -46.635833)),
 ('C', 'MX', 20.142, (19.433333, -99.133333))]

In [18]:
sorted(some_data, key=itemgetter(0, 2))

[('A', 'US', 20.104, (-1, -74.020386)),
 ('A', 'JP', 36.933, (1, 139.691667)),
 ('B', 'BR', 19.649, (-23.547778, -46.635833)),
 ('B', 'IN', 21.935, (28.613889, 77.208889)),
 ('C', 'MX', 20.142, (19.433333, -99.133333))]

Получили сортировку по нескольким параметрам. Также можно написать и с помощью лямбды

In [19]:
sorted(some_data, key=lambda x: (x[0], x[2]))

[('A', 'US', 20.104, (-1, -74.020386)),
 ('A', 'JP', 36.933, (1, 139.691667)),
 ('B', 'BR', 19.649, (-23.547778, -46.635833)),
 ('B', 'IN', 21.935, (28.613889, 77.208889)),
 ('C', 'MX', 20.142, (19.433333, -99.133333))]

## attrgetter

In [20]:
class T:
    name = 'T'

In [21]:
t = T()

In [22]:
T.name, t.name

('T', 'T')

In [23]:
name_caller = attrgetter('name')

In [24]:
name_caller(T)

'T'

In [25]:
name_caller(t)

'T'

## methodcaller

In [26]:
lowcase = methodcaller('lower')

In [27]:
sample_string = 'TODAY IS A GOOD DAY'

In [28]:
lowcase(sample_string)  # sample_string.lower()

'today is a good day'

In [29]:
repl = methodcaller('replace', ' ', '!')
repl(sample_string)

'TODAY!IS!A!GOOD!DAY'

## partial

Иногда бывает, что в конкретной ситуации вы хотите вызывать функцию с фиксированным конкретным параметром, у которого нет дефолтного значения

In [30]:
from functools import partial
from operator import mul

In [31]:
mul(4, 10)

40

In [32]:
triple = partial(mul, 3)

In [33]:
triple(10)

30

## map

In [34]:
list(map(triple, 'abcdefgh'))

['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff', 'ggg', 'hhh']

## filter

In [35]:
list(filter(None, [1, 2, 3, 4]))

[1, 2, 3, 4]

In [36]:
list(filter(None, [1, 0, 3, 4]))

[1, 3, 4]

In [37]:
n = 5
list(filter(lambda x: x > n, [1, 0, 3, 4, 7, 91]))

[7, 91]

## reduce и accumulate

In [38]:
from functools import reduce
from itertools import accumulate

In [39]:
numbers_seq = list(range(1, 11))

In [40]:
numbers_seq

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [41]:
reduce(mul, numbers_seq)

3628800

In [42]:
reduce(lambda x, y: x * y, numbers_seq)

3628800

In [43]:
list(accumulate(numbers_seq, mul))

[1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800]

In [44]:
list(accumulate(numbers_seq, lambda x, y: x * y))

[1, 2, 6, 24, 120, 720, 5040, 40320, 362880, 3628800]

In [45]:
numbers_pairs_seq = [(i, i * 3) for i in range(1, 10)]

In [46]:
numbers_pairs_seq

[(1, 3), (2, 6), (3, 9), (4, 12), (5, 15), (6, 18), (7, 21), (8, 24), (9, 27)]

In [47]:
reduce(lambda tup_one, tup_two: (max(tup_one[0], tup_two[0]), tup_one[1] + tup_two[1]), numbers_pairs_seq)

(9, 135)

**reduce** возвращает итоговое аккумулированное значение, а **accumulate()** -- еще и все промежуточные вычисления 

## Посчитаем общее количество событий в логах

Пусть у нас есть данные за день в формате `(id пользователя/куки, название аналитического событий, число событий за единицу времени)`. Такая постановка задачи типична для многих компаний, в которых есть аналитика действий пользователей на сайте

In [48]:
event_log = [
    (11214, 'search', 5),
    (11215, 'item_view', 1),
    (11216, 'item_viewphone', 10),
    (11217, 'item_view', 2),
    (11218, 'item_viewphone', 4),
    (11219, 'item_view', 6),
    (11210, 'item_viewphone', 2),
    (11234, 'item_view', 4),
    (11264, 'item_view', 3),
    (11224, 'item_viewphone', 1),
    (11204, 'search', 6),
    (12214, 'search', 34),
    (13214, 'item_view', 3),
    (14214, 'item_view', 1000),
    (15214, 'item_viewphone', 2000),
    (16214, 'item_viewphone', 3444),
    (17214, 'item_view', 0),
    (18214, 'item_viewphone', 12),
    (19214, 'search', 244),
    (29214, 'item_viewphone', 4),
    (30214, 'item_view', 56),
    (48214, 'item_viewphone', 5),
    (67214, 'item_view', 2),
]

Сделаем некоторые несложные задачи на этих данных

1. Отфильтруем аномальные поля. Давайте считать поле аномальным, если его значение > 500

In [49]:
# code
list(filter(lambda elem: elem[2] <= 500, event_log))

[(11214, 'search', 5),
 (11215, 'item_view', 1),
 (11216, 'item_viewphone', 10),
 (11217, 'item_view', 2),
 (11218, 'item_viewphone', 4),
 (11219, 'item_view', 6),
 (11210, 'item_viewphone', 2),
 (11234, 'item_view', 4),
 (11264, 'item_view', 3),
 (11224, 'item_viewphone', 1),
 (11204, 'search', 6),
 (12214, 'search', 34),
 (13214, 'item_view', 3),
 (17214, 'item_view', 0),
 (18214, 'item_viewphone', 12),
 (19214, 'search', 244),
 (29214, 'item_viewphone', 4),
 (30214, 'item_view', 56),
 (48214, 'item_viewphone', 5),
 (67214, 'item_view', 2)]

Посчитаем количество аномальных полей в данных

In [50]:
# code
len(list(filter(lambda elem: elem[2] > 500, event_log)))

3

2. Агрегируем события заданного типа, используя только неаномальные поля

In [51]:
event_type = 'item_viewphone'

In [52]:
# code
reduce(
    lambda tup_one, tup_two: ('Result', event_type, tup_one[2] + tup_two[2]),
    filter(lambda elem: elem[2] <= 500 and elem[1] == event_type, event_log)
)

('Result', 'item_viewphone', 38)

Нужно помнить про формат возвращаемого значения в передаваемой лямбде. Как вариант, можно поддерживать исходный формат данных

Главное условие, накладываемую на функцию -- чтобы она могла быть вызвана от результатом своего выполнения и следующего элемента последовательности 

```operation((11214, 'a', 5), (11215, 'a', 1)) -> operation(prev result, (2141241, 'a', 124124)) -> ...```

```[
 (11214, 'a', 5),
 (11215, 'a', 1),
 (2141241, 'a', 124124),
]```

In [53]:
reduce(
    lambda tup_one, tup_two: (tup_one[-1] + tup_two[-1],),
    filter(lambda elem: elem[2] <= 500 and elem[1] == event_type, event_log)
)

(38,)

# Наследование

Повторное использование свойств объектов с описанием различий.

"А можно сделать вот так же, как тут, только в некоторых пунктах мы делаем изменения"

In [177]:
class Parent:
    def __init__(self, identity: str):
        self.identity = identity 
    
    def get_identity(self):
        return self.identity

In [178]:
class Child(Parent):
    def get_identity(self):
        return 'AAAAAAA'

In [179]:
p = Parent('I am parent')
p.get_identity()

'I am parent'

In [180]:
c = Child('I am child')

In [181]:
c.get_identity()

'AAAAAAA'

Порядок видимости снизу вверх: объект -> класс -> родительский класс

Для доступа к полям родителя используется `super()`

In [182]:
class Child(Parent):
    def get_identity(self):
        parent_get_identity = super().get_identity()
        print("Parent's get_id", parent_get_identity)
        return parent_get_identity + ' AAAAAAAAAAAAAAAaa'

In [185]:
c = Child('B')

In [186]:
c.get_identity()

Parent's get_id B


'B AAAAAAAAAAAAAAAaa'

Хотим расширить init

In [187]:
class Parent:
    def __init__(self, identity):
        self._identity = identity
        print(f'parent initted {self._identity}')
        
    def get_identity(self):
        return self._identity
    
class Child(Parent):
        
    def __init__(self, parent_identity, child_identity):
        super().__init__(parent_identity)
        
        self._child_identity = child_identity
    
    def get_child_identity(self):
        return self._child_identity

In [188]:
p = Parent('AAAAAA')

parent initted AAAAAA


In [189]:
c = Child('AAAAAAAAAAAAAAA', 'BBBBBBBBBB')

parent initted AAAAAAAAAAAAAAA


In [190]:
c.get_identity()

'AAAAAAAAAAAAAAA'

In [191]:
c.get_child_identity()

'BBBBBBBBBB'

In [192]:
c.__dict__

{'_identity': 'AAAAAAAAAAAAAAA', '_child_identity': 'BBBBBBBBBB'}

In [193]:
c._identity

'AAAAAAAAAAAAAAA'

Предполагается, что если пользователь переопредляет имя, значит он этого хочет.

Если создатель класса не хочет, чтобы какое-то поле было явно перегружено, то можно, например, использовать дескрипторы или особый нейминг:

    - есть общее соглашение, что переменные, названные с `_` не надо трогать вне класса, в котором они объявлены
    - в Python предусмотрен механизм защиты атрибутов названием, начинающися с `__`

In [202]:
class StrictParent:
    def __init__(self, identity: str):
        self.__identity = identity
    
class Child(StrictParent):
    def __init__(self, identity: str):
        super().__init__(identity)
        self.__identity = identity

class BadChild(StrictParent):
    def __init__(self, identity: str):
        super().__init__(identity)
        self._StrictParent__identity = identity

In [203]:
c = Child('BBBBBBB')

Произошло переименование

In [204]:
c.__dict__

{'_StrictParent__identity': 'BBBBBBB', '_Child__identity': 'BBBBBBB'}

Но если мы явно переопределяем атрибут, как сделали это в классе `BadChild`, нам никто не мешает стрелять себе по ногам

In [205]:
bad_child = BadChild('RAAAAAAR')

In [206]:
bad_child.__dict__

{'_StrictParent__identity': 'RAAAAAAR'}

In [207]:
c.__dict__

{'_StrictParent__identity': 'BBBBBBB', '_Child__identity': 'BBBBBBB'}

## Обработка исключений

Если написать просто except, будут перехвачены все исключения

In [208]:
a = '1234'

try:
    a[0] = '10'
except:
    print('impossible to modify object')

impossible to modify object


Может быть соблазн писать подобный код. Но это нехорошо, потому что мы совсем никак не сохраняем информацию о встреченных исключениях

In [209]:
a = '1234'

try:
    a[0] = '10'
except:
    pass  # так плохо

In [210]:
a = '1214'
a[0] = '10'

TypeError: 'str' object does not support item assignment

Основное правило обработки исплючений в том, что перехватываются исключения переданного класса и всех его наследников

In [212]:
a = '1234'

try:
    a[0] = '10'
except TypeError:
    print('impossible to modify object')

impossible to modify object


In [215]:
a = '1234'

try:
    a[0] = '10'
except BaseException:
    print('impossible to modify object')
finally:
    print('run finally in any case')

impossible to modify object
run finally in any case


Блок finally выполняется всегда

TypeError являтся наследником BaseException, поэтому мы перехватили

In [54]:
issubclass(TypeError, BaseException)

True

In [216]:
a = [1, 2]

try:
    a[0] = '10'
except BaseException:
    print('impossible to modify object')
finally:
    print('run finally in any case')

run finally in any case


In [217]:
issubclass(TypeError, BaseException), issubclass(ValueError, BaseException)

(True, True)

In [124]:
TypeError.mro(), ValueError.mro()  # смотрим цепочку наследования

([TypeError, Exception, BaseException, object],
 [ValueError, Exception, BaseException, object])

Можно создать свой класс с красивым названием, отнаследовавшись от какого-то другого класса исключения

In [218]:
class CustomStringException(BaseException):
    pass

Блок else выполняется, если не было исключений

In [219]:
a = '1234'

try:
    a[0] = '10'
    
except TypeError as e:
    raise CustomStringException(e)

else:
    print('successfully modified', a)

CustomStringException: 'str' object does not support item assignment

In [220]:
a = ['1234', 2, 3]

try:
    a[0] = '10'
    
except TypeError as e:
    raise CustomStringException(e)

else:
    print(f'successfully modified {a=}')

successfully modified a=['10', 2, 3]


In [221]:
raise CustomStringException('some message')

CustomStringException: some message

Можно по очереди обрабатывать несколько типов исключений в рамках одного блока try except

In [222]:
class A(BaseException):
    pass

class B(A):
    pass

class C(B):
    pass

for cls in [C, A, B]:
    try:
        print(f'raised {cls.__name__}')
        raise cls()
    
    except A:
        print('A')
    
    except C:
        print('C')
        
    except B:
        print('B')
        
  

raised C
A
raised A
A
raised B
A


In [223]:
for cls in [C, A, B]:
    try:
        print(f'raised {cls.__name__}')
        raise cls()
    
    except B:
        print('B')
    
    except C:
        print('C')
        
    except A:
        print('A')
        
  

raised C
B
raised A
A
raised B
B


In [134]:
for cls in [C, A, B]:
    try:
        print(f'raised {cls.__name__}')
        raise cls()
    
    except C:
        print('C')
    
    except B:
        print('B')
        
    except A:
        print('A')

raised C
C
raised A
A
raised B
B


Родительское исключение будет перехватывать исключения всех своих наследников

## Немного про метаклассы

http://uneex.org/LecturesCMC/PythonIntro2022/12_MetaclassAnnotations -- очень советую лекцию

Совсем-совсем-совсем немного проговорим про метаклассы.

Классы создают свои инстансы, а кто создает сами классы? Стандартный механизм -- метакласс type

In [56]:
class A:
    field = '1337'

In [57]:
print(type('some_string'))
print(type(42))
print(type(A))

<class 'str'>
<class 'int'>
<class 'type'>


In [58]:
AClass = type('AClass', (A,), {'echo_name': lambda self: print(self.__class__.__name__)})

# код выше является алиасом к
# class AClass(A):
#     def echo_name(self):
#         print(self.__class__.__name__)

In [243]:
a = AClass()

In [236]:
a.field

'1337'

In [237]:
a.echo_name()

AClass


In [242]:
A.__class__

type

In [248]:
a.__class__.__class__

type

## Возможные проблемы с наследованием от стандартного типа

В чем могут быть проблемы при наследовании от стандартных типов

In [259]:
class DoubleDict(dict):
    def __setitem__(self, key, value):
        super().__setitem__(key, value * 2)
        
#     def update(self, d: dict):
#         for key, val in d.items():
#             self.__setitem__(key, val)

In [260]:
double_d = DoubleDict()

In [261]:
double_d['sdf'] = 2
double_d

{'sdf': 4}

In [262]:
double_d.update({'afaf': 24, '41': 12})
double_d

{'sdf': 4, 'afaf': 24, '41': 12}

Проигнорили setitem

In [264]:
class AnswerDict(dict):
    def __getitem__(self, key):
        return 42

In [265]:
ad = AnswerDict(a='answer')

In [267]:
ad['a']

42

In [268]:
simple_dict = {}
simple_dict.update(ad)

In [269]:
simple_dict

{'a': 'answer'}

Проигнорили getitem

Так произошло потому, что реализация метода update не использует измененные методы. Пофиксить можно наследованием от "пользовательского словаря" из модуля collections.

In [271]:
from collections import UserDict

In [272]:
class DoubleDict(UserDict):
    def __setitem__(self, key, value):
        super().__setitem__(key, value * 2)

In [273]:
double_d = DoubleDict()

In [274]:
double_d['sdf'] = 2
double_d

{'sdf': 4}

In [275]:
double_d.update({'afaf': 24, '41': 12})
double_d

{'sdf': 4, 'afaf': 48, '41': 24}

In [276]:
class AnswerDict(UserDict):
    def __getitem__(self, key):
        return 42

In [277]:
ad = AnswerDict(a='answer')

In [278]:
ad['a']

42

In [280]:
ad.__dict__

{'data': {'a': 'answer'}}

In [281]:
simple_dict = {}
simple_dict.update(ad)

In [282]:
simple_dict

{'a': 42}

# Финальные бонусы

Два несложных бонуса напоследок, чтобы нафармить себе автомат :)

## Поисковый индекс (2  балла)

https://en.wikipedia.org/wiki/Inverted_index

Давайте разберем на примере самый простой способ реализации быстрого поиска слов в заданном корпусе текстов -- создание инвертированного индекса

Предположим, что у нас есть директория с большим количеством текстовых файлов -- N. Мы хотели бы один раз по ним пройтись и научиться выдавать документы, в которых есть то или иное ключевое слово.

Алгоритм построения инвертированного индекса:

0. Построить словарь соответствия, где каждому уникальному слову будет поставлен в соответствие некоторый внутренний id: `{word_1 : 0, word_2: 1 ...}`. Можно делать "на лету"
1. Прочитать все документы и собрать все пары `(wordID, docID)`. Для простоты предполагаем, что количество слов в документах нам не важно, важен сам факт, что в документе **docID** есть слово **wordID** (hence, какой тип данных нам будет удобен?)  
2. Сгруппировать пары так, чтобы у нас получились новые пары `(wordID, [list of docIDs])` 


Ваша задача -- написать класс `DirectoryIndex`, который:

- Будет создавать инвертированный индекс для текстовых файлов, находящихся в переданном пути (и игнорировать остальные типы). Делать ли рекурсивный обход всех вложенных папок или нет -- на ваше усмотрение (если будете реализовывать, добавьте параметр). Если переданная папка пустая или не содержит текстовых файлов, следует выбросить исключение с сообщением об этом.
- По принимаемому слову выдает список названий документов, в которых оно содержится. Если таких документов нет, то выводить пустой список
- Может обновлять построенный индекс новыми текстовыми файлами

Советую вынести в отдельную функцию обработку одного файла, и использовать ее при построении общего инвертированного индекса.

Для работы с файлами и директориями вам поможет модуль **os**

Шаблон с основными функциями. Детали остальной внутренней реализации на ваше усмотрение

In [None]:
class DirectoryIndex:
    
    def __init__(self, dirpath: str, encoding: str='utf-8'):
        pass
    
    def find_documents(self, word: str) -> list:
        pass
    
    def update(self, filepath: str, encoding: str='utf-8'):
        pass
    
    @property
    def inverted_index(self):
        pass
    

Проверьте работу на коллекции файлов по [ссылке](https://drive.google.com/file/d/1YNy315BqnKLGxgKfhjGmdU40IkIqKTNp/view?usp=share_link). Файлы могут иметь отличную от utf-8 кодировку. Погуглите, как с этим справляться 

PS Для файлов по ссылке должна работать одна из кодировок `cp12**`

Референс для самопроверки.

```python
test_word = 'shakespeare'
directory_index.find_documents()

-> {0, 1, 2, 3, 7, 12, 15, 19, 20, 30, 33, 34, 39, 44}
```

PPS На практике часто используется подход векторизации для поиска похожих документов или документов, содержащих определенное слово. In a nutshell, каждому документу в базе сопоставляется вектор, и тогда поиск похожих документов будет равносилен вычислению некоторой метрики расстояния между векторами документов и взятия ближаших. Часто используемая метрика -- косинусное расстояние. Один из простых способов задания вектора:
- взять топ N самых популярных слов в базе, где N определит нашу размерность данных
- сопоставить каждому слову слову позицию от 0 до N
- сформировать вектор как `[tf-idf(word_0), ..., tf-idf(word_N)]`

Понятно, что у данного способа много недостатков, но на практике это может быть достаточно неплохим бейзлайном. Если вам интересно, можете реализовать такую логику в рамках класса DirectoryIndex вместо второго бонуса (только реализовать самим и аккуратно!)

## Декоратор -- assert типов (2 балла)

Мы уже говорили про type hints, а также про то, что никаких ошибок без использования сторонних модулей некорректные типы нам не дадут. Давайте реализуем логику проверки типов с помощью декоратора.

Типы могут быть заданы как стандартными названиями, так и с использованыем модуля `typing`. Для Any пропускайте проверку. Для сложных типов вроде `List[List[int]]` проверяйте только на самый первый (для данного примера проверьте, что переданные данные являются списком). Вам поможет функция `get_origin`

In [62]:
import typing

In [9]:
@check_types
def func(a: int, b: str) -> str:
    return a * b

Стоит выбросить `ValueError` или вашу собственную ошибку, если есть несовпадение между реальным и ожидаемым типом у какой-то из переданных переменных или у возвращаемого значения. В сообщении должна быть информация о том, в каком аргументе найдено несовпадение, какой тип ожидался и какой был получен.

**Что-то из написанного ниже может помочь для выполнения задания**

In [67]:
from typing import get_origin

print(get_origin(list[list[int]]))
print(get_origin(dict[tuple[int]]))
print(get_origin(typing.List[typing.List[int]]))

<class 'list'>
<class 'dict'>
<class 'list'>


In [68]:
def func(a: int, b: int) -> str:
    pass

In [69]:
func.__annotations__

{'a': int, 'b': int, 'return': str}

In [75]:
import inspect

inspect.signature(func)

<Signature (a: int, b: int) -> str>

In [78]:
sig = inspect.signature(func)

In [91]:
dir(sig.parameters['a'])

['KEYWORD_ONLY',
 'POSITIONAL_ONLY',
 'POSITIONAL_OR_KEYWORD',
 'VAR_KEYWORD',
 'VAR_POSITIONAL',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '_annotation',
 '_default',
 '_kind',
 '_name',
 'annotation',
 'default',
 'empty',
 'kind',
 'name',
 'replace']

In [95]:
sig.parameters['a'].annotation

int

In [96]:
isinstance(4, sig.parameters['a'].annotation)

True

In [82]:
sig.bind(1, 2).arguments

{'a': 1, 'b': 2}

In [83]:
sig.bind(b=1, a=2).arguments

{'a': 2, 'b': 1}