# Работа с текстом. Декораторы

Алексей Умнов https://www.youtube.com/watch?v=0sg15V669qM  
Слайды доступны по адресу: http://parallels.nsu.ru/~fat/Python/

## Работа с кодировками

### Первая часть относится к Python версии 2.x

Кодировка
* Алгоритм кодирования E  
  Символы ---> Байты
* Алгоритм декодирования D  
  Байты ---> Символы

D = (E в степени -1)

Обычно просто таблица Символ <---> Байты

В Python есть тип `str` - последовательность байт:

|symbol  | byte |
|--------|------|
| 'a'    | 0x61 |
| '\n'   | 0x0A |
| '\xff' | 0xff |

In [5]:
print('a', '\x61')
print('\x0a') # Символ новой строки

a a




В Python есть тип `unicode` - последовательность символов:

|           |   |
|-----------|   |
| u'Q'      | Q |
| u'щ'      | щ |
| u'\u0449' | щ |

In [6]:
print(u'привет')

привет


#### unicode -> str:

In [7]:
u = u'эюя'

print(type(u))         # <class 'str'>
s = u.encode('utf-8')  # Кодирование в байты, кодировка UTF-8
print(type(s))         # <class 'bytes'>
print(s)               # b'\xd1\x8d\xd1\x8e\xd1\x8f'

<class 'str'>
<class 'bytes'>
b'\xd1\x8d\xd1\x8e\xd1\x8f'


#### str -> unicode:

In [8]:
u2 = s.decode('utf-8') # Раскодирование из байт в символы
print(type(u))         # <class 'str'>
print(u2)              # эюя

<class 'str'>
эюя


Кодирование данных:

````python
with open('in.txt') as fin:
  data_in = fin.read() # Получили из файла байты
text_in = data_in.decode('utf-8') # Раскодировали байты в символы

...

text_out = ...

data_out = text_out.encode('utf-8') # Текст кодируется в последовательность байт таблицы UTF-8
with open('out.txt', 'w') as fout:
  fout.write(data_out)    # Записывается последовательность байт
````

Эту схему можно упростить с помощью библиотеки `codecs`:

````python
import codecs

with codecs.open('in.txt', encoding='utf-8') as fin:
  text_in = fin.read()

...

text_out = ...

with codecs.open('out.txt', 'w', encoding='utf-8') as fout:
  fout.write(text_out)
````

### Строки в Python 3.x

| Тип   | Запись     | Аналог в Python 2 |
|-------|------------|-------------------|
| str   | 'привет'   | unicode           |
| bytes | b'abc\xff' | str               |

В Python 3 тип `str` превратился в `bytes`, а `unicode` в `str`.

## Регулярные выражения

In [9]:
import re

text = """In September 1769 she reached New
Zealand, the first European vessel to visit
in 127 years."""

m = re.search('i', text)             # Возвращает первое вхождение
print(m)                             # Возвращает некий объект у которого есть методы:
print(m.group(), m.start(), m.end()) # Получаем вхождение по шаблону, начало и конец номера символа

<_sre.SRE_Match object; span=(48, 49), match='i'>
i 48 49


Функция с форматированием результата:

In [11]:
def search_result(pattern, text):
    print('RE pattern:', pattern)
    
    for m in re.finditer(pattern, text): # finditer - находит все вхождения
        print("Найдена группа '{0}', диапазон символов: {1}-{2}".format(m.group(), m.start(), m.end()))


search_result('i', text)
search_result('[0-9]+', text)

RE pattern: i
Найдена группа 'i', диапазон символов: 48-49
Найдена группа 'i', диапазон символов: 73-74
Найдена группа 'i', диапазон символов: 75-76
Найдена группа 'i', диапазон символов: 78-79
RE pattern: [0-9]+
Найдена группа '1769', диапазон символов: 13-17
Найдена группа '127', диапазон символов: 81-84


Если попытаться найти `backslash` в тексте из одного `backslash`, то получим ошибку:

In [14]:
try:
    search_result('\\', '\\')
except Exception as e:
    print(e)

RE pattern: \
bad escape (end of pattern) at position 0


Ошибка возникает потому, что этот символ должен экранироваться в регулярных выражениях. Исправим наш шаблон регулярных выражений:

In [15]:
search_result('\\\\', '\\')

RE pattern: \\
Найдена группа '\', диапазон символов: 0-1


Страдание с подсчетом экранирующих символов `backslash` можно избежать, вписав управляющий символ `r` перед строкой, который обозначает сырую (raw) строку:

In [16]:
search_result(r'\\', '\\')

RE pattern: \\
Найдена группа '\', диапазон символов: 0-1


Еще примеры. Точка в RE - любой символ. Если хотим найти только с символом точки, то ее надо экранировать:

In [17]:
search_result(r's.', text)

RE pattern: s.
Найдена группа 'sh', диапазон символов: 18-20
Найдена группа 'st', диапазон символов: 50-52
Найдена группа 'ss', диапазон символов: 64-66
Найдена группа 'si', диапазон символов: 74-76
Найдена группа 's.', диапазон символов: 89-91


In [18]:
search_result(r's\.', text)

RE pattern: s\.
Найдена группа 's.', диапазон символов: 89-91


In [19]:
search_result(r'sh*e', text)

RE pattern: sh*e
Найдена группа 'she', диапазон символов: 18-21
Найдена группа 'se', диапазон символов: 65-67


In [20]:
search_result(r'.s+.', text)

RE pattern: .s+.
Найдена группа ' sh', диапазон символов: 17-20
Найдена группа 'rst', диапазон символов: 49-52
Найдена группа 'esse', диапазон символов: 63-67
Найдена группа 'isi', диапазон символов: 73-76
Найдена группа 'rs.', диапазон символов: 88-91


In [21]:
m = re.search(r'(\w+)\s*([0-9]+)', text)
print(m.group(0))

September 1769


Если есть необходимость, то можно вывести только часть того, что совпало, Python их называет группами и нумерует:

In [22]:
print(m.group(1))

September


In [23]:
print(m.group(2))

1769


В библиотеке еще много полезных функций:

* **match**   - Поиск только в первой позиции
* **split**   - Разбиение текста на части
* **sub**     - Замена в тексте
* **compile** - Компиляция выражения для многократного использования

Еще у этих функций есть флаги:

* **IGNORECASE** - Игнорирование регистра символов
* **UNICODE**    -
* **VERBOSE**    - Позволяет разбивать RE на несколько строк, а также их комментировать
* **MULTILINE**  - Символ `.` (точка) в RE ищет до конца строки, а если включить этот флаг, то символ перевода строки будет проигнорирован и поиск будет во всем тексте.

## Расширенная работа с аргументами

Обычная функция у которой 2 аргумента:

In [24]:
def complex(real, imag):
    return real + 1j * imag

x = complex(1, 2)  # Передаются 2 аргумента

Значения аргументов по умолчанию:

In [25]:
def complex(real, imag=0):
    return real + 1j * imag

x = complex(1) # Передается только один аргумент, второй у функции по умолчанию

#### Запаковка аргументов

Функции можно "сказать", что у нас переменное число аргументов, они запакуются в тип `tuple` и передадутся в функцию:

In [26]:
def complex(*args):
    return args[0] + 1j * args[1]

x = complex(1, 2) # Переданные аргументы в функции запаковываются в tuple()

#### Смешанные аргументы

Не обязательно делать аргументы только конечного числа или переменной длины, можно их смешивать. Аргумент с переменным числом аргументов должен всегда идти после фиксированных именованных аргументов:

In [30]:
def complex(real, *other):
    print('real:', real)
    print('other:', other)
    return real + 1j * other[0]

x = complex(1, 2, 3, 4) # Второй и последующие аргументы в функции запаковываются в tuple()

real: 1
other: (2, 3, 4)


#### Распаковка аргументов

In [31]:
def complex(real, imag):
    return real + 1j * imag

args = (1, 2)
x = complex(*args) # Символом "звездочка" происходит распаковка аргументов в функции

#### Передача аргументов по ключу

Кроме порядковых аргументов, существуют еще именованные. Аргументы можно передавать не по порядку, а по именам. Их можно смешивать с порядковыми аргументами:

In [32]:
x = complex(real=1, imag=2)
x = complex(3, imag=4)

#### Распаковка по ключу

Именованные аргументы могут быть в произвольном количестве, для этого нужно поставить перед аргументом две звездочки. Фактически это означает, что в функцию передается произвольное количество именованных аргументов, к каждому из которых можно обратится в функции по имени. Именованные аргументы должны всегда идти после порядковых, например:

````python
def f(*args, **kwargs)
````

In [33]:
def complex(**kwargs):
    print('kwargs:', kwargs)
    return (kwargs['real'] + 1j * kwargs['imag'])

x = complex(real=1, imag=2, hi=3)

kwargs: {'real': 1, 'imag': 2, 'hi': 3}


#### Запаковка аргументов в словарь

In [35]:
kwargs = {'real': 1, 'imag': 2} # Запаковка аргументов
x = complex(**kwargs)           # Распаковка словаря и передача аргументов в функцию в которой происходит запаковка

kwargs: {'real': 1, 'imag': 2}


В Python не существует перегрузки функций. Дважды назвать функцию с разными аргументами не удастся. Вместо перегрузки функций предлагается передача с помощью механизма переменного числа аргументов.

## ООП. Декараторы

Декоратор:
* Функция, модифицирующая другую функцию
* Используется для упрощения кода

### Использование декоратора
Например, для отладки это может быть удобно. Декоратор должен получать функцию на вход в качестве аргумента. Функция помещается в другую функцию и оборачивается (декорируется) необходимыми методами, сообщениями и прочим:

In [36]:
def notify_about_calls(func):
    def decorated(*args, **kwargs):
        print('Called function:', func.__name__)
        return func(*args, **kwargs) # Изначальная функция возвращается, когда функция decorated будет вызвана
    
    # Внимание!!!
    # Здесь нет круглых скобок, декорированная функция не вызывается здесь!!!
    # Это возврат задекорированной функции (объекта!)
    return decorated

Есть обычная функция... которую мы хотим задекорировать:

In [37]:
def f(a, b):
    return a + b

g = notify_about_calls(f) # Модифицируем (декорируем) функцию 'f'
print(g(1, 2))            # Вызываем декорированную функцию

Called function: f
3


Упрощенная запись декорирования:

In [38]:
@notify_about_calls # Синтаксический 'сахар' Python'а
def f(a, b):
    return a + b

print(f(10, 20))    # Вызываем декорированную функцию

Called function: f
30


Эквивалентно:

In [39]:
def f(a, b):
    return a + b

f = notify_about_calls(f)
print(f(100, 200))

Called function: f
300


Таким образом можно применить несколько декараторов:

````python
@decorator1
@decorator2
def f(a, b):
    return a + b
````

Эквивалентно:

````python
def f(a, b):
    return a + b

f = @decorator1(@decorator2(f))
````

### Классы-декораторы

In [40]:
class Logger():

    def __init__(self, func):
        print('Метод __init__ объекта класса Logger')
        self.func = func
        self.log = []
    
    # Переопределяем оператор круглые скобки "()". Экземпляр класса Logger превращается в функцию.
    def __call__(self, *args, **kwargs):
        print('Метод __call__ объекта класса Logger')
        self.log.append((args, kwargs))  # Логирование порядковых и именованных аргументов
        return self.func(*args, **kwargs)


# Здесь просто присваивается дополнительное имя классу, новая ссылка на класс.
# Объект не создается, так как Logger без круглых скобок!
logged = Logger

# Создание экземпляра класса Logger, в который передается как аргумент функция f.
# Аналогично записи: f = Logger(f) и теперь f не функция, а экземпляр класса Logger,
# а если точнее, то его метод __call__()
@logged
def f(x, y=0):
    pass


f(1)             # Вызывается экземпляр класса Logger, в котором переопределен оператор круглых скобок
f(1, y=2)        # Второй вызов экземпляра класса Logger
print(f.log)     # [((1,), {}), ((1,), {'y': 2})] - 2 записи в логе.

Метод __init__ объекта класса Logger
Метод __call__ объекта класса Logger
Метод __call__ объекта класса Logger
[((1,), {}), ((1,), {'y': 2})]


### Метаданные функций

После декорации, если вызвать документацию у функции, то она пропадает вместе с именем функции:

In [42]:
@notify_about_calls
def some_function(x, y):
    """Docstring."""
    return x + 2 * y

some_function(1, 2)
print(some_function.__name__) # decorated
print(some_function.__doc__)  # None

Called function: some_function
decorated
None


Можно исправить функцию деоратор `notify_about_calls`, но можно не заморачиваться, а использовать библиотеку `functools`:

In [43]:
import functools

def notify_about_calls(func):
    @functools.wraps(func)
    def decorated(*args, **kwargs):
        # __name__ это мета атрибут, создается автоматически для каждого объекта:
        print('Called function:', func.__name__)
        return func(*args, **kwargs)
    # Здесь нет круглых скобок, это не вызов функции!!! Это возврат задекорированной функции (объекта!)
    return decorated

@notify_about_calls
def some_function(x, y):
    """Docstring."""
    return x + 2 * y


some_function(1, 2)
print(some_function.__name__) # some_function
print(some_function.__doc__)  # Docstring.

Called function: some_function
some_function
Docstring.


### Декоратор staticmethod

В классах иногда хочется сделать методы статическими, в том плане, что они не должны зависеть от объектов с которыми они работают.

staticmethod:
* Применяется к методу класса
* Делает метод статическим
* Позволяет игнорировать экземпляр `self`

In [44]:
class A():

    @staticmethod
    def f(a, b):     # self не используется, метод статический. Его можно вызвать через класс или объект
        print(a + b)


a = A()   # Создание экземпляра класса
a.f(1, 2) # Статический вызов через объект "a"
A.f(1, 2) # Статический вызов через класс "A", без создания экземпляра (объекта)

3
3


### Декораторы с аргументами

Как сделать такой декоратор который бы принимал на вход аргумент, например, для проверки возвращаемого типа?

````python
@check_return_type(float)
def calculate_something(a, b, c):
    ...
    return x
````

Получается у нас такая функция в три уровня:

````python
def check_return_type(type_):
    def decorator(func):
        def decorated(*args, **kwargs):
            val = func(*args, **kwargs)
            assert isinstance(val, type_) # assert - Если False, то генерируется исключение
        return decorated
    return decorator
````