## 5. Внутренности языка

> «Python — это эксперимент по определению степени свободы программистов. Слишком много свободы, и никто не может читать чужой код; слишком мало — и выразительность находится под угрозой.»  
>  
> Гвидо Ван Россум.  

![Language skeleton](https://raw.githubusercontent.com/amaargiru/pycore/main/pics/05_Language_Skeleton.png)  

## Сборщик мусора

Стандартный интерпретатор Python (CPython) использует для сборки мусора два алгоритма: подсчет ссылок (reference counting, неотключаемый механизм) и garbage collector (стандартный модуль gc из Python, отключаемый). Алгоритм подсчета ссылок не умеет определять циклические ссылки.

Циклические ссылки могут находиться только в “контейнерных” объектах, т.е. в объектах, которые могут хранить другие объекты, например в списках, словарях, классах и кортежах. GC не следит за простыми и неизменяемыми типами, за исключением кортежей. Некоторые кортежи и словари также исключаются из списка слежки при выполнении определенных условий. Со всеми остальными объектами гарантированно справляется алгоритм подсчета ссылок.

В отличие от алгоритма подсчета ссылок, циклический GC не работает постоянно, а запускается периодически. GC разделяет все объекты на 3 поколения. Новые объекты попадают в первое поколение. Если новый объект выживает процесс сборки мусора, то он перемещается в следующее поколение. Чем выше поколение, тем реже оно сканируется. Так как новые объекты зачастую имеют очень маленький срок жизни (являются временными), то имеет смысл опрашивать их чаще, чем те, которые уже прошли через несколько этапов сборки мусора.  
В каждом поколении есть специальный счетчик и порог срабатывания, при достижении которого начинается процесс сборки мусора. Как только в Python создается какой-либо контейнерный объект, он проверяет эти пороги. Если условия срабатывают, то начинается процесс сборки мусора.  
Стандартные пороги срабатывания для поколений установлены на 700, 10 и 10 соответственно, но всегда можно изменить их с помощью функций gc.get_threshold и gc.set_threshold.

Алгоритм поиска циклических ссылок: говоря кратко, GC проходит по всем объектам из выбранного поколения и временно удаляет все ссылки от каждого объекта. Все объекты, у которых после этого счетчик ссылок меньше двух, считаются недоступными и могут быть удалены.

Ручной отлов циклических ссылок возможен благодаря наличию у GC отладочному флагу DEBUG_SAVEALL, с которым все недоступные объекты будут добавлены в список gc.garbage:
```python
gc.set_debug(gc.DEBUG_SAVEALL)
```
Список gc.garbage, в свою очередь, можно визуализировать с помощью objgraph (для этого нужно установить [Graphviz](https://www.graphviz.org/download/)):

In [2]:
import objgraph

x = []
y = [x, [x], dict(x=x), set({'a', 'b', 'c'})]
objgraph.show_refs([y], filename='garbage-graph.png')

Graph written to C:\Users\HOMEOW~1\AppData\Local\Temp\objgraph-zmelodkb.dot (8 nodes)
Image generated as garbage-graph.png


<img src="garbage-graph.png" style="height:350px">

В других интерпретаторах Python имеются другие механизмы сборки мусора. Например, в сборщике мусора интерпретатора PyPy (который называется Incminimark), можно полностью отключить GC при помощи команды gc.disable(), и использование памяти приложением будет расти бесконечно, пока вы не скомандуете gc.enable() или gc.collect().

В PyPy также есть также команда "собрать чуть-чуть мусора, постаравшись уложиться в одну миллисекунду" - gc.collect_step(). Сборка мусора выполняется небольшими порциями, что снижает задержки в работе программы. Это особенно важно для приложений, работающих в реальном времени.

Если в процессе работы вы строите большую структуру данных, которая вам точно не нужна сразу после использования, то имеет смысл вызвать сборщик мусора в ручном режиме для уменьшения фрагментации памяти:

```python
import gc

del my_big_object
gc.collect()
```

На необходимость ручного вызова сборщика мусора есть разные точки зрения, но в целом такая процедура признаётся полезной ([обсуждение](https://stackoverflow.com/questions/1316767/how-can-i-explicitly-free-memory-in-python), смотрите оживлённые комментарии к первому ответу).

### Перехват исключений

Простой пример:

In [None]:
a: float = 0
b: float = 0

try:
    b: float = 1/a
except ZeroDivisionError as e:
    print(f"Error: {e}")

Error: division by zero


Более сложный пример.  
Код в блоке _else_ исполняется только в случае отсутствия исключения.  
Код в блоке _finally_ исполнится в любом случае, было ли вызвано исключение или нет.

In [3]:
import traceback

a: float = 0
b: float = 0

try:
    b: float = 1/a
except ZeroDivisionError as e:
    print(f"Error: {e}")
except ArithmeticError as e:
    print(f"We have a bit more complicated problem: {e}")
except Exception as serious_problem:  # Catch all exceptions
    print(f"I don't really know what is going on: {traceback.print_exception(serious_problem)}")
else:
    print("No errors!")
finally:
    print("This part is always called")

Error: division by zero
This part is always called


### Встроенные исключения

Сокращенное иерархическое дерево встроенных исключений показано ниже:

```text
BaseException
 +-- SystemExit                   # Raised by the sys.exit() function
 +-- KeyboardInterrupt            # Raised when the user press the interrupt key (ctrl-c)
 +-- Exception                    # User-defined exceptions should be derived from this class
      +-- ArithmeticError         # Base class for arithmetic errors
      |    +-- ZeroDivisionError  # Dividing by zero
      +-- AttributeError          # Attribute is missing
      +-- EOFError                # Raised by input() when it hits end-of-file condition
      +-- LookupError             # Raised when a look-up on a collection fails
      |    +-- IndexError         # A sequence index is out of range
      |    +-- KeyError           # A dictionary key or set element is missing
      +-- NameError               # An object is missing
      +-- OSError                 # Errors such as “file not found”
      |    +-- FileNotFoundError  # File or directory is requested but doesn't exist
      +-- RuntimeError            # Error that don't fall into other categories
      |    +-- RecursionError     # Maximum recursion depth is exceeded
      +-- StopIteration           # Raised by next() when run on an empty iterator
      +-- TypeError               # An argument is of wrong type
      +-- ValueError              # When an argument is of right type but inappropriate value
           +-- UnicodeError       # Encoding/decoding strings to/from bytes fails
```

Полное дерево доступно [здесь](https://docs.python.org/3/library/exceptions.html#exception-hierarchy). Проблемы с тем или иным участком кода могу вызывать исключения разных типов, поэтому надо уметь ориентироваться в этом дереве.

### Вызов исключений

In [4]:
from decimal import *

def div(a: Decimal, b: Decimal) -> Decimal:
    if b == 0:
        raise ValueError("Second argument must be non-zero")
    return a/b

try:
    c: Decimal = div(1, 0)
except ValueError as ve:
    print(f"{ve}. We have ValueError, as a planned!")
    # raise # We can re-raise exception

Second argument must be non-zero. We have ValueError, as a planned!


### Выход из программы при помощи вызова исключения SystemExit

In [1]:
import sys

# sys.exit()  # Exits with exit code 0 (success)
# sys.exit(8)  # Exits with passed exit code

### Исключения, определяемые пользователем

In [2]:
class MyException(Exception):
    pass

raise MyException("My car is broken")

MyException: My car is broken

### Дополнение исключений

Начиная с Python 3.11 отлавливаемые исключения можно обогащать дополнительной информацией ([PEP 678](https://peps.python.org/pep-0678/)):

```python
try:
    raise TypeError('Bad type')
except Exception as e:
    e.add_note('We are powerless, we rely on a higher authority')
    raise
```

## Структурированная обработка исключений при помощи @singledispatch

functools.singledispatch может помочь нам и на этот раз, структурировав обработку исключений разных типов. Имейти в виду, что singledispatch выбирает первый подходящий тип в иерархии MRO; для сложных иерархий используйте functools.singledispatchmethod или проверяйте типы вручную.

In [1]:
from functools import singledispatch

# Базовый обработчик
@singledispatch
def handle_exception(e):
    """Обработчик по умолчанию."""
    print(f"Unhandled exception: {e!r}")
    # Можно повторно вызвать исключение, если нужно:
    # raise

# Регистрация обработчиков для конкретных типов исключений
@handle_exception.register(ValueError)
def _(e):
    print(f"ValueError handled: {e}")
    # Логика для ValueError, например, возврат default значения
    return 0

@handle_exception.register(TypeError)
def _(e):
    print(f"TypeError handled: {e}")
    # Логика для TypeError
    return None

@handle_exception.register(ZeroDivisionError)
def _(e):
    print(f"ZeroDivisionError handled: {e}")
    # Возвращаем fallback-значение
    return float('inf')

# Пример использования
def risky_operation(x, y):
    try:
        return x / y
    except Exception as e:
        return handle_exception(e)

# Тестирование
print(risky_operation(10, 2))   # 5.0
print(risky_operation(10, 0))   # ZeroDivisionError handled → inf
print(risky_operation("10", 2)) # TypeError handled → None

5.0
ZeroDivisionError handled: division by zero
inf
TypeError handled: unsupported operand type(s) for /: 'str' and 'int'
None


Та или иная тактика использования исключений — довольно спорная тема, так как систематизация обработки ошибок сильно пересекается с темой общей архитектуры приложения. Поэтому кто-то предлагает использовать обёртки [Success/Failure](https://github.com/dry-python/returns), кто-то создаёт свои классы исключений, которые имеют расширенные функции логгирования и призваны облегчить отладку.

Интересно, что создатели относительно нового языка программирования Go, имея перед глазами самые свежие спецификации языков, в том числе и C#, и Python, имеющих развитые методы работы с исключениями, сознательно отказались от структурной обработки исключений, возвращая код ошибки как один из результатов функции, так что породило многословность обработки обработки ошибок в Go и даже карикатуры, вроде этой:

<img src="go-nil-button.jpg" style="height:250px">

Одним словом, если философия обработки ошибок в Python кажется вам не совсем "гладкой", не переживайте — вы не одиноки.

Лично я предпочитаю путь, который, можно назвать «классическим»:  
много исключений на этапе отладки, которые помогают сделать отдельные функции более стабильными;  
каждое ожидаемое исключение должно быть обработано как можно раньше;  
на самый верх должны проникнуть только неожиданные исключения (которые, в результате, попадут или в отчет тестировщика или в баг-репорт пользователя и тоже будут купированы).

### Одинарное (_) и двойное (__) подчеркивания. Name mangling.

Python не использует спецификаторы доступа, такие как private, public, protected и т. д. Однако, в нем есть имитации поведения переменных путем использования одинарного или двойного подчеркивания в качестве префикса к именам переменных. По умолчанию переменные без подчеркивания являются общедоступными.

Поле класса с одним лидирующим подчеркиванием говорит о том, что параметр используется только внутри класса. При этом он доступен для обращения извне.

```python
class Foo(object):
    def __init__(self):
        self._bar = 42

Foo()._bar
42
```

Современные IDE вроде PyCharm подсвечивают обращение к полю с подчеркиванием, но ошибки в процессе исполнения не будет.

Поля с двойным подчеркиванием доступны внутри класса, но извне доступны только при обращении к полю вида _<ClassName>__<fieldName> (name mangling). Значение скрытого поля вне класса получить можно, но это смотрится уродливо.

```python
class Foo(object):
    def __init__(self):
        self.__bar = 42

Foo().__bar
  AttributeError: 'Foo' object has no attribute '__bar'

Foo()._Foo__bar
42
```

В целом, джентльменское соглашение Python-программистов подразумевает (простое именование для приватных переменных или использование одинарного подчеркивания для переменных, которые **очень** нежелательно вытаскивать за пределы класса) + использование методов для доступа к переменным
```python
class Stack(object):

    def __init__(self):
        self._storage = []

    def push(self, value):
        self._storage.append(value)
```


### Интроспекция

Анализ метаданных классов во время выполнения.

### Переменные

При вызове функции dir() без аргументов она возвращает список атрибутов (включая функции), доступных в локальной области видимости.

In [1]:
local_variables: list = dir()

locals() возвращает словарь текущей локальной таблицы символов (атрибут \_\_dict\_\_). locals() эквивалентна vars() без аргумента.

In [2]:
local_vars: dict = locals()

globals() возвращает словарь глобальной таблицы символов

In [3]:
global_variables: dict = globals()

print(local_variables)
print(local_vars)
print(global_variables)

['In', 'Out', '_', '__', '___', '__annotations__', '__builtin__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__', '__vsc_ipynb_file__', '_dh', '_i', '_i1', '_ih', '_ii', '_iii', '_oh', 'exit', 'get_ipython', 'quit']
{'__name__': '__main__', '__doc__': 'Automatically created module for IPython interactive environment', '__package__': None, '__loader__': None, '__spec__': None, '__builtin__': <module 'builtins' (built-in)>, '__builtins__': <module 'builtins' (built-in)>, '_ih': ['', 'local_variables: list = dir()', 'local_vars: dict = locals()', 'global_variables: dict = globals()\n\nprint(local_variables)\nprint(local_vars)\nprint(global_variables)'], '_oh': {}, '_dh': [WindowsPath('c:/Works/amaargiru/pycore')], 'In': ['', 'local_variables: list = dir()', 'local_vars: dict = locals()', 'global_variables: dict = globals()\n\nprint(local_variables)\nprint(local_vars)\nprint(global_variables)'], 'Out': {}, 'get_ipython': <bound method InteractiveShell.get_ip

Дабы не углубляться в дебри интроспекции особо глубоко (суть, думаю, вы уже уловили), давайте просто перечислим возможности, предоставляемые ею относительно атрибутов и параметров.

Атрибуты
```text
l: list = dir(object)                      # Имена атрибутов объекта (включая методы)  
d: dict = vars(object)                    # Возвращает object.__dict__.  
value  = getattr(object, 'attr_name')  # Raises AttributeError if attribute is missing.  
b: bool = hasattr(object, 'attr_name')  # Checks if getattr() raises an AttributeError.  
setattr(object, 'attr_name', value)    # Only works on objects with '__dict__' attribute.  
delattr(object, 'attr_name')           # Same. Also `del <object>.<attr_name>`.  
```

### Parameters

<Sig>  = inspect.signature(<function>)     # Function's Signature object.  
<dict> = <Sig>.parameters                  # Dict of Parameter objects.  
<memb> = <Param>.kind                      # Member of ParameterKind enum.  
<obj>  = <Param>.default                   # Default value or <Param>.empty.  
<type> = <Param>.annotation                # Type or <Param>.empty.  

### GIL

Global Interpreter Lock — особенность интерпретатора, когда одновременно может исполняться только один тред, остальные треды в это время простаивают.  

GIL позволяет безопасно согласовывать изменения данных. Без этого, например, если один тред удалит все элементы из списка, а второй начнет итерацию по нему, произойдет ошибка. Аналогично, сборщик мусора может начать некорректно подсчитывать ссылки. Проблему можно решить, установив блокировки на все разделяемые структуры данных, но это привнесло бы дополнительные сложности: оверхед по коду, потерю производительности, возможные deadlocks. GIL позволяет осуществлять простую интеграцию C-библиотек, которые зачастую тоже не потокобезопасны, а также обеспечивает быструю работу однопоточных скриптов.

GIL работает так: на каждый тред выделяется некоторый квант времени. Он измеряется в машинных единицах “тиках” и по умолчанию равен 100. Как только на тред было потрачено 100 тиков, интерпретатор бросает этот тред и переключается на второй, тратит 100 тактов на него, затем третий, и так по кругу. Этот алгоритм гарантирует, что всем тредам будет выделено ресурсов поровну.

Проблема в том, что из-за GIL далеко не все задачи могут быть решены в тредах. Напротив, их использование чаще всего снижает быстродействие программы. С использованием тредов требуется следить за доступом к общим ресурсам: словарям, файлам, соединением к БД.

Как обойти ограничения, накладываемые GIL?  
Вариант 1 — воспользоваться штатной возможностью отключения GIL в версиях Python >= 3.13.
Вариант 2 — использовать альтернативные интерпретаторы Python, например PyPy.  
Вариант 3 — уход от многопоточности в сторону мультипроцессности, используя модуль multiprocessing.

>__Что такое GIL? Что в нём полезного?__
>
>GIL означает Global Interpreter Lock (глобальная блокировка интерпретатора). Это мьютекс, используемый для ограничения доступа к объектам Python и помогающий эффективно синхронизировать потоки, избегая тупиковых ситуаций. GIL гарантирует, что только один из ваших потоков может выполняться в любой момент времени. Поток получает GIL, выполняет небольшую работу, а затем передает GIL следующему потоку. GIL помогает достичь многозадачности (а не параллельных вычислений).
>
>GIL замедляет работу, но упрощает разработку кода и интеграцию с C-библиотеками.
>
>В [Python 3.13](https://docs.python.org/3.13/whatsnew/3.13.html) был внедрен [PEP 703](https://peps.python.org/pep-0703/) и появился флаг --disable-gil, позволяющий отключать GIL.

### *args, **kwargs, *

Выражения *args и **kwargs объявляют в сигнатуре функции. Они означают, что внутри функции будут доступны переменные с именами args и kwargs (без звездочек).

args – это кортеж, который накапливает _позиционные_ аргументы. kwargs – словарь _именованных_ аргументов, где ключ – имя параметра, значение – значение параметра. Вместо args и kwargs можно использовать другие имена (функция всё равно «поймёт», что от неё хотят, благодаря звездочке и двойной звездочке), но эта практика мало распространена.

Если в функцию не передано никаких параметров, переменные будут соответственно равны пустому кортежу и пустому словарю, а не None.

Оператор «звёздочка» применяется для распаковки элементов контейнера.

Вот, например, так выглядит результат включения нераспакованного списка в другой список:

In [1]:
a = [1, 2, 3]
b = [a, 4, 5, 6]
print(b)

[[1, 2, 3], 4, 5, 6]


А вот пример с операцией распаковки (обратите внимание на звёздочку во второй строке кода):

In [2]:
a = [1, 2, 3]
b = [*a, 4, 5, 6]
print(b)

[1, 2, 3, 4, 5, 6]


### Arguments

### Inside Function Call
 
<function>(<positional_args>)                  # f(0, 0)  
<function>(<keyword_args>)                     # f(x=0, y=0)  
<function>(<positional_args>, <keyword_args>)  # f(0, y=0)  

### Inside Function Definition
 
def f(<nondefault_args>):                      # def f(x, y):  
def f(<default_args>):                         # def f(x=0, y=0):  
def f(<nondefault_args>, <default_args>):      # def f(x, y=0):  
 
A function has its default values evaluated when it's first encountered in the scope.  
Any changes to default values that are mutable will persist between invocations.

### Splat Operator

### Inside Function Call
Splat expands a collection into positional arguments, while splatty-splat expands a dictionary into keyword arguments.
 
args   = (1, 2)  
kwargs = {'x': 3, 'y': 4, 'z': 5}  
func(*args, **kwargs)  

#### Is the same as:
 
func(1, 2, x=3, y=4, z=5)

### Inside Function Definition

Splat combines zero or more positional arguments into a tuple, while splatty-splat combines zero or more keyword arguments into a dictionary.
 
def add(*a):  
    return sum(a)

>>> add(1, 2, 3)  
6

#### Legal argument combinations:
 
def f(*, x, y, z):          # f(x=1, y=2, z=3)  
def f(x, *, y, z):          # f(x=1, y=2, z=3) | f(1, y=2, z=3)  
def f(x, y, *, z):          # f(x=1, y=2, z=3) | f(1, y=2, z=3) | f(1, 2, z=3)

def f(*args):               # f(1, 2, 3)  
def f(x, *args):            # f(1, 2, 3)  
def f(*args, z):            # f(1, 2, z=3)

def f(**kwargs):            # f(x=1, y=2, z=3)  
def f(x, **kwargs):         # f(x=1, y=2, z=3) | f(1, y=2, z=3)  
def f(*, x, **kwargs):      # f(x=1, y=2, z=3)

def f(*args, **kwargs):     # f(x=1, y=2, z=3) | f(1, y=2, z=3) | f(1, 2, z=3) | f(1, 2, 3)  
def f(x, *args, **kwargs):  # f(x=1, y=2, z=3) | f(1, y=2, z=3) | f(1, 2, z=3) | f(1, 2, 3)  
def f(*args, y, **kwargs):  # f(x=1, y=2, z=3) | f(1, y=2, z=3)

### Other Uses
 
<list>  = [*<collection> [, ...]]  
<set>   = {*<collection> [, ...]}  
<tuple> = (*<collection>, [...])  
<dict>  = {**<dict> [, ...]}
 
head, *body, tail = <collection>

Как передаются значения аргументов в функцию или метод?  
Как передаются аргументы функций в Python (by value or reference)?  

### Лямбда-функция

<func> = lambda: <return_value>  
<func> = lambda <arg_1>, <arg_2>: <return_value>

Лямбда-функцию полезны, когда нам ненадолго требуется несложная безымянная функция. Лямбды применимы там, где нужна функция (например на входе встроенной функции reduce() или filter()). Лямбда-функции не резервируют имени в пространстве имен.

Лямбды в Питоне могут состоять только из одного выражения (что помогает избежать оператора return), но, заключив выражение в скобки, при желании можно оформить тело лямбды в несколько строк.

Допустимы ли приведенные ниже выражения?

In [1]:
nope = lambda: pass
riser = lambda x: raise Exception(x)

SyntaxError: invalid syntax (877547350.py, line 1)

Нет, такой синтаксис недопустим, будет выброшено исключение SyntaxError. В теле лямбды может быть только выражение, а pass и raise являются операторами.

>__Что такое лямбда-функция?__
>
>Лямбда-функции применимы там, где ненадолго нужна несложная безымянная функция (например, на входе reduce() или filter()).

### Operator

Module of functions that provide the functionality of operators.

```text
import operator as op  
<el>      = op.add/sub/mul/truediv/floordiv/mod(<el>, <el>)  # +, -, *, /, //, %  
<int/set> = op.and_/or_/xor(<int/set>, <int/set>)            # &, |, ^  
<bool>    = op.eq/ne/lt/le/gt/ge(<sortable>, <sortable>)     # ==, !=, <, <=, >, >=  
<func>    = op.itemgetter/attrgetter/methodcaller(<obj>)     # [index/key], .name, .name()  

elementwise_sum  = map(op.add, list_a, list_b)  
sorted_by_second = sorted(<collection>, key=op.itemgetter(1))  
sorted_by_both   = sorted(<collection>, key=op.itemgetter(1, 0))  
product_of_elems = functools.reduce(op.mul, <collection>)  
union_of_sets    = functools.reduce(op.or_, <coll_of_sets>)  
first_element    = op.methodcaller('pop', 0)(<list>)  
 
Binary operators require objects to have and(), or(), xor() and invert() special methods, unlike logical operators that work on all types of objects.  
Also: `'<bool> = <bool> &|^ <bool>'` and `'<int> = <bool> &|^ <int>'`.
```