## ОСНОВІ ЕТАПИ РОБОТИ CPython

## Лексічний аналіз

в завдання лексічного аналізатора входить побудова потоку __лексем__ з вхідного програмного _файлу_

In [15]:
prog = """
def func(x):
    y = x + 2
    return y

f(10)"""

In [17]:
import token, tokenize
from io import StringIO

In [21]:
print(token.tok_name)

{0: 'ENDMARKER', 1: 'NAME', 2: 'NUMBER', 3: 'STRING', 4: 'NEWLINE', 5: 'INDENT', 6: 'DEDENT', 7: 'LPAR', 8: 'RPAR', 9: 'LSQB', 10: 'RSQB', 11: 'COLON', 12: 'COMMA', 13: 'SEMI', 14: 'PLUS', 15: 'MINUS', 16: 'STAR', 17: 'SLASH', 18: 'VBAR', 19: 'AMPER', 20: 'LESS', 21: 'GREATER', 22: 'EQUAL', 23: 'DOT', 24: 'PERCENT', 25: 'LBRACE', 26: 'RBRACE', 27: 'EQEQUAL', 28: 'NOTEQUAL', 29: 'LESSEQUAL', 30: 'GREATEREQUAL', 31: 'TILDE', 32: 'CIRCUMFLEX', 33: 'LEFTSHIFT', 34: 'RIGHTSHIFT', 35: 'DOUBLESTAR', 36: 'PLUSEQUAL', 37: 'MINEQUAL', 38: 'STAREQUAL', 39: 'SLASHEQUAL', 40: 'PERCENTEQUAL', 41: 'AMPEREQUAL', 42: 'VBAREQUAL', 43: 'CIRCUMFLEXEQUAL', 44: 'LEFTSHIFTEQUAL', 45: 'RIGHTSHIFTEQUAL', 46: 'DOUBLESTAREQUAL', 47: 'DOUBLESLASH', 48: 'DOUBLESLASHEQUAL', 49: 'AT', 50: 'ATEQUAL', 51: 'RARROW', 52: 'ELLIPSIS', 53: 'OP', 54: 'ERRORTOKEN', 55: 'COMMENT', 56: 'NL', 57: 'ENCODING', 58: 'N_TOKENS', 256: 'NT_OFFSET'}


In [19]:
file_emulator = StringIO(prog).readline

In [20]:
for tok in tokenize.generate_tokens(file_emulator):
    print(f"{tok.type:<10}{token.tok_name[tok.type]:<15}'{tok.string}'")

56        NL             '
'
1         NAME           'def'
1         NAME           'func'
53        OP             '('
1         NAME           'x'
53        OP             ')'
53        OP             ':'
4         NEWLINE        '
'
5         INDENT         '    '
1         NAME           'y'
53        OP             '='
1         NAME           'x'
53        OP             '+'
2         NUMBER         '2'
4         NEWLINE        '
'
1         NAME           'return'
1         NAME           'y'
4         NEWLINE        '
'
56        NL             '
'
6         DEDENT         ''
1         NAME           'f'
53        OP             '('
2         NUMBER         '10'
53        OP             ')'
4         NEWLINE        ''
0         ENDMARKER      ''


## Синтаксичний аналіз

Завданням синтаксичного аналізатора є побудова [абстрактного синтаксичного дерева](https://docs.python.org/3/library/ast.html) (__AST__) яке перетворює початковий код прграми у структурований об'єкт, придатний для генерації байт-кода.

In [22]:
import ast

In [23]:
code = ast.parse(prog)

In [24]:
ast.dump(code.body[0])

"FunctionDef(name='func', args=arguments(args=[arg(arg='x', annotation=None)], vararg=None, kwonlyargs=[], kw_defaults=[], kwarg=None, defaults=[]), body=[Assign(targets=[Name(id='y', ctx=Store())], value=BinOp(left=Name(id='x', ctx=Load()), op=Add(), right=Num(n=2))), Return(value=Name(id='y', ctx=Load()))], decorator_list=[], returns=None)"

## Побудова байт-кода

__байт-код__ - це низкорівневе платформнонезалежне представлення початоквого коду python-програми яке використовує [віртуальна машина python](http://python-3.ru/page/virtualnaja-mashina-python-pvm) (PVM) для виконання python-програми.

In [25]:
def f(x):
    y = x + 2
    return y

f(10)

12

In [26]:
import dis

In [27]:
dis.dis(f)

  2           0 LOAD_FAST                0 (x)
              2 LOAD_CONST               1 (2)
              4 BINARY_ADD
              6 STORE_FAST               1 (y)

  3           8 LOAD_FAST                1 (y)
             10 RETURN_VALUE
