# МОДУЛЬ 1: Трансляторы, Интерпретаторы и Байт-код

## 1. Архитектуры компьютеров

### 1.1. Архитектура фон Неймана
- **Суть**: Инструкции и данные хранятся в одной области памяти.
- **CPU** извлекает их по одной шине.
- **Преимущества**: простота, экономичность, гибкость.
- **Где используется**: настольные компьютеры, ноутбуки, серверы, большинство современных процессоров.

### 1.2. Гарвардская архитектура
- **Суть**: Инструкции и данные хранятся в разных областях памяти.
- **CPU** может получать инструкции и данные параллельно.
- **Преимущества**: параллелизм, скорость, повышенная безопасность.
- **Где используется**: встраиваемые системы, микроконтроллеры, цифровые сигнальные процессоры (DSP).

### 1.3. Bottleneck (узкое место)
- В архитектуре фон Неймана возникает **узкое место** из-за общей шины для инструкций и данных.

### 1.4. Риски безопасности
- Общая память в архитектуре фон Неймана может быть уязвима для атак.
- В Гарвардской архитектуре отдельные области памяти снижают риск взлома кода.

### 1.5. Когерентность памяти
- В многопроцессорных системах важно, чтобы изменения данных одним процессором были видны другим.
- **Когерентность памяти** гарантирует согласованность изменений.

### 1.6. Сравнение архитектур
- **Фон Неймана**: универсальная архитектура для большинства общих задач.
- **Гарвард**: специализированные задачи, требующие высокой производительности (DSP, микроконтроллеры).

## 2. Кэш процессора

### 2.1. Кеширование
- Механизм временного хранения часто используемых данных для ускорения доступа.
- Позволяет сократить время ожидания при обращении к памяти.

### 2.2. Уровни кэша (L1, L2, L3)
- Используются несколько уровней кэша для баланса между скоростью, стоимостью и размером.
- **L1** – самый быстрый, но небольшой.
- **L2** – больше, но медленнее.
- **L3** – самый объемный, но самый медленный среди кэш-уровней.

### 2.3. Кэш процессора на 1 ТБ?
- Было бы крайне неэффективным и дорогим решением.
- Высокая стоимость SRAM, колоссальное энергопотребление и увеличение времени доступа.

### 2.4. SRAM vs DRAM
- **SRAM** (Static RAM) — быстрая и дорогая, используется для кэша.
- **DRAM** (Dynamic RAM) — медленнее, но дешевле, используется для основной памяти.
- При увеличении размера кэша ухудшается время поиска данных, что снижает выигрыш в производительности.

## 3. Python: процесс трансляции

### 3.1. Lexer, Parser, Semantic Analysis
- **Lexer** разбивает код на элементарные токены.
- **Parser** строит дерево разбора (AST).
- **Semantic Analysis** проверяет корректность с точки зрения языка (например, объявлены ли переменные).

Пример лексического анализа в Python (упрощенный):

In [1]:
import tokenize
from io import BytesIO

code = b"""
x = 10
if x > 5:
    print(x)
"""

tokens = tokenize.tokenize(BytesIO(code).readline)
for tok in tokens:
    print(tok)

TokenInfo(type=63 (ENCODING), string='utf-8', start=(0, 0), end=(0, 0), line='')
TokenInfo(type=62 (NL), string='\n', start=(1, 0), end=(1, 1), line='\n')
TokenInfo(type=1 (NAME), string='x', start=(2, 0), end=(2, 1), line='x = 10\n')
TokenInfo(type=54 (OP), string='=', start=(2, 2), end=(2, 3), line='x = 10\n')
TokenInfo(type=2 (NUMBER), string='10', start=(2, 4), end=(2, 6), line='x = 10\n')
TokenInfo(type=4 (NEWLINE), string='\n', start=(2, 6), end=(2, 7), line='x = 10\n')
TokenInfo(type=1 (NAME), string='if', start=(3, 0), end=(3, 2), line='if x > 5:\n')
TokenInfo(type=1 (NAME), string='x', start=(3, 3), end=(3, 4), line='if x > 5:\n')
TokenInfo(type=54 (OP), string='>', start=(3, 5), end=(3, 6), line='if x > 5:\n')
TokenInfo(type=2 (NUMBER), string='5', start=(3, 7), end=(3, 8), line='if x > 5:\n')
TokenInfo(type=54 (OP), string=':', start=(3, 8), end=(3, 9), line='if x > 5:\n')
TokenInfo(type=4 (NEWLINE), string='\n', start=(3, 9), end=(3, 10), line='if x > 5:\n')
TokenInfo(type=

### 3.2. Генерация байт-кода
- CPython компилирует исходный код в **байт-код** (промежуточное представление).
- Этот байт-код затем исполняется **виртуальной машиной** (PVM).

### 3.3. Токены, AST и .pyc-файлы
- **Токены** – элементарные единицы (ключевые слова, идентификаторы и т.д.).
- **AST** – абстрактное синтаксическое дерево, отражающее структуру программы.
- **.pyc-файлы** – байт-код, сохраненный для ускорения повторных запусков.

### 3.4. Полезные модули для трансляции:
- `tokenize` – лексический анализ.
- `ast` – работа с абстрактным синтаксическим деревом.
- `dis` – дизассемблер байт-кода.
- `py_compile` – компиляция Python-кода в байт-код.
- `marshal` – сериализация/десериализация объектов Python.
- `mypy` – статическая проверка типов (не входит в стандартную библиотеку).

### 3.5. `__pycache__`
- Директория, где хранятся **.pyc-файлы** со скомпилированным байт-кодом.

### 3.6. Объект класса `code`
- Представляет скомпилированный байт-код (функции или модуля).
- Содержит метаинформацию: константы, локальные переменные, инструкции.

## 4. Python байт-код

### 4.1. Компиляция vs Интерпретация
- **Компиляция**: преобразование кода из одного языка в другой (обычно в машинный код), но в Python — это промежуточная компиляция в байт-код.
- **Интерпретация**: построчное выполнение инструкций во время работы программы.

> **Примечание**: В большинстве материалов по Python говорят о «трансляции» как о процессе компиляции в байт-код и дальнейшей интерпретации байт-кода.

### 4.2. Байт-код
- Промежуточное представление кода, независимое от архитектуры.
- Компактнее и удобнее для интерпретации, чем машинный код, зависящий от процессора.

### 4.3. Способы просмотра байт-кода
- Использовать модуль `dis` и функцию `dis.dis()`.
- Пример:

In [2]:
import dis

def my_func(x, y):
    return x + y

dis.dis(my_func)

  3           0 RESUME                   0

  4           2 LOAD_FAST                0 (x)
              4 LOAD_FAST                1 (y)
              6 BINARY_OP                0 (+)
             10 RETURN_VALUE


### 4.4. Байт-код и архитектура
- Байт-код не зависит от архитектуры процессора.
- Выполняется виртуальной машиной (PVM), которая абстрагирует платформу.

### 4.5. Зависимость от реализации
- Разные реализации (CPython, PyPy, Jython) могут генерировать разный байт-код.
- Но логика выполнения при этом остаётся эквивалентной (с точки зрения Python-языка).

### 4.6. Исполнение байт-кода
- **Python Virtual Machine (PVM)** последовательно интерпретирует байт-код и выполняет инструкции.

## 5. PVM (Python Virtual Machine)

### 5.1. Что такое PVM
- Это часть интерпретатора CPython.
- Получает на вход байт-код и исполняет его.
- Управляет памятью, исключениями и другими аспектами выполнения.

### 5.2. PVM и GC
- **Garbage Collector (GC)** освобождает неиспользуемую память.
- PVM взаимодействует с GC и управляет системными ресурсами (файлы, сетевые соединения и т.д.).

## 6. JIT (Just-In-Time компиляция)

### 6.1. Суть JIT
- Динамическая компиляция кода во время выполнения.
- Основные шаги:
  1. Интерпретация байт-кода.
  2. Выявление «горячих точек» (часто исполняющегося кода).
  3. Компиляция этих участков в машинный код.
  4. Кэширование скомпилированного кода.

### 6.2. «Горячие точки»
- Часто вызываемые функции или циклы.
- JIT-компилятор переводит их в машинный код для ускорения последующих запусков.

### 6.3. Недостатки JIT
- Увеличение времени запуска (Overhead на анализ и компиляцию).
- Дополнительное потребление памяти.
- Усложнение реализации интерпретатора.

## 7. Различные реализации Python

### 7.1. CPython и Cython
- **CPython** – эталонная реализация на C.
- **Cython** – надстройка над Python, позволяет компилировать код в C для повышения производительности.

### 7.2. PyPy
- Реализация Python с JIT-компилятором.
- Часто быстрее CPython на долгих вычислительных задачах.
- Стремится к максимально возможной совместимости с CPython.

### 7.3. Jython
- Компилирует Python-код в байт-код Java.
- Выполняется на JVM, что упрощает взаимодействие с Java-библиотеками.

### 7.4. GraalPy
- Реализация на базе **GraalVM**.
- Поддерживает популярные библиотеки (NumPy, SciPy, PyTorch и т.д.).
- Нацелена на высокую производительность благодаря оптимизациям GraalVM.

### 7.5. Nogil
- Экспериментальная ветка CPython, убирающая **GIL**.
- Позволяет более эффективно задействовать потоки.
- Увеличивает сложность кода и требует ручного управления безопасностью потоков.

### 7.6. Pyodide
- Скомпилирован в **WebAssembly**.
- Позволяет запускать Python прямо в браузере.

### 7.7. Brython
- Транслирует Python-код в JavaScript.
- Используется для клиентских веб-скриптов (вместо JavaScript).

### 7.8. MicroPython
- Легковесная версия, оптимизированная для микроконтроллеров.
- Подходит для проектов IoT и встраиваемых систем.

## 8. GIL (Global Interpreter Lock)

### 8.1. Что такое GIL
- Механизм в CPython, не позволяющий нескольким потокам одновременно выполнять байт-код Python.
- Упрощает реализацию интерпретатора и защищает внутренние структуры данных от гонок (race conditions).

### 8.2. Влияние GIL на многопоточность
- Потоки «по очереди» получают доступ к интерпретатору.
- В вычислительных задачах на чистом Python это снижает параллелизм.
- Но при использовании нативных расширений (например, NumPy, SciPy) GIL часто освобождается на время выполнения C/Fortran-кода.

### Пример влияния GIL на потоки
В этом примере каждый поток просто "крутит" цикл, но из-за GIL в CPython не достигнем настоящего параллелизма на уровне байт-кода:

In [3]:
import threading

def cpu_bound_task(n):
    s = 0
    for i in range(n):
        s += i
    print(s)

threads = []
for _ in range(4):
    t = threading.Thread(target=cpu_bound_task, args=(10_000_000,))
    threads.append(t)
    t.start()

for t in threads:
    t.join()

49999995000000
49999995000000
49999995000000
49999995000000


Использование `multiprocessing` (процессы) вместо потоков обходит ограничение GIL, так как каждый процесс имеет свой интерпретатор.