# Файлы, модули

Структура занятия:

1) работа с файлами

2) модули и импорт

3) пакеты, библиотеки

4) пакетные менеджеры и и работа с зависимостями

5) виртуальное окружение

## Работа с файлами

Файлы используются программами для долговременного хранения информации, как необходимой для собственной работы (например, настройки), так и полученной во время ее исполнения 

Файлы хранятся в файловой системе - каталоге, определяющим способ организации, хранения и именования данных

Для того, чтобы найти файл в файловой системе необходимо знать к нему **путь** - узлы дерева файловой системы, которые нужно пройти, чтобы до него добраться.

Путь может быть:

    - абсолютным (полным): указывает на одно и то же место в файловой системе вне зависимости от текущей рабочей директории;
    - относительным: путь по отношению к текущему рабочему каталогу пользователя или активных приложений.

В Python работа с файлами осуществляется через специальный абстрактный файловый объект. Стандартный способ создания файлового объекта - функция `open()`. `open()` поддерживает контекстный доступ при помощи оператора `with`. 

`open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)`

- file - путь к файлу
- mode - режим

режим     |Значение
--------- |---------------------------------------------------------------
'r'       |Открыть для чтения (по умолчанию)
'w'       |Открыть для записи (если файл существует, то очищается)
'x'       |Открыть для создания с эксклюзивными правами (ошибка, если файл существует)
'a'       |Открыть для добавления (если файл существует)
'b'       |Двоичный режим
't'       |Текстовый режим (по умолчанию)
'+'       |Открыть для чтения и записи

- encoding – наименование кодировки, используемой при чтении/записи файла (например, 'utf-8')

Файловый объект поддерживает несколько методов:
- `.name` - имя файла
- `.mode` - режим доступа
- `.closed` - возвращает, закрыт ли файл?
- `.close(self, /)` - закрыть файл
- `.read(self, size=-1, /)` - читает до size байт из файлового объекта, либо весь файл
- `.readline(self, size=-1, /)` - читает следующую строку (до size байт)
- `.write(self, text, /)` - записывает объект text
- `.readlines(self, hint=-1, /)` - читает все строки до конца файла и возвращает их в виде списка
- `.writelines(self, lines, /)` - записывает в файл последовательность объектов lines
- ...

In [2]:
with open('saltan.txt', 'r') as fo:
    file_content = fo.read()  # весь файл был загружен в память

try:
    fo = open('saltan.txt', 'r')
    file_content = fo.read() 
finally:
    fo.close()

In [None]:
text = file_content.lower().replace('\n', ' ').split(' ')

text[:10]

In [None]:
text = []

with open('saltan.txt', 'r') as fo:
    for line in fo:
        line_text = line.lower().replace('\n', ' ').split(' ')   # только 1 линия загружена в память
        text.extend(line_text)
        
text[:10]

In [None]:
with open('saltan.txt', 'r') as fo:
    file_content = fo.read()
    
text = file_content.lower()[::-1].capitalize()

with open('saltan-reversed.txt', 'w') as fo:
    fo.write(text)

Для продвинутьй работы с файлами существуют модули `os`, `pathlib`, `glob`, `shutil`

`os` - базовый модуль для работы с файловой системой

`pathlib` - предлагает классы, представляющие пути к файловой системе с семантикой, подходящей для различных операционных систем.

`glob` - модуль для поиска файлов в ФС 

`shutil` - модуль для копирования и архивирования файлов и деревьев каталогов

In [None]:
import os.path

os.path.abspath('saltan.txt')

In [None]:
from pathlib import Path

copied = Path('new_saltan.txt')
copied.unlink(missing_ok=True)  # удалим файл, если он существует

In [None]:
from pathlib import Path
from shutil import copyfile

source = Path('saltan.txt')
destination = Path('new_saltan.txt')
copyfile(source, destination)

In [None]:
from glob import glob

top_level_txt_files = glob('*.txt')  # такой запрос поозволит найти файлы только в текущем каталоге
top_level_txt_files

In [None]:
from pathlib import Path  # pathlib является наиболее современным модулем для работы с ФС. Рекомендую ознакомиться

lections_level_py_files = Path.cwd().parent.rglob('*.py')
list(lections_level_py_files)

## Модули и пакеты

Модуль - средство языка программирования, позволяющее объединить вместе данные и функции и использовать их как одну функционально-законченную единицу.

Модуль - отдельный файл с кодом на Python, содержащий функции и данные. Любой файл с расширением `*.py` является модулем

Пакеты являются еще более крупной единицей и представляют собой набор взаимосвязанных модулей, предназначенных для решения задач определенного класса

Пакеты в Python - это способ структуризации модулей. Пакет представляет собой каталог, в котором содержатся модули и другие пакеты и обязательный файл `__init.py__`, отвечающий за инициализацию пакета.

Все модули/пакеты в Python можно разделить на 4 категории:
- Встроенные
- Стандартная библиотека
- Сторонние - установленные с помощью пакетного менеджера из каталога пакетов
- Пользовательские или собственные - созданные разработчиков

### Организация кода 1-го проекта (Архитектурные паттерны)

Подходы, от простого и примитивного с сложному и прогрессивному:
1. Flat structure - хранение всего кода в корневой директории до тех пор, пока сохраняется понимание того, как это работает и где что находится
```
  ./messenger-flat-structure
     \_ .dockerignore
     \_ .gitignore
     \_ actions.toml
     \_ alert.yaml
     \_ api1_chat_get_messages_post_handler.py
     \_ app.toml
     \_ backoff_factory.py
     \_ chat_model.py
     \_ chat_service.py
     \_ chat_storage.py
     \_ codegen.toml
     \_ Dockerfile
     \_ __main__.py
     \_ __init__.py
     \_ message_model.py
     \_ message_spec_contract.py
     \_ message_storage.py
     \_ mock_transaction.py
     \_ postgresql.py
```

2. Standard Project Layout - разделяем проект по зонам ответственности, по функционалу
```
./messenger-standart-layout
    \_ api
    \_ brief
    \_ cmd
    \_ lib
       \_ api
       \_ chat
       \_ consumer
       \_ database
       \_ db
       \_ errors
       \_ generated
       \_ message
       \_ middleware
       \_ retry
       \_ transaction
       \_ user
       ...
    \_ .dockerignore
    \_ .gitignore
    \_ actions.toml
    \_ alert.yaml
    \_ app.toml
    \_ codegen.toml
    \_ Dockerfile
    \_ README.md
    ...
```

3. Layered architecture - добавляем группировку по доменной области 
```
./messenger-l-a
    \_ lib
       \_ application
          \_ chat
             \_ service.py
       \_ domain
          \_ chat
          \_ message
          \_ user
       \_ infrastructure
          \_ database
          \_ db
          \_ errors
          \_ generated
          \_ middleware
          \_ pg_repository
          \_ retry
          \_ transaction
       \_ presentation
          \_ chat
             \_ api
             \_ consumer
       ...
    ...
```

4. Clean Architecture - все слои в данной архитектуры обслуживают бизнес слои, бизнес слой в свою очередь ничего не знает о обслуживающих слоях
    - Domain - также как и в других архитектурах - это самый центральный слой в котором хранятся центральные правила нашей бизнес логики.
    - Application - это слой с дополнительной бизнес логикой, которая может представлять собой основные бизнес сценарии(use cases)
    - Presentation - содержит контроллеры, которые все оркестрируют в себе и отвечают за представление.
    - Infrastructure - фреймворки, сборка зависимостей, провайдеры, адаптеры.
    
```
./messenger-c-a
    \_ lib
       \_ generated
       \_ domain
          \_ chat
          \_ message
          \_ user
       \_ infrastructure
          \_ db
          \_ middleware
          \_ pg_repository
          \_ retry
          \_ transaction
          \_ qaas
       \_ rpc
          \_ handler
             \_ getmessages
             \_ sendmessages
       \_ usecase
       ...
    ...
```

## Подключение модулей

Ключевое слово - `import`.

Все импорты должны располагаться в начале файла

```python
import module  # импортруем модуль

import module as mod  # импортруем модуль и даём ему псевдоним, далее необходимо будет использовать имя псевдонима

from module import object as obj  # импортруем из модуля объект, даём ему псевдоним

from module import object1, object2, ...  # импортруем из модуля несколько объектов

from module import *  # импортруем из модуля все объекты. Такой способ не рекомендуется

import package  # импортруем весь пакет

import package.module  # импортруем модуль из пакета

cls_obj = module.Class()
cls_obj_prepared = mod.fun(cls_obj, obj)
result = package.module.fun(cls_obj_prepared, package.CONST)
```

Собственные модули должны называться в snake_case стиле, не следует называть модули и пакеты аналогично встроенным

Каждый  модуль имеет атрибуты:
- `__name__` - Полное имя модуля
- `__doc__` - Строка документации
- `__file__` - Полный путь к файлу

In [None]:
import math

math.__name__, math.__file__

При разработке собственного модуля следует определить, будет ли он служить только для импорта, или будет запускаться самостоятельно. В первом случае, будем говорить о модуле как о библиотеке, такой модуль не должен иметь точки входа. Во втором случае будем говорить о модуле как об исполняемом (скрипт или программа), такой модуль должен иметь точку входа:

```python
if __name__ == "__main__":
    ...
```

## Пакетные менеджеры и и работа с зависимостями

### pip

pip — система управления пакетами, которая используется для установки и управления программными пакетами, написанными на Python

Установка самой последней версии пакета:

`pip install package-name`

`python -m pip <аргументы>`

Установка конкретной версии пакета:

`pip install package-name==1.0.0`

pip предоставляет возможность управлять всеми пакетами и их версиями с помощью файла `requirements.txt`. Это позволяет эффективно воспроизводить весь необходимый список пакетов в отдельном окружении

`pip install -r requirements.txt`

Удаление пакета:

`pip uninstall package-name`

Получение списка установленных пакетов:

`pip list`

Файл внешних зависимостей `requirements.txt` - текстовый файл, где на каждой строке перечислено ровно по одной зависимости. Не является стандартом, название является соглашением и не более. Зависимости могут быть разделены по нескольким файлам в зависимости от желаемого для установки окружения. Так, кроме основного файла зависимостей могут также быть `dev-requirements.txt` и `test-requirements.txt`. `test-requirements.txt` будет содержать пакеты нужные для тестирования приложения, а `dev-requirements.txt` может содержать пакеты для статического анализа кода (`mypy`).
Пример файла зависимостей:
```
docker==3.7.2
glom~=19.2.0
graphite-client>=1.1.1
click==7.1.2
pymongo
python-dateutil==2.8.1
```

Pip и requirements.txt имеют один очень существенный недостаток: для того чтобы хоть сколько-нибудь обеспечить воспроизводимость окружения, необходимо жёстко фиксировать версии пакетов. Для того что гарантировать воспроизводимость - необходимо вручную фиксировать и сверять контрольные суммы пакетов. Почему так получается:
- новые версии пакетов могут существенно отличаться от старых
- в зависимостях пакетов могут быть конфликты
- в приватных индексах (не pypi) версии пакетов могут перезаписываться, а следовательно будут отличаться только их контрольные суммы

### poetry

Poetry - это инструмент для управления зависимостями в Python проектах

Poetry создает изолированное виртуальное окружение для проекта, устанавливая все необходимые пакеты и разрешая конфликты зависимостей (если они в принципе решаемы).

Для инициализации poetry необходимо в корневом каталоге проекта выполнить:

`poetry init`

В файле `pyproject.toml` будет содержаться описание Poetry-проекта: название, описание, используемый репозиторий, зависимости проекта и т.д. С его помощью можно легко организовать зависимости проекта (pyproject.toml по сути преемник requirements.txt)
Пример файла зависимостей:
```
[tool.poetry]  # метаданные проекта
name = "project-name"
version = "1.0.0"
description = "-"
authors = ["<mpkaraulov@avito.ru>"]

[tool.poetry.dependencies]  # зависимости, необходимые для проекта
python = ">=3.8,<3.10"
paas-zero = "^0.8.0"
glom = "^20.11.0"
lxml = "^4.9.1"

[tool.poetry.dev-dependencies]  # зависимости разработки
pytest = "^6.2.5"

[build-system]  # данные самого poetry
requires = ["poetry-core>=1.0.0"]
build-backend = "poetry.core.masonry.api"

[[tool.poetry.source]]  # опционально - дополнительные индексы и т.п.
name = "avito-pypi"
url = "https://pypi.k.avito.ru/pypi/"
default = true
```

Установка пакета:

`poetry add package-name`

Удаление: 

`poetry remove package-nam`

Установка всех пакетов из `pyproject.toml`. При первой установке создается файл `.lock`, который содержит фактические номера версий каждого установленного пакета. Номера версий в .lock файле имеют более высокий приоритет, чем находящиеся в pyproject.toml

`poetry install`

Обновление всех пакетов из `pyproject.toml`. Если для пакетов в pyproject.toml существуют более новые версии, они будут установлены, и .lock файл будет обновлён

`poetry install`

## Виртуальное окружение

[Ссылка](../1/lec.ipynb#Виртуальное-окружение-Python)

Установка из PyCharm