# Основы Python. Часть 6.1

Работа с файлами; модули os, os.path, pickle, json


---

### Файлы в языке Python

Говоря о языке Python, его часто называют языком программирования "**с батарейками**". Под этим подразумевается богатая стандартная библиотека, чрезвычайно облегчающая решение многих задач, а также огромное количество сторонних модулей, доступных в сети, которые помогут решить практически любую задачу.

В том числе Python предоставляет **удобный и платформонезависимый** функционал для работы с файловой системой компьютера.

__Создание и открытие файлов__

In [1]:
file_name = 'test.txt'
file_mode = 'w+'

f = open(file_name, file_mode)

f.closed

False

In [2]:
print(type(f), f)

<class '_io.TextIOWrapper'> <_io.TextIOWrapper name='test.txt' mode='w+' encoding='UTF-8'>


In [3]:
dir(f)

['_CHUNK_SIZE',
 '__class__',
 '__del__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_checkClosed',
 '_checkReadable',
 '_checkSeekable',
 '_checkWritable',
 '_finalizing',
 'buffer',
 'close',
 'closed',
 'detach',
 'encoding',
 'errors',
 'fileno',
 'flush',
 'isatty',
 'line_buffering',
 'mode',
 'name',
 'newlines',
 'read',
 'readable',
 'readline',
 'readlines',
 'seek',
 'seekable',
 'tell',
 'truncate',
 'writable',
 'write',
 'writelines']

__Закрытие файлов__

Созданный объект '**f**' - ' это дескриптор файла.

Следует всегда закрывать дескриптор файла, так как неизвестно когда и какая именно программа захочет получить к нему доступ. Закрытие файла также поможет сохранить память и избежать появления странных багов в программе.

In [4]:
f.close()

f.closed

True

__Режимы работы с файлами__

1)

**r**  —  режим чтения (стандартный режим)

**w**  —  режим перезаписи с начала файла

**a**  —  режим добавления в конец файла

**r+**  —  открыть существующий файл в режиме чтения и записи

**w+**  —  создать файл если он не существует и открыть его в режиме чтения и записи

**a+**  —  создать файл если он не существует и открыть его в режиме добавления в конец

2)

**t**  —  режим работы с текстовыми файлами (стандартный режим)

**b**  —  режим работы с двоичными файлами

Режимы можно комбинировать, например:

**rb+** — открывает файл для чтения и записи в двоичном формате. Указатель выставлен в начало файла.

**wb** — открывает файл только для записи в двоичном формате. Перезаписывает существующий файл, если такой имеется. Если файл не существует, то создает новый.

Пример:

In [5]:
# При открытии несуществующего файла в режиме 'r+', появится исключение 'FileNotFoundError'

f = open(file_name+'123', 'r+')

FileNotFoundError: [Errno 2] No such file or directory: 'test.txt123'

In [6]:
# Однако существующий файл в режиме 'r+' открывается без ошибок

f = open(file_name, 'r+')

f.close()

__Запись в файлы__

In [7]:
f = open(file_name, "w") # перезаписывает существующий файл!

f.write("This is test file\n")

text = ['line 2\n',
        'line 3\n',
        'this line intentionally left lank\n']

f.writelines(text)

f.close()

__Чтение из файлов__

In [8]:
f = open(file_name, "r")

print(f.read()) # прочитался весь текст!

f.close()

This is test file
line 2
line 3
this line intentionally left lank



In [9]:
f = open(file_name, "r")

text = f.readlines()

for string in text:
    print(string)

f.close()

This is test file

line 2

line 3

this line intentionally left lank



Можно указать точное количество символов для чтения:

In [10]:
f = open(file_name, "r")

print(f.read(5))

f.close()

This 


Возможно читать по частям:

In [11]:
f = open(file_name, "r")

for line in f:
    print(line)

f.close()

This is test file

line 2

line 3

this line intentionally left lank



Байты из файлы в бинарном (двоичном) формате (нарпимер '.pdf') читаются аналогичными методами, только необходимо изменить способ доступа к файлу на '**rb**'.

__Использование менеджера контекста with / as__ при работе с файлами

In [12]:
with open(file_name, 'r') as f:
    
    for line in f:
        print(line)

This is test file

line 2

line 3

this line intentionally left lank



Обратите внимание, что в конце не надо вызывать f.close(), он вызывается после блок '**with / as**' автоматически.

Причем даже если возникнет ошибка чтения или записи в файл (например IOError).

Т.е. это аналогично конструкции:

In [13]:
try:
    f = open(file_name, 'r')
    text = f.readlines()
    
except Exception:
    pass

finally:
    f.close()

При этом возможно открывать несколько файлов сразу (аналогично вложенным блокам open):

In [14]:
with open(file_name, 'r') as f, open('new_'+file_name, 'w') as f_new:
    
    for line in f:
        f_new.write(line.upper())

In [15]:
with open('new_'+file_name, 'r') as f_new:

    print(f_new.read())

THIS IS TEST FILE
LINE 2
LINE 3
THIS LINE INTENTIONALLY LEFT LANK



__Перемещение каретки__

In [16]:
with open(file_name, 'r') as f:
    
    print('Current position:', f.tell(), end='\n\n')
    
    print('Reading:', f.read(5))
    print('Current position:', f.tell(), end='\n\n')
    
    print('Reading:', f.read(5))
    print('Current position:', f.tell(), end='\n\n')
    
    f.seek(0)  # перемещаемся обратно в начало
    print('Going back to start...')
    print('Current position:', f.tell(), end='\n\n')
    
    print('Reading:', f.read(5))
    print('Current position:', f.tell(), end='\n\n')

Current position: 0

Reading: This 
Current position: 5

Reading: is te
Current position: 10

Going back to start...
Current position: 0

Reading: This 
Current position: 5



Аналогично для бинарных файлов, только используется "побайтовое" перемещение.

---

### Модули os и os.path

Модуль **OS** из стандартной библиотеки обеспечивает платформонезависимое взаимодействие с операционной системой.

In [17]:
import os

Подробное описание здесь:

https://pythonworld.ru/moduli/modul-os.html

https://pythonworld.ru/moduli/modul-os-path.html

**Некоторые возможности**

In [18]:
# Тип операционной системы (точнее можно посмотреть в модуле sys)
os.name

'posix'

In [19]:
os.path.abspath(__file__)

NameError: name '__file__' is not defined

In [20]:
# текущая рабочая директория:
current_path = os.getcwd()

current_path

'/home/jk/yadisk/lab/edu'

In [21]:
# если запускаем скрипт, то его путь можно посмотреть с помощью:

# os.path.abspath(__file__)

# в интерактивной сессии питона этой переменной нет!
__file__

NameError: name '__file__' is not defined

In [22]:
# верхняя папка (с помощью os.pardir)
parent_dir = os.path.normpath(
                os.path.join(current_path, os.pardir)
             )
parent_dir

'/home/jk/yadisk/lab'

In [23]:
# список файлов (в текущей директории):
os.listdir(current_path)

['python_part_2_2.ipynb',
 'python_part_3_1.ipynb',
 'python_6_2_1.ipynb',
 '.ipynb_checkpoints',
 'python_6_2_2.ipynb',
 'python_3_1.ipynb',
 'Untitled.ipynb',
 'python_part_2_1.ipynb',
 'python_3_2.ipynb',
 'python_6_1.ipynb',
 'python_4.ipynb',
 'test.txt',
 'python_temp.ipynb',
 'python_2_2_iterators_generators_exceptions.ipynb',
 'new_test.txt',
 'python_part_2_2 (2).ipynb',
 'python_6_1_old.ipynb',
 'python_part_1.ipynb',
 'python_part_2.ipynb',
 'python_5_1.ipynb']

In [24]:
print('Текущая папка:', os.path.abspath(current_path))

file_path = os.path.join(
                os.path.abspath(current_path),
                'new_test.txt'
            )
file_path

Текущая папка: /home/jk/yadisk/lab/edu


'/home/jk/yadisk/lab/edu/new_test.txt'

In [25]:
print("Разбиваем на 'путь до папки' / 'имя файла':", os.path.split(file_path))

new_file_path = os.path.join(
                    os.path.split(file_path)[0],
                    'renamed_test.txt'
                )
os.rename(file_path, new_file_path)

Разбиваем на 'путь до папки' / 'имя файла': ('/home/jk/yadisk/lab/edu', 'new_test.txt')


In [26]:
for file_name in os.listdir(current_path):
    print(file_name)

python_part_2_2.ipynb
python_part_3_1.ipynb
python_6_2_1.ipynb
.ipynb_checkpoints
python_6_2_2.ipynb
python_3_1.ipynb
Untitled.ipynb
python_part_2_1.ipynb
python_3_2.ipynb
python_6_1.ipynb
python_4.ipynb
test.txt
python_temp.ipynb
python_2_2_iterators_generators_exceptions.ipynb
renamed_test.txt
python_part_2_2 (2).ipynb
python_6_1_old.ipynb
python_part_1.ipynb
python_part_2.ipynb
python_5_1.ipynb


In [27]:
# удаление файла
os.remove(new_file_path)

In [28]:
os.listdir(current_path)

['python_part_2_2.ipynb',
 'python_part_3_1.ipynb',
 'python_6_2_1.ipynb',
 '.ipynb_checkpoints',
 'python_6_2_2.ipynb',
 'python_3_1.ipynb',
 'Untitled.ipynb',
 'python_part_2_1.ipynb',
 'python_3_2.ipynb',
 'python_6_1.ipynb',
 'python_4.ipynb',
 'test.txt',
 'python_temp.ipynb',
 'python_2_2_iterators_generators_exceptions.ipynb',
 'python_part_2_2 (2).ipynb',
 'python_6_1_old.ipynb',
 'python_part_1.ipynb',
 'python_part_2.ipynb',
 'python_5_1.ipynb']

In [29]:
# создать папку
os.mkdir

<function posix.mkdir(path, mode=511, *, dir_fd=None)>

In [30]:
# удалить папку
os.rmdir

<function posix.rmdir(path, *, dir_fd=None)>

In [31]:
# копирование файлов в модуле shutil или вручную построчно
# https://pythonworld.ru/moduli/modul-shutil.html

"""
import shutil

shutil.copy
shutil.copy2
shutil.copyfile
shutil.copyfileobj
""";

**os.walk(top, topdown=True, onerror=None, followlinks=False)** - генерация имён файлов в дереве каталогов, сверху вниз (если topdown равен True), либо снизу вверх (если False).

Для каждого каталога функция walk возвращает кортеж (путь к каталогу, список каталогов, список файлов).

In [32]:
os.walk(parent_dir)

<generator object walk at 0x7ff76427bd58>

In [33]:
for root, dirnames, filenames in os.walk(parent_dir):
    print('root:', root)
    print('dirnames:', dirnames)
    print('filenames:', filenames)
    print()
    break

root: /home/jk/yadisk/lab
dirnames: ['cython', 'gui', '.ipynb_checkpoints', 'object_detection', 'filter_save', 'pixijs', 'feature_map', 'debug', 'signal detection', 'speed', 'sample_research', 'autoencoder', 'videos', 'synthetic', 'waterfall_analysis', 'neural_networks', 'dat_file', 'dr_lib_research', 'gimp', 'keras network encoding', 'edu', 'phase_to_filter_research']
filenames: ['edu.ipynb', 'threshold_research.ipynb', 'dunai_abc.ipynb', 'coord_converter.ipynb', 'notebook.tex', 'detector.ipynb', 'threshold_log.ipynb', 'cython_bundle_create.ipynb', 'python_5_1.ipynb']



In [34]:
# аналогично или можно пройтись с помощью os.listdir и
# проверять, является ли файлом или папкой

print(current_path)

os.path.isdir(current_path), os.path.isfile(current_path)

/home/jk/yadisk/lab/edu


(True, False)

 ---

### Модуль pickle

Простой способ сохранения сериализуемых объектов в Python.

Модуль pickle реализует мощный алгоритм сериализации и десериализации объектов Python. "Pickling" - процесс преобразования объекта Python в поток байтов, а "unpickling" - обратная операция, в результате которой поток байтов преобразуется обратно в Python-объект. Так как поток байтов легко можно записать в файл, модуль pickle широко применяется для сохранения и загрузки сложных объектов в Python.

https://pythonworld.ru/moduli/modul-pickle.html

In [35]:
import pickle

In [36]:
data = {
        'a': [1, 2.0, 3, 4+6j],
        'b': ("character string", b"byte string"),
        'c': {None, True, False}
}

In [37]:
with open('data.pkl', 'wb') as f:
    pickle.dump(data, f)

In [38]:
with open('data.pkl', 'rb') as f:
    data_new = pickle.load(f)

print(data_new)

{'a': [1, 2.0, 3, (4+6j)], 'b': ('character string', b'byte string'), 'c': {False, True, None}}


### Модуль JSON

JSON (JavaScript Object Notation) - простой формат обмена данными, основанный на подмножестве синтаксиса JavaScript. Модуль json позволяет кодировать и декодировать данные в удобном формате.

https://pythonworld.ru/moduli/modul-json.html

In [39]:
import json

In [40]:
json_data = \
"""
{
    "EA-23-24": {
        "avaliable_measurements_protocols": [
            "EdfaGainMeasurementProtocol"
        ],
        "required_measurements_for_protocol": [
            "Stand422_NfGainMeasurement",
            "Stand422_GainStabilityMeasurement"
        ],
        "measurement_settings": {
            "Stand422_Setup": {
                "settings": {
                    " Настроить стенд для": {
                        "edfa": null,
                        "transponder": null,
                        "roadm": null,
                        "multiplexer": null,
                        "ocrm": null
                    },
                    "Список используемых устройств": "device_under_test, to_10, om_40_av, ob_s, ea_4, roadm, ea_6, osa, voa_1, swch9150, voa_5, voa_6, voa_7, power_meter",
                    "multiplexer: мин. мощность на входе в спектроанализатор, дБм": 15.3,
                    "edfa: оптим. мощность на выходе усилителя, дБм": 16.0,
                    "edfa: мин. мощность на входе в усилитель, дБм": -3.0,
                    "edfa: макс. неравномерность канальной мощности опорного сигнала, дБ": 0.35,
                    "edfa: список входных каналов на мультиплексоре": "21, 27, 33, 40, 46, 53, 60",
                    "OSA: оптическая разрешающая способность, нм": 0.2,
                    "OSA: видеоразрешение, Гц": 100,
                    "OSA: конец спектра измерения, нм": 1565.0,
                    "OSA: начало спектра измерения, нм": 1527.0,
                    "OSA: Sweep Average": 1,
                    "OSA: Point Average": "2",
                    "OSA: количество точек отбора": 501,
                    "OSA: включить встроенный аттенюатор": true,
                    "edfa: компенсация 50%-ответвления на OSA, дБ": 3.65,
                    "edfa: смещение шума относительно пика сигнала, нм": 0.5
                }
            }
        }
    }
}"""

In [41]:
data_from_json = json.loads(json_data)

print(type(data_from_json))

data_from_json

<class 'dict'>


{'EA-23-24': {'avaliable_measurements_protocols': ['EdfaGainMeasurementProtocol'],
  'required_measurements_for_protocol': ['Stand422_NfGainMeasurement',
   'Stand422_GainStabilityMeasurement'],
  'measurement_settings': {'Stand422_Setup': {'settings': {' Настроить стенд для': {'edfa': None,
      'transponder': None,
      'roadm': None,
      'multiplexer': None,
      'ocrm': None},
     'Список используемых устройств': 'device_under_test, to_10, om_40_av, ob_s, ea_4, roadm, ea_6, osa, voa_1, swch9150, voa_5, voa_6, voa_7, power_meter',
     'multiplexer: мин. мощность на входе в спектроанализатор, дБм': 15.3,
     'edfa: оптим. мощность на выходе усилителя, дБм': 16.0,
     'edfa: мин. мощность на входе в усилитель, дБм': -3.0,
     'edfa: макс. неравномерность канальной мощности опорного сигнала, дБ': 0.35,
     'edfa: список входных каналов на мультиплексоре': '21, 27, 33, 40, 46, 53, 60',
     'OSA: оптическая разрешающая способность, нм': 0.2,
     'OSA: видеоразрешение, Гц': 1

In [42]:
json.dumps(data_from_json, ensure_ascii=False)

'{"EA-23-24": {"avaliable_measurements_protocols": ["EdfaGainMeasurementProtocol"], "required_measurements_for_protocol": ["Stand422_NfGainMeasurement", "Stand422_GainStabilityMeasurement"], "measurement_settings": {"Stand422_Setup": {"settings": {" Настроить стенд для": {"edfa": null, "transponder": null, "roadm": null, "multiplexer": null, "ocrm": null}, "Список используемых устройств": "device_under_test, to_10, om_40_av, ob_s, ea_4, roadm, ea_6, osa, voa_1, swch9150, voa_5, voa_6, voa_7, power_meter", "multiplexer: мин. мощность на входе в спектроанализатор, дБм": 15.3, "edfa: оптим. мощность на выходе усилителя, дБм": 16.0, "edfa: мин. мощность на входе в усилитель, дБм": -3.0, "edfa: макс. неравномерность канальной мощности опорного сигнала, дБ": 0.35, "edfa: список входных каналов на мультиплексоре": "21, 27, 33, 40, 46, 53, 60", "OSA: оптическая разрешающая способность, нм": 0.2, "OSA: видеоразрешение, Гц": 100, "OSA: конец спектра измерения, нм": 1565.0, "OSA: начало спектра и