# Input/Output

## Работа с файлами

* Модуль [os] --- функции для взаимодействия с операционной системой
* Модуль [shutil] --- высокоуровненые функции для работы с ОС (аналог командной оболочки)
* Модуль [os.path]() --- старый модуль для работы с путям и файлами
* Модуль [pathlib]() --- актуальный способ работать с путями и файлами
* Модуль [tempfile]() --- работа с временными файлами
* Модуль [fileinput]() --- вспомогательный модуль для обработки текстовых файлов

### Работа с файлами через ОС

In [2]:
import os
import shutil
import tempfile
import pathlib

In [4]:
pwd = os.getcwd()
print(pwd)

/home/zelenyy/npm/sciprog-python/files/IO


In [5]:
os.makedirs("folder", exist_ok=True)

In [6]:
os.chdir("folder")

In [7]:
os.getcwd()

'/home/zelenyy/npm/sciprog-python/files/IO/folder'

In [8]:
os.chdir(pwd)

In [11]:
os.stat("01.IO.ipynb")

os.stat_result(st_mode=33204, st_ino=54659110, st_dev=66306, st_nlink=1, st_uid=1000, st_gid=1000, st_size=3866, st_atime=1634641719, st_mtime=1634641719, st_ctime=1634641719)

In [10]:
shutil.rmtree("folder", ignore_errors=True)

In [15]:
if os.uname().sysname == "Linux":
    os.chdir("C:\\Users")


FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users'

### Работа с путями

In [21]:
path = os.path.join("..", "index.md")
print(path)

../index.md


In [26]:
print(os.path.abspath(path))
print(os.path.dirname(path))
print(os.path.dirname(os.path.abspath(path)))
print(os.path.splitext(path))
print(os.path.exists(path))
print(os.path.isdir(path))

/home/zelenyy/npm/sciprog-python/files/index.md
..
/home/zelenyy/npm/sciprog-python/files
('../index', '.md')
True
False


In [27]:
path = pathlib.Path("..") / "index.md"
print(path)

../index.md


![](img.png)


In [30]:
print(path.absolute())
print(path.absolute().parent)
print(path.stem, path.suffix)
print(path.exists())
print(path.is_dir())

/home/zelenyy/npm/sciprog-python/files/IO/../index.md
/home/zelenyy/npm/sciprog-python/files/IO/..
index .md
True
False


In [31]:
for item in path.parent.iterdir():
    print(item)

../device_control
../CLI
../toolschain
../threading
../patterns
../papers
../index.md
../general_overview
../format
../environment.yml
../unittests_example
../IO
../task.md


In [36]:
for item in os.listdir(path.parent):
    print(item)

device_control
CLI
toolschain
threading
patterns
papers
index.md
general_overview
format
environment.yml
unittests_example
IO
task.md


In [34]:
for item in os.walk(path.parent):
    print(item)

('..', ['device_control', 'CLI', 'toolschain', 'threading', 'patterns', 'papers', 'general_overview', 'format', 'unittests_example', 'IO'], ['index.md', 'environment.yml', 'task.md'])
('../device_control', [], ['01.Device.ipynb', 'arch.svg', 'logging_flow.png', '02.Device.ipynb', 'arch.dio'])
('../CLI', ['__pycache__'], ['argparse_example.py', 'myapp.log', 'argparse_iaxo_example.py', 'somelib.py', 'cmd_.py', 'logging_example.py'])
('../CLI/__pycache__', [], ['somelib.cpython-39.pyc'])
('../toolschain', [], ['01.Toolschain.ipynb', 'debug.py', 'linter.py'])
('../threading', [], ['thread_pool_executor_time.py', 'threading_tk.py', 'threading_console.py', 'multiprocessing_time.py', 'process_pool_executor_time.py', 'blocking_time.py', 'async_mandelbrot.py', 'multiprocessing_console.py', 'threading_time.py', '01.Threading.ipynb', 'async_example.py', 'blocking_console.py', 'async_example_task.py', 'mandelbrot.py', 'async_time.py'])
('../patterns', [], ['observable.py'])
('../papers', [], ['hab

### Режимы работы с файлами

* Текстовый --- содержимое файла интерпретируется как текст в заданной кодировке
* Бинарный --- сырое чтение информации из файла

* Сериализация/Десереализация --- процесс перевода структуры данных в последовательность байтов и обратно
* Текстовые форматы сериализации:
    * JSON
    * XML
* Бинарные:
    * pickle
    * protobuff
    * BSON

In [44]:
with open("temp_text", "w") as fout:
    fout.write("123456789")

with open("temp_bin", "wb") as fout:
    fout.write(b"123456789")

## Сериализация в JSON

In [66]:
import json

with open("data.json", "w") as fout:
    json.dump({"a": 1, "b": [1,2,3]}, fout)

In [46]:
import numpy as np

with open("data.json", "w") as fout:
    json.dump({"a": 1, "b": np.array([1,2,3])}, fout)


TypeError: Object of type ndarray is not JSON serializable

In [67]:
class NumpyEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, np.ndarray):
            return obj.tolist()
        return super().default(obj)

with open("data.json", "w") as fout:
    json.dump({"a": 1, "b": np.array([1,2,3])}, fout, cls=NumpyEncoder)

## Чтение данных с помощью numpy

* [Numpy IO](https://numpy.org/doc/stable/reference/routines.io.html)
* `np.loadtxt`/`np.savetxt` --- чтение/запись текстовых данных (альтернатива модулю [csv](https://docs.python.org/3/library/csv.html) и [pandas](https://pandas.pydata.org/))
    * Читает данные сразу в ndarray
    * Обрабатывает "плохие" данные
    * Работает медленнее наивного чтения
* `np.fromfile`/`ndarray.tofile` ---  чтение/запись из текстового/бинарного файла
* `np.load`/`np.save`/`np.savez`/`np.savez_compressed` --- сериализация/десериализация в собственный [NPY формат](https://numpy.org/doc/stable/reference/generated/numpy.lib.format.html#module-numpy.lib.format) (Файлы с расширение `.npy`/`.npz`

### Numpy data type objects

* [numpy.dtype](https://numpy.org/doc/stable/reference/arrays.dtypes.html#arrays-dtypes)
*

In [None]:
import numpy as np

In [48]:
dt = np.dtype('>i4')
print(dt.byteorder, dt.itemsize, dt.name)
dt.type is np.int32

> 4 int32


True

In [49]:
dt = np.dtype([
    ("id", "i"),
    ("parent_id", "i"),
    ("energy", "d"),
    ("angle", [
        ("theta", "d"),
        ("phi", "d"),
    ]),
    ("radius", "d", (10,10)),
])


In [50]:
data = np.ones(5, dtype=dt)

In [51]:
data["angle"]


array([(1., 1.), (1., 1.), (1., 1.), (1., 1.), (1., 1.)],
      dtype=[('theta', '<f8'), ('phi', '<f8')])

In [52]:
data["radius"]


array([[[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]

In [53]:
data = np.ones(5, dtype=np.dtype([("radius", "d", (10,10))]))


In [54]:
data.shape

(5,)

In [63]:
dt = np.dtype([
    ("ch", "b"),
    ("value", "i"),
])
data = np.ones(1, dtype=dt)
data = data.tobytes()
len(data)

5

In [65]:
with open("data.bin", "rb") as fin:
    data = fin.read()
    print(len(data))

40


In [68]:
dt = np.dtype([
    ("ch", "b"),
    ("value", "i"),
])
np.fromfile("data.bin", dtype=dt)

array([(1,        0), (1,    65536), (0,    65536), (0,        1),
       (0, 16777217), (0, 16777216), (0,      256), (0,      256)],
      dtype=[('ch', 'i1'), ('value', '<i4')])

In [72]:
import struct
with open("data.bin", "rb") as fin:
    data = fin.read()
    for item in struct.iter_unpack("bi", data):
        print(item)

(1, 256)
(1, 256)
(1, 256)
(1, 256)
(1, 256)
