# Работа с файлами

Для открытия файлов в python используется встроенная команда open:

In [None]:
# f = open('testmodule.py', 'r', encoding='cp1252')
f = open('testmodule.py', 'r', encoding='utf-8')
s8 = 'rpgkkorgmo'
s32 = s.encode(encoding='UTF-32')

In [None]:
s8

'rpgkkorgmo'

In [None]:
s32

b'\xff\xfe\x00\x00r\x00\x00\x00p\x00\x00\x00g\x00\x00\x00k\x00\x00\x00k\x00\x00\x00o\x00\x00\x00r\x00\x00\x00g\x00\x00\x00m\x00\x00\x00o\x00\x00\x00'

In [None]:
type(s32)

bytes

In [None]:
import sys
print(sys.getsizeof(s8))
print(sys.getsizeof(s32))

59
77


Функция open() принимает 2 основных аргумента:
- первый аргумент file - это имя файла, т.е. путь к файлу, который мы хотим открыть, путь может быть как абсолютный, так и относительный, как и в ОС Windows.
- второй аргумент mode - это режим работы с файлом: для чтения, записи, перезаписи и пр.

Обозначение режимов работы с фалом:
- 'r'	открытие на чтение (является значением по умолчанию).
- 'w'	открытие на запись, содержимое файла удаляется, создается новый пустой файл.
- 'x'	открытие на запись, если файла не существует, иначе исключение.
- 'a'	открытие на дозапись, информация добавляется в конец файла.
- 'b'	открытие в двоичном режиме.
- 't'	открытие в текстовом режиме.
- '+'	открытие на чтение и запись.

В python файл представляется идентификатором и вся дальнейшая работа с этим файлом связана с его идентификатором:

In [None]:
f = open('testmodule.py', 'r')
print(f)

<_io.TextIOWrapper name='testmodule.py' mode='r' encoding='UTF-8'>


# Чтение из файла

Существует 3 основных способа чтения информации из текстового файла:

1. Чтение всей информации целиком с помощью функции read()

In [None]:
msg = f.read()
print(msg)

Hi
Привет
Some data
0 1 2 3 4 5 6 7 8



2. Чтение информации построчно с помощью цикла for

In [None]:
dir(f)

In [None]:
for line in f:
    print(line)

Hi

Привет

Some data

0 1 2 3 4 5 6 7 8



В выводе присутствуют все переводы строк, как и в файле. Дополнительные переводы строк обусловлены стандартным поведением функции print().

3. Чтение всех строк одним списком с помощью функции readlines()

In [None]:
lines = f.readlines()
for i in range(len(lines)):
    print(lines[i], end='')

Hi
Привет
Some data
0 1 2 3 4 5 6 7 8


Существует также функция readline(), позволяющая считать лишь одну строчку а не все сразу.

# Запись в файл

Первым делом для записи в файл его нужно открыть в режиме записи:

In [None]:
f = open('output.txt', 'w')
print(f)

<_io.TextIOWrapper name='output.txt' mode='w' encoding='UTF-8'>


1. Запись в файл с помощью метода write:

In [None]:
msg = 'Write to file\n'
f.write(msg)

14

Функции write принимает строковый аргумент - данные для записи, и возвращает число записанных символов.

2. Запись в файл с помощью метода print:

In [None]:
msg = "Write with print\n"
print(msg, file=f)

После чтения/записи не забывайте закрывать файлы:

In [None]:
f.close()

# With ... as - менеджер контекста

Конструкция with ... as используется для оборачивания блока инструкций. 
Синтаксис конструкции with ... as:

In [None]:
"with" expression ["as" target] ("," expression ["as" target])* ":"
    suite

Что происходит при выполнении данного блока:
1) Выполняется выражение в конструкции with ... as.
2) Загружается специальный метод __exit__ для дальнейшего использования.
3) Выполняется метод __enter__. Если конструкция with включает в себя слово as, то возвращаемое методом __enter__ значение записывается в переменную.
4) Выполняется suite.
5) Вызывается метод __exit__, причём неважно, выполнилось ли suite или произошло исключение. В этот метод передаются параметры исключения, если оно произошло, или во всех аргументах значение None, если исключения не было.

Если в конструкции with - as было несколько выражений, то это эквивалентно нескольким вложенным конструкциям:

In [None]:
with A() as a, B() as b:
    suite

эквивалентно

In [None]:
with A() as a:
    with B() as b:
        suite

Для чего применяется конструкция with ... as? Для гарантии того, что критические функции выполнятся в любом случае. Самый распространённый пример использования этой конструкции - открытие файлов, такой способ гарантирует закрытие файла в любом случае.

In [None]:
with open('output.txt','w') as myfile:
    myfile.write('Write without close')

In [None]:
print(bool(myfile))
# myfile.write('data')
myfile.closed

True


True

In [None]:
try:
    # fobj = open('path/to/file.txt', 'r')
    fobj = open('testmodule.py', 'r')
    data = fobj.read()
    # print(int(data))
except FileNotFoundError as e:
    print(e)
    print('Could not find the necessary file!')
except ValueError as e:
    print(e)
else:
    print('else')
finally:
    print('finish')
    if fobj:
      fobj.close()


### Как устроен цикл for

In [None]:
for i in range(5):
    print(i)

for line in open('testmodule.py'):
    print(line)

for key in {'A' : 1, 'B' : 2, 'C' : 3}:
    print(key)

for letter in 'Hello, World':
    print(letter, type(letter))

for i in 1:
    pass

0
1
2
3
4
Hi

Привет

Some data

0 1 2 3 4 5 6 7 8

A
B
C
H <class 'str'>
e <class 'str'>
l <class 'str'>
l <class 'str'>
o <class 'str'>
, <class 'str'>
  <class 'str'>
W <class 'str'>
o <class 'str'>
r <class 'str'>
l <class 'str'>
d <class 'str'>


TypeError: ignored

In [None]:
dict_dir = set(dir({}))
file_dir = set(dir(open('testmodule.py')))
int_dir = set(dir(1))

set(dir(list)) & file_dir - int_dir

{'__iter__'}

In [None]:
a = [1, 2, 3, 4]
it = a.__iter__()

it

<list_iterator at 0x7fefd7d1d910>

In [None]:
dir(it)

['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__length_hint__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__']

In [None]:
set(dir(it)) - int_dir

{'__iter__', '__length_hint__', '__next__', '__setstate__'}

In [None]:
import itertools
it1 = itertools.cycle('ABC').__iter__()
set(dir(it1)) - int_dir

{'__iter__', '__next__', '__setstate__'}

In [None]:
for i in a:
  print(i)

1
2
3
4


In [None]:
a = [1, 2, 3, 4]
it = a.__iter__()
print(it.__length_hint__())
for i in range(it.__length_hint__()):
  print(it.__next__())
it.__next__()

4
1
2
3
4


StopIteration: ignored

### Итерируемая последовательность (aka Iterable)

Это обьект у которого определён метод \_\_iter\_\_, возвращающий обьект реализующий протокол *итератора*
(Примеры: list, dict, file, range)

### Итератор
Это обьект у которого определён метод \_\_next\_\_ (это может быть как отдельный обьект, так и, например, self самой последовательности, то есть она может быть итератором по самой себе)


Метод __next__ при каждом вызове должен возвращать следующий элемент последовательности, или выкидывать исключение  StopIteration, если последовательность кончилась



In [None]:
range(0)

range(0, 0)

### iter и next

Определены как свободные функции, вызывающие соответствующие методы у обьектов.

In [None]:
a = [1, 2, 3]
it = iter(a)
it

<list_iterator at 0x7fefd7d07cd0>

In [None]:
next(it)

StopIteration: ignored

In [None]:
lst = iter([1])
print(next(lst, 5))
next(lst, 5)

1


5

In [None]:
def make_timer(ticks):
    def timer():
        nonlocal ticks
        ticks -= 1
        return ticks
    return timer

for t in iter(make_timer(10), 0):    # iter(function , terminal_value)
    print(t, end=' - ')

### реализация цикла for

In [None]:
def handle(x):
    print(x)

In [None]:
seq = [1, 2, 3]
for x in seq:
    handle(x)

1
2
3


In [None]:
dir(it)

['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__length_hint__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__']

In [None]:
it = iter(seq)
while True:
    try:
        value = next(it)
        handle(value)
    except StopIteration:
        break

1
2
3


### Класс и его итератор

In [None]:
class RangeIter(object):
    def __init__(self, frm, to):
        self.to = to
        self.idx = frm
    def __next__(self):
        if self.idx == self.to: raise StopIteration('range ended')
        self.idx += 1
        return (self.idx - 1)
    def __iter__(self):
        return self

class Range1(object):
    def __init__(self, frm, to):
        self.to = to
        self.frm = frm
    def __iter__(self):
        return RangeIter(self.frm, self.to)

range1 = Range1(2, 5)
print(range1.frm, range2.to)
for i in range1:
    print(i, end=' - ')
print()
print(range1.frm, range2.to)
for i in range1:
    print(i, end=' - ')
print()
print(range1.frm, range2.to)

my_range_iter = iter(range1)
while True:
  try:
    print(next(my_range_iter))
  except StopIteration as e:
    print(e)
    break

my_range_iter = iter(range1)
for i in range(3):
  print(next(my_range_iter))

2 5
2 - 3 - 4 - 
2 5
2 - 3 - 4 - 
2 5
2
3
4
range ended
2
3
4


In [None]:
%%time
my_range_iter = iter(range1)
while True:
  try:
    print(next(my_range_iter))
  except StopIteration as e:
    break

2
3
4
CPU times: user 2.48 ms, sys: 0 ns, total: 2.48 ms
Wall time: 2.58 ms


In [None]:
%%time
my_range_iter = iter(range1)
for i in range(3):
  print(next(my_range_iter))

2
3
4
CPU times: user 246 µs, sys: 0 ns, total: 246 µs
Wall time: 177 µs


### Класс -- итератор

In [None]:
class Range2(object):
    def __init__(self, frm, to):
        self.to = to
        self.idx = frm

    def __iter__(self):
        return self

    def __next__(self):
        if self.idx == self.to: raise StopIteration
        self.idx += 1
        return (self.idx - 1)

range2 = Range2(2, 5)
print(range2.idx, range2.to)
for i in range2:
    print(i, end=' - ')
print()
print(range2.idx, range2.to)
for i in range2:
    print(i, end=' - ')

2 5
2 - 3 - 4 - 
5 5


### Исчерпаемость

In [None]:
r1 = Range1(1, 5)
r2 = Range2(1, 5)

print(list(r1), list(r2))
print(list(r1), list(r2))


[1, 2, 3, 4] [1, 2, 3, 4]
[1, 2, 3, 4] []


### Несколько итераторов
Так как итератор является итерируемым обьектом - можно определять несколько итераторов для одного обьекта

In [None]:
class BinaryTree(object):
    def inorder(self):
        return InOrderIterator(self)

### \_\_contains__

может быть определен для итераторов

In [None]:
class object:
    def __contains__(self, value):
        for item in self:
            if item == value:
                return True
        return False
'abc'.__contains__('a')

In [None]:
class Range:
    def __contains__(self, value):
        return self.frm < value < self.to

### Упрощенный протокол итерируемого - последовательность

In [None]:
class Seq(object):
    def __init__(self, lst):
        self.lst = lst
    def __len__(self):
        return len(self.lst)
    def __getitem__(self, idx):
        if idx < 0 or idx >= len(self):
            raise IndexError(idx)
        return self.lst[idx]

for i in Seq([1, 2, 3]):
    print(i)

1
2
3


Itertools::chain

In [None]:
from itertools import chain
for i in chain(range(2, 7), range(10, 32, 4), 'ABCD'):
  print(i)

2
3
4
5
6
10
14
18
22
26
30
A
B
C
D


### itertools :: islice

In [None]:
from itertools import islice
seq = range(10)
list(islice(seq, 2, 5, 2))   # seq[2:5]

[2, 4]

In [None]:
seq = range(10)
list(islice(seq, 1, 7, 2))   # seq[1:7:2]

[1, 3, 5]

### itertools :: count, cycle, repeat

In [None]:
from itertools import count, cycle, repeat

list(islice(cycle('test'), 2, 15))

['s', 't', 't', 'e', 's', 't', 't', 'e', 's', 't', 't', 'e', 's']

In [None]:
list(islice(count(42), 10))

[42, 43, 44, 45, 46, 47, 48, 49, 50, 51]

### itertools :: dropwhile and takewhile

In [None]:
from itertools import dropwhile, takewhile

list(takewhile(lambda x : x < 5, range(10)))

### itertools :: chain

In [None]:
from itertools import chain
list(chain([1, 2], 'test', range(3)))

In [None]:
def geniter(count):
    for i in range(count):
        yield range(3)

list(chain.from_iterable(geniter(3)))

### itertools :: tee

In [None]:
from itertools import tee

a, b, c = tee(range(3), 3)
print(list(a), list(b), list(c))

### itertools :: комбинаторика

In [None]:
from itertools import product

list(product('AB', 'XY'))

In [None]:
from itertools import permutations

list(permutations('ABC'))

In [None]:
from itertools import combinations

list(combinations('ABC', 2))