Любая информация, которая хранится на запоминающем устройстве (проще говоря, на компьютере) - это последовательность битов (0 и 1). Файлы - это тоже набор информации, поэтому файл - это тоже последовательность битов.

Python содержит специальные классы объектов bytes - это последовательность битов. Любую строку в Python можно перевести в последовательность битов, для этого используется метод строки encode() (от англ. encode - зашифровать).

Создадим обычную строку и выведем ее тип, используя встроенную функцию type():

In [7]:
s = 'Hello'
print(type(s))

<class 'str'>


Переменная s - это переменная строкового типа. Переменные строкового типа - это объекты класса str. Теперь переведем строку s в последовательность битов т.е. закодируем строку s, используя метод encode():



In [8]:
s = 'Hello'

encode_s = s.encode()
print(encode_s)
print(type(encode_s))

b'Hello'
<class 'bytes'>


В результате вывелась такая же строка 'Hello' только с буквой b в начале, при этом тип переменной encode_s - bytes (последовательность битов). На самом деле переменная encode_s уже не равна значению Hello, в ней содержатся закодированные данные. Python выводит начальный текст переменной исключительно для удобства.

Попробуем закодировать строку, содержащую русские символы:

In [9]:
s = 'Привет World'

encode_s = s.encode()
print(encode_s)


b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82 World'


Символы латиницы отображаются как прежде, но все символы кириллицы заменились на спецсимволы - закодировались.

Метод encode() принимает необязательный параметр encoding, в который передается кодировка, в которую нужно закодировать строку. Если параметр encoding не указан, то по умолчанию используется кодировка utf-8.

Для того чтобы раскодировать содержимое объекта типа bytes используется метод decode(). Метод decode() доступен для объектов типа bytes, у обычных строк нет метода decode().

Раскодируем закодированную строку:

In [10]:
s = 'Привет World'

encode_s = s.encode()
print(encode_s)

decode_s = encode_s.decode()
print(decode_s)

b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82 World'
Привет World


Один из примеров использования кодировки данных - это передача данных по интернету. Если ты создаешь API функцию, которая возвращает текстовое содержимое, то это текстовое содержимое нужно закодировать, а на стороне приемника раскодировать. В противном случае, при получении данных могут возникнуть ошибки.

## Задание

Создай переменную f - объект файла FILE_NAME в режиме только для чтения с кодировкой 'utf-8'. Выведи объект f в консоль с помощью функции print().

In [11]:
FILE_NAME = 'anna_karenina.txt'

# Напиши свой код после этой строки
with open(FILE_NAME, encoding='utf-8') as f:
    print(f)

<_io.TextIOWrapper name='anna_karenina.txt' mode='r' encoding='utf-8'>


Создай переменную content - содержимое файла FILE_NAME. Распечатай переменную content.

In [12]:
FILE_NAME = 'anna_karenina.txt'
with open(FILE_NAME, encoding='utf-8') as f:
    print(f.read())

Лев Толстой
АННА КАРЕНИНА

ЧАСТЬ ПЕРВАЯ
I
Все счастливые семьи похожи друг на друга,
каждая несчастливая семья несчастлива по-своему.


Создай переменную content_utf_8 последовательность битов от переменной content в кодировке utf-8. Распечатай переменную content_utf_8.

In [13]:
FILE_NAME = 'anna_karenina.txt'
with open(FILE_NAME, encoding='utf-8') as f:
    content_utf_8 = f.read().encode()
    print(content_utf_8)

b'\xd0\x9b\xd0\xb5\xd0\xb2 \xd0\xa2\xd0\xbe\xd0\xbb\xd1\x81\xd1\x82\xd0\xbe\xd0\xb9\n\xd0\x90\xd0\x9d\xd0\x9d\xd0\x90 \xd0\x9a\xd0\x90\xd0\xa0\xd0\x95\xd0\x9d\xd0\x98\xd0\x9d\xd0\x90\n\n\xd0\xa7\xd0\x90\xd0\xa1\xd0\xa2\xd0\xac \xd0\x9f\xd0\x95\xd0\xa0\xd0\x92\xd0\x90\xd0\xaf\nI\n\xd0\x92\xd1\x81\xd0\xb5 \xd1\x81\xd1\x87\xd0\xb0\xd1\x81\xd1\x82\xd0\xbb\xd0\xb8\xd0\xb2\xd1\x8b\xd0\xb5 \xd1\x81\xd0\xb5\xd0\xbc\xd1\x8c\xd0\xb8 \xd0\xbf\xd0\xbe\xd1\x85\xd0\xbe\xd0\xb6\xd0\xb8 \xd0\xb4\xd1\x80\xd1\x83\xd0\xb3 \xd0\xbd\xd0\xb0 \xd0\xb4\xd1\x80\xd1\x83\xd0\xb3\xd0\xb0,\n\xd0\xba\xd0\xb0\xd0\xb6\xd0\xb4\xd0\xb0\xd1\x8f \xd0\xbd\xd0\xb5\xd1\x81\xd1\x87\xd0\xb0\xd1\x81\xd1\x82\xd0\xbb\xd0\xb8\xd0\xb2\xd0\xb0\xd1\x8f \xd1\x81\xd0\xb5\xd0\xbc\xd1\x8c\xd1\x8f \xd0\xbd\xd0\xb5\xd1\x81\xd1\x87\xd0\xb0\xd1\x81\xd1\x82\xd0\xbb\xd0\xb8\xd0\xb2\xd0\xb0 \xd0\xbf\xd0\xbe-\xd1\x81\xd0\xb2\xd0\xbe\xd0\xb5\xd0\xbc\xd1\x83.'


Теперь раскодируй объект content_utf_8. Результат сохрани в переменной decode_content. Распечатай переменную decode_content.

In [14]:
FILE_NAME = 'anna_karenina.txt'
with open(FILE_NAME, encoding='utf-8') as f:
    content_utf_8 = f.read().encode()
    print(content_utf_8.decode())


Лев Толстой
АННА КАРЕНИНА

ЧАСТЬ ПЕРВАЯ
I
Все счастливые семьи похожи друг на друга,
каждая несчастливая семья несчастлива по-своему.
