# Работаем с данными профессионально 

Из этой главы вы узнаете множество приемов приручения данных. Большинство из них касаются встроенных типов данных. 

-Строки — последовательности символов в кодировке Unicode, используемые для представления текстовых данных.

-Байты и массивы байтов — последовательности восьмибитных целых чисел, используемые для представления двоичных данных.


# Текстовые строки 

Текст является наиболее популярным типом данных , поэтому мы начнем главу с рассмотрения мощных особенностей текстовых строк в Python. 

# Unicode

Все текстовые примеры, показанные в книге до этого момента, имели формат ASCII. Этот формат был определен в 1960-х годах, когда компьютеры были размером с холодильник и выполняли вычисления немного лучше последнего. Основной единицей хранения информации был байт, который мог хранить 256 уникальных значений в своих 8 битах. 

По разным причинам формат ASCII использовал только 7 бит (128 уникальных значений): 26 символов верхнего регистра, 26 символов нижнего регистра, 10 цифр, некоторые знаки препинания, символы пробела и непечатаемые символы. 

К сожалению, в мире существует больше букв, чем предоставляет формат ASCII. 

Вы могли заказать в кафе хот-дог, но не Gewu ..rztraminer (название этого вина в Германии пишется через u .., а во Франции — без него). 

Было предпринято множество попыток добавить больше букв и символов, и время от времени вы будете встречать их. Вот некоторые из них: 

 Latin-1 или ISO 8859-1; 

 Windows code page 1252.

Каждый из этих форматов использует все 8 бит, но даже этого недостаточно, особенно когда вам нужно воспользоваться неевропейскими языками. Unicode — это действующий международный стандарт, определяющий символы всех языков мира плюс математические и другие символы. «Unicode предоставляет уникальный номер каждому символу независимо от платформы, программы и языка» (Консорциум Unicode). Страница Unicode Code Charts (http://www.unicode.org/charts) содержит ссылки на все определенные на данный момент наборы символов с изображениями. 

В последней версии (6.2) определяется более 110 000 символов, каждый из которых имеет уникальное имя и идентификационный номер. 

Символы разбиты на восьмибитные наборы, которые называются плоскостями. Первые 256 плоскостей называются основными многоязычными уровнями. 

Обратитесь к странице о плоскостях в «Википедии» (http://bit.ly/unicode-plane), чтобы получить более подробную информацию.

# Строки формата Unicode в Python 3 

Строки в Python 3 являются строками формата Unicode, а не массивом байтов. Одним разграничением между обычными байтовыми строками и строками в формате Unicode Python 3 значительно отличается от Python 2. 

Если вы знаете Unicode ID или название символа, то можете использовать его в строке Python. Вот несколько примеров.

 Символ \u, за которым располагаются четыре шестнадцатеричных числа (числа шестнадцатеричной системы счисления, содержащие символы от 0 до 9 и от A до F), определяют символ, находящийся в одной из 256 многоязычных плоскостей Unicode. Первые два числа являются номером плоскости (от 00 до FF), а следующие два — индексом символа внутри плоскости. Плоскость с номером 00 — это старый добрый формат ASCII, и позиции символов в нем такие же, как и в ASCII. 

 Для символов более высоких плоскостей нужно больше битов. Управляющая последовательность для них выглядит как \U, за которым следуют восемь шестнадцатеричных символов, крайний слева из них должен быть равен 0. 

 Для всех символов конструкция \N{ имя } позволяет указать символ с помощью его стандартного имени. Имена перечислены по адресу http://www.unicode.org/ charts/charindex.html. Модуль unicodedata содержит функции, которые преобразуют символы в обоих направлениях: 

 lookup() принимает не зависящее от регистра имя и возвращает символ Unicode; 

 name() принимает символ Unicode и возвращает его имя в верхнем регистре.

В следующем примере мы напишем проверочную функцию, которая принимает символ Unicode, ищет его имя, а затем ищет символ, соответствующий полученному имени (он должен совпасть с оригинальным): 

In [3]:
def unicode_test(value):
    import unicodedata
    name = unicodedata.name(value)
    value2 = unicodedata.lookup(name)
    print('value="%s", name="%s", value2="%s"' %(value, name, value2))

Попробуем проверить несколько символов, начиная с простой буквы формата ASCII: 

In [4]:
unicode_test('A')

value="A", name="LATIN CAPITAL LETTER A", value2="A"


Знак препинания, доступный в ASCII: 

In [5]:
unicode_test('$')

value="$", name="DOLLAR SIGN", value2="$"


Символ валюты из Unicode: 

In [6]:
unicode_test('\u00a2')

value="¢", name="CENT SIGN", value2="¢"


Еще один символ валюты из Unicode: 

In [7]:
unicode_test('\u20ac')

value="€", name="EURO SIGN", value2="€"


Единственная проблема, с которой вы можете столкнуться, — это ограничения, накладываемые шрифтом. Ни в одном шрифте нет символов для всех символов Unicode, вместо них будет отображен символ-заполнитель. Например, так выглядит символ Unicode SNOWMAN, содержащийся в пиктографических шрифтах: 

In [8]:
unicode_test('\u2603')

value="☃", name="SNOWMAN", value2="☃"


Предположим, мы хотим сохранить в строке слово cafe '. Одно из решений состоит в том, чтобы скопировать его из файла или с сайта и понадеяться, что это сработает: 

In [10]:
place = 'café'
place

'café'

Это сработало, поскольку я скопировал это слово из источника, использующего кодировку UTF-8 (с которой вы познакомитесь далее), и вставил его.

Как же нам указать, что последний символ — это «e '»? Если вы посмотрите на индекс символа «Е», вы увидите, что имя E WITH ACUTE, LATIN SMALL LETTER имеет индекс 00Е9. 

Рассмотрим функции name() и lookup(), с которыми мы только что работали. Сначала передадим код символа, чтобы получить его имя: 

In [12]:
import unicodedata
unicodedata.name('\u00e9')

'LATIN SMALL LETTER E WITH ACUTE'

In [13]:
unicodedata.name('é')

'LATIN SMALL LETTER E WITH ACUTE'

Теперь найдем код для заданного имени: 

In [15]:
unicodedata.lookup('LATIN SMALL LETTER E WITH ACUTE')

'é'

In [16]:
unicodedata.lookup(unicodedata.name('\u00e9'))

'é'

Теперь мы можем использовать символ «e '» как с помощью кода, так и с помощью имени: 

In [17]:
place = 'caf\u00e9' 
place

'café'

In [18]:
place = 'caf\N{LATIN SMALL LETTER E WITH ACUTE}' 
place

'café'

В предыдущем сниппете вы вставили символ «e '» непосредственно в строку, но мы также можем собрать строку из составляющих: 

In [19]:
u_umlaut = '\N{LATIN SMALL LETTER U WITH DIAERESIS}' 
u_umlaut

'ü'

In [20]:
drink = 'Gew' + u_umlaut + 'rztraminer' 

In [21]:
 print('Now I can finally have my', drink, 'in a', place) 

Now I can finally have my Gewürztraminer in a café


In [22]:
len('$')

1

In [23]:
len('\U0001f47b')

1

# Кодирование и декодирование  с помощью кодировки UTF-8 

Вам не нужно волноваться о том, как Python хранит каждый символ Unicode, ко гда вы выполняете обычную обработку строки. Но когда вы обмениваетесь данными с внешним миром, вам может понадобиться следующее: 

 способ закодировать строку с помощью байтов; 

 способ декодировать байты обратно в строку. 

Если бы в Unicode было менее 64 000 символов, мы могли бы хранить ID каждого из них в двух байтах. К сожалению, символов больше. Мы могли бы кодировать каждый ID с помощью трех или четырех байтов, но это увеличило бы объем памяти и дискового пространства, необходимый для обычных текстовых строк, в три или четыре раза. 

Кен Томпсон (Ken Thompson) и Роб Пайк (Rob Pike), чьи имена будут знакомы разработчикам на Unix, разработали UTF-8 — динамическую схему кодирования — однажды вечером на салфетке в одной из столовых Нью-Джерси. 

Она использует для символа Unicode от одного до четырех байтов: 

 один байт для ASCII; 

 два байта для большинства языков, основанных на латинице (но не кириллице); 

 три байта для остальных простых языков; 

 четыре байта для остальных языков, включая некоторые азиатские языки и символы.

UTF-8 — это стандартная текстовая кодировка для Python, Linux и HTML. Она охватывает множество символов, работает быстро и хорошо. Если вы используете кодировку UTF-8 в своем коде, жизнь станет гораздо проще, чем в том случае, если будете скакать от одной кодировки к другой.


Если вы создаете строку Python путем копирования символов из другого источника вроде веб-страницы и их вставки, убедитесь, что источник был закодирован с помощью UTF-8. Очень часто может оказаться, что текст был зашифрован с помощью кодировок Latin-1 или Windows 1252, что при копировании в строку Python вызовет генерацию исключений из-за некорректной последовательности байтов.


### Кодирование

Вы кодируете строку байтами. Первый аргумент строковой функции encode() — это имя кодировки. Возможные варианты представлены 

ascii - Старая добрая семибитная кодировка ASCII 

utf-8 Восьмибитная кодировка переменной длины, самый предпочтительный вариант в большинстве случаев

latin-1 Также известна как ISO 8859-1 

cp-1252 Стандартная кодировка Windows 

unicode-escape  Буквенный формат Python Unicode, выглядит как \uxxxx или \Uxxxxxxxx


С помощью кодировки UTF-8 вы можете закодировать все что угодно. Присвоим строку Unicode '\u2603' переменной snowman:


In [1]:
snowman = '\u2603' 

snowman — это строка Python Unicode, содержащая один символ независимо от того, сколько байтов может потребоваться для того, чтобы сохранить ее:


In [2]:
len(snowman) 

1

Теперь закодируем этот символ последовательностью байтов:


In [3]:
ds = snowman.encode('utf-8') 

In [4]:
len(ds) 

3

In [5]:
ds

b'\xe2\x98\x83'

Функция len() возвращает число байтов (3), поскольку ds является переменной bytes. 

Вы можете использовать другие кодировки, не только UTF-8, но будете получать ошибки, если строка Unicode не сможет быть обработана другой кодировкой. Например, если вы используете кодировку ascii, у вас ничего не выйдет, если только вы не предоставите строку, состоящую из корректных символов ASCII:


In [6]:
ds = snowman.encode('ascii') 

UnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)

Функция encode() принимает второй аргумент, который помогает вам избежать возникновения исключений, связанных с кодировкой. 

Его значение по умолчанию, как вы можете увидеть в предыдущем примере, равно 'strict'; при таком значении наблюдается исключение UnicodeEncodeError, если встречается символ, не входящий в кодировку ASCII. 

Существуют и другие кодировки. Используйте значение 'ignore', чтобы опустить все, что не может быть закодировано: 

In [7]:
snowman.encode('ascii', 'ignore') 

b''

Используйте значение 'replace', чтобы заменить неизвестные символы символами ?: 

In [8]:
snowman.encode('ascii', 'replace') 

b'?'

Используйте значение 'backslashreplace', чтобы создать строку, содержащую символы Python Unicode вроде unicode-escape: 

In [None]:
snowman.encode('ascii', 'backslashreplace')

Вы можете использовать этот вариант, если вам нужна печатаемая версия управляющей последовательности Unicode.

В следующем примере создаются строки символьных сущностей, которые вы можете встретить на веб-страницах: 

In [9]:
snowman.encode('ascii', 'xmlcharrefreplace') 

b'&#9731;'

# Декодирование

Мы декодируем байтовые строки в строки Unicode. Когда мы получаем текст из какого-то внешнего источника (файлы, базы данных, сайты, сетевые API и т. д.), он закодирован в виде байтовой строки. Идея заключается в том, чтобы знать, какая кодировка была использована, чтобы мы могли ее декодировать и получить строку Unicode. 

Проблема в следующем: никакая часть байтовой строки не говорит нам о том, какая была использована кодировка. Я уже упоминал опасности копирования/ вставки с сайтов. Вы, возможно, посещали сайты, содержащие странные символы в том месте, где должны быть простые символы ASCII. 

Создадим строку Unicode, которая называется place и имеет значение 'café': 

In [1]:
place = 'caf\u00e9' 
place

'café'

In [2]:
type(place)

str

Закодируем ее в формат UTF-8 с помощью переменной bytes, которая называется place_bytes: 

In [3]:
place_bytes = place.encode('utf-8')

In [4]:
place_bytes

b'caf\xc3\xa9'

In [5]:
type(place_bytes)

bytes

Обратите внимание на то, что переменная place_bytes содержит пять байтов. Первые три похожи на ASCII (преимущество UTF-8), а последние два кодируют символ «e '». Теперь декодируем эту байтовую строку обратно в строку Unicode

In [6]:
place2 = place_bytes.decode('utf-8')

In [7]:
place2

'café'

Это сработало, поскольку мы закодировали и декодировали строку с помощью кодировки UTF-8. Что, если бы мы указали декодировать ее с помощью какойнибудь другой кодировки? 

In [8]:
place3 = place_bytes.decode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 3: ordinal not in range(128)

Декодер ASCII сгенерировал исключение, поскольку байтовое значение 0xc3 некорректно в ASCII. Существуют и другие восьмибитные кодировки, где значения между 128 (80 в шестнадцатеричной системе) и 255 (FF в шестнадцатеричной системе) корректны, но не совпадают со значениями UTF-8: 

In [9]:
place4 = place_bytes.decode('latin-1')
place4

'cafÃ©'

In [10]:
place5 = place_bytes.decode('windows-1252')
place5

'cafÃ©'

In [11]:
place6 = place_bytes.decode('cp866')
place6

'caf├й'

Мораль этой истории — используйте кодировку UTF-8 всюду, где это возможно. Она работает, она поддерживается везде, вы можете с ее помощью выразить любой символ Unicode и быстро закодировать и декодировать. 

Если вы хотите узнать больше, вам могут помочь следующие ссылки: 

 Unicode HOWTO (http://bit.ly/unicode-howto); 
 Pragmatic Unicode (http://bit.ly/pragmatic-uni); 
 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) (http://bit.ly/jspolsky).

# Формат

До этого момента мы просто игнорировали форматирование текста. В главе 2 были показаны несколько функций для выравнивания строк, а в примерах кода использовалась простая функция print() или даже вывод информации на экран поручался интерактивному интерпретатору. Но теперь мы рассмотрим, как интерполировать данные в строки — другими словами, разместить значения внутри строк, — применяя разные форматы. Вы можете использовать эту возможность, чтобы создавать отчеты и другие документы, для которых нужно задать определенный внешний вид. Python предлагает два способа форматирования строк, их часто называют старым стилем и новым стилем. Оба стиля поддерживаются Python 2 и 3 (новый стиль появился в Python 2.6). Старый стиль проще, поэтому мы начнем с него. 

### Старый стиль с символом % 

Старый стиль форматирования строк имеет форму строка % данные. Внутри строки находятся интерполяционные последовательности. В табл. 7.2 показано, что самая простая последовательность — это символ %, за которым следует буква, представляющая тип данных, который должен быть отформатирован.


### Типы преобразования


%s  Целое число в десятичной системе счисления 

%d  Целое число в десятичной системе счисления 

%x Целое число в шестнадцатеричной системе счисления 

%o  Целое число в восьмеричной системе счисления 

%f Число с плавающей точкой в десятичной системе счисления 

%e Число с плавающей точкой в шестнадцатеричной системе счисления 

%g Число с плавающей точкой в восьмеричной системе счисления 

%%   Символ %


Далее мы рассмотрим несколько примеров. Сначала целое число:


In [1]:
'%s' % 42

'42'

In [12]:
'%d' % 42

'42'

In [3]:
'% x' % 42

' 2a'

In [4]:
'%o' % 42

'52'

Число с плавающей точкой: 

In [11]:
'%s' % 7.03

'7.03'

In [10]:
'%f'  % 7.03

'7.030000'

In [9]:
'%e'  % 7.03

'7.030000e+00'

In [8]:
'%g'  % 7.03

'7.03'

Целое число и символ %: 

In [13]:
'%d%%' % 100

'100%'

Интерполяция некоторых строк и целых чисел: 

In [14]:
actor = 'Richard Gere' 
cat = 'Chester' 
weight = 28 

In [15]:
print("My wife's favorite actor is %s" % actor)

My wife's favorite actor is Richard Gere


In [16]:
print("Our cat %s weighs %s pounds" % (cat, weight))

Our cat Chester weighs 28 pounds


Последовательность %s внутри строки означает, что в нее нужно интерполировать строку. Количество использованных символов % должно совпадать с количеством объектов, которые располагаются после %. 

Один объект вроде actor располагается сразу после символа %. Если таких объектов несколько, они должны быть сгруппированы в кортеж (нужно окружить их скобками и разделить запятыми) вроде (cat, weight). 

Несмотря на то что переменная weight целочисленная, последовательность %s внутри строки преобразует ее в строку. 

Вы можете добавить другие значения между % и определением типа, чтобы указать минимальную и максимальную ширину, выравнивание и заполнение символами. 

Определим несколько переменных: целочисленную n, число с плавающей точкой f и строку s: 

In [1]:
n = 42 
f = 7.03 
s = 'string cheese' 

Отформатируем их, используя ширину по умолчанию: 

In [18]:
'%d %f %s'  %(n, f, s)

'42 7.030000 string cheese'

Установим минимальную длину поля, равную 10 символам, для каждой переменной и выровняем их по правому краю, заполняя неиспользованное место пробелами: 

In [19]:
'%10d %10f %10s' %(n, f, s)

'        42   7.030000 string cheese'

Используем ту же ширину поля, но выравнивание будет по левому краю: 

In [20]:
'%-10d %-10f %-10s' %(n, f, s)

'42         7.030000   string cheese'

В этот раз укажем ту же длину поля, но максимальное количество символов будет равно 4, выровняем все по правому краю. Такая настройка обрезает строку и ограничивает число с плавающей точкой четырьмя цифрами после десятичной запятой: 

In [21]:
'%10.4d %10.4f %10.4s' %(n, f, s)

'      0042     7.0300       stri'

То же самое, но выравнивание по правому краю: 

In [22]:
'%.4d %.4f %.4s' % (n, f, s) 

'0042 7.0300 stri'

Наконец, получим длину полей из аргументов, вместо того чтобы жестко ее закодировать: 

In [23]:
'%*.*d %*.*f %*.*s' %(10, 4, n, 10, 4, f, 10, 4, s)

'      0042     7.0300       stri'

# Новый стиль форматирования с помощью символов {} и функции format


Старый стиль форматирования все еще поддерживается. В Python 2, который остановился на версии 2.7, он будет поддерживаться всегда. Но если вы работаете
с Python 3, рекомендуется применять новый стиль форматирования.

Простейший пример его использования показан здесь:

In [2]:
'{} {} {}'.format(n, f, s)

'42 7.03 string cheese'

Аргументы старого стиля нужно предоставлять в порядке появления их заполнителей с символами % в оригинальной строке. С помощью нового стиля вы можете указывать любой порядок:

In [3]:
'{2} {0} {1}'.format(n, f, s)

'string cheese 42 7.03'

Значение 0 относится к первому аргументу, f, 1 относится к строке s, а 2 — к последнему аргументу, целому числу n.

Аргументы могут являться словарем или именованными аргументами, а спецификаторы могут включать их имена:

In [4]:
'{n} {f} {s}'.format(n=42, f=7.03, s='string cheese')

'42 7.03 string cheese'

В следующем примере попробуем объединить три наших значения в словарь,
который выглядит так:

In [5]:
d = {'n': 42, 'f': 7.03, 's': 'string cheese'}

В следующем примере {0} подразумевает весь словарь, а {1} — строку 'other',
которая следует за словарем:

In [6]:
'{0[n]} {0[f]} {0[s]} {1}'.format(d, 'other')

'42 7.03 string cheese other'

В этих примерах аргументы выводятся на экран с форматированием по умолчанию. Старый стиль позволяет указать спецификатор типа после символа %,
а новый стиль — после :. Начнем с аргументов позиционирования:


In [7]:
'{0:d} {1:f} {2:s}'.format(n, f, s)

'42 7.030000 string cheese'

В этом примере мы используем те же значения, но для именованных аргументов:

In [8]:
'{n:d} {f:f} {s:s}'.format(n=42, f=7.03, s='string cheese')


'42 7.030000 string cheese'

Другие возможности (минимальная длина поля, максимальная ширина символов, смещение и т. д.) также поддерживаются.
Минимальная длина поля — 10, выравнивание по правому краю (по умолчанию):


In [9]:
'{0:10d} {1:10f} {2:10s}'.format(n, f, s)

'        42   7.030000 string cheese'

То же, что и в предыдущем примере, но символы > делают выравнивание по
правому краю более явным:

In [10]:
'{0:>10d} {1:>10f} {2:>10s}'.format(n, f, s)

'        42   7.030000 string cheese'

Минимальная длина поля — 10, выравнивание по левому краю:

In [11]:
'{0:<10d} {1:<10f} {2:<10s}'.format(n, f, s)

'42         7.030000   string cheese'

Минимальная длина поля — 10, выравнивание по центру:

In [13]:
'{0:^10d} {1:^10f} {2:^10s}'.format(n, f, s)

'    42      7.030000  string cheese'

Есть один момент, который отличает старый стиль от нового: значение точности
(после десятичной запятой) все еще означает количество цифр после десятичной запятой для дробных чисел и максимальное число символов строки, но вы не можете использовать его для целых чисел:

In [14]:
'{0:>10.4d} {1:>10.4f} {2:10.4s}'.format(n, f, s)

ValueError: Precision not allowed in integer format specifier

In [15]:
'{0:>10d} {1:>10.4f} {2:>10.4s}'.format(n, f, s)

'        42     7.0300       stri'

Последняя опция — это символ-заполнитель. Если вы хотите заполнить поле
вывода чем-то кроме пробелов, разместите этот символ сразу после двоеточия, но
перед символами выравнивания (<, >, ^) или спецификатором ширины:

In [16]:
'{0:!^20s}'.format('BIG SALE')

'!!!!!!BIG SALE!!!!!!'

# Совпадение с регулярными выражениями

В главе 2 немного рассматривались операции со строками. Вооружившись этой
промежуточной информацией, вы, возможно, использовали простые шаблоны
в командной строке, содержащие символ подстановки, вроде ls *.py, что означает
«перечислить все имена файлов, заканчивающиеся на .py».
Пришло время рассмотреть более сложный механизм проверки на совпадение
с шаблоном — регулярные выражения. 

Этот механизм поставляется в стандартном
модуле re, который мы импортируем. Вы определяете строковый шаблон, совпадения для которого вам нужно найти, и строку-источник, в которой следует выполнить поиск. 

Простой пример использования выглядит так:
result = re.match('You', 'Young Frankenstein')

В этом примере строка 'You' является шаблоном, а 'Young Frankenstein' — источником, строкой, которую вы хотите проверить. 

Функция match() проверяет,
начинается ли источник с шаблона.
Для более сложных проверок вам нужно скомпилировать шаблон, чтобы ускорить поиск:
youpattern = re.compile('You')

Далее вы можете выполнить проверку с помощью скомпилированного шаблона:
result = youpattern.match('Young Frankenstein')

Функция match() — это не единственный способ сравнить шаблон и источник,
существует еще несколько методов.

 search() возвращает первое совпадение, если таковое имеется.

 findall() возвращает список всех непересекающихся совпадений, если таковые
имеются.

 split() разбивает источник на совпадения с шаблоном и возвращает список всех
фрагментов строки.

 sub() принимает аргумент для замены и заменяет все части источника, совпавшие с шаблоном, на значение этого аргумента.

# Точное совпадение с помощью функции match()

Начинается ли строка 'Young Frankenstein' со слова 'You'? Рассмотрим пример кода
с комментариями:

In [1]:
import re
source = 'Young Frankenstein'

In [2]:
# функция начинает работать с начала источника
m = re.match('You', source) 
print(m)

<re.Match object; span=(0, 3), match='You'>


In [3]:
# функция возвращает объект; 
#делайте это, чтобы увидеть, что совпало
if m:
    print(m.group())

You


In [4]:
# якорь в начале строки делает то же самое
m = re.match('^You', source) 

In [5]:
print(m)

<re.Match object; span=(0, 3), match='You'>


In [6]:
if m:
    print(m.group())

You


Как насчет 'Frank'?

In [8]:
m = re.match('Frank', source)
print(m)
if m:
    print(m.group())

None


В этот раз функция match() не вернула ничего, и оператор if не запустил оператор print. Как я говорил ранее, функция match() работает только в том случае, если
шаблон находится в начале источника. Но функция search() ищет шаблон в любом
месте источника:

In [10]:
m = re.search('Frank', source)
print(m)
if m:
    print(m.group())

<re.Match object; span=(6, 11), match='Frank'>
Frank


Изменим шаблон:

In [11]:
m = re.search('.*Frank', source)
print(m)
if m:
    print(m.group())

<re.Match object; span=(0, 11), match='Young Frank'>
Young Frank


Кратко объясню, как работает наш новый шаблон:

 символ . означает любой символ;

 символ * означает любое количество предыдущих элементов. 

Если объединить
символы .*, они будут означать любое количество символов (даже ноль);

 'Frank' — это фраза, которую мы хотим найти в любом месте строки.

Функция match() вернула строку, в которой нашлось совпадение с шаблоном

.*Frank: 'Young Frank'.

###  Первое совпадение, найденное с помощью функции search()


Вы можете использовать функцию search(), чтобы найти шаблон 'Frank' в любом
месте строки-источника 'Young Frankenstein', не прибегая к использованию символа подстановки .*:

In [12]:
m = re.search('Frank', source)
print(m)
if m:
    print(m.group())

<re.Match object; span=(6, 11), match='Frank'>
Frank


### Ищем все совпадения с помощью функции findall()

В предыдущих примерах мы искали только одно совпадение. Но что, если вы хотите узнать, сколько раз строка, содержащая один символ n, встречается в строкеисточнике?

In [14]:
source = 'Young Frankenstein'

In [15]:
m = re.findall('n', source)
print('m =', m)
print('Found', len(m), 'matches')


m = ['n', 'n', 'n', 'n']
Found 4 matches


Как насчет строки 'n', за которой следует любой символ?

In [16]:
m = re.findall('n.', source)
print(m)

['ng', 'nk', 'ns']


Обратите внимание на то, что в совпадения не была записана последняя строка 'n'. 

Нам нужно сказать, что символ после 'n' является опциональным, с помощью
конструкции ?:


In [17]:
m = re.findall('n.?', source)
print(m)

['ng', 'nk', 'ns', 'n']


### Разбиваем совпадения с помощью функции split()

В следующем примере показано, как разбить строку на список с помощью шаблона, а не простой строки (как это делает метод split()):

In [19]:
m = re.split('n', source)
print(m)

['You', 'g Fra', 'ke', 'stei', '']


### Заменяем совпадения с помощью функции sub()

Этот метод похож на метод replace(), но он ищет совпадения с шаблонами, а не
простые строки:

In [20]:
m = re.sub('n', '?', source)
print(m)

You?g Fra?ke?stei?


# Шаблоны: специальные символы

Многие описания регулярных выражений начинаются с деталей, касающихся того,
как их определить. Я считаю, что это ошибка. 

Язык регулярных выражений не так
уж мал сам по себе, слишком много деталей должно вместиться в вашу голову
одновременно. 

Они используют так много знаков препинания, что это выглядит
так, будто персонажи мультиков ругаются.

Теперь, когда вы знаете о нужных функциях (match(), search(), findall()
и sub()), рассмотрим детали построения регулярных выражений. 

Создаваемые вами шаблоны подойдут к любой из этих функций.
Самые простые знаки вы уже видели.

 Совпадения с любыми неспециальными символами.

 Любой отдельный символ, кроме \n, — это символ .

 Любое число, включая 0, — это символ *

 Опциональное значение (0 или 1) — это символ ?

Шаблон Совпадения

\d Цифровой символ

\D Нецифровой символ

\w Буквенный или цифровой символ или знак подчеркивания

\W Любой символ, кроме буквенного или цифрового символа или знака подчеркивания

\s Пробельный символ

\S Непробельный символ

\b Граница слова

\B Не граница слова

Модуль Python string содержит заранее определенные строковые константы,
которые мы можем использовать для тестирования. 

Мы воспользуемся константой
printable, которая содержит 100 печатаемых символов ASCII, включая буквы
в обоих регистрах, цифры, пробелы и знаки пунктуации:

In [1]:
import string
printable = string.printable
print('len(printable) = ', len(printable))
print('printable[0:50] = ', printable[0:50])
print('printable[50:] = ', printable[50:])



len(printable) =  100
printable[0:50] =  0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN
printable[50:] =  OPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



Какие символы строки printable являются цифрами?

In [3]:
import re
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

Какие символы являются цифрами, буквами и нижним подчеркиванием?

In [4]:
re.findall('\w', printable)

['0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'X',
 'Y',
 'Z',
 '_']

Какие символы являются пробелами?


In [5]:
re.findall('\s', printable)


[' ', '\t', '\n', '\r', '\x0b', '\x0c']

Регулярные выражения неограничиваются символами ASCII.

Шаблон \d совпадет
со всем, что в кодировке Unicode считается цифрой, а не только с символами ASCII
от 0 до 9. 

Добавим две буквы в нижнем регистре не из ASCII из FileFormat.info.

В этой проверке мы добавим туда следующие символы:

 три буквы ASCII;

 три знака препинания, которые не должны совпасть с шаблоном \w;

 символ Unicode LATIN SMALL LETTER E WITH CIRCUMFLEX (\u00ea);

 символ Unicode LATIN SMALL LETTER E WITH BREVE (\u0115):

In [6]:
x = 'abc' + '-/*' + '\u00ea' + '\u0115'
re.findall('\w', x)
#шаблон нашел только буквы

['a', 'b', 'c', 'ê', 'ĕ']

# Шаблоны: использование спецификаторов

Теперь сделаем пиццу из знаков препинания, используя основные спецификаторы
шаблонов для регулярных выражений, показанные в табл. 7.4.

В этой таблице expr и другие слова, выделенные курсивом, означают любое
корректное регулярное выражение.

Спецификаторы шаблонов

Шаблон              Совпадения

abc                 Буквосочетание abc

(expr)              expr

expr1 | expr2       expr1 или expr2

.                   Любой символ, кроме \n
                    
^                   Начало строки источника

$                   Конец строки источника

prev ?              Ноль или одно включение prev

prev *              Ноль или больше включений prev, максимальное количество

prev *?             Ноль или больше включений prev, минимальное количество

prev +              Одно или больше включений prev, максимальное количество

prev +?             Одно или больше включений prev, минимальное количество

prev { m }          m последовательных включений prev

prev { m, n }       От m до n последовательных включений prev, максимальное                         количество

prev { m, n }?      От m до n последовательных включений prev, минимальное 
                    количество
                    
[abc]               a, или b, или c (аналогично a|b|c)

[^abc]              Не (a, или b, или c)

prev (?= next)     prev, если за ним следует next

prev (? ! next)    prev, если за ним не следует next

(?<=prev ) next    next, если перед ним находится prev

(?<! prev) next    next, если перед ним не находится prev


https://pythonz.net/references/named/re_syntax/

У вас могло зарябить в глазах при попытке прочесть эти примеры. 

Для начала
определим строку-источник:

In [2]:
import re

In [3]:
source = '''I wish I may, I wish I might 
Have a dish of fish tonight.'''

Найдем во всем тексте строку 'wish':

In [4]:
 re.findall('wish', source)

['wish', 'wish']

Далее найдем во всем тексте строки 'wish' или 'fish':

In [5]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

Найдем строку 'wish' в начале текста:

In [6]:
re.findall('^wish', source)

[]

Найдем строку 'I wish' в начале текста:

In [7]:
re.findall('^I wish', source)

['I wish']

Найдем строку 'fish' в конце текста:

In [8]:
re.findall('fish$', source)

[]

Наконец, найдем строку 'fish tonight.$' в конце текста:

In [10]:
re.findall('fish tonight.$', source)

['fish tonight.']

Символы ^ и $ называются якорями: с помощью якоря ^ выполняется поиск
в начале строки, а с помощью якоря $ — в конце. 

Сочетание .$ совпадает с любым
символом в конце строки, включая точку, поэтому выражение сработало. Для обеспечения большей точности нужно создать управляющую последовательность,
чтобы найти именно точку:

In [11]:
re.findall('fish tonight\.$', source)

['fish tonight.']

Начнем с поиска символов w или f, за которым следует буквосочетание ish:

In [12]:
re.findall('[wf]ish', source)

['wish', 'wish', 'fish']

Найдем одно или несколько сочетаний символов w, s и h:

In [13]:
re.findall('[wsh]+', source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

Найдем сочетание ght, за которым следует любой символ, кроме буквенного или
цифрового символа или знака подчеркивания:

In [14]:
re.findall('ght\W', source)

['ght ', 'ght.']

Найдем символ I, за которым следует сочетание wish:

In [15]:
re.findall('I (?=wish)', source)

['I ', 'I ']

И наконец, сочетание wish, перед которым находится I:

In [16]:
re.findall('(?<=I) wish', source)


[' wish', ' wish']

Существует несколько ситуаций, в которых правила шаблонов регулярных выражений конфликтуют с правилами для строк Python. 

Следующий шаблон должен
совпасть с любым словом, которое начинается с fish:

In [17]:
re.findall('\bfish', source)

[]

Почему этого не произошло? Как мы говорили в главе 2, Python использует
специальные управляющие последовательности для строк.

Например, \b для строки означает «возврат на шаг», но в мини-языке регулярных выражений эта последовательность означает начало слова. 

Избегайте случайного применения управляющих последовательностей, используя неформатированные строки Python, когда
определяете строку регулярного выражения. 

Всегда размещайте символ r перед
строкой шаблона регулярного выражения, и управляющие последовательности
Python будут отключены, как показано здесь:

In [18]:
re.findall(r'\bfish', source)

['fish']

### Шаблоны: указываем способ вывода совпадения

При использовании функций match() или search() все совпадения можно получить из объекта результата m, вызвав функцию m.group(). 

Если вы заключите шаблон в круглые скобки, совпадения будут сохранены в отдельную группу и кортеж, состоящий из них, окажется доступен благодаря вызову m.groups(), как показано здесь:

In [1]:
import re

In [2]:
source = '''I wish I may, I wish I might 
Have a dish of fish tonight.'''

In [9]:
m = re.search(r'(. dish\b).*(\bfish)', source) 

In [8]:
m.group() 

'a dish of fish'

In [10]:
m.groups()

('a dish', 'fish')

Если вы используете этот шаблон (?P< name > expr ), он совпадет с выражением expr, сохраняя совпадение в группе name: 

In [11]:
 m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source) 

In [12]:
m.group() 

'a dish of fish'

In [13]:
m.groups()

('a dish', 'fish')

In [14]:
m.group('DISH') 

'a dish'

In [15]:
m.group('FISH') 

'fish'

# Бинарные данные

Работать с текстовыми данными может быть трудно, но работать с бинарными может быть… интересно. 

Вам нужно знать о таких концепциях, как порядок следования байтов (как процессор вашего компьютера разбивает данные на байты)и знаковые биты для целых чисел. 

Вам может понадобиться закопаться в бинарные
форматы файлов или сетевых пакетов, чтобы извлечь или даже изменить данные.

В этом разделе я покажу вам основы работы с бинарными данными в Python.

### bytes и bytearray

В Python 3 появились следующие последовательности восьмибитных целых чисел, имеющих возможные значения от 0 до 255. 

Они могут быть двух типов:

-bytes неизменяем, как кортеж байтов;

-bytearray изменяем, как список байтов.

Начнем мы с создания списка с именем blist и в следующем примере создадим переменную типа bytes с именем the_bytes и переменную bytearray с именем the_byte_array:

In [1]:
blist = [1, 2, 3, 255]

In [3]:
the_bytes = bytes(blist)
the_bytes

b'\x01\x02\x03\xff'

In [5]:
the_byte_array = bytearray(blist) 
the_byte_array

bytearray(b'\x01\x02\x03\xff')

Представление значения типа bytes начинается с символа b и кавычки, за которыми следуют шестнадцатеричные последовательности вроде \x02 или символы ASCII, заканчивается конструкция соответствующим символом кавычки. 

Python преобразует шестнадцатеричные последовательности или символы ASCII в маленькие целые числа, но показывает байтовые значения, которые корректно записаны с точки зрения кодировки ASCII:
>>> b'\x61'
b'a'
>>> b'\x01abc\xff'
b'\x01abc\xff'

In [8]:
b'\x01\x02\x50\xff'

b'\x01\x02P\xff'

В следующем примере показано, что вы неможете изменить переменную типа bytes:

In [9]:
the_bytes[1] = 127

TypeError: 'bytes' object does not support item assignment

Но переменная типа bytearray слишком мягкая и легко изменяемая:

In [10]:
the_byte_array = bytearray(blist)
the_byte_array

bytearray(b'\x01\x02\x03\xff')

In [11]:
the_byte_array[1] = 127
the_byte_array

bytearray(b'\x01\x7f\x03\xff')

Каждая из этих переменных может содержать результат, состоящий из 256элементов, имеющих значения от 0 до 255:

In [12]:
the_bytes = bytes(range(0, 256))

In [14]:
the_bytes

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'

In [15]:
the_byte_array = bytearray(range(0, 256))


In [16]:
the_byte_array

bytearray(b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff')

При выводе на экран содержимого переменных типа bytes или bytearray Python использует формат \x xx для непечатаемых байтов и их эквиваленты ASCII для
печатаемых (плюс некоторых распространенных управляющих последовательностей вроде \n вместо \x0a). 

Так выглядит на экране представление значения переменной the_bytes (переформатированное вручную для того, чтобы показать по
16 байт на строку):

Это может выглядеть запутанно, поскольку перед нами байты (маленькие целые
числа), а не символы.

# Преобразуем бинарные данные с помощью модуля struct

Как вы уже видели, в Python содержится множество инструментов для манипулирования текстом. 

Инструменты для бинарных данных гораздо менее распространены. 

Стандартная библиотека содержит модуль struct, который обрабатывает данные аналогично структурам в С или С++. 

С помощью этого модуля вы можете преобразовать бинарные данные в структуры данных Python и наоборот.

Посмотрим, как он работает с данными из файла с расширением PNG — распространенного формата изображений, который вы можете встретить наряду с GIF
и JPEG. 

Мы напишем небольшую программу, которая извлекает ширину и высоту изображения из фрагмента данных PNG.

Используем логотип издательства O’Reilly — изображение маленького долгопята с глазками-бусинами

Файл этого изображения с расширением PNG доступен в «Википедии». 

Мы не будем рассматривать чтение файла вплоть до главы 8, поэтому я загрузил этот файл, написал небольшую программу, которая выводит его значения как байты, и просто напечатал значения первых 30 байт как значения переменной типа bytes по имени data для примера, который следует далее. 

(Спецификация формата PNG предполагает, что ширина и высота хранятся в первых 24 байтах, поэтому нам пока что больше данных и не нужно.)

https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D1%80%D1%8F%D0%B4%D0%BE%D0%BA_%D0%B1%D0%B0%D0%B9%D1%82%D0%BE%D0%B2

In [3]:
import struct
valid_png_header = b'\x89PNG\r\n\x1a\n'
data = b'\x89PNG\r\n\x1a\n\x00\x00\x00\rIHDR' + b'\x00\x00\x00\x9a\x00\x00\x00\x8d\x08\x02\x00\x00\x00\xc0'
if data[:8] == valid_png_header:
    width, height = struct.unpack('>LL', data[16:24])
    print('Valid PNG, width', width, 'height', height)
else:
    print('Not a valid PNG')


Valid PNG, width 154 height 141


Этот код делает следующее.

-Переменная data содержит первые 30 байт файла PNG. Для того чтобы разместить ее на странице, я объединил две байтовые строки с помощью операторов + .

-Переменная valid_png_header содержит восьмибайтовую последовательность, которая обозначает начало корректного PNG-файла.

-Значение переменной width извлекается из 16–20-го байтов, а переменной
height — из байтов 21–24.

>LL — это строка формата, которая указывает функции unpack(), как интерпретировать входные последовательности байтов и преобразовать их в типы данных Python. 

Рассмотрим ее детальнее:

-символ < означает, что целые числа хранятся в формате big-endian (обратный порядок байтов);

-каждый символ L определяет четырехбайтное целое число типа unsigned long.

Вы можете проверить значение каждого четырехбайтного набора непосредственно:

In [4]:
data[16:20]

b'\x00\x00\x00\x9a'

In [6]:
data[20:24]

b'\x00\x00\x00\x8d'

У целых чисел с обратным порядком байтов главный байт располагается слева. 

Поскольку значения ширины и длины меньше 255, они умещаются в последний байт каждой последовательности.

Вы можете убедиться в том, что эти
шестнадцатеричные значения соответствуют ожидаемым десятичным значениям:

In [7]:
0x9a

154

In [8]:
0x8d

141

Если вы хотите отправить их в противоположном направлении и преобразовать данные Python в байты, используйте функцию pack() модуля struct:


In [9]:
import struct
struct.pack('>L', 154)

b'\x00\x00\x00\x9a'

In [10]:
struct.pack('>L', 141)

b'\x00\x00\x00\x8d'

В табл.  показаны спецификаторы формата для функций pack() и unpack().

Спецификаторы порядка байтов располагаются первыми в строке формата.

Спецификаторы порядка байтов
 
Спецификатор        Порядок байтов
<                   Прямой порядок
>                   Обратный порядок

Спецификаторы формата
 
Спецификатор   Описание                     Количество байтов

x              Пропустить байт                  1

b              Знаковый байт                    1

B              Беззнаковый байт                 1

h              Знаковое_короткое_целоечисло     2

H              Беззнаковое_короткое_целое_число 2

i              Знаковое_целое_число             4

I              Беззнаковое_целое_число          4

l              Знаковое_длинное_целое_число     4

L              Беззнаковое_длинное_целое_число  4

Q              Беззнаковое_очень_длинное_целое_число  8

f              Число с плавающей точкой         4

d              Число с плавающей точкой двойной точности  8

p              Счетчик и символы                1 + count

s              Символы                          count

Спецификаторы типа следуют за символом, указывающим порядок байтов.

Перед любым спецификатором может следовать число, которое указывает количество; запись 5B аналогична записи BBBBB.

Вы можете использовать префикс счетчика вместо конструкции >LL:


In [11]:
struct.unpack('>2L', data[16:24])


(154, 141)

Мы использовали разбиение data[16:24], чтобы получить непосредственно интересующие нас байты. 

Мы также могли добавить спецификатор x, чтобы пропустить неинтересные части:

In [12]:
struct.unpack('>16x2L6x', data)

(154, 141)

Эта строка означает:

-использовать формат с обратным порядком байтов (>);

-пропустить 16 байт (16x);

-прочесть 8 байт — два беззнаковых длинных целых числа (2L);

-пропустить последние 6 байт (6x).

# Другие инструменты для работы с бинарными данными

Некоторые сторонние пакеты с открытым исходным кодом часто предлагают следующие более декларативные способы определения и извлечения бинарных данных:

 bitstring (http://bit.ly/py-bitstring);

 construct (http://bit.ly/py-construct);

 hachoir (http://bit.ly/hachoir-pkg);

 binio (http://spika.net/py/binio/).

В приложении Г содержатся инструкции о том, как загрузить и установить внешние пакеты вроде этих. 

# Преобразование байтов/строк с помощью функции binascii()

Стандартный модуль binascii содержит функции, которые позволяют вам конвертировать данные в бинарный вид и в различные представления строк: шестнадцатеричное (с основанием 16), с основанием 64, uuencoded и др. 

Например, в следующем сниппете выведем на экран восьмибайтовый заголовок PNG как последовательность шестнадцатеричных значений вместо смеси символов ASCII и управляющих последовательностей вида \x xx, которые Python использует для отображения байтовых переменных:

In [9]:
import binascii
valid_png_header = b'\x89PNG\r\n\x1a\n'
print(binascii.hexlify(valid_png_header))

b'89504e470d0a1a0a'


В другую сторону это тоже работает:

In [10]:
print(binascii.unhexlify(b'89504e470d0a1a0a'))

b'\x89PNG\r\n\x1a\n'


# Битовые операторы

Python предоставляет целочисленные операторы, работающие на уровне битов, их аналоги имеются в языке С. 

В табл.  показаны они все, а также примеры их использования для целых чисел 

a (в десятичной системе счисления 5, в двоичной — 0b0101)

и 

b (в десятичной системе счисления 1, в двоичной — 0b0001)

Целочисленные операции для уровня битов

Оператор  Описание         Пример    Десятичныйрезультат   Двоичный результат

&         Логическое И     a & b           1                  0b0001

|         Логическое ИЛИ    a | b          5                  0b0101

^         Исключающее ИЛИ   a ^ b          4                  0b0100

~         Инверсия битов      ~a          –6            Двоичное представление

                                                     зависит от размера типа int
                                                     
<<        Сдвиг влево       a << 1         10                  0b1010

>>        Сдвиг вправо      a >> 1         2                   0b0010

In [11]:
5 ^ 1

4

In [12]:
bin(5)

'0b101'

In [13]:
bin(4)

'0b100'

In [14]:
bin(1)

'0b1'

In [15]:
5 | 1

5

Эти операторы похожи на операторы для работы с множествами, показанные
в главе 3. 

Оператор & возвращает биты, которые одинаковы в обоих аргументах,

а оператор | возвращает биты, которые установлены в обоих аргументах. 

Оператор ^ возвращает биты, которые установлены в одном или в другом аргументе, ноне в них обоих. 

Оператор ~ обращает порядок байтов в одном аргументе, он также изменяет знак, поскольку старший бит целого числа указывает на его знак (1 означает «минус») в арифметике дополнительных кодов, которая используется во всех
современных компьютерах. 

Операторы << и >> просто смещают биты влево или
вправо. 

Сдвиг влево на один бит аналогичен умножению на 2, а сдвиг вправо —
делению на 2.