### Лекция 8 - Работа с байтами

- модуль struct
- модуль io и класс BytesIO
- строки и байты

In [1]:
import struct

dir(struct)

['Struct',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_clearcache',
 'calcsize',
 'error',
 'iter_unpack',
 'pack',
 'pack_into',
 'unpack',
 'unpack_from']

In [2]:
# F.  C Type          Python type         Standard size
# x   pad byte        no value         
# c   char            string of length    1
# b   signed char     integer             1
# B   unsigned char   integer             1
# ?   _Bool           bool                1
# h   short           integer             2
# H   unsigned short  integer             2
# i   int             integer             4
# I   unsigned int    integer             4
# l   long            integer             4
# L   unsigned long   integer             4
# q   long long       integer             8
# Q   unsigned long   long  integer       8
# f   float           float               4
# d   double          float               8
# s   char[]          string       
# p   char[]          string       
# P   void *          integer             


# <     Little endian
# >     Big endian

In [3]:
struct.pack('hhl', 65, 66, 67)

b'A\x00B\x00C\x00\x00\x00'

In [4]:
struct.pack('BBB', 65, 66, 67)

b'ABC'

In [5]:
struct.unpack('>hhl', b'\x00\x01\x00\x02\x00\x00\x00\x03')

(1, 2, 3)

In [6]:
struct.calcsize('hhl')

8

In [7]:
record = b'Messi     \x0A\x29\xC3\x07'

lastname, no, goals, born = struct.unpack('<10sbbH', record)

print(lastname)
print(no)
print(goals)
print(born)

b'Messi     '
10
41
1987


In [8]:
# Формат BMP
#                                    Заголовок файла
#
# 0   2   Символы 'BM' (код 4D42h)
# 2   4   Размер файла в байтах
# 6   2   0 (Резервное поле)
# 8   2   0 (Резервное поле)
# 10  4   Смещение, с которого начинается само изображение (растр).
#                                   
#                                   Заголовок BITMAP (Информация об изображении)
#
# 14  4   Размер заголовка BITMAP (в байтах) равно 40
# 18  4   Ширина изображения в пикселях
# 22  4   Высота изображения в пикселях
# 26  2   Число плоскостей, должно быть 1
# 28  2   Бит/пиксел

# 1 = monochrome palette.       Кол-во цветов = 2 
# 4 = 4bit palletized.          Кол-во цветов = 16 
# 8 = 8bit palletized.          Кол-во цветов = 256 
# 16 = 16bit RGB.               Кол-во ветов = 65536 
# 24 = 24bit RGB.               Кол-во ветов = 16M

# 30  4   Тип сжатия

# 0 = BI_RGB                (без сжатия) 
# 1 = BI_RLE8              (8 bit RLE сжатие) 
# 2 = BI_RLE4              (4 bit RLE сжатие)

# 34  4   0 или размер сжатого изображения в байтах.
# 38  4   Горизонтальное разрешение, пиксел/м
# 42  4   Вертикальное разрешение, пиксел/м
# 46  4   Количество используемых цветов
# 50  4   Количество "важных" цветов.
# Палитра (Карта цветов для N цветов), если используется
# 54  4*N Палитра


with open(r'data\trapeze.bmp', 'rb') as f:
    header = f.read(14)
    bm, size, reserve1, reserve2, relpos = \
        struct.unpack('<2sLHHL', header)
    print('{} bytes'.format(size))

    bitmapheader = f.read(16)
    headersize, width, height, planes, bitsperpixel = \
        struct.unpack('<LLLHH', bitmapheader)
    print('Size: {}x{} pixels'.format(width, height))   
    print('{} bits per pixel'.format(bitsperpixel))

750054 bytes
Size: 500x500 pixels
24 bits per pixel


In [9]:
import io

b = io.BytesIO(b"abcdef")

In [10]:
dir(b)

['__class__',
 '__del__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__iter__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_checkClosed',
 '_checkReadable',
 '_checkSeekable',
 '_checkWritable',
 'close',
 'closed',
 'detach',
 'fileno',
 'flush',
 'getbuffer',
 'getvalue',
 'isatty',
 'read',
 'read1',
 'readable',
 'readinto',
 'readinto1',
 'readline',
 'readlines',
 'seek',
 'seekable',
 'tell',
 'truncate',
 'writable',
 'write',
 'writelines']

In [11]:
view = b.getbuffer()
view[2:4] = b'56'
b.getvalue()

b'ab56ef'

In [12]:
b = io.BytesIO(b'\x2F\x87\x5AOK\x9f')
b.seek(3)
b.getvalue()

b'/\x87ZOK\x9f'

In [13]:
f = io.BytesIO(bytes.fromhex('30'))
f.seek(1)
f.write(bytes.fromhex('ca fe ba be'))
f.write(bytes.fromhex('57 41 56 45'))
f.getvalue()

b'0\xca\xfe\xba\xbeWAVE'

#### Системы счисления, дампы

In [14]:
x = 1243
hex(x)

'0x4db'

In [15]:
oct(x)

'0o2333'

In [16]:
bin(x)

'0b10011011011'

In [17]:
hexdump = ' '.join([hex(byte) for byte in b'Hello'])
hexdump

'0x48 0x65 0x6c 0x6c 0x6f'

In [18]:
hexdump = ' '.join([hex(byte)[2:] for byte in b'Hello'])
hexdump

'48 65 6c 6c 6f'

In [19]:
a = int('00100001', 2)
a

33

In [20]:
a = int('0xff', 16)
a

255

#### Строки, байты, юникод

In [21]:
s = 'Строка ёжика'
print(type(s))
print(s)
print(s.encode('utf8').decode('cp1251'))

<class 'str'>
Строка ёжика
РЎС‚СЂРѕРєР° С‘Р¶РёРєР°


In [22]:
b = s.encode('utf8')
print(type(b))
print('UTF8:', b)
print('CP1251:', s.encode('cp1251'))

<class 'bytes'>
UTF8: b'\xd0\xa1\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0 \xd1\x91\xd0\xb6\xd0\xb8\xd0\xba\xd0\xb0'
CP1251: b'\xd1\xf2\xf0\xee\xea\xe0 \xb8\xe6\xe8\xea\xe0'


In [23]:
# В python 2 ситуация кардинально другая:
# есть отдельные типы str и bytes.

# s = u'Строка ёжика'
# print(type(s))
# print(s)
# print(s.encode('utf8').decode('cp1251'))

# b = s.encode('utf8')
# print(type(b))
# print(b)