In [None]:
# 02. 바이너리 데이터 다루기
# -------------------------
# 바이너리(이진) 데이터(binary data)는 두 가지 상태만으로 나타내는 데이터로, 
# 일반적으로 이진법에서는 0과 1로 두 상태를 표현한다. 
# 이번 장에서는 바이너리 데이터와 관련된 모듈 중 파이썬에서 C 구조체 바이너리 
# 데이터를 사용하도록 하는 struct 모듈을 알아본다.

# 004 C로 만든 데이터를 출력하려면? ― struct

In [None]:
# 004 C로 만든 데이터를 출력하려면? ― struct
# ------------------------------------------
# struct는 C 언어로 만든 구조체 이진 데이터를 처리할 때 활용하는 모듈이다. 
# C 구조체로 만들어진 파일을 읽거나 네트워크로 전달되는 C 구조체 이진 데이터를 파이썬에서 처리할 때 주로 사용한다.


# 문제
# ----
# 다음은 구조체 데이터를 output 파일에 저장하는 C 프로그램으로, save_type은 double형 1개, int형 1개, char형 1개로 이루어진 구조체다.

# [파일명: struct_sample.c]

# #include <stdio.h>
# typedef struct { 
#     double v; 
#     int t; 
#     char c;
# } save_type;

# int main() {
#     save_type s = {7.5f, 15, 'A'};
#     FILE *f = fopen("output", "w");
#     fwrite(&s, sizeof(save_type), 1, f);
#     fclose(f);
#     return 0;
# }
# 이렇게 만들어진 바이너리 구조체 데이터(output 파일)를 파이썬으로 읽어 내용을 확인하려면 어떻게 프로그램을 만들어야 할까?

In [None]:
# 풀이
# ----
# 다음처럼 struct 모듈의 unpack() 함수를 사용하면 C 구조체 데이터를 쉽게 읽을 수 있다.

# [파일명: struct_sample.py]

# import struct
# with open('output', 'rb') as f:
#     chunk = f.read(16)
#     result = struct.unpack('dicccc', chunk)
#     print(result)
# chunk는 ‘덩어리’라는 뜻이다.

# unpack() 함수의 첫 번째 인수 'dicccc'는 double형 1개, int형 1개, char형 4개를 뜻한다. 앞의 C 프로그램에서 save_type 구조체는 double형 1개, int형 1개, char형 1개로 이루어지지만 unpack()은 구조체 전체 길이인 16바이트 크기에 맞게 설정해야 한다.

# save_type 구조체의 길이가 16바이트인 이유는 C 구조체의 특징 때문으로, 가장 큰 double형의 크기 8바이트의 배수로 구조체의 길이가 결정되기 때문이다. 따라서 이 구조체의 크기는 16바이트가 되고 실제 데이터 13바이트와 3바이트 널값으로 이루어진다.

# 파이썬과 C 자료형 비교

# 다음은 save_type 구조체에서 사용한 멤버 타입과 파이썬 자료형을 비교한 표이다. double의 길이는 총 8바이트이다.

# Format	C Type	        Python Type	    Standard Size
#      d	double	              float	                8
#      i	int	                integer	                4
#      c	char      bytes of length 1	                1

# double형은 보통 8바이트이지만 시스템에 따라 다를 수 있다.

# 작성한 파이썬 프로그램을 실행하면 다음과 같은 결괏값이 출력된다.

# c:\projects\pylib>python struct_sample.py
# (7.5, 15, 'A', 'V', '\x00', '\x00')

# 앞의 3개 항목을 보면 구조체에 저장된 7.5, 15, 'A' 데이터를 정상적으로 읽었음을 확인할 수 있다. 이어지는 3개 값은 Null 또는 의미 없는 값으로 채워진다.

# 파이썬에서 이진 데이터를 읽을 때는 struct.unpack()을 사용하고 이진 데이터를 생성할 때는 다음처럼 struct.pack()을 사용하면 된다.

# struct.pack('dicccc', 7.5, 15, b'A', b'\x00', b'\x00', b'\x00')
# 이때 C 구조체의 char형 데이터를 생성하려면 포맷 문자 b를 이용하여 1바이트의 byte 문자열로 생성해야 한다.

# 참고
# struct - 패킹된 바이너리 데이터로 바이트 열을 해석: https://docs.python.org/ko/3/library/struct.html

In [None]:
import struct

with open('output', 'rb') as f:
    chunk = f.read(16)
    result = struct.unpack('dicccc', chunk)
print(result)