In [None]:
# 14장 인터넷으로 데이터 주고받기
# 인터넷으로 주고받는 데이터 형식은 다양하다. 
# 예를 들어 여러분이 주고받는 이메일은 인터넷에서 Base64라는 데이터 형식으로 전송된다. 
# 이번 장에서는 JSON, Base64 등의 인터넷 데이터를 다루는 모듈을 알아본다.

## 077 JSON 데이터를 다루려면? ― json

In [None]:
# 077 JSON 데이터를 다루려면? ― json
# json은 JSON 데이터를 쉽게 처리하고자 사용하는 모듈이다.

# 문제
# 다음은 개인정보를 JSON 형태의 데이터로 만든 myinfo.json 파일이다.

# [파일명: myinfo.json]

# {
#     "name": "홍길동",
#     "birth": "0525",
#     "age": 30
# }

# 인터넷으로 얻은 이 파일을 읽어 파이썬에서 처리할 수 있도록 딕셔너리 자료형으로 만들려면 어떻게 해야 할까?

In [1]:
%%writefile myinfo.json
{
    "name": "홍길동",
    "birth": "0525",
    "age": 30
}

Writing myinfo.json


In [None]:
# 풀이
# JSON 파일을 읽어 딕셔너리로 변환하려면 다음처럼 json 모듈을 사용하면 된다.

# >>> import json
# >>> with open('myinfo.json') as f:
# ...     data = json.load(f)
# ... 
# >>> type(data)
# <class 'dict'>
# >>> data
# {'name': '홍길동', 'birth': '0525', 'age': 30}

# JSON 파일을 읽을 때는 이 예처럼 json.load(파일 객체)를 사용한다. 
# 이렇게 load() 함수는 읽은 데이터를 딕셔너리 자료형으로 반환한다. 
# 반대로 딕셔너리 자료형을 JSON 파일로 생성할 때는 다음처럼 json.dump(딕셔너리, 파일 객체)를 사용한다.

# >>> import json
# >>> data = {'name': '홍길동', 'birth': '0525', 'age': 30}
# >>> with open('myinfo.json', 'w') as f:
# ...     json.dump(data, f)
# ...
# >>>
# 알아두면 좋아요
# dumps(), loads()


In [6]:
import json

with open('myinfo.json') as f:
    data = json.load(f)
print(type(data), data)


data = {'name': '홍길동', 'birth': '0525', 'age': 30}
with open('myinfo.json', 'w') as f:
    json.dump(data, f)


<class 'dict'> {'name': '홍길동', 'birth': '0525', 'age': 30}


In [None]:
# 이번에는 파이썬 자료형을 JSON 문자열로 만드는 방법에 대해서 알아보자.

# >>> import json
# >>> d = {"name":"홍길동", "birth":"0525", "age": 30}
# >>> json_data = json.dumps(d)
# >>> json_data
# '{"name": "\\ud64d\\uae38\\ub3d9", "birth": "0525", "age": 30}'

# 딕셔너리 자료형을 JSON 문자열로 만들려면 json.dumps() 함수를 사용하면 된다. 
# 그런데 딕셔너리를 JSON 데이터로 변경하면 '홍길동'과 같은 한글 문자열이 코드 형태로 표시된다. 
# 왜냐하면 dump(), dumps() 함수는 기본적으로 데이터를 아스키 형태로 저장하기 때문이다. 
# 유니코드 문자열을 아스키 형태로 저장하다 보니 한글 문자열이 마치 깨진 것처럼 보인다.

# 그러나 JSON 문자열을 딕셔너리로 다시 역변환하여 사용하는 데에는 전혀 문제가 없다. 
# JSON 문자열을 딕셔너리로 변환할 때는 다음처럼 json.loads() 함수를 사용한다.

# >>> json.loads(json_data)
# {'name': '홍길동', 'birth': '0525', 'age': 30}

# 한글 문자열이 아스키 형태의 문자열로 변경되는 것을 방지하는 방법도 있다.

# >>> d = {"name":"홍길동", "birth":"0525", "age": 30}
# >>> json_data = json.dumps(d, ensure_ascii=False)
# >>> json_data
# '{"name": "홍길동", "birth": "0525", "age": 30}'
# >>> json.loads(json_data)
# {'name': '홍길동', 'birth': '0525', 'age': 30}
# 이처럼 ensure_ascii=False 옵션을 사용하면 된다. 이 옵션은 데이터를 저장할 때 아스키 형태로 변환하지 않겠다는 뜻이다.


In [11]:
import json

d = {"name":"홍길동", "birth":"0525", "age": 30}
json_data = json.dumps(d)
print(json_data)

json_data = json.dumps(d, ensure_ascii=False)
print(json_data)

data = json.loads(json_data)
print(data)

{"name": "\ud64d\uae38\ub3d9", "birth": "0525", "age": 30}
{"name": "홍길동", "birth": "0525", "age": 30}
{'name': '홍길동', 'birth': '0525', 'age': 30}


In [None]:

# 출력되는 JSON 문자열을 보기 좋게 정렬하려면 다음처럼 indent 옵션을 추가하면 된다.

# >>> d = {"name":"홍길동", "birth":"0525", "age": 30}
# >>> print(json.dumps(d, indent=2, ensure_ascii=False))
# {
#   "name": "홍길동",
#   "birth": "0525",
#   "age": 30
# }

# 그리고 딕셔너리 외에 리스트나 튜플처럼 다른 자료형도 JSON 문자열로 바꿀 수 있다.

# >>> json.dumps([1,2,3])
# '[1, 2, 3]'
# >>> json.dumps((4,5,6))
# '[4, 5, 6]'

# 참고
# json - JSON 인코더와 디코더: https://docs.python.org/ko/3/library/json.html

In [13]:
import json

d = {"name":"홍길동", "birth":"0525", "age": 30}
json_data = json.dumps(d,indent=4)
print(json_data)

json_data = json.dumps(d, ensure_ascii=False, indent=4)
print(json_data)

data = json.loads(json_data)
print(data)

{
    "name": "\ud64d\uae38\ub3d9",
    "birth": "0525",
    "age": 30
}
{
    "name": "홍길동",
    "birth": "0525",
    "age": 30
}
{'name': '홍길동', 'birth': '0525', 'age': 30}


## 078 바이너리 데이터를 문자열로 바꾸려면? ― base64

In [None]:
# 078 바이너리 데이터를 문자열로 바꾸려면? ― base64

# base64는 바이너리 데이터를 문자열로 인코딩할 때 사용하는 모듈이다. 이때 인코딩한 문자열은 64개의 아스키 문자로 구성된다(64진법 사용).

# Base64는 이메일에 바이너리 데이터를 첨부하고자 고안한 인코딩 방법이다.

# 문제
# A 씨는 test.jpg라는 이미지 파일을 텍스트로 첨부하여 B 씨에게 전송하려 한다. 
# 그러려면 이미지 파일을 Base64 형식으로 인코딩한 문자열로 바꾸는 img_to_string() 함수가 필요하다. 
# 이와 함께 데이터를 수신한 B 씨는 Base64로 인코딩한 문자열을 원래 이미지로 바꾸는 string_to_img() 함수가 필요하다.

# A 씨와 B 씨가 이미지를 문자열 형식으로 주고받는 데 필요한 다음과 같은 형식의 img_to_string() 함수와 string_to_img() 함수를 만들려면 어떻게 해야 할까?

# def img_to_string(filename):
#     ''' 파일명(filename)을 입력으로 받아 base64로 인코딩한 문자열을 리턴한다 '''
#     pass

# def string_to_img(s, filename):
#     ''' base64로 인코딩된 문자열(s)과 파일명(filename)을 입력으로 받아 문자열을 파일로 저장한다. '''
#     pass

In [26]:
import base64
import time

def img_to_string(filename):
    with open(filename, 'rb') as f:
        return base64.b64encode(f.read())

def string_to_file(string):
    with open('./test_bed/base64.txt', 'w') as f:
        f.write(string.decode('utf-8'))
    
def string_to_image(s, filename):
    with open(filename, 'wb') as f:
        f.write(base64.b64decode(s))
        

def main(filename):
    string = img_to_string(filename)
    time.sleep(10)
    print(string)
    print('Sleeping .... 10 sec')
    
    string_to_file(string)
    
    string_to_image(string, filename)
    
if __name__ == '__main__':
    filename = './test_bed/test.jpg'
    main(filename)

            

b'/9j/4AAQSkZJRgABAQEASABIAAD//gBORmlsZSBzb3VyY2U6IGh0dHA6Ly9jb21tb25zLndpa2ltZWRpYS5vcmcvd2lraS9GaWxlOlBlcnNpYW5fQ2F0XyhraXR0ZW4pLmpwZ//iDFhJQ0NfUFJPRklMRQABAQAADEhMaW5vAhAAAG1udHJSR0IgWFlaIAfOAAIACQAGADEAAGFjc3BNU0ZUAAAAAElFQyBzUkdCAAAAAAAAAAAAAAAAAAD21gABAAAAANMtSFAgIAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEWNwcnQAAAFQAAAAM2Rlc2MAAAGEAAAAbHd0cHQAAAHwAAAAFGJrcHQAAAIEAAAAFHJYWVoAAAIYAAAAFGdYWVoAAAIsAAAAFGJYWVoAAAJAAAAAFGRtbmQAAAJUAAAAcGRtZGQAAALEAAAAiHZ1ZWQAAANMAAAAhnZpZXcAAAPUAAAAJGx1bWkAAAP4AAAAFG1lYXMAAAQMAAAAJHRlY2gAAAQwAAAADHJUUkMAAAQ8AAAIDGdUUkMAAAQ8AAAIDGJUUkMAAAQ8AAAIDHRleHQAAAAAQ29weXJpZ2h0IChjKSAxOTk4IEhld2xldHQtUGFja2FyZCBDb21wYW55AABkZXNjAAAAAAAAABJzUkdCIElFQzYxOTY2LTIuMQAAAAAAAAAAAAAAEnNSR0IgSUVDNjE5NjYtMi4xAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABYWVogAAAAAAAA81EAAQAAAAEWzFhZWiAAAAAAAAAAAAAAAAAAAAAAWFlaIAAAAAAAAG+iAAA49QAAA5BYWVogAAAAAAAAYpkAALeFAAAY2lhZWiAAAAAAAAAkoAAAD4QAALbPZGVzYwAAAAAAAAAWSUVDIGh0dHA6Ly93d3cuaWVjLmNoAA

In [None]:
# 풀이
# 다음은 base64 모듈을 사용한 문제 풀이이다.

# [파일명: base64_sample.py]

# import base64


# def img_to_string(filename):
#     ''' 파일명(filename)을 입력으로 받아 base64로 인코딩한 문자열을 리턴한다 '''
#     with open(filename, 'rb') as f:
#         return base64.b64encode(f.read())


# def string_to_img(s, filename):
#     ''' base64로 인코딩된 문자열(s)과 파일명(filename)을 입력으로 받아 문자열을 파일로 저장한다. '''
#     with open(filename, 'wb') as f:
#         f.write(base64.b64decode(s))


# img_string = img_to_string('test.jpg')  # test.jpg 파일을 base64 문자열로 반환
# string_to_img(img_string, 'result.jpg')  # base64 문자열을 result.jpg 파일로 저장

# base64.b64encode()는 이미지와 같은 바이너리 데이터를 Base64 형태의 문자열로 바꾸는 함수이다. 
# 반대로 base64.b64decode()는 Base64로 인코딩한 문자열을 바이너리 데이터로 바꾸는 함수이다.

# 알아두면 좋아요
# 바이트 문자열을 Base64로 인코딩하기
# 다음은 바이트 문자열을 Base64로 인코딩하고 디코딩하는 예제이다.

# >>> import base64
# >>> e = base64.b64encode(b'Life is too short')
# >>> e
# b'TGlmZSBpcyB0b28gc2hvcnQ='
# >>> base64.b64decode(e)
# b'Life is too short'
# 참고
# base64 - Base16, Base32, Base64, Base85 데이터 인코딩: https://docs.python.org/ko/3/library/base64.html

In [28]:
import base64

e = base64.b64encode(b'Life is too short')
print(e)
base64.b64decode(e)


b'TGlmZSBpcyB0b28gc2hvcnQ='


b'Life is too short'

## 079 문자열을 16진수로 변환하려면? ― binascii


In [None]:
# 079 문자열을 16진수로 변환하려면? ― binascii

# binascii는 문자열을 16진수로, 변환한 16진수를 다시 문자열로 변환하는 모듈이다.

# 문제
# 다음은 어떤 문자열을 16진수로 표현한 것이다.

# 507974686f6e204c696272617279
# 이 문자열의 원래 값을 구하려면 어떻게 해야 할까?


In [33]:
import binascii

hex_data = b'507974686f6e204c696272617279'

bin_data = binascii.unhexlify(hex_data).decode('utf-8')
bin_data



'Python Library'

In [None]:

# 풀이
# 다음은 binascii 모듈을 사용한 문제 풀이이다.

# >>> import binascii
# >>> binascii.unhexlify(b'507974686f6e204c696272617279')
# b'Python Library'

# binascii.unhexlify() 함수를 사용하면 16진수 문자열로 변환한 원래의 문자열 값을 쉽게 얻을 수 있다. 
# 단, 이 함수의 입력 인수는 바이트 문자열이어야 한다는 점에 주의하자. 또는 다음과 같이 bytes 자료형을 사용해도 된다.

# >>> bytes.fromhex('507974686f6e204c696272617279')
# b'Python Library'

# binascii.unhexlify()와 bytes.fromhex() 함수의 입력 인수는 자료형이 다르다.

# 알아두면 좋아요
# binascii.hexlify()
# 'Python Library'라는 문자열을 16진수로 만들 때는 binascii.hexlify() 함수를 사용한다.

# >>> binascii.hexlify(b'Python Library')
# b'507974686f6e204c696272617279'

# 또는 다음처럼 바이트 문자열 객체의 hex() 함수를 사용해도 된다.

# >>> b'Python Library'.hex()

# '507974686f6e204c696272617279'

# 한글이 포함된 문자열을 16진수로 변환할 때는 다음과 같이 유니코드 문자열을 바이트 문자열로 변환하는 UTF-8 인코딩이 필요하다.

# >>> binascii.hexlify('파이썬 라이브러리'.encode('utf-8'))

# b'ed8c8cec9db4ec8dac20eb9dbcec9db4ebb88ceb9faceba6ac'

# >>> binascii.unhexlify(b'ed8c8cec9db4ec8dac20eb9dbcec9db4ebb88ceb9faceba6ac').decode('utf-8')

# '파이썬 라이브러리'
# 참고: 부록 01 파이썬과 유니코드

# 참고
# binascii - 바이너리와 ASCII 간의 변환: https://docs.python.org/ko/3/library/binascii.html

## 080 아스키 외의 문자만 인코딩하려면? ― quopri

In [None]:
# 080 아스키 외의 문자만 인코딩하려면? ― quopri

# quopri는 quoted-printable 인코딩/디코딩을 할 때 사용하는 모듈이다.

# 알아두면 좋아요
# quoted-printable이란?
# quoted-printable 인코딩 방식은 인코딩한 메시지를 디코딩하지 않더라도 ASCII 문자는 그대로 볼 수 있도록 하는 방식이다. 
# 즉, 영문과 숫자 등의 ASCII 7bit 문자는 그대로 두고 한글 등 8bit 문자만 인코딩한다.

# 문제
# 다음은 quoted-printable 방식으로 인코딩한 문자열이다. 이 문자열을 디코딩하여 원래의 문자열을 알려면 어떻게 해야 할까?

# Python Library =EA=B3=B5=EB=B6=80


# 풀이
# quoted-printable 방식으로 인코딩한 문자열은 quopri 모듈을 사용하여 디코딩하면 된다.

# >>> import quopri
# >>> quopri.decodestring('Python Library =EA=B3=B5=EB=B6=80').decode('utf-8')
# 'Python Library 공부'
# quopri.decodestring() 함수는 바이트 문자열을 반환하므로 UTF-8로 디코딩했다.

# 참고: 부록 - 01 파이썬과 유니코드

# 'Python Library 공부'라는 문자열을 quopri 모듈을 이용하여 quoted-printable 방식으로 인코딩하는 방법은 다음과 같다.

# >>> quopri.encodestring('Python Library 공부'.encode('utf-8'))
# b'Python Library =EA=B3=B5=EB=B6=80'
# 참고
# quopri - MIME quoted-printable 데이터 인코딩과 디코딩: https://docs.python.org/ko/3/library/quopri.html

In [35]:
import quopri
aa = quopri.encodestring('Python Library 공부'.encode('utf-8'))

quopri.decodestring(aa).decode('utf-8')


'Python Library 공부'

## 081 바이너리 파일을 텍스트 파일로 바꾸려면? ― uu

In [None]:
# 081 바이너리 파일을 텍스트 파일로 바꾸려면? ― uu

# uuencode 인코딩은 바이너리를 텍스트로 변환하기 위한 인코딩 방법으로, 1980년 메리 앤 호튼(Mary Ann Horton)이 만들었다. 
# uuencode에서 uu는 Unix-to-Unix를 뜻한다. 즉, 유닉스 시스템 간에 바이너리 데이터를 안전하게 전송하고자 만든 인코딩 방법이다. 
# 하지만, 지금은 대부분 uuencode의 단점을 보완한 Base64와 같은 MIME 방식의 인코딩을 사용한다.

# 참고: 078 바이너리 데이터를 문자열로 바꾸려면? - base64

# uu는 이러한 uuencode 인코딩을 위한 파이썬 모듈이다.

# 문제
# test.jpg라는 이미지 파일을 uuencode 방식으로 인코딩하여 result.txt 파일로 변환하여 송신하고, 이를 수신한 쪽에서는 result.txt 파일을 test1.jpg 파일로 다시 변환하려 한다. 어떻게 하면 될까?

# 풀이
# uuencode 방식의 인코딩을 사용하려면 uu 모듈을 사용한다.

# [파일명: uu_sample.py]

# import uu

# # 이미지를 텍스트로 변환
# uu.encode('test.jpg', 'result.txt')

# # 텍스트를 다시 이미지로 변환
# uu.decode('result.txt', 'test1.jpg')
# result.txt 파일을 열어보면 다음과 비슷한 내용을 볼 수 있다.

# begin 666 test.jpg
# M_]C_X  02D9)1@ ! 0$!+ $L  #_X0".17AI9@  34T *@    @  @$2  , 
# M   !  $  (=I  0    !    )@      !) #  (    4    7) $  (    4
# M    <)*1  (    #,#   )*2  (    #,#         R,#$Y.C V.C$Q(#$R
# M.C(Y.C0R #(P,3DZ,#8Z,3$@,3(Z,CDZ-#(   #_X0&<:'1T<#HO+VYS+F%D
# ... 생략 ...
# ME0HAMHUW(-NX,0.IPW3'6N@H **** "BBB@ HHHH **** "BBB@ HHHH __9

# end
# uuencode 방식으로 인코딩한 텍스트 파일은 이처럼 begin ~ end로 구성된다.

# 참고
# uu - uuencode 파일 인코딩과 디코딩: https://docs.python.org/ko/3/library/uu.html
# https://en.wikipedia.org/wiki/Uuencoding