### 바이트 문자열 인코딩/디코딩

In [None]:
import base64

In [None]:
string = 'Life is too short, We need Python !'

In [None]:
encoded = base64.b64encode(string)
# b64는 바이너리 타입만 받아서 인코딩을 할 수 있다.
# 문자열은 바이러니 파일이 아니기 때문에 에러가 발생한다.
# 그렇기 때문에 string에 대해서 아스키 인코등일 거쳐야한다.

In [None]:
# ascii 인코딩
bstring = string.encode('ascii')
print(bstring)

In [None]:
# base64 인코딩
encoded = base64.b64encode(bstring)
print(encoded)

In [None]:
# base64 디코딩
decoded = base64.b64decode(encoded)
print(decoded)

In [None]:
# base64 디코딩
decoded = base64.decodebytes(encoded)
print(decoded)

In [None]:
# ascii 디코딩
decoded_str = decoded.decode('ascii')
print(decoded_str)

### 이미지 인코딩/디코딩

In [None]:
path = "./img.jpg"

In [None]:
# 이미지 확인하기
from PIL import Image
img = Image.open(path)
img

In [None]:
# 바이너리 파일 읽기
# rb 는 바이너리 형태로 read 한다는 뜻이다.
with open(path, 'rb') as img:
    image = img.read()
    
image

In [None]:
from bitstring import BitArray
input_str = '0xff'
c = BitArray(hex = input_str)
c.bin

In [None]:
bit_array = BitArray(bytes=image)

In [None]:
bit_array.bin

In [None]:
# base64 인코딩
# 다음과 같은 작업을 통해 웹에서 주고 받을 수 있는 형태가 되었다.
with open(path, 'rb') as img:
    data = img.read()
    encoded = base64.b64encode(data)
    print(encoded)

In [None]:
# base64 디코딩
decoded = base64.b64decode(encoded)
print(decoded)

In [None]:
# 이미지 파일로 저장
file = "decoded.png"

with open(file, 'wb') as file:
    file.write(decoded)

### 문자열 다루기

In [None]:
import textwrap

In [None]:
text = '의료계 집단행동에 참여하지 않은 의사·의대생 등의 신상 정보가 담긴 이른바 ‘의료계 블랙리스트’를 작성해 게시한 혐의 등으로 재판에 넘겨진 사직 전공의 측의 보석 신청이 받아들이지 않았습니다. 서울중앙지법 형사13단독(판사 이용제)는 오늘(28일) 스토킹 범죄의 처벌 등에 관한 법률 위반 혐의로 구속기소 된 정 모 씨의 보석 청구를 기각했습니다. 이에 따라 정 씨는 구속 상태로 계속 재판을 받게 됐습니다. 앞서 정 씨는 불구속 상태로 재판을 받게 해달라며 지난달 29일 재판부에 보석을 청구한 바 있습니다. 정 씨는 지난 22일에 열린 첫 공판에서 “구속 수감 중이다 보니 증거 기록을 검토하기도 힘들고, 명단에 있는 300명의 이름을 다 기억하지도 못해 방어권 행사에 많은 제한이 있다”며 “보석을 허가해 주면 성실히 출석해 재판을 받겠다”고 말했습니다. 당시 법원은 정 씨에 대한 보석 여부를 추후 결정하겠다고 언급했는데, 오늘 보석 신청을 기각하며 정 씨의 신청을 받아들이지 않았습니다. 사직 전공의인 정 씨는 지난 7월 의료계 집단행동에 동참하지 않는 의사·의대생 등의 신상 정보를 담은 이른바 ‘의료계 블랙리스트’를 만든 뒤 텔레그램 채널과 의료계 커뮤니티 ‘메디스태프’에 여러 차례 글을 올린 혐의로 재판에 넘겨졌습니다.'

In [None]:
print(text)

In [None]:
textwrap.shorten(text, width=100)

In [None]:
textwrap.shorten(text, width=100, placeholder='...[중략]')

In [None]:
# 40자씩 묶여서, 리스트 형태로 담겨지게된다.
wrapped_text = textwrap.wrap(text, width=40)
print(wrapped_text)

In [None]:
wrapped_text[0]

In [None]:
print('\n'.join(wrapped_text))

In [None]:
filled_text = textwrap.fill(text, width = 40)
print(filled_text)

In [None]:
# 정규표현식 처리하는 라이브러리
import re

In [None]:
# 단어 추출
# 정규표현식을 이용해서 단어만 추출하는 함수
words = re.findall(r'\w+', text)

In [None]:
print(words)

In [None]:
# 연락처 목록
contact = '''김하늘 25 010-1234-5678 sky@google.com
이준혁 30 010-9876-5432 jhlee@google.com
박소민 27 010-4567-8910 somin@google.com
최민수 33 010-2222-3333 minsoo@google.com
정가영 21 010-7890-1234 gayeong@google.com
한지우 29 010-5555-6666 jiwoo@google.com
오유진 24 010-3456-7890 yujin@google.com
서도윤 28 010-6789-1234 doyun@google.com
권예지 26 010-9999-8888 yeji@google.com
장우혁 32 010-1111-2222 whjang@google.com
'''

In [None]:
print(contact)

In [None]:
# 전화번호 추출
regex = r'0\d{1,2}[ -]?\d{3,4}[ -]?\d[3,4]'

phone = re.findall(regex, contact)
print('\n'.join(phone))


In [None]:
# \d[3,4]는 숫자 하나를 찾은 후, 3 또는 4라는 문자 그대로를 포함하도록 해석됩니다.
# 예: 5432 중 543까지만 일치하고 2를 제외하는 문제 발생.
# 전화번호에서 끝 4자리가 온전히 매칭되지 않습니다.

regex = r'0\d{1,2}[- ]?\d{3,4}[- ]?\d{4}'
phone = re.findall(regex, contact)
print('\n'.join(phone))

In [None]:
# 변환(마스킹)
pat = re.compile(r'0\d{1,2}[- ]?\d{3,4}[- ]?\d{4}')
print(pat.sub("***-****-00**", contact))

In [None]:
# 정규식으로 그룹화하여 원하는 부분만 치환
pat = re.compile(r'(0\d{1,2}[- ]?\d{3,4}[- ]?)\d{4}')
masked_contact = pat.sub(r'\1****', contact)

print(masked_contact)

In [None]:
# 정규식으로 그룹화하여 가운데 번호만 치환
pat = re.compile(r'(0\d{1,2}[- ]?)(\d{3,4})([- ]?\d{4})')
masked_contact = pat.sub(r'\1****\3', contact)

print(masked_contact)

In [None]:
# 정규식으로 그룹화하여 마스킹
pat = re.compile(r'(0)\d(0[- ])(\d)\d(\d[- ])(\d{2})\d{2}')
masked_contact = pat.sub(r'\1*\2\3*\4*\5**', contact)

print(masked_contact)

In [None]:
# Refine the regular expression to target the actual phone numbers correctly
def refine_mask_phone_numbers(contact):
    return re.sub(r'(\d{3})-(\d)(\d{3})-(\d)(\d{3})', r'\1-\2*\4*-**', contact)

# Apply the refined function
refined_masked_contacts = refine_mask_phone_numbers(contact)
print(refined_masked_contacts)


### 단어 개수 구하기

In [71]:
import collections
import textwrap
import re

In [73]:
text = '의료계 집단행동에 참여하지 않은 의사·의대생 등의 신상 정보가 담긴 이른바 ‘의료계 블랙리스트’를 작성해 게시한 혐의 등으로 재판에 넘겨진 사직 전공의 측의 보석 신청이 받아들이지 않았습니다. 서울중앙지법 형사13단독(판사 이용제)는 오늘(28일) 스토킹 범죄의 처벌 등에 관한 법률 위반 혐의로 구속기소 된 정 모 씨의 보석 청구를 기각했습니다. 이에 따라 정 씨는 구속 상태로 계속 재판을 받게 됐습니다. 앞서 정 씨는 불구속 상태로 재판을 받게 해달라며 지난달 29일 재판부에 보석을 청구한 바 있습니다. 정 씨는 지난 22일에 열린 첫 공판에서 “구속 수감 중이다 보니 증거 기록을 검토하기도 힘들고, 명단에 있는 300명의 이름을 다 기억하지도 못해 방어권 행사에 많은 제한이 있다”며 “보석을 허가해 주면 성실히 출석해 재판을 받겠다”고 말했습니다. 당시 법원은 정 씨에 대한 보석 여부를 추후 결정하겠다고 언급했는데, 오늘 보석 신청을 기각하며 정 씨의 신청을 받아들이지 않았습니다. 사직 전공의인 정 씨는 지난 7월 의료계 집단행동에 동참하지 않는 의사·의대생 등의 신상 정보를 담은 이른바 ‘의료계 블랙리스트’를 만든 뒤 텔레그램 채널과 의료계 커뮤니티 ‘메디스태프’에 여러 차례 글을 올린 혐의로 재판에 넘겨졌습니다.'
text = textwrap.fill(text, width=50)
print(text)

의료계 집단행동에 참여하지 않은 의사·의대생 등의 신상 정보가 담긴 이른바 ‘의료계
블랙리스트’를 작성해 게시한 혐의 등으로 재판에 넘겨진 사직 전공의 측의 보석 신청이
받아들이지 않았습니다. 서울중앙지법 형사13단독(판사 이용제)는 오늘(28일) 스토킹
범죄의 처벌 등에 관한 법률 위반 혐의로 구속기소 된 정 모 씨의 보석 청구를
기각했습니다. 이에 따라 정 씨는 구속 상태로 계속 재판을 받게 됐습니다. 앞서 정 씨는
불구속 상태로 재판을 받게 해달라며 지난달 29일 재판부에 보석을 청구한 바 있습니다. 정
씨는 지난 22일에 열린 첫 공판에서 “구속 수감 중이다 보니 증거 기록을 검토하기도
힘들고, 명단에 있는 300명의 이름을 다 기억하지도 못해 방어권 행사에 많은 제한이
있다”며 “보석을 허가해 주면 성실히 출석해 재판을 받겠다”고 말했습니다. 당시 법원은 정
씨에 대한 보석 여부를 추후 결정하겠다고 언급했는데, 오늘 보석 신청을 기각하며 정 씨의
신청을 받아들이지 않았습니다. 사직 전공의인 정 씨는 지난 7월 의료계 집단행동에 동참하지
않는 의사·의대생 등의 신상 정보를 담은 이른바 ‘의료계 블랙리스트’를 만든 뒤 텔레그램
채널과 의료계 커뮤니티 ‘메디스태프’에 여러 차례 글을 올린 혐의로 재판에 넘겨졌습니다.


In [74]:
# 단어 추출
words = re.findall(r'\w+', text)
print(words)

['의료계', '집단행동에', '참여하지', '않은', '의사', '의대생', '등의', '신상', '정보가', '담긴', '이른바', '의료계', '블랙리스트', '를', '작성해', '게시한', '혐의', '등으로', '재판에', '넘겨진', '사직', '전공의', '측의', '보석', '신청이', '받아들이지', '않았습니다', '서울중앙지법', '형사13단독', '판사', '이용제', '는', '오늘', '28일', '스토킹', '범죄의', '처벌', '등에', '관한', '법률', '위반', '혐의로', '구속기소', '된', '정', '모', '씨의', '보석', '청구를', '기각했습니다', '이에', '따라', '정', '씨는', '구속', '상태로', '계속', '재판을', '받게', '됐습니다', '앞서', '정', '씨는', '불구속', '상태로', '재판을', '받게', '해달라며', '지난달', '29일', '재판부에', '보석을', '청구한', '바', '있습니다', '정', '씨는', '지난', '22일에', '열린', '첫', '공판에서', '구속', '수감', '중이다', '보니', '증거', '기록을', '검토하기도', '힘들고', '명단에', '있는', '300명의', '이름을', '다', '기억하지도', '못해', '방어권', '행사에', '많은', '제한이', '있다', '며', '보석을', '허가해', '주면', '성실히', '출석해', '재판을', '받겠다', '고', '말했습니다', '당시', '법원은', '정', '씨에', '대한', '보석', '여부를', '추후', '결정하겠다고', '언급했는데', '오늘', '보석', '신청을', '기각하며', '정', '씨의', '신청을', '받아들이지', '않았습니다', '사직', '전공의인', '정', '씨는', '지난', '7월', '의료계', '집단행동에', '동참하지', '않는', '의사', '의대생', '등의', '신상', '정보를', '담은', '이른바', '의료계

In [76]:
# 빈도수 산출
counter = collections.Counter(words)
print(counter)

Counter({'정': 7, '의료계': 5, '보석': 4, '씨는': 4, '재판을': 3, '집단행동에': 2, '의사': 2, '의대생': 2, '등의': 2, '신상': 2, '이른바': 2, '블랙리스트': 2, '를': 2, '재판에': 2, '사직': 2, '받아들이지': 2, '않았습니다': 2, '오늘': 2, '혐의로': 2, '씨의': 2, '구속': 2, '상태로': 2, '받게': 2, '보석을': 2, '지난': 2, '신청을': 2, '참여하지': 1, '않은': 1, '정보가': 1, '담긴': 1, '작성해': 1, '게시한': 1, '혐의': 1, '등으로': 1, '넘겨진': 1, '전공의': 1, '측의': 1, '신청이': 1, '서울중앙지법': 1, '형사13단독': 1, '판사': 1, '이용제': 1, '는': 1, '28일': 1, '스토킹': 1, '범죄의': 1, '처벌': 1, '등에': 1, '관한': 1, '법률': 1, '위반': 1, '구속기소': 1, '된': 1, '모': 1, '청구를': 1, '기각했습니다': 1, '이에': 1, '따라': 1, '계속': 1, '됐습니다': 1, '앞서': 1, '불구속': 1, '해달라며': 1, '지난달': 1, '29일': 1, '재판부에': 1, '청구한': 1, '바': 1, '있습니다': 1, '22일에': 1, '열린': 1, '첫': 1, '공판에서': 1, '수감': 1, '중이다': 1, '보니': 1, '증거': 1, '기록을': 1, '검토하기도': 1, '힘들고': 1, '명단에': 1, '있는': 1, '300명의': 1, '이름을': 1, '다': 1, '기억하지도': 1, '못해': 1, '방어권': 1, '행사에': 1, '많은': 1, '제한이': 1, '있다': 1, '며': 1, '허가해': 1, '주면': 1, '성실히': 1, '출석해': 1, '받겠다': 1, '고': 1, '말했습니다': 1, '당시': 1, '법원

In [78]:
# 덧셈
# 카운터 연산이 기본적으로 딕셔너리 형태이기 때무에 집합 연산이 가능하다.

a = collections.Counter(['a', 'b', 'c', 'b', 'd', 'a'])
b = collections.Counter(['e', 'f', 'f', 'b', 'a', 'd'])

In [79]:
print(a)
print(b)

Counter({'a': 2, 'b': 2, 'c': 1, 'd': 1})
Counter({'f': 2, 'e': 1, 'b': 1, 'a': 1, 'd': 1})


In [80]:
print(a + b)

Counter({'a': 3, 'b': 3, 'd': 2, 'f': 2, 'c': 1, 'e': 1})


In [81]:
# 뺄셈
print(a - b)

Counter({'a': 1, 'b': 1, 'c': 1})


In [82]:
# 교집합
print(a & b)

Counter({'a': 1, 'b': 1, 'd': 1})


In [83]:
# 합집합
print(a | b)

Counter({'a': 2, 'b': 2, 'f': 2, 'c': 1, 'd': 1, 'e': 1})


In [84]:
# 상위 빈도수 단어 추출
print(counter.most_common(10))

[('정', 7), ('의료계', 5), ('보석', 4), ('씨는', 4), ('재판을', 3), ('집단행동에', 2), ('의사', 2), ('의대생', 2), ('등의', 2), ('신상', 2)]
