# 01장 텍스트 다루기

In [None]:
# 파이썬은 텍스트 처리에 강한 언어다. 
# 문자열 자료형만 해도 강력하지만 이를 더 강력하게 하는 다양한 라이브러리도 있다. 
# 이번 장에서는 문자열을 줄여서 표시하거나 지정된 길이로 줄 바꿈하는 데 사용하는 textwrap 모듈과 
# 파이썬에서 정규표현식을 사용하기 위한 re 모듈을 알아본다.

## 001 문자열을 줄여 표시하려면? ― textwrap.shorten

In [None]:
# 001 문자열을 줄여 표시하려면? ― textwrap.shorten
# -----------------------------------------------
# textwrap.shorten()은 문자열을 원하는 길이에 맞게 줄여 표시(...)할 때 사용하는 함수이다.

# 문제
# ----
# 때로는 제목이나 내용 미리 보기가 너무 길어 줄여 표시했으면 할 때가 있다. 
# 예를 들어 다음과 같은 긴 문자열(공백 포함 34자)을 표시 가능한 15자 범위로 줄이려면 어떻게 프로그래밍해야 할까? 
# (단, 15자가 넘지 않을 때는 그대로 표시하기로 한다.)

# Life is too short, you need python

In [30]:
import textwrap

#text = 'Life is too short, you need python'
text = 'Life is too shor'

short_text = textwrap.shorten(text, width=15)
short_text, len(text), len(short_text)

('Life is [...]', 16, 13)

In [None]:
# 풀이
# ----
# >>> import textwrap
# >>> textwrap.shorten("Life is too short, you need python", width=15)
# 'Life is [...]'

# textwrap.shorten() 함수는 매개변수 width로 전달한 길이만큼 문자열을 줄여 표시한다. 이때 문자열에 포함된 모든 연속 공백은 하나의 공백 문자로 줄어든다. 축약된 문자열임을 뜻하는 [...] 역시 전체 길이에 포함되며 문자열은 단어 단위로 길이에 맞게 줄어든다.

# 단어 단위로 문자열을 줄이므로 단어는 중간에 끊어지지 않는다.

# 한글 문자열도 마찬가지이다. 단, 한글 1문자를 길이 2가 아닌 1로 계산한다는 점에 조심하자.

# >>> textwrap.shorten("인생은 짧으니 파이썬이 필요해", width=15)
# '인생은 짧으니 [...]'
# 축약 표시 [...]을 ...으로 변경하고 싶다면 다음처럼 매개변수 placeholder를 이용한다.

# >>> textwrap.shorten("인생은 짧으니 파이썬이 필요해", width=15, placeholder='...')
# '인생은 짧으니 파이썬이...'

# 참고
# ----
# textwrap 공식 문서 읽기: https://docs.python.org/ko/3/library/textwrap.html
# 동영상: https://youtube.com/shorts/DOsHwVnTHpQ

In [32]:
import textwrap

text = '인생은 짧으니 파이썬이 필요해'

short_text = textwrap.shorten(text, width=15, placeholder='...')
short_text, len(text), len(short_text)

('인생은 짧으니 파이썬이...', 16, 15)

## 002 긴 문장을 줄 바꿈하려면? ― textwrap.wrap

In [None]:
# 002 긴 문장을 줄 바꿈하려면? ― textwrap.wrap
# -------------------------------------------
# textwrap.wrap()은 긴 문자열을 원하는 길이로 줄 바꿈(wrapping)할 때 사용하는 함수이다. 
# 문자열 래핑은 문자열이 너무 길어질 때 원하는 길이로 줄 바꿈할 때도 도움이 된다.

# 문제
# ----
# 다음 문자열(long_text)은 너무 길어 읽기가 불편하므로 적당한 길이로 줄 바꿈했으면 한다.

# >>> long_text = 'Life is too short, you need python. ' * 10
# >>> long_text
# 'Life is too short, you need python. Life [...]'
# 이 문자열을 단어가 잘리지 않도록 70자 단위로 줄 바꿈하려면 어떻게 프로그래밍해야 할까?

In [58]:
import textwrap

text = 'Life is too short, you need python. '
long_text = text * 10
print(len(text), len(long_text))

wrap_text = textwrap.wrap(long_text, width=70)
print(type(wrap_text), len(wrap_text[0]))
wrap_text[0]


36 360
<class 'list'> 63


'Life is too short, you need python. Life is too short, you need'

In [None]:
# 풀이
# ----
# 먼저 textwrap.wrap() 함수를 이용한 해결 방법부터 살펴보자.

# >>> import textwrap
# >>> long_text = 'Life is too short, you need python. ' * 10
# >>> result = textwrap.wrap(long_text, width=70)
# >>> result
# ['Life is too short, you need python. Life is too short, you need', 'python. Life is too short, you need python. Life is too short, you', 'need python. Life is too short, you need python. Life is too short,', 'you need python. Life is too short, you need python. Life is too', 'short, you need python. Life is too short, you need python. Life is', 'too short, you need python.']
# 첫 번째 단계로 textwrap.wrap() 함수는 긴 문자열을 width 길이만큼 자르고 이를 리스트로 만들어 반환한다.

# 단어 단위로 문자열을 자르므로 단어 중간이 끊어지지는 않는다.

# 두 번째 단계로 이를 하나의 문자열로 표시하고자 다음과 같이 join() 함수로 문자열 사이에 줄 바꿈 문자(\n)를 넣어 하나로 합친 다음 출력한다.

# >>> print('\n'.join(result))
# Life is too short, you need python. Life is too short, you need
# python. Life is too short, you need python. Life is too short, you
# need python. Life is too short, you need python. Life is too short,
# you need python. Life is too short, you need python. Life is too
# short, you need python. Life is too short, you need python. Life is
# too short, you need python.
# '\n'.join(List)는 리스트 요소 사이에 줄 바꿈 문자를 넣어 하나로 합친다. 리스트가 아닌 문자열이나 튜플에도 적용할 수 있다.

# 참고로 textwrap.fill() 함수를 사용하면 이 과정을 한 번으로 줄일 수 있다.

# >>> result = textwrap.fill(long_text, width=70)
# >>> print(result)
# Life is too short, you need python. Life is too short, you need
# python. Life is too short, you need python. Life is too short, you
# need python. Life is too short, you need python. Life is too short,
# you need python. Life is too short, you need python. Life is too
# short, you need python. Life is too short, you need python. Life is
# too short, you need python.
# 결과를 보면 각 줄의 길이가 70자를 넘기지 않는다는 것을 알 수 있다.

# 참고
# textwrap 공식 문서 읽기: https://docs.python.org/ko/3/library/textwrap.html
# 문자열 자료형 더 알아보기: https://wikidocs.net/13#join

In [68]:
import textwrap

text = 'Life is too short, you need python. '
long_text = text * 10

result = textwrap.wrap(long_text, width=70)

print(len(text), len(long_text))
print(result)
print('-' * 60)
print('\n'.join(result))
print('-' * 60)
result = textwrap.fill(long_text, width=70)
print(result)

36 360
['Life is too short, you need python. Life is too short, you need', 'python. Life is too short, you need python. Life is too short, you', 'need python. Life is too short, you need python. Life is too short,', 'you need python. Life is too short, you need python. Life is too', 'short, you need python. Life is too short, you need python. Life is', 'too short, you need python.']
------------------------------------------------------------
Life is too short, you need python. Life is too short, you need
python. Life is too short, you need python. Life is too short, you
need python. Life is too short, you need python. Life is too short,
you need python. Life is too short, you need python. Life is too
short, you need python. Life is too short, you need python. Life is
too short, you need python.
------------------------------------------------------------
Life is too short, you need python. Life is too short, you need
python. Life is too short, you need python. Life is too short, you
n

## 003 정규표현식으로 개인정보를 보호하려면? ― re

In [None]:
# 003 정규표현식으로 개인정보를 보호하려면? ― re
# --------------------------------------------
# 정규표현식(regular expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 
# 파이썬뿐 아니라 C, 자바, 심지어 문서 작성 프로그램 등 문자열을 처리해야 하는 다양한 곳에서 활용할 수 있다.

# 파이썬에서 정규표현식을 이용하려면 re 모듈을 사용한다.

# 문제
# ----
# 다음과 같이 주민 등록 번호가 포함한 텍스트를 블로그에 올리려 한다.

# 홍길동의 주민번호는 800905-1049118 입니다. 
# 그리고 고길동의 주민번호는 700905-1059119 입니다.
# 그렇다면 누가 형님일까요?
# 그러나 개인정보를 그대로 올릴 수는 없으므로 주민 등록 번호 뒷자리는 모두 * 문자로 마스킹하고자 한다. 
# 어떻게 프로그램을 작성해야 정해진 형식의 문자열을 간단하게 바꿀 수 있을까?

In [3]:
# text 함수를 이용한 벙법
# ----------------------
text = """
    홍길동 800905-1049118
    고길동 700905-1059119
    """

result = []
for line in text.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[8:].isdigit():
            word = word[:6] + '-' + '*' * 7
        word_result.append(word)
    result.append(' '.join(word_result))

result_data = '\n'.join(result)
print(result_data)       


# 정규 표현식을 이용한 방법
# -----------------------






    홍길동 800905-*******
    고길동 700905-*******
    


In [None]:
# 풀이
# 평범하게 이 문제를 해결하려면 다음과 같은 순서로 프로그램을 작성해야 한다.

# 1. 공백 문자를 기준으로 전체 텍스트를 나눈다(split() 함수 사용).
# 2. 나눈 단어가 주민 등록 번호 형식인지 조사한다.
# 3. 주민 등록 번호 형식이라면 뒷자리를 *******로 마스킹한다.
# 4. 나눈 단어를 다시 조립한다.
# 이 과정을 구현한 코드는 아마도 다음과 같을 것이다.

# [파일명: re_normal_sample.py]

# data = """
# 홍길동의 주민번호는 800905-1049118 입니다. 
# 그리고 고길동의 주민번호는 700905-1059119 입니다.
# 그렇다면 누가 형님일까요?
# """

# result = []
# for line in data.split("\n"):
#     word_result = []
#     for word in line.split(" "):
#         if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
#             word = word[:6] + "-" + "*******"
#         word_result.append(word)
#     result.append(" ".join(word_result))
# print("\n".join(result))
# 이 프로그램을 실행한 결과는 다음과 같다.

# c:\projects\pylib>python re_normal_sample.py
# 홍길동의 주민 등록 번호는 800905-******* 입니다.
# 그리고 고길동의 주민 등록 번호는 700905-******* 입니다.
# 그렇다면 누가 형님일까요?
# 하지만, re 모듈을 사용하면 더욱 간단하게 문제를 해결할 수 있다.

# [파일명: re_sample.py]

# import re

# data = """
# 홍길동의 주민번호는 800905-1049118 입니다. 
# 그리고 고길동의 주민번호는 700905-1059119 입니다.
# 그렇다면 누가 형님일까요?
# """

# pat = re.compile("(\d{6})[-]\d{7}")
# print(pat.sub("\g<1>-*******", data))
# 프로그램을 실행한 결과는 앞서 본 풀이의 결과와 같다.

# re.compile("(\d{6})[-]\d{7}")에서 사용한 (\d{6})[-]\d{7}과 같은 문자열을 정규표현식이라 한다. 이 정규표현식의 의미는 다음과 같다.

# 숫자6 + 붙임표(-) + 숫자7 (단, 숫자6은 괄호를 사용하여 그룹으로 지정했다.)
# 즉, 주민 등록 번호와 일치하는 정규표현식이다. 이 정규표현식을 이용하여 re.compile() 함수로 만든 객체에 sub() 함수를 사용하면 이 식과 일치하는 문자열 일부분을 *로 바꿀 수 있다.

# pat.sub("\g<1>-*******", data) 코드가 바로 data 문자열에서 주민 등록 번호 형식 문자열을 찾아 주민 등록 번호의 뒷부분만 *******로 바꾸는 역할을 한다. 여기서 \g<1>은 정규표현식과 일치하는 문자열 중 첫 번째 그룹을 의미한다. 정규표현식에서 그룹을 지정하려면 (\d{6})처럼 괄호로 묶으면 되는데, 여기서 첫 번째 그룹 \g<1>은 주민 등록 번호 형식 문자열에서 바꾸지 않고 그대로 사용할 주민 등록 번호 앞부분을 뜻한다.

# 참고
# re - 정규식 연산: https://docs.python.org/ko/3/library/re.html
# 정규표현식 더 알아보기: https://wikidocs.net/1669
