## 6.1 텍스트 정제하기
가장 기본적인 정제 방법은 strip, replace, split와 같은 파이썬의 기본 문자열 메서드를 사용하여 텍스트를 바꾸는 것입니다.

In [1]:
text_data = ["   Interrobang. By Aishwarya Henriette    ",
             "Parking And Going. By Karl Gautier", 
             "    Today Is The night. By Jarek Prakash  "]

# 공백 문자를 제거합니다.
strip_whitespace = [string.strip() for string in text_data]

strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [2]:
# 마침표를 제거합니다.
remove_periods = [string.replace(".", "") for string in strip_whitespace]

remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

사용자 정의 변환 함수를 정의하고 적용할 수도 있습니다.

In [3]:
def capitalizer(string: str) -> str:
    return string.upper()

[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

마지막으로 정규 표현식을 사용하여 강력한 문자열 치환을 수행할 수 있습니다.

In [5]:
import re

def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)

[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

대부분의 텍스트 데이터는 특성으로 만들기 전에 정제되어야 합니다. 파이썬의 문자열 연산을 사용하는 것이 가장 기본적인 텍스트 정제 방법입니다. 실전에서는 대부분 사용자 정의 함수(예를 들면 capitalizer)를 정의하여 다른 정제 작업과 연결하고 이를 텍스트 데이터에 적용합니다.

## 6.2 HTML 파싱과 정제하기
beautiful soup의 다양한 기능을 사용하여 HTML을 파싱할 수 있습니다.

In [1]:
# pip install beautifulsoup4 lxml

Note: you may need to restart the kernel to use updated packages.


In [8]:
from bs4 import BeautifulSoup

# 예제 HTML 코드를 만듭니다.
html = """<div class='full_name'><span style='font-weight:bold'>Masego</span> Azra</div>"
"""

# html을 파싱합니다.
soup = BeautifulSoup(html, "lxml")

# "full_name" 이름의 클래스를 가진 div를 찾아 텍스트를 출력합니다.
soup.find("div", {"class" : "full_name"}).text

'Masego Azra'

이름이 이상하지만 뷰티풀 수프는 HTML 스크래핑을 위한 강력한 파이썬 라이브러리입니다. 일반적으로 뷰티풀 수프는 웹사이트를 스크래핑하는 데 사용합니다. 하지만 HTML에 들어 있는 텍스트 데이터를 추출하는 데 사용할 수도 있습니다. 이 해결에서 소개하는 몇 개의 메서드만으로도 HTML 코드를 파싱하여 원하는 데이터를 추출할 수 있습니다.

## 6.3 구두점 삭제하기
구두점 글자의 딕셔너리를 만들어 translate 메서드에 적용합니다.

In [9]:
import unicodedata
import sys

# 텍스트를 만듭니다.
text_data = ['Hi!!!! I. Love. This. Song....',
             '1000% Agree!!!! #LoveIT',
             'Right?!?!']

# 구두점 문자로 이루어진 딕셔너리를 만듭니다.
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                            if unicodedata.category(chr(i)).startswith('P'))

# 문자열의 구두점을 삭제합니다.
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '1000 Agree LoveIT', 'Right']

translate는 속도가 매우 빨라 인기 있는 파이썬 함수입니다. 이 해결은 모든 유니코드 구두점을 키로 하고 값은 None인 punctuation 딕셔너리를 만들었습니다. 그 다음 문자열에서 punctuation에 있는 모든 문자를 None으로 바꾸어 구두점을 삭제하는 효과를 냅니다. 조금 더 읽기 좋은 코드를 사용하는 방법도 있지만 이 방식이 다른 것보다 훨씬 더 빠르다는 장점이 있습니다. 

구두점도 정보가 있다는 사실을 유념하세요(예를 들어 "맞아?"와 "맞아!"). 구두점을 삭제하는 것은 특성을 만드는 데 필요악일 경우가 많습니다. 하지만 구두점이 중요한 역할을 한다면 이를 고려해야만 합니다.