# html 형식 데이터 예제

In [1]:
html_doc = """<html> <head> <title>The Dormouse's story</title> </head> <body> <!-- Comment --> <p class="title" id="p_1"> <b>The Dormouse's story</b> </p> middle data - navigable string <p class="story" id="p_2"> Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3" data-type="sample">Tillie</a>; and they lived at the bottom of a well. </p> <p class="description" id="p_3"> ... </p> </body> </html> """

# 1. BeautifulSoup 

In [None]:
from bs4 import BeautifulSoup

example1 = BeautifulSoup(html_doc,"lxml")
print(html_doc)
example1.get_text()

# 2. Regular Expression

In [None]:
import re

letter = re.sub('[^a-zA-Z]',' ',example1.get_text())
print(letter)

# 3. 소문자 변환 & 토큰화

In [None]:
letter = letter.lower()

words = letter.split(" ")
words

# 4. 불용어 제거
NLTK 자체는 내장되어 있지만 특정 불용어 규칙을 사용하기 위해서는 nltk data 에서 원하는 불용어 규칙을
다운받은 다음 (Win 일 경우)  C/nltk-data/corpora/다운받은 불용어 규칙
www.nltk.org/nltk_data

In [None]:
import nltk
from nltk.corpus import stopwords
stopwords.words('english')

- 불용어 제거 예시

In [None]:
words = [w for w in words if not w in stopwords.words('english')]
print(len(words))
words

# 5. Stemming - 어간 추출, 형태소 분석기 사용

In [None]:
# 포터 스태머의 사용 예시
stemmer = nltk.stem.PorterStemmer()
print(stemmer.stem('maximum'))
print('running stems : {}'.format(stemmer.stem("running")))
print('runs stems : {}'.format(stemmer.stem("runs")))
print('run stems : {}'.format(stemmer.stem("run")))

In [None]:
# 랭커스터 스태머의 사용 예시
from nltk.stem.lancaster import LancasterStemmer
lan_stemmer = LancasterStemmer()
print(lan_stemmer.stem('maximum'))
print('running stems : {}'.format(lan_stemmer.stem("running")))
print('runs stems : {}'.format(lan_stemmer.stem("runs")))
print('run stems : {}'.format(lan_stemmer.stem("run")))

In [None]:
#  스노우볼 스테머의 사용
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer('english')
words = [stemmer.stem(w) for w in words]
words

# 6. Lemmatization (음소 표기법) - 동음이의어 등

In [None]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

print(wordnet_lemmatizer.lemmatize("fly"))
print(wordnet_lemmatizer.lemmatize("flies"))

words = [wordnet_lemmatizer.lemmatize(w) for w in words]
# 처리 후 단어
words

# 함수화

In [None]:
def natural_to_datas(natural):
    
    # 1. html 태그 제거 -> natural_text
    natural_text = BeautifulSoup(natural,'html.parser').get_text()
    
    # 2. 영문자가 아닌 문자는 공백으로 치환 -> letters_only
    letters_only = re.sub('[^a-zA-Z]',' ',natural_text)
    
    # 3. 소문자 변환 -> words
    words = letters_only.lower().split()
    
    # 4. 파이썬에서는 리스트보다 세트로 찾는게 훨씬 빠르다 ********
    # stopwords 를 세트로 변환한다.
    stops = set(stopwords.words('english'))
    
    # 5. Stopwords 불용어 제거 -> meaningful_words
    meaningful_words = [w for w in words if not w in stops]
    
    # 6. 어간추출
    datas = [stemmer.stem(w) for w in meaningful_words]
    
    # 7. 공백으로 구분된 문자열로 결합하여 결과를 반환
    return( ' '.join(datas))

In [None]:
data = natural_to_datas(html_doc)
data