# 자연어처리 시작하기 - 전처리, 토큰화, 명사추출
* soynlp(https://github.com/lovit/soynlp)로 토큰화하고 명사를 추출해 워드클라우드 그려보기

In [None]:
!pip install soynlp

In [None]:
!pip show soynlp

In [None]:
import pandas as pd
import numpy as np
import re

In [None]:
df = pd.read_csv('foo1.csv', engine='python', encoding='utf-8')
df

## 자신의 관심사에 맞는 단어로 데이터를 가져옵니다.

In [None]:
p = r'.*(비행기|여행|언어|호텔).*'
care = df[df['제목'].str.match(p) |
           df['본문'].str.match(p, flags=re.MULTILINE)]
care.shape

In [None]:
df.sample(10)
care.head()

In [None]:
df.tail()

In [None]:
from soynlp.tokenizer import RegexTokenizer

tokenizer = RegexTokenizer()
tokenizer

In [None]:
# 샘플로 보고 싶은 인덱스의 번호를 넣어주세요.
sample_index = 7

In [None]:
sample_title = df['본문']
sample_title

In [None]:
sample_content = df['본문'][sample_index]
sample_content

# 토큰화

In [None]:
tokened_title = tokenizer.tokenize(sample_content)
tokened_title

In [None]:
tokened_content = tokenizer.tokenize(sample_content)
tokened_content[:10]

In [None]:
print(len(tokened_content))

# 텍스트 데이터 전처리 
* 개행문자 제거

In [None]:
def preprocessing(text):
    # 개행문자 제거
    text = re.sub('\\\\n', ' ', text)
    return text

In [None]:
# %time을 찍어주면 해당 코드를 실행할 때 걸리는 시간을 출력해 줍니다
%time sentences = df['본문'].apply(preprocessing)

In [None]:
%time tokens = sentences.apply(tokenizer.tokenize)
tokens[:3]

In [None]:
tokens[9][:10]

In [None]:
stopwords_kr = ['하지만', '그리고', '그런데', '저는','제가',
                '그럼', '이런', '저런', '합니다',
                '많은', '많이', '정말', '너무','[',']','것으로','했습니다','했다'] 

In [None]:
!pip install wordcloud

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline

def displayWordCloud(data = None, backgroundcolor = 'white', width=800, height=600 ):
    wordcloud = WordCloud(
                        font_path = '/Library/Fonts/NanumBarunGothic.ttf', 
                        stopwords = stopwords_kr,
                        background_color = backgroundcolor, 
                         width = width, height = height).generate(data)
    plt.figure(figsize = (15 , 10))
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show() 

In [None]:
# 결과를 출력해 보면 불용어(STOPWORD)가 너무 많습니다.
%time displayWordCloud(' '.join(sentences))

In [None]:
from soynlp.noun import LRNounExtractor

In [None]:
%%time
noun_extractor = LRNounExtractor(verbose=True)
noun_extractor.train(sentences)
nouns = noun_extractor.extract()

In [None]:
# 추출된 명사를 찍어봅니다.
%time displayWordCloud(' '.join(nouns))