# 5-4. 데이터 전처리

## 명사 추출

In [None]:
# 먼저 필요한 라이브러리를 준비하세요.
import os
from collections import Counter
from konlpy.tag import Komoran
from wordcloud import WordCloud
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

PATH = os.getenv('HOME') + '/aiffel/socar_memo/data'

In [None]:
# 준비해 두었던 뉴스 기사 데이터 KCC150_100k.txt에서 10줄만 출력해 볼게요.

#print Noun in sentence
#only 10 sentences

komoran = Komoran()

news = open(PATH+"/KCC150_100k.txt",'r')
news_lines = news.read().splitlines()

for idx, line in enumerate(news_lines):
    morph_result = komoran.pos(line) #형태소 분석
    if idx == 10:
        break
    print(line)
    for word, tag in morph_result:
        if tag.startswith('NN'): #komoran은 NNP,NNG 가 명사
            print(word, end=' ')

    print('\n') #next line

news.close()

## 불용어를 제거해보자

In [None]:
# 미리 준비해둔 파일 중에 korean_stopword.txt 파일에 한국어 불용어가 들어 있습니다.

stopword_file = open(PATH+"/korean_stopword.txt",'r')
stopword_lines = stopword_file.read().splitlines()

korean_stopword = [line.split()[0] for line in stopword_lines]
print(len(korean_stopword))
stopword_file.close()
print(korean_stopword)

In [None]:
# 한번 테스트를 해볼까요?

sample_sent = '이 물건은 우리가 가지고 있는 것들 이다.'
sample_token = komoran.morphs(sample_sent)

output_token = []
for token in sample_token:
    if token not in korean_stopword:
        output_token.append(token)

print(output_token)

# 5-5. 단어 빈도 카운팅

## 전체 단어 빈도 카운팅

In [None]:
# 뉴스 기사 말뭉치 파일을 읽고, 형태소 분석기를 활용해서 형태소 분석을 진행해 보도록 하겠습니다.

#파일에서 단어 기준으로 빈도를 카운팅
#Counter 함수를 불러서 사용

word_count = Counter()
komoran = Komoran()

news = open(PATH+"/KCC150_100k.txt",'r')
news_lines = news.read().splitlines()

for line in news_lines:
    word_count.update(komoran.morphs(line))

print(len(word_count)) #전체 단어 개수 출력
print(word_count.most_common(10)) #빈도 상위 10개 출력
news.close()

## 뉴스 데이터에서 출현한 자동차 단어 빈도 카운팅

In [None]:
# 이번에는 앞서 확인한 자동차 용어 사전을 사용해서 빈도 카운팅을 진행해 봅시다.
# 아래 코드에서는 픽업 트럭과 같이 자동차 용어 사전에 공백이 포함되는 경우를 고려하지 않으며,
# 오직 한 개의 어절로 이루어진 경우만 다루겠습니다.
# 입력으로 들어가는 데이터는 위와 동일하게 뉴스 기사 말뭉치로 할게요. 조금 시간이 걸립니다.

#파일에서 단어 기준으로 빈도 카운팅
#뉴스 기사에서 자동차 단어 찾기

car_count = Counter()
komoran = Komoran()

news = open(PATH+"/KCC150_100k.txt",'r')
news_lines = news.read().splitlines()

car_file = open(PATH+"/carDic.txt", 'r')
car_words_list = car_file.read().split('\n')

for line in news_lines:
    line = line.split() #문장 to 단어
    car_count.update([word for word in line if word in car_words_list])

print(len(car_count)) #전체 단어 개수 출력
print(car_count.most_common(10)) #빈도 상위 10개 출력
news.close()
car_file.close()

# 5-6. Word cloud

## 전체 데이터를 Word cloud로 표현하기

In [None]:
#한국어 불용어 사전을 정의
stopwords = set(korean_stopword)

# CREATE WORDCLOUD
wc = WordCloud(
    font_path='/usr/share/fonts/truetype/nanum/NanumGothic.ttf',
    background_color='white',
    stopwords=stopwords
    )
wc.generate(' '.join(news_lines))

# Plot wordcloud
plt.figure(figsize=(10,8)) #plot size
plt.imshow(wc) 
plt.axis('off') #axis delete
plt.show()

In [None]:
# 우선 형태소 분석된 결과에서 명사만 찾아 noun_sent_list를 만들어 볼게요!

komoran = Komoran()

news = open(PATH+"/KCC150_100k.txt",'r')
news_lines = news.read().splitlines()

noun_sent_list = []

for idx, line in enumerate(news_lines):
    morph_result = komoran.pos(line) #형태소 분석
  
    noun_sent = ''
  
    for word, tag in morph_result:
        if tag.startswith('NN'): #komoran은 NNP,NNG 가 명사
            noun_sent += word

    noun_sent_list.append(noun_sent)

print(len(noun_sent_list))
news.close()

In [None]:
# 이제 만들어진 noun_sent_list를 시각화 해볼게요!

#한국어 불용어 사전을 정의
stopwords = set(korean_stopword)

# CREATE WORDCLOUD
wc = WordCloud(
    font_path='/usr/share/fonts/truetype/nanum/NanumGothic.ttf',
    background_color='white',
    stopwords=stopwords
    )
wc.generate(' '.join(noun_sent_list))

# Plot wordcloud
plt.figure(figsize=(10,8)) #plot size
plt.imshow(wc) 
plt.axis('off') #axis delete
plt.show()

## 자동차 단어만 Word cloud로 표현하기

In [None]:
# 뉴스 기사에서 자동차 단어를 추리는 방법으로 자동차 사전을 사용하였습니다.
# 앞서 사용한 방법을 토대로 뉴스 기사에서 자동차 관련 단어만 추려보고, 이를 Word cloud로 표현해 보도록 할게요.
# 여기서도 앞에서 언급한 것처럼 한 개의 어절로 이루어진 자동차 단어만 다룹니다.
# 우선 자동차 관련 단어만 골라 car_sent_list에 담습니다.

komoran = Komoran()

news = open(PATH+"/KCC150_100k.txt",'r')
news_lines = news.read().splitlines()

car_file = open(PATH+"/carDic.txt", 'r')
car_words_list = car_file.read().split('\n')

car_sent_list = []

for line in news_lines:
    line = line.split() #문장 to 단어
    car_sent_list.append(' '.join([word for word in line if word in car_words_list]))

print(len(car_sent_list))
news.close()
car_file.close()

In [None]:
# 이제 시각화 해봅시다!

#한국어 불용어 사전을 정의
stopwords = set(korean_stopword)

# CREATE WORDCLOUD
wc = WordCloud(
    font_path='/usr/share/fonts/truetype/nanum/NanumGothic.ttf',
    background_color='white',
    stopwords=stopwords
    )
wc.generate(' '.join(car_sent_list))

# Plot wordcloud
plt.figure(figsize=(10,8)) #plot size
plt.imshow(wc) 
plt.axis('off') #axis delete
plt.show()