1. 시각화 한글 글꼴 지원
- 한글 글꼴을 설치후 런타입 => 런타임 다시 시작 

In [None]:
#글꼴 설치
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

2. 드라이브 연결

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%cd /content/drive/MyDrive/py_pro

In [None]:
!pwd

In [None]:
import matplotlib.font_manager as fm
from matplotlib import rc
rc('font', family='NanumBarunGothic')

3. 형태소 분석 진행
- 참조: https://wikidocs.net/22488
- nltk : 영문 자연어 처리를 위한 형태소 분석기 패키지
- konlpy : 한국어 자연어 처리를 위한 형태소 분석기 패키지
 * https://konlpy.org/ko/latest/

In [None]:
# konlpy 설치하기
!pip install konlpy
!pip install wordcloud

In [None]:
# 자연어 형태소 분석 모듈 연결
import nltk
from konlpy.tag import Okt
from konlpy.tag import Kkma
from konlpy.tag import Komoran

In [None]:
# 형태소 나누기 연습
txt='아버지가방에들어가신다.'

okt=Okt()
kkma=Kkma()
komoran=Komoran()

okt_ko=okt.pos(txt)
print(okt_ko)

kkma_ko=kkma.pos(txt)
print(kkma_ko)

komoran_ko=komoran.pos(txt)
print(komoran_ko)

4. 중앙일보 코로나 뉴스 데이터를 이용한 형태소 분석
- 데이터 읽어오기

In [None]:
import pandas as pd

df1=pd.read_csv('./data/중앙일보_코로나.csv', encoding='cp949')   # 2차원 구조의 데이터 읽어오기
df1.head(3)    # 상위 3개만 출력

In [None]:
# df1의 데이터 정보 확인
df1.info()

In [None]:
# pandas 데이터 행단위로 출력하기
print(df1.loc[0, '내용'])   # index 값을 이용한 출력
print(df1.iloc[0, 2])       # 위치 값을 이용한 출력

- 내용 항목 모두 합치기

In [None]:
txt_all=''  # 전체 데이터 저장 변수

for i in df1.index:
    txt_all += df1.loc[i, '내용'] + " "

txt_all

- 전체 문자을 기준으로 명사만 추출하기

In [None]:
import nltk
from konlpy.tag import Okt
import matplotlib.pyplot as plt

okt=Okt()
nouns_ko=okt.nouns(txt_all)
nouns_ko

- 중앙일보 코로나 검색 내용 분석

In [None]:
cov_ko=nltk.Text(nouns_ko, name='test')

plt.figure(figsize=(12, 6))
cov_ko.plot(50)
plt.show()

- 각 단어별 빈도수 확인하기

In [None]:
from collections import Counter   # jdk에서 제공하는 라이브러리
count_ko=Counter(nouns_ko)        # 동일 문자수를 계산하는 함수
count_ko

In [None]:
# 단어 빈도수를 튜플구조로 변경하가
rank_txt=count_ko.most_common()
rank_txt

In [None]:
rank_txt[0]

In [None]:
# 단어 빈도수가 10개 미만인 데이터 모두 삭제
rank_txt_rev=[]
for (keyword, num) in rank_txt:
    if num >= 10 :
        rank_txt_rev.append((keyword, num))
rank_txt_rev

5. 워드클라우드 제작하기
- !pip install WordCloud 설치 필요

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 글꼴 패치 설정
path='/usr/share/fonts/truetype/nanum/NanumBarunGothicBold.ttf'

# rank_txt_rev을 딕셔너리 구조의 데이터로 변경
data=dict(rank_txt_rev)

# 워드클라우드 생성하기
wc1=WordCloud(font_path=path, relative_scaling=0.2, background_color='white')
wc2=wc1.generate_from_frequencies(data)

plt.figure(figsize=(10, 10))
plt.imshow(wc2)     # 워드클라우드 이미지 출력
plt.axis('off')     # 눈금선 제거
plt.show()          # 화면에 표시