## 연합뉴스 타이틀 주제 분류 데이터 탐색과 시각화
* 데이터셋 출처 : 
    * [뉴스 토픽 분류 AI 경진대회 - DACON](https://dacon.io/competitions/official/235747/overview/description)
    * [KLUE Benchmark](https://klue-benchmark.com/)

In [None]:
# 실습에서 wordcloud 를 사용하기 때문에 설치되어 있지 않다면 설치를 해주세요!
# wordcloud 설치 아나콘다 사용시 conda 명령어 설치 권장
# !pip install wordcloud
# !conda install -c conda-forge wordcloud

## 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy, 시각화를 위한 seaborn, matplotlib 을 로드합니다.


## 시각화를 위한 폰트 설정

In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family

In [None]:
# style 설정은 꼭 폰트설정 위에서 합니다.
# style 에 폰트 설정이 들어있으면 한글폰트가 초기화 되어 한글이 깨집니다.
plt.style.use("seaborn")
# 폰트설정
plt.rc("font", family=get_font_family())

# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)

# 그래프에 retina display 적용
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

In [None]:
# 한글폰트 동작확인


## 데이터 로드

In [None]:
fpath = "data/klue/train_data.csv"
if os.path.exists(fpath):
    print("해당 경로에 파일이 있습니다.")
else:
    file_path = os.getcwd() +"/"+ fpath
    print(f"{file_path} 경로를 확인해 주세요.")
    print("출력되는 경로를 파일 탐색기로 열어 들어갔을 때 해당 파일이 있어야 합니다.")

In [None]:
# 학습(data/klue/train_data.csv), 예측(data/klue/test_data.csv) 데이터셋을 불러오고 
# shape 로 행과 열의 크기를 출력합니다.
# train
# test

In [None]:
# head 로 train의 상위 5개 데이터를 가져옵니다.


In [None]:
# head 로 test의 상위 5개 데이터를 가져옵니다.


In [None]:
# 토픽(topic_dict.csv)을 불러옵니다.
# topic

## 전처리를 위한 데이터 병합
* 학습, 예측 세트를 똑같이 전처리 해주기 위해 각각 같은 방법을 적용해 줄 수도 있지만
* 두 데이터를 병합해서 전처리를 해주고 다시 나눠주겠습니다.

In [None]:
# 토픽에 어떤 값이 있는지 values로 봅니다. 


### concat
<img src="https://pandas.pydata.org/docs/_images/08_concat_row.svg" width="500">

In [None]:
# 전처리를 위해 concat으로 데이터 병합
# raw

In [None]:
# head


In [None]:
# tail


### merge
<img src="https://pandas.pydata.org/docs/_images/08_merge_left.svg">

<img src="https://i.imgur.com/nD1Hwdl.png" width=500>

* 실제 토픽명을 볼 수 있도록 topic_idx 를 키값으로 merge 합니다.

In [None]:
# raw 를 topic 데이터와 merge(how="left") 합니다.
# df

In [None]:
# merge 가 잘 되었는지 head 로 확인


## 정답값 빈도수
* train 에서 제공하는 정답값의 빈도수

In [None]:
# test는 결측치로 되어 있기 때문에 빈도수에 포함되지 않습니다.
# topic_idx 의 빈도수를 구합니다.


In [None]:
# topic 의 빈도수를 구합니다.


In [None]:
# df 로 빈도수를 구했지만 test 데이터는 topic이 결측치라 포함되지 않습니다. 


## 문자 길이


|| Series | DataFrame | 사용 예 |
|---|---|---|---|
|map|O|X|df[“컬럼명”].map(함수 or dict)|
|apply|O|O|df.apply(함수) <br/> df[“컬럼명”].apply(함수)|
|applymap|X|O|df.applymap(함수)|

In [None]:
# apply, lambda를 통해 문자, 단어 빈도수 파생변수 만들기
# df["len"]
# df["word_count"]
# df["unique_word_count"]

In [None]:
# 파생변수가 잘 만들어졌는지 확인하기


In [None]:
# 서브플롯을 통해  "len", "word_count", "unique_word_count"의 histplot 을 시각화 합니다.


In [None]:
# "len", "word_count", "unique_word_count" 의 기술통계 값을 구합니다.


<img src="https://seaborn.pydata.org/_images/function_overview_8_0.png">

In [None]:
# 문장길이
# displot 으로 topic 별 "len" 의 histplot 시각화 하기
# data=df, x="len", kind="hist", hue="topic", col="topic", col_wrap=2, aspect=5, height=2


In [None]:
# 단어 수
# displot 으로 topic 별 "word_count" 의 histplot 시각화 하기


In [None]:
# 중복 제거 단어 수
# displot 으로 topic 별 "unique_word_count" 의 histplot 시각화 하기


In [None]:
# heatmap 을 통한 "len", "word_count", "unique_word_count" 시각화


## 문자 전처리
### 숫자 제거

* [정규 표현식 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D)


In [None]:
# map, 정규표현식의 re.sub 을 통해 숫자제거
import re
df["title"]

In [None]:
# 판다스의 str.replace 기능을 통해 제거
df["title"]

### 특수 문자 제거

In [None]:
# 특수 문자 제거 시 구두점 참고
import string

punct = string.punctuation
punct

In [None]:
# 특수 문자 사용시 정규표현식에서 메타 문자로 특별한 의미를 갖기 때문에 역슬래시를 통해 예외처리를 해주어야 합니다.
# [!\"\$\*] 일부 특수문자 제거 연습
df["title"]

### 영문자는 모두 소문자로 변경
* 대소문자가 섞여 있으면 다른 다른 단어로 다루기 때문

In [None]:
df["title"]

### 한글, 영문과 공백만 남기고 모두 제거

In [None]:
# 정규표현식 [^ㄱ-ㅎㅏ-ㅣ가-힣 ] 을 사용하면 한글과 공백만 남기고 제거하게 됩니다.
df["title"]

### 공백 여러 개는 하나로

In [None]:
# 공백 여러 개 전처리 예시
import re
re.sub("[\s]+", " ", "공백             전처리")

In [None]:
# 여러 개의 공백을 하나의 공백으로 치환해 줍니다.
df["title"]

### 불용어 제거

In [None]:
# 불용어 제거
def remove_stopwords(text):
    tokens = text.split(' ')
    stops = [ '합니다', '하는', '할', '하고', '한다', 
             '그리고', '입니다', '그', '등', '이런', '및','제', '더']
    meaningful_words = [w for w in tokens if not w in stops]
    return ' '.join(meaningful_words)

In [None]:
# map을 사용하여 불용어 제거하기
df["title"]

## 워드클라우드

* https://github.com/amueller/word_cloud

* 불용어, 자주 등장하는 단어, 주제별 단어 등을 시각화 하기에 좋습니다.

In [None]:
# wordcloud 설치 아나콘다 사용시 conda 명령어 설치 권장
# !pip install wordcloud
# !conda install -c conda-forge wordcloud

In [None]:
# 공식문서의 튜토리얼을 보고 wordcloud를 그리는 함수를 만들어 봅니다.
# 이때 폰트 설정시 폰트명이 아닌 폰트의 설치 경로를 입력해 주셔야 합니다.
# 윈도우 : r"C:\Windows\Fonts\malgun.ttf" 해당 경로에 폰트가 있는지 확인을 해주세요.
# 맥 : r"/Library/Fonts/AppleGothic.ttf"
# 나눔고딕 등의 폰트를 설치했다면 : '/Library/Fonts/NanumBarunGothic.ttf'

from wordcloud import WordCloud

def display_word_cloud(data, width=1200, height=500):
    word_draw = WordCloud(
        font_path=r"/Library/Fonts/NanumBarunGothic.ttf",
        width=width, height=height,
        stopwords=["합니다", "입니다"], 
        background_color="white",
        random_state=42
    )
    word_draw.generate(data)

    plt.figure(figsize=(15, 7))
    plt.imshow(word_draw)
    plt.axis("off")
    plt.show()

In [None]:
# join()을 이용하여 변수 title 리스트에서 문자열로 변환해 줍니다.
# content

In [None]:
# content를 위에서 만든 함수인 display_word_cloud로 워드클라우드를 시각화 해봅니다.


## 특정 토픽만 워드클라우드 시각화

In [None]:
# topic 의 unique 값만 보기


In [None]:
# df.loc로 특정 토픽만 가져와서 join으로 문자열을 연결해 줍니다.


In [None]:
# display_word_cloud 로 시각화
