🌱 인프런 📚 모두의 한국어 텍스트 분석과 자연어처리 with 파이썬 🐍 https://inf.run/FX4TP


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/python-text-analysis/blob/main/0302-klue-ml-tree-input.ipynb)



## 연합뉴스 타이틀 주제 분류
* 데이터셋 출처 : 
    * [뉴스 토픽 분류 AI 경진대회 - DACON](https://dacon.io/competitions/official/235747/overview/description)


<img src="https://i.imgur.com/b6wcQ7f.png" width="500">


## 기초 분류 모델 만들기

* 데이터 로드
* 데이터 전처리
* 단어 벡터화(BOW, TF-IDF)
* 분류기 설정하기
* 분류기로 학습시키기
* 학습의 정확도 보기
* 테스트 데이터 예측하기
* 실제 데이터와 예측결과의 차이를 보기

<img src="https://i.imgur.com/rKOYbeX.png">


## 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy, 시각화를 위한 seaborn, matplotlib 을 로드합니다.


## 시각화를 위한 폰트 설정

In [None]:
# !pip install koreanize_matplotlib
import koreanize_matplotlib

In [None]:
pd.Series([1, 3, 5, -7, 9]).plot(title="한글")

## 데이터 로드

In [None]:
# 학습, 예측 데이터셋을 불러옵니다.
# train, test


In [None]:
# 토픽을 불러옵니다.
# topic

## 문자 전처리
### 전처리 함수로 전처리 하기

* [정규 표현식 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D)


In [None]:
# 정규표현식 불러오기
import re

def preprocessing(text):
    # 개행문자 제거
    text = re.sub('\\\\n', ' ', text)
    # 특수문자 제거
    # 특수문자나 이모티콘 등은 때로는 의미를 갖기도 하지만 여기에서는 제거했습니다.
    # text = re.sub('[?.,;:|\)*~`’!^\-_+<>@\#$%&-=#}※]', '', text)
    # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다.
    # text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9]', ' ', text)
    # 한글, 영문만 남기고 모두 제거하도록 합니다.
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z]', ' ', text)
    # 중복으로 생성된 공백값을 제거합니다. 
    text = re.sub('[\s]+', ' ', text)
    # 영문자를 소문자로 만듭니다.
    # CountVectorizer, TfidfVectorizer 를 사용하면 기본값이 소문자이고 구두점도 제거해주기 때문에
    # 전처리를 하지 않아도 되지만 예시로 소개합니다.
    text = text.lower()
    return text

In [None]:
# 정규표현식 확인
text = "전처리가 잘~~~되는지 확인 합니다. 공    백도 확인하고 숫자0-9도 확인 합니다. EnglisH는 모두 소문자로 만듭니다."


In [None]:
# map을 통해 전처리 일괄 적용


### 불용어 제거

In [None]:
# 불용어 제거
# 불용어를 추가하여 어휘를 추가로 제거할 수 있습니다.
def remove_stopwords(text):
    tokens = text.split(' ')
    stops = [ '합니다', '하는', '할', '하고', '한다', 
             '그리고', '입니다', '그', '등', '이런', '및','제', '더']
    meaningful_words = [w for w in tokens if not w in stops]
    return ' '.join(meaningful_words)

In [None]:
# map을 통해 불용어 일괄 제거


## 학습 예측 데이터셋

In [None]:
# 학습, 예측 데이터셋 정의
# 학습세트(예: 시험의 기출문제)
# 예측세트(예: 실전 시험문제)

In [None]:
# 정답값으로 사용할 topic_idx 를 변수에 담아 재사용 합니다.
# label_name

In [None]:
# 학습 세트의 정답
# y_train

## 벡터화
* 머신러닝이나 딥러닝 알고리즘은 문자를 이해할 수 없습니다. 내부에서는 수치 계산이 이루어지기 때문에 문자를 숫자로 변경해 주어야 합니다.


### CountVectorizer
* CountVectorizer 는 사이킷런에서 제공하는 bag of words 를 만들 수 있는 방법입니다.
* 텍스트 문서 모음을 토큰 수의 행렬로 변환합니다.

* 단어들의 카운트(출현 빈도)로 여러 문서들을 벡터화
* 문서목록에서 각 문서의 feature(문장의 특징) 노출수를 가중치로 설정한 BOW 벡터를 생성
* 카운트 행렬, 단어 문서 행렬 (Term-Document Matrix, TDM))
* max_df, min_df 인수를 사용하여 문서에서 토큰이 나타난 횟수를 기준으로 단어장을 구성할 수도 있음 
* 토큰의 빈도가 max_df로 지정한 값을 초과 하거나 min_df로 지정한 값보다 작은 경우에는 무시하며 인자 값은 정수인 경우 횟수, 부동소수점인 경우 비율을 의미
* API documentation:https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

### 사용법
1. 문서를 토큰 리스트로 변환한다.
2. 각 문서에서 토큰의 출현 빈도를 센다.
3. 각 문서를 BOW 인코딩 벡터로 변환한다.
4. 매개 변수
    * analyzer : 단어, 문자 단위의 벡터화 방법 정의
    * ngram_range : BOW 단위 수 (1, 3) 이라면 1개~3개까지 토큰을 묶어서 벡터화
    * max_df : 어휘를 작성할 때 문서 빈도가 주어진 임계값보다 높은 용어(말뭉치 관련 불용어)는 제외 (기본값=1.0)
        * max_df = 0.90 : 문서의 90% 이상에 나타나는 단어 제외
        * max_df = 10 : 10개 이상의 문서에 나타나는 단어 제외
    * min_df : 어휘를 작성할 때 문서 빈도가 주어진 임계값보다 낮은 용어는 제외합니다. 컷오프라고도 합니다.(기본값=1.0)
        * min_df = 0.01 : 문서의 1% 미만으로 나타나는 단어 제외
        * min_df = 10 : 문서에 10개 미만으로 나타나는 단어 제외
    * stop_words : 불용어 정의

In [None]:
# CountVectorizer 로 벡터화 합니다.
# cvect

In [None]:
# 변환
# X_train, X_test

In [None]:
# 단어 사전
# feature_names

In [None]:
# np.sum 으로 위에서 구한 train_feature_vector 의 값을 모두 더합니다. axis=0 으로 합니다. 


In [None]:
# 위에서 구한 빈도수를 그래프로 그립니다.


## 모델 불러오기

* [1.10. Decision Trees — scikit-learn documentation](https://scikit-learn.org/stable/modules/tree.html)

In [None]:
# DecisionTreeClassifier 를 불러옵니다.
# model

## 학습

In [None]:
# fit 으로 학습시킵니다.


## 트리 알고리즘 분석하기
* 의사결정나무를 시각화 합니다.

In [None]:
# plot_tree 로 시각화 합니다.


### 피처 중요도

In [None]:
# 피처 중요도가 높은 순으로 정렬해서 상위 10개만 봅니다.


In [None]:
# 피처 중요도를 막대그래프로 시각화 합니다.


### 예측

In [None]:
# predict로 예측합니다. 
# y_predict


## 제출 파일 불러오기
* 답안지에 답을 옮겨 적고 제출하는 과정과 유사합니다.

In [None]:
# sample_submission 파일을 불러옵니다.
# submit

In [None]:
# 예측 값을 답안지에 옮겨 담습니다.
# 실제 시험을 보고 답안지에 답을 옮기는 과정과 유사합니다.


## 제출을 위해 파일 저장

In [None]:
file_name = "submission_dt.csv"

In [None]:
# 제출을 위해 파일 저장하기


In [None]:
# 잘 저장되었는지 확인하기


* dacon에 제출해서 리더보드 확인하기 : https://dacon.io/competitions/official/235747/mysubmission


## 여러 방법을 통해 예측비율을 높여보세요. 
* 아래 항목 외의 기법을 사용해도 됩니다.
 * 전처리 하기
 * 불용어 처리
 * BOW, TF-IDF의 파라메터 변경
 * 분류기의 파라메터 변경
 * 분류기 변경