🌱 인프런 📚 모두의 한국어 텍스트 분석과 자연어처리 with 파이썬 🐍 https://inf.run/FX4TP


[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/corazzon/python-text-analysis/blob/main/0304-klue-pecab-hyperparameter-input.ipynb)


## 연합뉴스 타이틀 주제 분류
* 데이터셋 출처 : 
    * [뉴스 토픽 분류 AI 경진대회 - DACON](https://dacon.io/competitions/official/235747/overview/description)

## 기초 분류 모델 만들기

* 데이터 로드
* 데이터 전처리
* 단어 벡터화(BOW, TF-IDF)
* 분류기 설정하기
* 분류기로 학습시키기
* 학습의 정확도 보기
* 테스트 데이터 예측하기
* 실제 데이터와 예측결과의 차이를 보기

## 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy, 시각화를 위한 seaborn, matplotlib 을 로드합니다.
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import koreanize_matplotlib

## 데이터 로드

In [None]:
# 학습, 예측 데이터셋을 불러옵니다.
train = pd.read_csv("data/klue/train_data.csv")
test = pd.read_csv("data/klue/test_data.csv")
train.shape, test.shape

In [None]:
# 토픽을 불러옵니다.
topic = pd.read_csv("data/klue/topic_dict.csv")
topic

## 형태소 분석

### 형태소 분석기를 통한 조사 구두점 제거
* https://github.com/hyunwoongko/pecab
* 조사, 구두점 제거
* 품사태그표 : 
    * https://konlpy.org/ko/v0.6.0/morph/
    * https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [None]:
# pecab


In [None]:
# def corpus_pecab(corpus_text):
#     join_text = []


In [None]:
# 형태소 분석기를 통한 전처리


### 전처리 결과 저장

In [None]:
file_name_train = f"data/klue/train_pecab.csv"
file_name_test = f"data/klue/test_pecab.csv"


## 학습, 예측 데이터셋 만들기

## 벡터화
* 머신러닝이나 딥러닝 알고리즘은 문자를 이해할 수 없습니다. 내부에서는 수치 계산이 이루어지기 때문에 문자를 숫자로 변경해 주어야 합니다.


### TF-IDF(Term Frequency - Inverse Document Frequency)

In [None]:
# TfidfVectorizer 로 벡터화 합니다.
# fit 으로 변환할 어휘를 학습합니다.
from sklearn.feature_extraction.text import TfidfVectorizer

# tfidfvect = TfidfVectorizer(tokenizer=None, 
#                              ngram_range=(1,2),
#                              min_df=2, 
#                              max_df=0.95)

# tfidfvect

In [None]:
# transform
# X_train
# X_test

In [None]:
# 정답값으로 사용할 topic_idx 를 변수에 담아 재사용 합니다.
# label_name = "topic_idx"
# y_train

## 모델


전체 과정
* feature_names : 학습(훈련), 예측에 사용할 단어 사전 입니다.
* label_name : 정답값

* X_train : feature_names 에 해당되는 컬럼만 train에서 가져옵니다.
    * 학습(훈련)에 사용할 데이터셋 예) 시험의 기출문제

* X_test : feature_names 에 해당되는 컬럼만 test에서 가져옵니다.
    * 예측에 사용할 데이터셋 예) 실전 시험문제

* y_train : label_name 에 해당 되는 컬럼만 train에서 가져옵니다.
    * 학습(훈련)에 사용할 정답 값 예) 기출문제의 정답

* model : 학습, 예측에 사용할 머신러닝 알고리즘

* model.fit(X_train, y_train) : 학습(훈련), 기출문제와 정답을 가지고 학습(훈련)하는 과정과 유사합니다.

* model.predict(X_test) :  예측, 실제 시험을 보는 과정과 유사합니다. => 문제를 풀어서 정답을 구합니다.

* score
    * 시험을 봤다면 몇 문제를 맞고 틀렸는지 채점해 봅니다.
* metric
    * 점수를 채점하는 공식입니다. (예를 들어 학교에서 중간고사를 봤다면 전체 평균을 계산해 줍니다.)
    
    
### Randomforest Parameter
* n_estimators	
    * 결정트리의 개수, 많을 수록 성능이 좋아지나 오래걸리며 샘플의 수에 따라 트리를 만들 수 있는 개수가 제한적
* max_depth
    * 트리의 최대 깊이
* max_features	
    * 피처의 개수(int) 혹은 비율(float)
    * sqrt 또는 auto : 전체 피처 중 √(피처개수) 만큼 사용
    * log : 전체 피처 중 log2(전체 피처 개수) 만큼 
* min_samples_split
    * 노드를 분할하기 위한 최소 샘플 데이터수
* min_samples_leaf
    * 리프노드가 되기 위해 필요한 최소 샘플 데이터수
* max_leaf_nodes
    * 리프노드의 최대 개수
* n_jobs
    * 사용할 CPU 코어의 수, -1로 설정 시 사용할 수 있는 모든 CPU코어를 사용
    
## 학습과 예측


* 배깅이나 부스팅과 같은 트리를 여러 개 만드는 알고리즘을 사용하면 느리기 때문에 시연을 위해 DecisionTree를 사용합니다.
* 응용에서는 다른 알고리즘을 사용해도 좋습니다.

In [1]:
# DecisionTreeClassifier



## Parameter Search
<img src="https://i.imgur.com/h8QtsMz.png" width=500>

### Grid Search

In [None]:
# GridSearchCV
# {"max_depth": [600, 700, 1000, 2000]}


In [None]:
# best_estimator_


In [None]:
# best_score_


### Random Search

In [None]:
# RandomizedSearchCV
max_depth = np.random.randint(100, 3000, 10)
max_features = np.random.uniform(0.2, 1.0, 10)
param_distributions

In [None]:
# best_estimator_
# model

In [None]:
# best_score_
# valid_accuracy


## 예측

In [None]:
# 실전 시험과 유사합니다. 정답 없이 문제만 넣고 풀어서 예측합니다.
# predict로 예측합니다. 
# y_predict

In [None]:
# feature_importances_


## 정답값 로드

In [None]:
# sample_submission 파일을 불러옵니다.
# Dacon 에 제출할 답안지 양식입니다.
submit = pd.read_csv("data/klue/sample_submission.csv")
submit.head()

In [None]:
# 정답값 측정을 위해 y_test 변수에 할당
# submit["topic_idx"]

In [None]:
file_name = f"data/klue/submit_{valid_accuracy}.csv"
file_name

In [None]:
# 잘 저장이 되었는지 확인합니다.
submit.to_csv(file_name, index=False)

In [None]:
# 잘 저장이 되었는지 확인합니다.
pd.read_csv(file_name)

* dacon에 제출해서 리더보드 확인하기 : https://dacon.io/competitions/official/235747/mysubmission


## 여러 방법을 통해 예측비율을 높여보세요. 
* 아래 항목 외의 기법을 사용해도 됩니다.
 * 전처리 하기
 * 불용어 처리
 * BOW, TF-IDF의 파라메터 변경
 * 분류기의 파라메터 변경
 * 분류기 변경