## 학습목표
- 감성분석 모델링을 할 수 있다.
- 토큰화/수치화 방법을 이해 할 수 있다.
- konlpy 사용법을 이해 할 수 있다.

#### 감성분석
- 사람의 감정/기분/태도 등을 분석하는 기법
   - case 1 : 감성사전을 이용한 분석(전통적으로 사용하던 방식)
   - case 2 : 인공지능 기술을 이용한 분석(최근 방식)

#### 데이터로딩

In [4]:
import pandas as pd
# 훈련용, 평가용 데이터 로딩
train = pd.read_csv("./data/unsmile_train_v1.0.tsv", # 파일경로
                    delimiter='\t') # 구분자
test = pd.read_csv("./data/unsmile_valid_v1.0.tsv", # 파일경로
                    delimiter='\t') # 구분자

#### 데이터 전처리
- 형태소 단위로 분리
- clean 작업 : 불용어, 반복적인 단어 처리 등 -> 정규표현식 

In [6]:
# 한국어 형태소 분리 시 자주 활용하는 konlpy를 사용
# 1. jdk, Jpye 등을 설치 -> PC상태에 따라서 안되는 경우 많음 -> colab으로 진행
# 2. konlpy 형태소 분석기 중에 mecab이 있음 -> 리눅스 운영체제에서 사용 가능 -> colab으로 진행

In [7]:
# 문장데이터만 분리하여 파일로 저장
train['문장'].to_csv("./train_origin_text.csv", index=False)
test['문장'].to_csv("./test_origin_text.csv", index=False)

In [8]:
# 'ex05_2 텍스트마이닝 응용_konlpy_사용하기' 파일에서 처리한 데이터 로딩
import pickle

In [9]:
with open("./data/clean_morphs_train.pkl", 'rb') as f :
    clean_morphs_train = pickle.load(f)

with open("./data/clean_morphs_test.pkl", 'rb') as f :
    clean_morphs_test = pickle.load(f)

In [10]:
len(clean_morphs_test)

3737

In [11]:
len(clean_morphs_train)

15005

In [12]:
clean_morphs_train[:5]

[['일안', '시간', '어서', '그런', '아닐까'],
 ['아동',
  '성범죄',
  '페도버는',
  '기록',
  '영원히',
  '고통',
  '는다',
  '무슬림',
  '근친',
  '까지',
  '떨어지',
  '출산',
  '위험'],
 ['루나', '솔로', '앨범', '나왔', '부터', '기운', '진짜'],
 ['어버이',
  '연합',
  '인가',
  '보내',
  '이런',
  '뎃글',
  '는데',
  '이거',
  '어버이',
  '연합',
  '신고',
  '그쪽',
  '에서',
  '고소',
  '가능'],
 ['여기',
  '여자',
  '김치',
  '라고',
  '먼저',
  '불렸',
  '여자',
  '심하',
  '그런다',
  '이렇게',
  '싸우',
  '나쁜',
  '이상',
  '이하',
  '아닌데']]

#### 토큰화 및 수치화(특성추출)
- 토큰화 : 일정 단위로 텍스트를 분리하는 작업
   - 글자(char) : apple -> a / p / p / l / e
   - 단어(word) : 보통 띄어쓰기 기준으로 분리 -> 보통 / 띄어쓰기 / 기준으로 / 분리
   - 형태소 : 동사, 명사, 형용사 등 형태소 기준으로 분리
   - n-gram(유니,바이,트라이 등) : 1/2/3개 씩 단어를 묶어서 토큰화하는 방법
        - 오늘 점신은 맛있는 카레 -> 유니그램 -> 오늘 / 점심은 / 맛있는 / 카레
        - 오늘 점신은 맛있는 카레 -> 바이그램 -> 오늘 점심은 / 점심은 맛있는 / 맛있는 카레
        - 오늘 점신은 맛있는 카레 -> 트라이그램 -> 오늘 점신은 맛있는 / 점심은 맛있는 카레
- 수치화(특성추출) : 의미있는 정보를 담고 있는 숫자형태로 변환하는 방법, 데이터를 정형화 하는 효과가 있다.
   - 빈도기반의 레이블인코딩
   - 원핫인코딩과 유사한 BOW, Tf-idf
   - Word embedding : 딥러닝 학습을 이용해서 수치화 하는 기법

##### BOW(Bag Of word)
- 문장에서 등장하는 단어의 빈도를 측정해 수치화하는 방법
- 단어사전 구축 -> 단어사전을 기반으로 문장내의 단어빈도를 측정
- 장점 : 단순한 알고리즘이라 이해하기가 편하다
- 단점 : 말뭉치에 사용되는 단어가 많으면 부피가 비례해서 커진다 / 문장에서 단어의 순서를 고려x
  (문맥을 파악하는 분석에는 부적합)

In [15]:
from sklearn.feature_extraction.text import CountVectorizer

In [16]:
sample_text = clean_morphs_train[:3]
sample_cv = CountVectorizer() # BOW를 해주는 객체 생성
print(sample_text[0])
print(sample_text[1])
print(sample_text[2])

['일안', '시간', '어서', '그런', '아닐까']
['아동', '성범죄', '페도버는', '기록', '영원히', '고통', '는다', '무슬림', '근친', '까지', '떨어지', '출산', '위험']
['루나', '솔로', '앨범', '나왔', '부터', '기운', '진짜']


In [17]:
# step 1 : 토큰화 및 단어사전 구축
# CountVectorizer 에 토큰화기능이 내장되어있어 문장을 하나로 묶어주는 전처리 작업
sample_text2 = [ " ".join(s) for s in sample_text]
sample_cv.fit(sample_text2)

In [18]:
# 구축된 단어사전 확인 -> 25개 단어등장
sample_cv.vocabulary_

{'일안': 21,
 '시간': 14,
 '어서': 18,
 '그런': 1,
 '아닐까': 15,
 '아동': 16,
 '성범죄': 12,
 '페도버는': 24,
 '기록': 3,
 '영원히': 19,
 '고통': 0,
 '는다': 7,
 '무슬림': 10,
 '근친': 2,
 '까지': 5,
 '떨어지': 8,
 '출산': 23,
 '위험': 20,
 '루나': 9,
 '솔로': 13,
 '앨범': 17,
 '나왔': 6,
 '부터': 11,
 '기운': 4,
 '진짜': 22}

In [19]:
# step 2 : 단어사전을 기반으로 문장내의 단어빈도를 측정
result = sample_cv.transform(sample_text2)
result

<3x25 sparse matrix of type '<class 'numpy.int64'>'
	with 25 stored elements in Compressed Sparse Row format>

In [20]:
# 만약 데이터를 직접 보고 싶다면 활용
result.toarray()

array([[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1,
        0, 0, 0],
       [1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0,
        0, 1, 1],
       [0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0,
        1, 0, 0]], dtype=int64)

In [21]:
# 단어사전을 데이터 프레임으로 변환
result_df = pd.DataFrame([sample_cv.vocabulary_.keys()],
                         columns = sample_cv.vocabulary_.values())
result_df

Unnamed: 0,21,14,18,1,15,16,12,24,3,19,...,8,23,20,9,13,17,6,11,4,22
0,일안,시간,어서,그런,아닐까,아동,성범죄,페도버는,기록,영원히,...,떨어지,출산,위험,루나,솔로,앨범,나왔,부터,기운,진짜


In [22]:
result_df = result_df.sort_index(axis=1)
result_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
0,고통,그런,근친,기록,기운,까지,나왔,는다,떨어지,루나,...,아닐까,아동,앨범,어서,영원히,위험,일안,진짜,출산,페도버는


In [23]:
pd.concat([result_df, pd.DataFrame(result.toarray())])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
0,고통,그런,근친,기록,기운,까지,나왔,는다,떨어지,루나,...,아닐까,아동,앨범,어서,영원히,위험,일안,진짜,출산,페도버는
0,0,1,0,0,0,0,0,0,0,0,...,1,0,0,1,0,0,1,0,0,0
1,1,0,1,1,0,1,0,1,1,0,...,0,1,0,0,1,1,0,0,1,1
2,0,0,0,0,1,0,1,0,0,1,...,0,0,1,0,0,0,0,1,0,0


#### unsmile 데이터셋 토큰화 및 수치화 : BOW

In [25]:
# CountVectorizer 를 이용하기 위해서 문장을 하나로 합쳐주는 작업이 필요
clean_morphs_train2 = [" ".join(s) for s in clean_morphs_train]
clean_morphs_test2 = [" ".join(s) for s in clean_morphs_test]
clean_morphs_train2[:4]

['일안 시간 어서 그런 아닐까',
 '아동 성범죄 페도버는 기록 영원히 고통 는다 무슬림 근친 까지 떨어지 출산 위험',
 '루나 솔로 앨범 나왔 부터 기운 진짜',
 '어버이 연합 인가 보내 이런 뎃글 는데 이거 어버이 연합 신고 그쪽 에서 고소 가능']

In [26]:
unsmile_cv = CountVectorizer(stop_words=["으로","이다","하고","부터"], # 불용어 등록
                            ngram_range=(1,2), # n-gram 설정 (유니~바이)
                            max_df= 0.9 , # 쵀대 등장 빈도
                            min_df= 8 ) # 최소 등장 빈도
unsmile_cv.fit(clean_morphs_train2) # 단어사전구축

In [27]:
len(unsmile_cv.vocabulary_) # 단어사전의 크기

2554

In [28]:
unsmile_cv.vocabulary_

{'시간': 1263,
 '어서': 1488,
 '그런': 264,
 '아닐까': 1383,
 '어서 그런': 1489,
 '아동': 1388,
 '성범죄': 1183,
 '영원히': 1591,
 '고통': 168,
 '는다': 450,
 '무슬림': 833,
 '근친': 289,
 '까지': 325,
 '떨어지': 663,
 '출산': 2252,
 '위험': 1693,
 '나왔': 368,
 '진짜': 2154,
 '연합': 1581,
 '인가': 1809,
 '보내': 970,
 '이런': 1766,
 '는데': 454,
 '이거': 1744,
 '신고': 1305,
 '에서': 1526,
 '고소': 164,
 '가능': 16,
 '여기': 1539,
 '여자': 1555,
 '김치': 322,
 '라고': 673,
 '먼저': 768,
 '심하': 1333,
 '이렇게': 1772,
 '싸우': 1338,
 '나쁜': 358,
 '이상': 1784,
 '이하': 1805,
 '아닌데': 1380,
 '이상 이하': 1785,
 '고향': 169,
 '동네': 595,
 '친구': 2269,
 '이랑': 1761,
 '거르': 90,
 '없이': 1520,
 '이야기': 1794,
 '니까': 464,
 '더라': 562,
 '당연히': 517,
 '키보드': 2295,
 '거나': 87,
 '그러': 260,
 '많이': 744,
 '반성': 906,
 '해야': 2469,
 '예수': 1601,
 '새끼': 1123,
 '개새끼': 75,
 '창녀': 2197,
 '아들': 1389,
 '애비': 1448,
 '가정': 30,
 '교육': 202,
 '정신병자': 1997,
 '사기': 1073,
 '망상': 751,
 '근본': 287,
 '병신': 965,
 '장애': 1913,
 '흑인': 2545,
 '이슬람': 1790,
 '전라도': 1950,
 '동급': 592,
 '나이': 370,
 '쳐먹': 2225,
 '대가리': 526,
 '소리

In [29]:
# 훈련용과 평가용 데이터 수치화
train_transformed_BOW = unsmile_cv.transform(clean_morphs_train2)
test_transformed_BOW = unsmile_cv.transform(clean_morphs_test2)

In [30]:
train_transformed_BOW, test_transformed_BOW

(<15005x2554 sparse matrix of type '<class 'numpy.int64'>'
 	with 88296 stored elements in Compressed Sparse Row format>,
 <3737x2554 sparse matrix of type '<class 'numpy.int64'>'
 	with 21155 stored elements in Compressed Sparse Row format>)

##### 선형분류모델 학습 및 평가

In [32]:
# 정답데이터 추출
y_train = train.loc[:,"여성/가족":"clean"].values.argmax(axis=1)
y_test = test.loc[:,"여성/가족":"clean"].values.argmax(axis=1)

In [33]:
y_train.shape, y_test.shape

((15005,), (3737,))

In [34]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

In [35]:
# 로지스틱 모델 생성
unsmile_logi = LogisticRegression(max_iter=1000)
# 교차검증
score_BOW = cross_val_score(unsmile_logi, train_transformed_BOW, y_train, cv=5)

In [36]:
score_BOW.mean()

0.5868710429856714

##### Tf-dif
![image.png](attachment:dd2496a8-19bd-47ca-8691-c37fe236dc19.png)

- 말뭉치(corpus) : 텍스트마이닝,자연어처리 분야에서 학습을 위해 사용하는 데이터셋
- 문서(document) : 말뭉치에서 각 샘플을 치징하는 단어
- TF(Term Frequency) : 하나의 문서(document)에서 개별 단어들이 등장하는 빈도 수
- DF(Document Frequency) : 하나의 단어(토큰)가 전체 말뭉치에서 등장하는 문서(document) 수

In [39]:
# tf-idf : 하나의 문서에서는 자주 등장하고 전체문서에서는 적당히 등장하는 단어의 가치를 측정
from sklearn.feature_extraction.text import TfidfVectorizer

In [40]:
# step 1 : 단어사전 구축
sample_tf_idf = TfidfVectorizer()
sample_tf_idf.fit(sample_text2)

In [41]:
# step 2 : 수치화
sample_tf_idf.transform(sample_text2).toarray()

array([[0.        , 0.4472136 , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.4472136 ,
        0.4472136 , 0.        , 0.        , 0.4472136 , 0.        ,
        0.        , 0.4472136 , 0.        , 0.        , 0.        ],
       [0.2773501 , 0.        , 0.2773501 , 0.2773501 , 0.        ,
        0.2773501 , 0.        , 0.2773501 , 0.2773501 , 0.        ,
        0.2773501 , 0.        , 0.2773501 , 0.        , 0.        ,
        0.        , 0.2773501 , 0.        , 0.        , 0.2773501 ,
        0.2773501 , 0.        , 0.        , 0.2773501 , 0.2773501 ],
       [0.        , 0.        , 0.        , 0.        , 0.37796447,
        0.        , 0.37796447, 0.        , 0.        , 0.37796447,
        0.        , 0.37796447, 0.        , 0.37796447, 0.        ,
        0.        , 0.        , 0.37796447, 0.        , 0.        ,
        0.        , 0.        , 0.37796447, 0.

#### unsmile 데이터셋 토큰화 및 수치화 : Tf-idf

In [43]:
# 1. tf-idf 를 이용해 혐오표현 데이터 토큰화 및 수치화

unsmile_cv_tfidf = TfidfVectorizer(stop_words=["으로","이다","하고","부터"], # 불용어 등록
                            ngram_range=(1,2), # n-gram 설정 (유니~바이)
                            max_df= 0.9 , # 쵀대 등장 빈도
                            min_df= 8 ) # 최소 등장 빈도
unsmile_cv_tfidf.fit(clean_morphs_train2) # 단어사전구축

In [44]:
# 훈련용과 평가용 데이터 수치화
train_transformed_tfidf = unsmile_cv_tfidf.transform(clean_morphs_train2)
test_transformed_tfidf = unsmile_cv_tfidf.transform(clean_morphs_test2)

In [45]:
# 2. 선형분류모델 객체 생성
unsmile_logi_for_tfidf = LogisticRegression(max_iter=1000)

In [46]:
# 3. 교차검증 실시
score_tfidf = cross_val_score(unsmile_logi_for_tfidf, train_transformed_tfidf, y_train, cv=5)
score_tfidf.mean()

0.5746751082972342

#### 하이퍼 파라미터 튜닝 with GridSearch
- LogisticRegression : C(규제)
- TfidfVectorizer : ngram_range, max_df, min_df

In [87]:
# tf-idf와 Logistic 두 개를 튜닝해보자
# 하나의 파이프라인으로 묶어서 튜닝
from sklearn.pipeline import Pipeline # 파이프라인 구축 클래스
from sklearn.model_selection import GridSearchCV # 하이퍼파라미터 튜닝을 도와주는 클래스

In [89]:
unsmile_pipline = Pipeline([
    ('unsmile_tf_idf', TfidfVectorizer()),
    ('unsmile_logi', LogisticRegression())
])

In [91]:
# 튜닝할 파라미터 셋팅
grid_prams = {
    "unsmile_logi__C" : [0.001, 0.01, 0.1, 1, 10, 100, 1000], # 규제가 강한것부터 약한것까지
    "unsmile_tf_idf__max_df" : [0.7,0.8,0.9], # 최대등장 빈도
    "unsmile_tf_idf__min_df" : [5,8,10,15], # 최소등장 빈도
    "unsmile_tf_idf__ngram_range" : [(1,1),(1,2),(1,3)] # n-gram
}

In [93]:
grid = GridSearchCV(
                    unsmile_pipline, #튜닝할 모델
                    grid_prams, # 튜닝할 파라미터
                    cv = 3, # 조합당 실행 할 교차검증 횟수
                    n_jobs = -1 # PC 자원을 연산에 집중시키는 파라미터
                   )

In [None]:
grid.fit(clean_morphs_train2, # 문제
        y_train) # 정답