### 환경 설정

In [1]:
# 1. java 설치(version 1.7 이상)
# cmd 창에서 java --version으로 확인
# 2. 환경 변수 설정
# 제어판 > 시스템 > 고급 시스템 설정 > 고급 > 환경 변수
import os
print("JAVA_HOME" in os.environ)

True


In [2]:
!pip install jpype1



In [3]:
# 한국어 형태소 분석기 konlpy
!pip install konlpy



In [4]:
from konlpy.tag import Kkma

In [5]:
kkma = Kkma()

### 목표 설정
- 네이버 영화리뷰 데이터 셋을 이용해서 긍정/부정 분류기를 만들어보자.
- tf-idf 토큰화 방법을 사용해보자.
- konlpy 한국어 형태소 분석기를 사용해보자.(설치 및 활용)
- 단어별 긍/부정 정보를 시각화 해서 확인

### 네이버 데이터 로딩

In [6]:
# 필요한 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [7]:
# 데이터 불러오기
train_df = pd.read_csv('./data/ratings_train.csv')
test_df = pd.read_csv('./data/ratings_test.csv')

In [8]:
# 판다스 데이터프레임 설정
# pd.set_option('display.max_colwidth', None)
# pd.set_option('display.max_rows', None)

**컬럼 정리**
- id : 사용자 교유 식별 번호
- document : 실제 리뷰 내용
- label : 긍정/부정 구분 

In [9]:
# 데이터 프레임 확인 - info()
# train의 정보 확인
train_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [10]:
# test의 정보 확인
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        50000 non-null  int64 
 1   document  49997 non-null  object
 2   label     50000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 1.1+ MB


- train 데이터 : 총 데이터 개수 : 15만개 / 결측치 5개
- test 데이터 : 총 데이터 개수 : 5만개 / 결측치 3개
- 데이터 볼륨에 비해 결측치의 양이 적다.
- 실제 리뷰 데이터 채워주기엔 무리가 있다.
- 결측치가 있는 부분을 삭제 하도록 하자

In [11]:
# 결측치 데이터 삭제

train_df.dropna(inplace=True)
test_df.dropna(inplace=True)

In [12]:
train_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 149995 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        149995 non-null  int64 
 1   document  149995 non-null  object
 2   label     149995 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [14]:
from sklearn.model_selection import train_test_split
x_train = train_df['document']
x_test =  test_df['document']
y_train = train_df['label']
y_test = test_df['label']

In [15]:
# 데이터 분할 확인
x_train.shape, x_test.shape, y_train.shape, y_test.shape

((149995,), (49997,), (149995,), (49997,))

**Vectorizer**
- Vectorizer는 말 그대로 어떠한 대상으로 벡터화 시켜주는 도구다
- 수치값으로 바꿔주는 도구


### BOW - 단어가방
- 문서를 벡터로 변환하는 가장 기본적인 방법으로 문서 내부에 모든 단어를 모아서 하나의 가방을 만들고, 특정 문서에 어떤 단어가 있는지 리스트의 형태로 순서 - 숫자 형태로 나타내는 방법

In [16]:
# tf-idf vectorizer import
# 사이킷런에 있는 특성 추출 도구 중에서 텍스트 추출 도구를 가져올거고
from sklearn.feature_extraction.text import TfidfVectorizer

In [17]:
tf_idf_vect = TfidfVectorizer()

tf_idf_vect.fit(x_train[:3])

tf_idf_vect.vocabulary_.keys()

dict_keys(['더빙', '진짜', '짜증나네요', '목소리', '포스터보고', '초딩영화줄', '오버연기조차', '가볍지', '않구나', '너무재밓었다그래서보는것을추천한다'])

In [18]:
from konlpy.tag import Kkma
# Hannanum, Kkma, Okt, Komoran, Mecab

**Kkma 라이브러리 알아괴**
- Kkma : 꼬꼬마
- nouns() : 명사 추출
- morphs() : 형태소 추출
- pos() : 형태소 추출 + 품사 태그 부착

In [19]:
# 한국어 형태소 분석기 객체 생성
kkma = Kkma()

In [21]:
x_train[0]

'아 더빙.. 진짜 짜증나네요 목소리'

In [22]:
# 명사 추출 : nouns()
kkma.nouns(x_train[0])

['더빙', '목소리']

In [23]:
def myTokenizer(text):
    return kkma.nouns(text)

In [26]:
temp_tf_idf = TfidfVectorizer(tokenizer=myTokenizer)

temp_tf_idf.fit(x_train[0:3])

temp_tf_idf.vocabulary_.keys()

dict_keys(['더빙', '목소리', '흠', '포스터', '포스터보고', '보고', '초', '초딩영화줄', '딩', '영화', '줄', '오버', '오버연기', '연기', '재', '재밓', '밓', '추천'])

In [27]:
temp_tf_idf.vocabulary_

{'더빙': 0,
 '목소리': 2,
 '흠': 17,
 '포스터': 15,
 '포스터보고': 16,
 '보고': 4,
 '초': 12,
 '초딩영화줄': 13,
 '딩': 1,
 '영화': 6,
 '줄': 11,
 '오버': 7,
 '오버연기': 8,
 '연기': 5,
 '재': 9,
 '재밓': 10,
 '밓': 3,
 '추천': 14}

### pos tagging  활용
- 형태소를 추출해서 품사 태깅까지 부착해주는 기능

In [28]:
# 품사 태그 종류 출력해보기
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

In [29]:
# 단순 형태소 추출
data = '먹다 먹는다 먹었다 아름답다 멋지다 안경 마스크 사진 모자'
kkma.morphs(data)

['먹',
 '다',
 '먹',
 '는',
 '다',
 '먹',
 '었',
 '다',
 '아름답',
 '다',
 '멋지',
 '다',
 '안경',
 '마스크',
 '사진',
 '모자']

In [30]:
kkma.pos(data)

[('먹', 'VV'),
 ('다', 'ECS'),
 ('먹', 'VV'),
 ('는', 'EPT'),
 ('다', 'ECS'),
 ('먹', 'VV'),
 ('었', 'EPT'),
 ('다', 'ECS'),
 ('아름답', 'VA'),
 ('다', 'ECS'),
 ('멋지', 'VA'),
 ('다', 'ECS'),
 ('안경', 'NNG'),
 ('마스크', 'NNG'),
 ('사진', 'NNG'),
 ('모자', 'NNG')]

In [31]:
d = pd.DataFrame(kkma.pos(data), columns=['morphs', 'tag'])
d.set_index('tag', inplace=True)

In [32]:
d

Unnamed: 0_level_0,morphs
tag,Unnamed: 1_level_1
VV,먹
ECS,다
VV,먹
EPT,는
ECS,다
VV,먹
EPT,었
ECS,다
VA,아름답
ECS,다
