In [2]:
# 형태분석된 데이터 로딩
def read_data(filename, encoding='cp949'):               # 읽기 함수 정의
  with open(filename, 'r', encoding=encoding) as f:
    data = [line.split('\t') for line in f.read().splitlines()]
    data = data[1:]                                      # txt 파일의 헤더(id document label)는 제외하기
  return data

def write_data(data, filename, encoding='cp949'):        # 쓰기 함수 정의
  with open(filename, 'w', encoding=encoding) as f:
    f.write(data)

data = read_data('C:\\Users\\LeeKyoungJun\\Desktop\\데이터캠퍼스\\pytest_대용량\\ratings.txt', encoding='cp949')

print(len(data))
print(len(data[0])) 
print(data[0])

200000
3
['8112052', '어릴때보고 지금다시봐도 재밌어요ㅋㅋ', '1']


In [3]:
# 훈련데이터와 테스트데이터 분리 (자동)
data_text = [line[1] for line in data]      		# 데이터 본문
data_senti = [line[2] for line in data]     		# 데이터 긍부정 부분

from sklearn.model_selection import train_test_split
# train_test_split가 데이터(feature, label)를 랜덤하게 섞은 뒤, 트레이닝 데이터와 테스트 데이터에 7:3 비율로 넣는다.
train_data_text, test_data_text, train_data_senti, test_data_senti = train_test_split(data_text, data_senti, stratify=data_senti)

# Counter 클래스를 이용해 각 분류가 훈련데이터와 테스트데이터에 같은 비율로 들어갔는지 확인해 본다 
from collections import Counter
train_data_senti_freq = Counter(train_data_senti)
print('train_data_senti_freq:', train_data_senti_freq)

test_data_senti_freq = Counter(test_data_senti)
print('test_data_senti_freq:', test_data_senti_freq)

train_data_senti_freq: Counter({'1': 75000, '0': 75000})
test_data_senti_freq: Counter({'0': 25000, '1': 25000})


In [4]:
# 행렬 형태로 변환
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(min_df=5).fit(train_data_text)  # 빈도 5이상의 단어만 대상. 빈도 수가 너무 적으면 판단에 도움이 안됨
X_train = vect.transform(train_data_text)		           # 행렬 생성. train_data_text로 DTM(틀) 만들어야 한다. 테스트용 데이터로 만들면 안됨 !
print("X_train:\n", repr(X_train))			               # 생성된 행렬 개요

X_train:
 <150000x24121 sparse matrix of type '<class 'numpy.int64'>'
	with 734177 stored elements in Compressed Sparse Row format>


In [5]:
# 행렬 내용 관찰
feature_names = vect.get_feature_names()
print("특성 개수:", len(feature_names))
print("처음 20개 특성:\m", feature_names[:20])
print("3000~5000까지의 특성:\n", feature_names[3000:5000])

특성 개수: 24121
처음 20개 특성:\m ['007', '007시리즈', '007을', '007의', '007이', '02', '04', '08', '0개', '0개는', '0은', '0점', '0점도', '0점없나', '0점없냐', '0점은', '0점을', '0점이', '0점이다', '0점주고싶다']
3000~5000까지의 특성:
 ['그지같네', '그지같다', '그지같은', '그지같음', '그지없고', '그지없는', '그지없다', '그치만', '그토록', '그후', '극강의', '극과', '극단적', '극단적으로', '극단적인', '극대화', '극도로', '극도의', '극복', '극복하기', '극복하는', '극복할', '극본', '극본과', '극본을', '극악의', '극에', '극으로', '극을', '극의', '극이', '극장', '극장가서', '극장개봉', '극장까지', '극장서', '극장에', '극장에서', '극장에서보고', '극장에서봤는데', '극장에선', '극장용', '극장을', '극장이', '극장판', '극장판도', '극장판으로', '극장판은', '극장판을', '극장판의', '극장판이', '극장판중', '극장판중에', '극적', '극적으로', '극적인', '극전개가', '극중', '극중에서', '극찬', '극찬을', '극치', '극치다', '극치를', '극한', '극한의', '극혐', '극혐이다', '극히', '근거로', '근대', '근데', '근디', '근래', '근래에', '근본적인', '근육', '글고', '글구', '글도', '글렌', '글로', '글로리아', '글쎄', '글쎄다', '글쎄요', '글을', '글이', '글케', '금물', '금발', '금방', '금성무', '금요일', '금요일이', '금치', '급급한', '급의', '급이', '급작스러운', '급전개', '급전개에', '급조한', '급하게', '긋는', '긍정적이고', '긍정적인', '기가', '기가막히게', '기가막히다', '기가막힌', '기간', '기계', '기계가'

In [6]:
# 머신러닝 알고리즘 적용
import pandas as pd
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression # 상대평가 위함
y_train = pd.Series(train_data_senti)	# 리스트 형태를 종속변수가 될 수 있는 1차원 배열(Series)로 만든다. 이건 개발자가 정해놓은 Rule

lr = LogisticRegression(solver="liblinear")
lr.fit(X_train, y_train)  # (본문, 정답)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

In [7]:
# 테스트 데이터 입력
X_test = vect.transform(test_data_text) # 트레이닝 데이터로 만든 df에 테스트 데이터 넣음
y_test = pd.Series(test_data_senti)

print("테스트 데이터 점수:", lr.score(X_test, y_test)) # 데이터가 500개밖에 안되는 ratings_morphed 로 하니 57% 나옴

테스트 데이터 점수: 0.8075


In [19]:
# 형태소분석기 시작
import rhinoMorph
rn = rhinoMorph.startRhino()

# 형태소 분석
new_input = '그지같다'
inputdata = []
morphed_input = rhinoMorph.onlyMorph_list(rn, new_input, pos=['NNG', 'NNP', 'VV', 'VA', 'XR', 'IC', 'MM', 'MAG', 'MAJ'])
morphed_input = ' '.join(morphed_input) # ['오늘', '정말', '재미있', '하루＇]를 한 개 문자열로 변환

inputdata.append(morphed_input)         # 분석 결과를 리스트로 만들기
print('input data:', inputdata)         # ['오늘 정말 재미있 하루']

filepath:  C:\Anaconda3\lib\site-packages
classpath:  C:\Anaconda3\lib\site-packages\rhinoMorph/lib/rhino.jar
JVM is already started~
RHINO started!
input data: ['그지 같']


In [20]:
X_input = vect.transform(inputdata)	    # 앞에서 만든 11445 컬럼의 행렬에 적용
result = lr.predict(X_input) 	          # 0은 부정,1은 긍정

if result == "0":
  print("부정적인 글입니다")
else:
  print("긍정적인 글입니다")

부정적인 글입니다
