In [14]:
import pandas as pd
import numpy as np
import pickle #피클로 저장할 때 불러오는 모듈
from konlpy.tag import * #형태소 분석기(kkma, okt 등) 사용
from sklearn.linear_model import LogisticRegression #학습모델
from sklearn.pipeline import Pipeline #학습모델과 tfidf를 한곳에 넣는 파이프라인 즉 두개의 모델을 하나로사용
from sklearn.model_selection import GridSearchCV #하이퍼파라미터튜닝
from sklearn.feature_extraction.text import TfidfVectorizer #형태소로 분류된 단어에 가중치 추가

In [15]:

    # 수집한 데이터를 읽어온다.
df = pd.read_csv('./data/블루밍데이터셋.csv',encoding='CP949')

    # 전처리를 수행한다.
X_p = df['term']
y_p = df['label']

    # 학습데이터와 테스트 데이터로 나눈다.
#X_p = df['term'].tolist()
#y_p = df['label'].tolist()

from sklearn.model_selection import train_test_split

    # 70%는 학습, 30%는 test
X_train_p, X_test_p, y_train_p, y_test_p = train_test_split(X_p, y_p, test_size=0.3, random_state=0)


In [16]:
# 형태소 분석을 위한 함수
def tokenizer(text) :
    okt = Okt()
    return okt.pos(text,norm=True,stem=True)

In [17]:
# 주어진 데이터를 단어 사전으로 만들고 각 단어의 빈도수를 계산한 후 벡터화 하는 객체 생성
tfidf = TfidfVectorizer(lowercase=False, tokenizer=tokenizer,analyzer='char',ngram_range = (1, 2),sublinear_tf = True)

# 문장별 나오는 단어수 세서 수치화, 벡터화해서 학습을 시킨다.
logistic = LogisticRegression(C=10.0, penalty='l2', random_state=0)

# tfidf와 logistic을 하나의 파이프에 저장
pipe_p = Pipeline([('vect', tfidf), ('clf', logistic)])

# 학습한다.
pipe_p.fit(X_train_p, y_train_p)

# 학습 정확도 측정
y_pred = pipe_p.predict(X_test_p)



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [18]:
#하이퍼파라미터 튜닝
grid_params_p = {
    'vect__min_df' : [3,5,10],
    'vect__max_df' : [20000,22000,24000],
    'vect__ngram_range' : [(1,2),(1,3),(1,4)],
    'clf__C' : [0.001,0.01,0.1,1,10,100]
}

In [19]:
grid_pipe_p = GridSearchCV(pipe_p,grid_params_p,cv=5,n_jobs=-1) #cv=5는 5번 교차검증 하겠다

In [20]:
grid_pipe_p.fit(X_train_p,y_train_p) #그리드 학습

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('vect',
                                        TfidfVectorizer(analyzer='char',
                                                        lowercase=False,
                                                        ngram_range=(1, 2),
                                                        sublinear_tf=True,
                                                        tokenizer=<function tokenizer at 0x0000022CDAC8ED30>)),
                                       ('clf',
                                        LogisticRegression(C=10.0,
                                                           random_state=0))]),
             n_jobs=-1,
             param_grid={'clf__C': [0.001, 0.01, 0.1, 1, 10, 100],
                         'vect__max_df': [20000, 22000, 24000],
                         'vect__min_df': [3, 5, 10],
                         'vect__ngram_range': [(1, 2), (1, 3), (1, 4)]})

In [21]:
grid_pipe_p.best_params_ #최고의 파라미터값 추출

{'clf__C': 10,
 'vect__max_df': 20000,
 'vect__min_df': 3,
 'vect__ngram_range': (1, 4)}

In [22]:
best_model_pipe_p = grid_pipe_p.best_estimator_ #최고의 파라미터로 적용시킨후 정확도 추출
best_model_pipe_p.score(X_test_p,y_test_p)

0.9309964726631393

In [23]:
ff = ['나는 불행하다']

In [24]:
best_model_pipe_p.predict(ff)[0] #테스트 해보기

-1

In [25]:
#웹 페이지와 연동시키기 위한 플라스크 서버 구축

from flask import Flask
from flask import request, redirect

#app 객체 생성
app = Flask(__name__) 

#사용자가 일기 작성후 확인 누르면 먼저 여기로 들어와서 내용 분석후 자바로 보내서 데이터베이스에 저장
@app.route('/DiaryPost1', methods=['GET','POST']) 
def index():     
       #get 방식으로 받으면 args로
    if request.method == 'GET':
        DI_CONTENTS = request.args['DI_CONTENTS']
        DI_TITLE = request.args['DI_TITLE']
        DI_DATE = request.args['DI_DATE']
        #post 방식으로 받으면 form으로
    elif request.method == 'POST':
        DI_CONTENTS = request.form['DI_CONTENTS']
        DI_TITLE = request.form['DI_TITLE']
        DI_DATE = request.form['DI_DATE']
        
    #값이 잘 넘어오고 분석 잘되는지 print로 테스트해보기
    a = best_model_pipe_p.predict([DI_CONTENTS])[0]
    print(a)
    print(DI_CONTENTS)
    print(DI_TITLE)
    print(DI_DATE)
    #웹페이지 주소와 쿼리스트링 기술로 값 보내주기
    url = 'http://localhost:8085/Blooming/DiaryPost?DI_SCORE={}&DI_TITLE={}&DI_DATE={}&DI_CONTENTS={}'.format(best_model_pipe_p.predict([DI_CONTENTS])[0],DI_TITLE,DI_DATE,DI_CONTENTS)
    return redirect(url,code=307) #code=307 은 post방식으로 보내주는 상태코드


if __name__ == '__main__':
    app.run(host='172.20.10.3', port='5000')  #ip주소와 포트번호 

 * Serving Flask app "__main__" (lazy loading)
 * Environment: production
   Use a production WSGI server instead.
 * Debug mode: off


 * Running on http://172.20.10.3:5000/ (Press CTRL+C to quit)
172.20.10.4 - - [26/Nov/2020 10:47:40] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
최종발표 잘할 것 같다.
최종발표
2020-11-29


172.20.10.4 - - [26/Nov/2020 11:37:26] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1

기분이좋다
2020-11-26


172.20.10.4 - - [26/Nov/2020 11:37:42] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
기분이 조다

기분이좋다
2020-11-26


172.20.10.4 - - [26/Nov/2020 11:38:02] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
굿
굿
2020-11-26


172.20.10.4 - - [26/Nov/2020 11:38:27] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
즐겁다
즐겁다
2020-11-26


172.20.10.4 - - [26/Nov/2020 11:38:52] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
오늘도 행복하다
오늘도 행복하다
2020-11-26


172.20.10.4 - - [26/Nov/2020 11:48:43] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
눈을 뜨니까 8시30분이였다 나는 알람을 3개 맞춰났는데 알람이 안울렸길레 새벽5시쯤데는줄 알았다
그래서 그냥 다시잘려고 시간을 확인해보니까 삿됬다
이미 카톡은 많이 와있었고 나는 아 나 지금 인남 하고 바로 씻으러 들어갔다.
10분만에 사라락 씻고나서 나오니까 또 카톡이 와있었다.
그래서 대충입고 나와서 택시를 잡아가지고 불이나게 달려왔다.
택시기사 아저씨가 전화 안해봐도 되냐고 했는데 그냥 안했다
근데 2통이나 또 왔다
나는 음악을 들으면서 마음을 진정시키고 싶었는데... 2통이나 왔다.... 
집에 가는 길에는 네비를 저승길로 찍어야겠다
스펙타클했던 오늘 아침
2020-11-26


172.20.10.4 - - [26/Nov/2020 12:12:54] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
전날부터 두근두근거려서 잠을 설쳤습니다. 개피곤합니다. 발표장에 와보니 다른 팀 발표를 보고 포기하게 되었습니다. 오히려 마음이 편해진거 같기도 합니다.
프로젝트 발표날
2020-11-26


172.20.10.4 - - [26/Nov/2020 12:13:44] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
발표 끝나고 술먹고 20시간 잘 생각에 벌써 행복함
오늘 하루 예상
2020-11-26


172.20.10.4 - - [26/Nov/2020 12:30:52] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
너무 슬퍼요 흑흑 근데 정상훈이 싫습니다.
여자친구와 헤어졌습니다.
2020-11-26


172.20.10.4 - - [26/Nov/2020 12:31:23] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
6시에 끝나는건 너무 늦게 끝납니다. 좀 더 일찍 끝내주세요 ㅠㅠ
스마트 미디어 인재 개발원
2020-06-08


172.20.10.4 - - [26/Nov/2020 12:31:43] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
나는 즐겁고 재밌고 행복하다.
즐겁다
2020-02-18


172.20.10.4 - - [26/Nov/2020 12:32:33] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
호조는 너무 멋집니다.
미래에서 왔습니다.
2021-10-02


172.20.10.4 - - [26/Nov/2020 12:33:06] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
상훈이는 입사를 못했지만 행복합니다.
상훈이 입사
2022-02-04


172.20.10.4 - - [26/Nov/2020 12:42:28] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
상훈이가 질병에 걸렸다.
약을 먹었다.
2020-11-27


172.20.10.4 - - [26/Nov/2020 12:54:58] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
ㅜ
슬픔
2020-11-14


172.20.10.4 - - [26/Nov/2020 12:55:37] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
살려주세요
ㄴㅁㅇㄹ
2020-11-20


172.20.10.4 - - [26/Nov/2020 12:56:47] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
취업에 실패했습니다. 자살 마려워요.
미래의 나에게
2023-10-11


172.20.10.4 - - [26/Nov/2020 12:58:39] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
자살생각
ㅊㅌㅊ
2020-11-26


172.20.10.4 - - [26/Nov/2020 12:58:55] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
자살
ㄴㅁㅇ
2020-11-26


172.20.10.4 - - [26/Nov/2020 13:18:35] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
오늘은 빅데이터 수업 마지막 날이다.
너무너무너무 좋다.
마지막 날
2021-11-26


172.20.10.4 - - [26/Nov/2020 13:21:25] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
아 신난다 아 재미난다 더 게임 오브 데스
신난다
2020-11-26


172.20.10.4 - - [26/Nov/2020 13:22:02] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
오늘 밥이 너무 맛있었다.
너무 행복하다
재밌다
2020-11-27


172.20.10.4 - - [26/Nov/2020 13:22:28] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
행복하다
행복한 목요일
2020-11-27


172.20.10.4 - - [26/Nov/2020 13:23:00] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
나는 너무 행복한 사람이다.
신나는 금요일
2020-11-30


172.20.10.4 - - [26/Nov/2020 13:23:30] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
나는 오늘 쾌변을 했다.
너무 시원하고 기분이 좋았다
오늘
2020-11-30


172.20.10.4 - - [26/Nov/2020 13:23:54] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


-1
쾌변
오늘
2020-11-29


172.20.10.4 - - [26/Nov/2020 13:25:21] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
엄마한테 혼났다.
기분이좋았다.
오늘
2020-12-01


172.20.10.4 - - [26/Nov/2020 13:25:52] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
좋다
기분이
2020-12-02


172.20.10.4 - - [26/Nov/2020 13:26:10] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
사랑해
사랑
2020-12-27


172.20.10.4 - - [26/Nov/2020 13:26:45] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
감사하다.
나는
2020-12-27


172.20.10.4 - - [26/Nov/2020 13:27:45] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
행복하다
사랑
2020-12-30


172.20.10.4 - - [26/Nov/2020 13:28:17] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
행복해
일기
2020-12-31


172.20.10.4 - - [26/Nov/2020 13:29:01] "[32mPOST /DiaryPost1 HTTP/1.1[0m" 307 -


1
오늘은 즐거운 목요일
안녕
2021-01-01
