In [51]:
# python library
import warnings
warnings.filterwarnings('ignore')
import itertools
import datetime
import math
from collections import Counter

# 기타 library
import pandas as pd
pd.options.display.max_rows = 50
pd.options.display.max_columns = None
from konlpy.tag import Mecab
from pymongo import MongoClient
import pymysql

날짜 지정할 것인지, 아님 실행되는 날 기준 몇일 전까지로 할 것인지

MongoDB 내에 sample, chatbot_log 둘 중 어떤 것으로 활용할지

## 작업 목표
파일이 실행되는 날 부터 n-day 이전까지 챗봇을 통해 문의한 내용 Keyword의 count 계산

## 작업 방식
- MongoDB를 통해 input value를 추출
- skill_uuid, date_day 기준으로 단어의 count를 계산
- 형태소 분석 라이브러리를 활용해 문의 내용 중 명사를 추출하고, 한 문장에서 중복된 명사는 하나로 취급
- 추출된 명사 중 불용어에 해당하는 경우 제외
- MairaDB의 keywords 테이블에 결과 입력

## MongoDB 접속

In [52]:
# - MongoDB 접속 정보
# url로 입력하면 안되는데, 이유 정확히 모르겠음
# mongodb://username:password@uri
# username: username
# password: password
# uri: 12.234.234.123:port/something
client = MongoClient('mongodb://username:password@12.234.234.123:port/something')

In [53]:
# db 선택
mongo_db = client['chatbot']
# collection 선택
collection = mongo_db['chatbot_log']

## MariaDB 접속

In [54]:
# MariaDB 접속 정보
host = "uri" # 15.165.156.132
port = 4406
username  = "username"
password = "password"
maria_db = "dbname"

conn = pymysql.connect(host=host, port=port, user=username, password=password, db=maria_db, charset='utf8')

## MariaDB 내 stop_words 테이블에서 불용어 가져오기

In [55]:
select_query = "select word from stop_words"

def get_stopwords(query):
    try:
        with conn.cursor() as curs:
            curs.execute(query)
            rows = curs.fetchall()
            
    except Exception as e:
        # 에러가 발생하면 쿼리를 롤백한다.
        conn.rollback();
        raise e;

    return set(itertools.chain(*rows))
    
stopwords_set = get_stopwords(select_query)

## MongoDB에서 input value 활용해 keyword별로 count 계산하기

In [56]:
# 오늘 기준으로 days전 날짜 이후의 collection에 있는 모든 input value값을 array로 반환
days = 6

# 형태소 library는 konlpy의 mecab 사용
mecab = Mecab()

def keyword_in_duration(days):
    today = datetime.datetime.now().date()
    days_ago = today - datetime.timedelta(days=days)
    
    result_df = pd.DataFrame({})
    skill_uuids = []
    dates = []
    keywords = []
    
    for post in collection.find():
        date_ = datetime.datetime.strptime(post['date'], '%Y-%m-%d %H:%M:%S').date()
        if date_ >= days_ago:
            # 명사 중심으로 형태소 분석 후 stopword 제외한 keyword
            keywords_wihout_stopwords = list(set(mecab.nouns(post['input']['value'])) - stopwords_set)
            # 분리된 keyword별로 skill_uuid, date, keyword입력해야 한다
            for keyword in keywords_wihout_stopwords:
                skill_uuids.append(post['skill_uuid'])
                dates.append(post['date'][:10])
                keywords.append(keyword)

    # close the connection with MongoDB
    client.close()

    result_df['skill_uuid'] = skill_uuids
    result_df['date_day'] = dates
    result_df['keyword'] = keywords
    return result_df

result_df = keyword_in_duration(days)

In [57]:
# keyword_in_duration 메서드의 결과물
result_df

Unnamed: 0,skill_uuid,date_day,keyword
0,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,주문
1,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,피자
2,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,위치
3,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,거기
4,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,날씨
5,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,비
6,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,대통령


In [58]:
# date와 keyword 기준으로 groupby한 count
def count_keyword(result_df):
    count_df = result_df.groupby(['date_day','keyword'])['keyword'].agg(['count']).reset_index()
    merged_df = pd.merge(result_df, count_df, on=['date_day', 'keyword'], how='left')
    return merged_df

count_df = count_keyword(result_df)

In [59]:
# count_keyword 메서드의 결과물
count_df

Unnamed: 0,skill_uuid,date_day,keyword,count
0,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,주문,1
1,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,피자,1
2,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-18,위치,1
3,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,거기,1
4,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,날씨,1
5,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,비,1
6,c9d7e581-723f-11ea-bc9b-022e2bbe7be0,2020-05-19,대통령,1


## 결과 값 MariaDB 내에 입력

In [60]:
values = dict({"skill_uuid" : count_df['skill_uuid'].values.tolist(),
              "date_day" : count_df['date_day'].values.tolist(),
              "keyword" : count_df['keyword'].values.tolist(),
              "count" : count_df['count'].values.tolist()})

insert_query = "insert into keywords(skill_uuid, date_day, keyword, count) values (%s, %s, %s, %s)"
delete_query = "delete from keywords"

def insert_data(values, insert_query, delete_query):
    length = len(values['skill_uuid'])
    
    with conn.cursor() as curs:
        # delete all the rows in the keywords table
        curs.execute(delete_query)
        
        # insert some rows
        for i in range(length):
            try:
                curs.execute(insert_query, (values['skill_uuid'][i], values['date_day'][i], values['keyword'][i], values['count'][i]))
                
            except Exception as e:
                # 에러가 발생하면 쿼리를 롤백한다.
                conn.rollback()
                raise e    
                
    conn.commit()
    # close the connection with MariaDB
    conn.close()

insert_data(values, insert_query, delete_query)