In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from wordcloud import WordCloud
from konlpy.tag import Hannanum
from konlpy.tag import Okt
from konlpy.tag import Komoran
import sqlite3 as sq3
from pandas.io import sql
import os
import numpy as np
import math

## read db file

In [2]:
# 데이터베이스 저장
def db_save(data, db_name, table_name):
    with sq3.connect(os.path.join('.',db_name)) as con: # sqlite DB 파일이 존재하지 않는 경우 파일생성
        try:
            data.to_sql(name = table_name, con = con, index = False, if_exists='replace') 
            #if_exists : {'fail', 'replace', 'append'} default : fail
        except Exception as e:
            print(str(e))
        print(len(data), '건 저장완료..')

In [3]:
# 데이터베이스 불러오기
def db_select(db_name, table_name):
    with sq3.connect(db_name) as con: 
        try:
            query = 'SELECT * FROM {}'.format(table_name)
            df = pd.read_sql(query, con = con)
        except Exception as e:
            print(str(e)) 
        return df  

### Save dictionaries

In [4]:
import pickle

In [5]:
def saveDict(my_dict, file_name):
    with open(file_name, "wb") as tf:
        pickle.dump(my_dict,tf)
    print(len(my_dict),' saved to file...')

In [6]:
def readDict(file_name):
    new_dict = dict()
    with open(file_name, "rb") as tf:
        new_dict = pickle.load(tf)
    return(new_dict)

# save word tokens into a file

In [7]:
df = db_select('법제동향DB.db', '법제토큰')
df1 = df.iloc[:,[0,5]].copy()
df1

Unnamed: 0,제목,BoW
0,"카자흐스탄 대통령, 2023년 최저임금 인상","카자흐스탄,입법동향,카자흐스탄,대통령,최저임금,인상,조마르트,토카예프,카자흐스탄,대..."
1,"말레이시아, 개정 고용법 시행 연기","말레이시,입법동향,말레이시아,개정,고용법,시행,연기,시행,개정,고용법,시행,연기,개..."
2,"마카오, 원숭이두창을 《전염병 강제신고》 대상으로 지정","마카오,법제동향,마카오,원숭이두창,전염병,강제신고,지정,마카오,카지노,영업중단,사진"
3,형사미성년자에 대한 세계 각국의 연령 기준 및 관련 법령,"형사미성년자,세계,각국,연령,기준,법령,우리나라,미만,자형사미성년자,범죄,조각,형법..."
4,"독일, 기업조직재편에 관한 유럽연합지침의 국내도입을 위한 법안 결의","입법동향,기업조직재편,유럽연합지침,국내도입,법안,유럽,기업,형태변경,합병,분할,유럽..."
...,...,...
1995,이주법 공포,"멕시코입법동향,이주법,공포,펠리페,칼데론,이노호사Felipe,Calderón,멕시코..."
1996,노선 택시 정비 방안 채택,"우즈베키스탄,입법동향,노선,택시,정비,방안,채택,우즈베키스탄,공화국,노선,택시,외관..."
1997,부동산업 면허증제 도입,"우즈베키스탄,입법동향,부동산업,면허증제,도입,우즈베키스탄,정부,시행,부동산업,면허,..."
1998,벨라루스와 우즈베키스탄 국제 자동차 운송 허가 쿼터 동의,"우즈베키스탄,입법동향,벨라루스,우즈베키스탄,국제,자동차,운송,허가,쿼터,벨라루스,우..."


# 단어의 총 등장 횟수 구하기 --> TF

In [8]:
def dict_each(string):
    each_art = dict()     # dictionary for each article
    temp_list = []        # temporary list for the word tokens
    
    for i in string.split(','):
        temp_list.append(i)

    for each_t in temp_list:
        if each_t in each_art.keys():
            each_art[each_t] += 1
        else :
            each_art[each_t] = 1
            
    t_list = sorted(each_art.items(), key=lambda x:x[1], reverse=True)
    each_TF = dict(t_list)
    return each_TF

In [9]:
total_TF = []

for i in df1.iloc[:,1]:
    tokens_const = []
    total_TF.append(dict_each(i))

len(total_TF)

2000

In [10]:
#saveDict(total_TF,'TF_file.pkl')
#saveDict(total_TF,'TF-IDF_file.pkl')

In [11]:
#TF_new = readDict('TF_file.pkl')
DF = readDict('DF_file.pkl')

# TF-IDF
##### 참고: https://brunch.co.kr/@bflysoft1117/127, https://www.researchgate.net/publication/342833072_gujojeog_topig_modelling-eul_hwal-yonghan_gong-gongdeiteo_suyo_bunseog_Analysis_of_Open_Government_Data_Demand_Using_Structural_Topic_Modeling
높을수록 단어 중요도가 높다
### TF-IDF = TF X log(N/DF)
- TF: 문서 내 특정 단어의 빈도 수
- N: 분석 대상 문서 통합
- DF: 특정 단어를 포함하는 문서빈도 수

In [12]:
def TF_IDF_each(dct):
    TF_IDF_i = dict()     # dictionary to save TF-IDF values
    
    for eachkey in list(dct.keys()):
        TF_temp = dct[eachkey]
        DF_temp = DF[eachkey]
        TF_IDF_1 = TF_temp*math.log(N/DF_temp)
        TF_IDF_i[eachkey] = TF_IDF_1

    temp_tf_idf = sorted(TF_IDF_i.items(), key=lambda x:x[1], reverse=True)
    TF_IDF_temp = dict(temp_tf_idf)
    return TF_IDF_temp

In [13]:
TF_IDF = []     # dictionary to save TF-IDF values

N = len(df1)
for each_article in total_TF:
    each_TI = TF_IDF_each(each_article)
    TF_IDF.append(each_TI)

# Find the 10 keywords of the first article
- ordered by importance

In [14]:
def get_each_keywords(dictionary):
    keyword_s = ""
    
    temp_list = sorted(dictionary.items(), key=lambda x:x[1], reverse=True)
    temp_2 = dict(temp_list)
    keywords = list(temp_2.keys())[:10]
    keyword_s = ','.join(keywords)
    
    return keyword_s

In [15]:
TF_IDF_final = []

for each in TF_IDF:
    TF_IDF_final.append(get_each_keywords(each))
    
df['키워드10개'] = TF_IDF_final
df_finalized = df.drop(['tokens','counts'], axis=1)
df_finalized

Unnamed: 0,제목,국가,등록일자,조회수,본문내용,BoW,키워드10개
0,"카자흐스탄 대통령, 2023년 최저임금 인상",카자흐스탄,2022.09.08.,95,카자흐스탄 입법동향 카자흐스탄 대통령 2023년 최저임금 인상 카심 조마르트 토카...,"카자흐스탄,입법동향,카자흐스탄,대통령,최저임금,인상,조마르트,토카예프,카자흐스탄,대...","최저임금,인상,텡게한화,카자흐스탄,조마르트,토카예프,연례연설,텡게,초빙,기초사회보장기준"
1,"말레이시아, 개정 고용법 시행 연기",말레이시아,2022.09.05.,342,말레이시아 입법동향 말레이시아 개정 고용법 시행 연기 9월 1일 자로 시행 예정이었...,"말레이시,입법동향,말레이시아,개정,고용법,시행,연기,시행,개정,고용법,시행,연기,개...","고용법,연기,시행,사라바난,인적자원부,유연근무제,국면,법정근로시간,출산휴가,왕실"
2,"마카오, 원숭이두창을 《전염병 강제신고》 대상으로 지정",중국 마카오특별행정구,2022.08.01.,887,마카오 법제동향 마카오 원숭이두창을 전염병 강제신고 대상으로 지정 마카오 카지노...,"마카오,법제동향,마카오,원숭이두창,전염병,강제신고,지정,마카오,카지노,영업중단,사진","마카오,원숭이두창,강제신고,영업중단,카지노,전염병,사진,지정,법제동향"
3,형사미성년자에 대한 세계 각국의 연령 기준 및 관련 법령,World,2022.07.22.,1797,형사미성년자에 대한 세계 각국의 연령 기준 및 관련 법령 우리나라 형법제9조에 의하...,"형사미성년자,세계,각국,연령,기준,법령,우리나라,미만,자형사미성년자,범죄,조각,형법...","미만,형사미성년자,범죄,아동,연령,소년,미성년자,형사책임능력,저촉,소년법"
4,"독일, 기업조직재편에 관한 유럽연합지침의 국내도입을 위한 법안 결의",독일,2022.07.14.,1194,독일 입법동향 독일 기업조직재편에 관한 유럽연합지침의 국내도입을 위한 법안 결의 ...,"입법동향,기업조직재편,유럽연합지침,국내도입,법안,유럽,기업,형태변경,합병,분할,유럽...","합병,형태변경,소액주주,조직재편,초월,국내법,주식,주식회사,국경,유럽"
...,...,...,...,...,...,...,...
1995,이주법 공포,멕시코,2011.05.31.,1832,멕시코입법동향 이주법 공포 2011 0524 펠리페 칼데론 이노호사Felipe C...,"멕시코입법동향,이주법,공포,펠리페,칼데론,이노호사Felipe,Calderón,멕시코...","이주법,이주,여건,멕시코,이노호사Felipe,로스,피노스Los,별개,결과물,민간단체"
1996,노선 택시 정비 방안 채택,우즈베키스탄,2011.05.31.,1648,우즈베키스탄 입법동향 노선 택시 정비 방안 채택 2011년 5월 31일 2012년...,"우즈베키스탄,입법동향,노선,택시,정비,방안,채택,우즈베키스탄,공화국,노선,택시,외관...","택시,노선,번호,차량,우즈베키스탄,승객,강제,ТАХI,앞문,운송회사"
1997,부동산업 면허증제 도입,우즈베키스탄,2011.05.31.,1518,우즈베키스탄 입법동향 부동산업 면허증제 도입 2011년 5월 31일 우즈베키스탄...,"우즈베키스탄,입법동향,부동산업,면허증제,도입,우즈베키스탄,정부,시행,부동산업,면허,...","부동산업,부동산,최저급여액,물건,면허,자본금,정관,컨설팅,종사,수탁"
1998,벨라루스와 우즈베키스탄 국제 자동차 운송 허가 쿼터 동의,우즈베키스탄,2011.05.31.,1457,우즈베키스탄 입법동향 벨라루스와 우즈베키스탄 국제 자동차 운송 허가 쿼터 동의 ...,"우즈베키스탄,입법동향,벨라루스,우즈베키스탄,국제,자동차,운송,허가,쿼터,벨라루스,우...","벨라루스,우즈베키스탄,운송,자동차,국제,허가서,쿼터,운송량,협력,교역"


In [16]:
db_save(df_finalized, '법제동향DB.db', '키워드')

2000 건 저장완료..
