### Import Files

In [1]:
import requests
import lxml.html
import sqlite3 as sq3
from pandas.io import sql
import os
import re
import string
import pandas as pd
from tabulate import tabulate
from selenium.webdriver import Chrome
import time
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
from selenium import webdriver
from selenium.webdriver import ActionChains
import csv
import numpy as np

# Read URL

In [2]:
def readURLs(file_name):
    # empty list to read list from a file
    urls = []
    # open file and read the content in a list
    with open(file_name, 'r') as fp:
        for line in fp:
            # remove linebreak from a current name
            # linebreak is the last character of each line
            x = line[:-1]

            # add current item to the list
            urls.append(x)
    return(urls)

## db methods
- reads and writes data from and to db file

In [3]:
def db_save(ARTICLE_LIST, db_name, table_name):
    with sq3.connect(os.path.join('.',db_name)) as con: # sqlite DB 파일이 존재하지 않는 경우 파일생성
        try:
            ARTICLE_LIST.to_sql(name = table_name, con = con, index = False, if_exists='replace') 
            #if_exists : {'fail', 'replace', 'append'} default : fail
        except Exception as e:
            print(str(e))
        print(len(ARTICLE_LIST), '건 저장완료..')

In [4]:
def db_select(db_name, table_name):
    with sq3.connect(db_name) as con: 
        try:
            query = 'SELECT * FROM {}'.format(table_name)
            df = pd.read_sql(query, con = con)
        except Exception as e:
            print(str(e)) 
        return df

## reads the saved file and displays the result as a dataframe

In [5]:
document = db_select('법무법인_태평양_법률자료.db','태평양')

In [6]:
document.isna().any()

제목      False
날짜      False
관련주제    False
본문내용    False
dtype: bool

In [7]:
document.iloc[400,3]

''

In [8]:
document.loc[document['본문내용'].str.contains("'")].index.values

array([], dtype=int64)

In [9]:
index_no_art = document.loc[document['본문내용'] == ''].index.values
index_no_art

array([281, 286, 291, 301, 307, 316, 324, 333, 340, 347, 351, 359, 368,
       378, 379, 380, 381, 382, 383, 384, 385, 386, 387, 388, 389, 390,
       391, 392, 393, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403,
       404], dtype=int64)

In [10]:
def remove_punc(data):

    punc = '[!"#$%&\'()*+,-./:;<=>?[\]^_`{|}~“”·「」△《》•‘’○※▷【】『』·-“”)I]'
    new_string = re.sub(punc, '', data) # 특수문자 제거
    new_string = re.sub('\n', ' ', new_string) # newline 제거
    new_string = re.sub('\\s+', ' ', new_string) # multiple spaces 제거
    return new_string

In [11]:
def get_info_article(url):
    article = []
    articleString = ""
    
    browser.get(url)
    time.sleep(2)
    
    # click expand button
    if (browser.find_element('xpath','//*[@id="listConditionVO"]/div/div[1]/div/button')):
        click_expand = browser.find_element('xpath','//*[@id="listConditionVO"]/div/div[1]/div/button').click()
    text_box = browser.find_element('xpath','//div[@class="txt"]')
    
    divs = text_box.find_elements('xpath','div')
    for eachText in divs:
        article.append(eachText.text)
        browser.implicitly_wait(5)
    articleString = ' '.join(article)
    
    browser.implicitly_wait(5)
    words = remove_punc(articleString)

    return words

In [12]:
#document.iloc[index_no_art,:]
len(index_no_art)

40

## find rows with nan values
edit the table

In [13]:
df_null = document.loc[document.isna().any(axis=1)]
#display(df_null)

In [14]:
print(len(df_null))

0


## drop rows that doesn't have the articles

In [15]:
df_null_dr1 = document.loc[document["제목"].str.contains("Winter |Spring |Fall |Summer |BKL Legal Update |BKL Nesletter")==True]
df_null_dr2 = df_null_dr1.loc[df_null_dr1["본문내용"] == '']
drop_list = df_null_dr2.index.values
drop_list

array([281, 286, 291, 301, 307, 316, 324, 333, 340, 347, 351, 359, 368,
       378, 380, 388, 389, 390, 391, 392, 393, 394, 395, 396, 397, 398,
       399, 400, 401, 402, 403, 404], dtype=int64)

In [16]:
len(drop_list)

32

In [17]:
df_temp = document.drop(drop_list)
df_check_val = df_temp.loc[df_temp["본문내용"] == '']
drop_list_2 = df_check_val.index.values
df_check_val

Unnamed: 0,제목,날짜,관련주제,본문내용
379,공정위의 하도급법 등 관련 심사지침 제 개정과 관련하여 알려드립니다.,2013.12.12,공정거래 조사·소송,
381,"방위사업청, 부정당업자 제재에 과징금 부과 제도 시행",2013.07.17,방위산업·공공계약,
382,장례식장에서의 음식물 제공용역 관련 대법원 판결의 선고,2013.07.05,"조세쟁송,조세쟁송,조세쟁송,조세자문,헌법·행정소송",
383,경제민주화 추진에 따른 가맹사업법 개정과 관련하여 알려드립니다.,2013.07.04,공정거래 조사·소송,
384,주민등록번호의 처리를 원칙적으로 제한한 개인정보보호법 개정안 통과와 관련하여 알려드립니다,2013.07.01,정보보호·프라이버시,
385,일감 몰아주기 등 부당지원행위 관련 공정거래법 개정안과 관련하여 알려드립니다.,2013.06.28,공정거래 조사·소송,
386,최신 지적재산권분야 정책 동향 및 주요 판례 소개,2013.06.27,"지식재산권 소송·자문,지식재산권 거래·라이선싱·전략 자문",
387,특정대기유해물질 배출사업장 위반 유형별 조치방안,2013.06.25,환경,


In [18]:
df_final = df_temp.drop(drop_list_2)
df_final

Unnamed: 0,제목,날짜,관련주제,본문내용
0,한국-인도네시아 포괄적 경제동반자협정(CEPA) 비준,2022.09.13,"기업법무,해외투자,국제쟁송,관세·국제통상,동남아시아",인도네시아 국회의 한인니 CEPA 비준 및 진행 상황 인도네시아 국회의 한인니 C...
1,지역주택조합이 조합총회 결의 없이 체결한 계약의 효력에 관한 대법원판결(대법원 20...,2022.09.06,"국내소송,건설·부동산소송,건설",주택법 시행규칙은 지역주택조합이 예산으로 정한 사항 외에 조합원에게 부담이 될 계약...
2,금융투자업자 간 업무용으로 지정되지 않은 정보통신수단을 사용하여 이루어진 매매 교섭...,2022.09.05,"자본시장,국내소송,증권금융소송,금융회사,은행,증권,자산운용,비은행 금융기관",배경 배경 배경 1 금융투자업자의 주문기록 유지의무 및 업무용 정보통신수단 지정 ...
3,도심복합사업 개편 – 정부의 국민 주거안정 실현방안 발표 및 ‘도심 복합개발 지원에...,2022.08.23,"국내소송,건설·부동산소송,건설",정부와 국회는 도심 내 주택을 신속히 공급하기 위해 공공주택 특별법을 개정하여 도심...
4,2022년도 지방세입 관계법률 개정안 주요 사항,2022.08.12,조세,행정안전부는 2022 8 11 지방세발전위원회를 개최하여 경제 활력 제고와 민생안정...
...,...,...,...,...
373,가맹사업법 시행령 개정안과 관련하여 알려드립니다.,2014.02.13,공정거래 조사·소송,가맹사업법 시행령 개정안과 관련하여 가맹사업법 시행령 개정안과 관련하여 가맹사업법 ...
374,부당지원행위 등 공정거래법 시행령 개정 및 부당특약 등 하도급법 시행령 개정과 관련...,2014.02.11,공정거래 조사·소송,부당지원행위 등 공정거래법 시행령 개정 부당지원행위 등 공정거래법 시행령 개정 부당...
375,환경오염물질 배출시설 관리체계 전면 개편,2014.02.06,"환경,환경",환경오염물질 배출시설 관리체계 전면 개편 환경오염물질 배출시설 관리체계 전면 개편 ...
376,상해자유무역구 부가가치통신업무 개방,2014.02.04,중국,상해자유무역구 부가가치통신업무 개방 상해자유무역구 부가가치통신업무 개방 상해자유무역...


In [19]:
df_final.loc[df_final["본문내용"] == '']

Unnamed: 0,제목,날짜,관련주제,본문내용


### check for articles without topics

In [20]:
df_final.loc[df_final["관련주제"] == '']
## checked the original article and there were no topics listed

Unnamed: 0,제목,날짜,관련주제,본문내용
191,금융소비자보호에 관한 법률 국회본회의통과,2020.03.12,,금융소비자보호에 관한 법률 금융소비자보호에 금융소비자보호에 관한 관한 법률 법률 국...


# nan values 정리끝!

In [21]:
ARTICLE_LIST = df_final.reset_index(drop=True)
db_save(ARTICLE_LIST, '법무법인_태평양_법률자료.db','태평양_edited')

365 건 저장완료..
