# Selenium for 법무법인_태평양_법률자료

### Import Files

In [1]:
import requests
import lxml.html
import sqlite3 as sq3
from pandas.io import sql
import os
import re
import string
import pandas as pd
from tabulate import tabulate
from selenium.webdriver import Chrome
import time
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
from selenium import webdriver
from selenium.webdriver import ActionChains
import csv
import numpy as np

## db methods
- reads and writes data from and to db file

In [2]:
def db_save(ARTICLE_LIST, db_name, table_name):
    with sq3.connect(os.path.join('.',db_name)) as con: # sqlite DB 파일이 존재하지 않는 경우 파일생성
        try:
            ARTICLE_LIST.to_sql(name = table_name, con = con, index = False, if_exists='replace') 
            #if_exists : {'fail', 'replace', 'append'} default : fail
        except Exception as e:
            print(str(e))
        print(len(ARTICLE_LIST), '건 저장완료..')

In [3]:
def db_select(db_name, table_name):
    with sq3.connect(db_name) as con: 
        try:
            query = 'SELECT * FROM {}'.format(table_name)
            df = pd.read_sql(query, con = con)
        except Exception as e:
            print(str(e)) 
        return df

## reads the saved file and displays the result as a dataframe

In [4]:
TABLE_NAME = ['emerics_Africa','emerics_Russia_Asia','emerics_Latin_America','emerics_CE_Europe']
DATABASE = '신흥지역정보_종합지식포탈.db'

In [5]:
document1 = db_select(DATABASE, TABLE_NAME[0])
document2 = db_select(DATABASE, TABLE_NAME[1])
document3 = db_select(DATABASE, TABLE_NAME[2])
document4 = db_select(DATABASE, TABLE_NAME[3])

In [6]:
# check if there are any null values in the dataframe
print('check null values: ')
print(document1.isna().any())
print(document2.isna().any())
print(document3.isna().any())
print(document4.isna().any())

# check the length of each dataframe
print('check data length:')
print('the length of document1 is: ',len(document1))
print('the length of document2 is: ',len(document2))
print('the length of document3 is: ',len(document3))
print('the length of document4 is: ',len(document4))

total_num_articles = len(document1) + len(document2) + len(document3) + len(document4)
print('The total number of articles : ',total_num_articles)

check null values: 
제목    False
국가    False
날짜    False
본문    False
dtype: bool
제목    False
국가    False
날짜    False
본문    False
dtype: bool
제목    False
국가    False
날짜    False
본문    False
dtype: bool
제목    False
국가    False
날짜    False
본문    False
dtype: bool
check data length:
the length of document1 is:  489
the length of document2 is:  397
the length of document3 is:  369
the length of document4 is:  366
The total number of articles :  1621


In [7]:
document1['continent code'] = "아프리카/중동"
document2['continent code'] = "러시아/유라시아"
document3['continent code'] = "중남미"
document4['continent code'] = "중동부유럽"

doc_list = [document1, document2, document3, document4]
document_full = pd.concat(doc_list)
document_full = document_full.reset_index(drop=True)
document_full

Unnamed: 0,제목,국가,날짜,본문,continent code
0,"[이슈트렌드] 디폴트 선언했던 잠비아, IMF 구제금융 확보 성공",잠비아,2022/09/16,국제통화기금MF 잠비아에 구제금융 지원 승인 코로나19 팬데믹 이후 처음으로 디폴...,아프리카/중동
1,[이슈트렌드] 미국·유럽과 이란 사이 좁혀지지 않는 입장 차이로 난항에 빠진 핵 협상,이란,2022/09/16,미국유럽과 이란 핵 협상 교착 상태에 대해 상대측 비판하며 대립 심화 미국과 유럽...,아프리카/중동
2,"[이슈트렌드] 장기화되는 리비아 정치 위기, 유가 인상 자극 우려",리비아,2022/09/07,리비아 정치 위기 중앙정부와 의회의 첨예한 입장 차이로 장기화 리비아 중앙정부와 ...,아프리카/중동
3,"[이슈트렌드] 이라크, 반외세 지도자의 은퇴 선언 이후 정치적 혼란 격화",아프리카ㆍ 중동 기타,2022/09/07,의회 해산 요구하던 이라크 반외세 지도자 정계 은퇴 선언 이라크 시아파 반외세 지...,아프리카/중동
4,"[이슈트렌드] 남아프리카공화국, 인플레이션에 따른 경제난과 사회적 위기 심화",남아프리카공화국,2022/09/02,남아프리카공화국 최악의 인플레이션 직면 7월 남아공 인플레이션 13년 만에 최고치...,아프리카/중동
...,...,...,...,...,...
1616,밀로쉬 제만 대통령 재선 성공,체코,2018/02/12,체코 대선 결선투표 결과 밀로쉬 제만Milo Zeman 대통령이 승리하였음 제만 ...,중동부유럽
1617,유럽의 암호화폐 정책대응 상황,중동부유럽 일반,2018/02/02,유럽의 암호화폐 시장은 다른 주요 지역 대비 저조한 편임 ➀ 현행 암호화폐가 아직...,중동부유럽
1618,기후변화와 북극지역 관련 쟁점,인도ㆍ남아시아 일반 / 동남아시아 일반 / 러시아ㆍ유라시아 일반 / 아프리카ㆍ 중동...,2012/10/23,미국국립빙설자료센터NSDC의 9월 16일 발표에 따르면 북극해를 덮고 있는 얼음 ...,중동부유럽
1619,바이오연료(biofuel)의 상업성과 지속가능성,인도ㆍ남아시아 일반 / 동남아시아 일반 / 러시아ㆍ유라시아 일반 / 아프리카ㆍ 중동...,2012/10/09,각국 정부는 화석연료에 비해 탄소 배출이 적고 안정적인 에너지 확보가 가능한 바이...,중동부유럽


# nan values 정리끝!

In [8]:
ARTICLE_LIST = document_full
db_save(ARTICLE_LIST, DATABASE, 'full_emerics')

1621 건 저장완료..
