<a href="https://colab.research.google.com/github/Chris-eunkyoung-Jo/KS_DS/blob/master/scraper_history_db.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Date: 2020.03.19

Writer: Eunkyoung Jo, eunkyoung@sogang.ac.kr

Theme: Scraping & parsing 국사편찬위원회(http://db.history.go.kr/) top page

# Web Scraping
**HTTP** is a set of rules for communication between client computer and server computer.

**'requests'**(a python module) speak and understand HTTP.

A client program, your code will use 'requests' to communicate servers which you want to get data from

In [0]:
from urllib.request import urlopen

html = urlopen('http://db.history.go.kr/')
print(html.read())

b'\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\r\n<html>\r\n\t<head>\r\n\t\t<meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n\t\t<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">\r\n\t\t<title>\xed\x95\x9c\xea\xb5\xad\xec\x82\xac\xeb\x8d\xb0\xec\x9d\xb4\xed\x84\xb0\xeb\xb2\xa0\xec\x9d\xb4\xec\x8a\xa4</title>\r\n\t\t<link rel="shortcut icon" type="image/x-icon" href="/favicon.ico" />\r\n\t\t<link rel="stylesheet" type="text/css" href="/css/basic.css"/> \r\n\t\t<link rel="stylesheet" type="text/css" href="/css/main.css"/> \r\n\t\t<style type="text/css">\r\n\t\t</style>\r\n\t\t<script type="text/javascript" src="/jQuery/jquery-1.8.3.js"></script>\r\n\t\t<script type="text/javascript" src="/js/jquery.selectbox-0.2.js"></script>\r\n\t\t<script type="text/javascript" src="/js/common.js"></script>\r\n\t\t<script type="text/javascript" src="/js/makePCookie.js"></script>\r

In [0]:
r2 = urlopen("http://db.history.go.kr/thisurldoesnotexist")
print(r2)

HTTPError: ignored

In [0]:
#HTTP Error codes: 'https://en.wikipedia.org/wiki/List_of_HTTP_status_codes'
#If the server which you want to get data from is not valid, it returns 404 

import requests
r = requests.get("http://db.history.go.kr/thisurldoesnotexist")
print(r)

<Response [404]>


In [0]:
#to avoid realtime errors and stopping, use 'try & except'
#give friendly information if you use Error type class modules. 

from urllib.error import HTTPError
from urllib.error import URLError

try:
    html = urlopen("http://db.history.go.kr/thisurldoesnotexist")
except HTTPError as e:
    print("The server returned an HTTP error")
except URLError as e:
    print("The server could not be found!")
else:
    print(html.read())

The server returned an HTTP error


# Parsing Web data
with BeautifulSoup 

https://en.wikipedia.org/wiki/Beautiful_Soup_(HTML_parser)


In [0]:
from urllib.request import urlopen
!pip install bs4 # to install bs4 to use BeautifulSoup
from bs4 import BeautifulSoup # previously !pip install bs4

r = urlopen('http://db.history.go.kr/') # Because of the above html.read()
print(r) #http object
bs = BeautifulSoup(r.read(), 'html.parser')
#print(bs) #have a look at the result and then move on to next 
print(bs.h1)
#To get the whole text content. 
#print(bs.get_text())

<http.client.HTTPResponse object at 0x7faef0113710>
<h1><img src="/images/main/h1_logo.png" title="한국사 데이터베이스"/></h1>


In [0]:
#same with the above, but requests is a bit simpler
import requests
!pip install bs4
from bs4 import BeautifulSoup # previously !pip install bs4

url='http://db.history.go.kr/'
r = requests.get(url)
print(r)
#print(r.text) #have a look at the result and then move on to next
bs = BeautifulSoup(r.text, 'html.parser')
print(bs.title)
#print(bs.get_text()) #To get the whole text content. 

<Response [200]>
<title>한국사데이터베이스</title>


In [0]:
#get data as forms of item by item
print(bs.h1)
print(bs.h2)
print(bs.h3)
#https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<h1><img src="/images/main/h1_logo.png" title="한국사 데이터베이스"/></h1>
<h2><a href="http://www.history.go.kr" target="_blank"><img src="/images/common/h2_logo.gif" title="국사편찬위원회"/></a></h2>
<h3 class="blind">대메뉴</h3>


In [0]:
#Define your own user defined function with Error handling
#in case of using urlopen
from urllib.request import urlopen
import sys
from urllib.error import HTTPError

def getTitle(url):
    try:
      html = urlopen(url)
    except HTTPError as e:
      print(e, file=sys.stderr)
      return None
    try:
      bsObj = BeautifulSoup(html.read(), 'html.parser')
      title = bsObj.body.h1
    except AttributeError as e: #if specified with Error type
      return None
    return title

url = "http://db.history.go.kr/abc" # try 'url = "http://db.history.go.kr/abc"
title = getTitle(url=url)
if title == None:
    print("Title could not be found")
else:
    print(title)

Title could not be found


HTTP Error 404: Not Found


In [0]:
#Define your own user defined function with Error handling
# in case of using requests
import sys
import requests

def getTitle(url):
    try:
      r = requests.get(url)
    except Exception as e:
      print(e, file=sys.stderr)
      return None
    #print(r.text) # Not going to Error. 'requests' is a bit more generous 
    try:
      bsObj = BeautifulSoup(r.text, 'html.parser')
      title = bsObj.body.h1
    except Exception as e: #if not specified with Errortype
      print(e, file=sys.stderr)
      return None
    return title

url = "http://db.history.go.kr/" # try 'url = "http://db.history.go.kr/abc"
title = getTitle(url=url)
if title == None:
    print("Title could not be found")
else:
    print(title)

<h1><img src="/images/main/h1_logo.png" title="한국사 데이터베이스"/></h1>


In [0]:
#Define your own user defined function with Error handling
# in case of using requests
import sys
import requests
from bs4 import BeautifulSoup

def getTitle(url):
    try:
      r = requests.get(url)
    except Exception as e:
      print(e, file=sys.stderr)
      return None
    #print(r.text) # Not going to Error. 'requests' is a bit more generous 
    try:
      bsObj = BeautifulSoup(r.text, 'html.parser')
      title = bsObj.body.h1
    except Exception as e: #if not specified with Errortype
      print(e, file=sys.stderr)
      return None
    return title

url = "http://db.history.go.kr/" # try 'url = "http://db.history.go.kr/abc"
title = getTitle(url=url)
if title == None:
    print("Title could not be found")
else:
    print(title)

  

<h1><img src="/images/main/h1_logo.png" title="한국사 데이터베이스"/></h1>


**Built-in functions:**


*  dir() : to see what available member functions and variables are.
*   List item : to see what the data type is

**BeatifulSoup API document**

https://www.crummy.com/software/BeautifulSoup/bs4/doc/


In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 
print(type(soup))
print(dir(soup))

#print(soup.get_text())

text = soup.get_text()
print(type(text))
print(dir(text))
print(text.replace('\n', ''))

<class 'bs4.BeautifulSoup'>
<class 'str'>
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']
한국사데이터베이스	  	//설문조사팝업    	function

**How to get every material item respectively & structurally.**

Use 'Inspect' in Chrome, developer mode.

And find the target tag structure. 

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 
print(dir(soup))

#all below 3 things are similar..
#print(soup.find(id="containerWrap")) # target block tag
print(soup.find(id="container")) # the same target block tag
#print(soup.find(class_="mTime")) # Be carefule to use 'class_' with _ to distinguish class(of object)

<div id="container">
<!-- 시대별일람 목록 -->
<div class="mTime">
<h4 class="blind">시대별일람 목록//</h4>
<table class="tbl_gnb">
<tr>
<th>
<strong>
<img src="/images/main/gnb_sc01.gif" title="통사"/>
</strong>
</th>
<td>
<ul>
<li>
<a href="/item/level.do?itemId=oh">
<img src="/images/main/title_main_oh.gif?ver=1.3" title="한국사"/>
</a>
</li>
<li>
<a href="/item/level.do?itemId=nh">
<img src="/images/main/title_main_nh.gif?ver=1.3" title="신편한국사"/>
</a>
</li>
<li>
<a href="/item/level.do?itemId=hn">
<img src="/images/main/title_main_hn.gif?ver=1.3" title="한국사론"/>
</a>
</li>
<li>
<a href="/item/level.do?itemId=kn">
<img src="/images/main/title_main_kn.gif?ver=1.3" title="국사관논총"/>
</a>
</li>
<li>
<a href="/item/level.do?itemId=sa">
<img src="/images/main/title_main_sa.gif?ver=1.3" title="한국사료총서"/>
<img alt="신규 구축 자료" class="new" src="images/main/btn_new.gif"/>
</a>
</li>
<li>
<a href="/item/level.do?itemId=fs">
<img src="/images/main/title_main_fs.gif?ver=1.3" title="해외사료총서"/>
</a>
</li>
<li>
<a href="/it

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 
print(dir(soup))

for tr in soup.find(id="container").find_all('tr') :
  #print(tr)
  print(tr.th.strong)
  print(tr.th.strong.img.get('title'))

<strong>
<img src="/images/main/gnb_sc01.gif" title="통사"/>
</strong>
통사
<strong>
<img src="/images/main/gnb_sc02.gif" title="고대"/>
</strong>
고대
<strong>
<img src="/images/main/gnb_sc03.gif" title="고려시대"/>
</strong>
고려시대
<strong>
<img src="/images/main/gnb_sc04.gif" title="조선시대"/>
</strong>
조선시대
<strong>
<img src="/images/main/gnb_sc05.gif" title="대한제국"/>
</strong>
대한제국
<strong>
<img src="/images/main/gnb_sc06.gif" title="일제강점기"/>
</strong>
일제강점기
<strong>
<img src="/images/main/gnb_sc07.gif" title="대한민국"/>
</strong>
대한민국
<strong><img src="/images/main/gnb_pr01.gif" title="도서"/></strong>
도서
<strong><img src="/images/main/gnb_pr02.gif" title="문서"/></strong>
문서
<strong><img src="/images/main/gnb_pr03.gif" title="편년자료"/></strong>
편년자료
<strong><img src="/images/main/gnb_pr04.gif" title="연속간행물"/></strong>
연속간행물
<strong><img src="/images/main/gnb_pr05.gif" title="인물"/></strong>
인물
<strong><img src="/images/main/gnb_pr06.gif" title="한국사연표"/></strong>
한국사연표
<strong><img src="/images/main/gnb_pr0

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 

for tr in soup.find(id="container").find_all('tr') :
  #print(tr.th.strong)
  print(tr.th.strong.img.get('title'))
  #print(tr.td.ul.li) #XXX: this returns just the first item only. 
  #print(tr.td.ul.find_all('li')) # So, use find_all()
  for li in tr.td.ul.find_all('li'): # find several <li>s
    print(li.find('img')) # to show that 'img' tag block has 'title' value.
    print(li.find('img').get('title'))

통사
<img src="/images/main/title_main_oh.gif?ver=1.3" title="한국사"/>
한국사
<img src="/images/main/title_main_nh.gif?ver=1.3" title="신편한국사"/>
신편한국사
<img src="/images/main/title_main_hn.gif?ver=1.3" title="한국사론"/>
한국사론
<img src="/images/main/title_main_kn.gif?ver=1.3" title="국사관논총"/>
국사관논총
<img src="/images/main/title_main_sa.gif?ver=1.3" title="한국사료총서"/>
한국사료총서
<img src="/images/main/title_main_fs.gif?ver=1.3" title="해외사료총서"/>
해외사료총서
<img src="/images/main/title_main_jo.gif?ver=1.3" title="중국정사조선전"/>
중국정사조선전
<img src="/images/main/title_main_hb.gif?ver=1.3" title="한국사연구휘보"/>
한국사연구휘보
<img src="/images/main/title_main_prb.gif?ver=1.3" title="동학농민혁명사논저목록"/>
동학농민혁명사논저목록
<img src="/images/main/title_main_oksr.gif?ver=1.3" title="재외동포사총서"/>
재외동포사총서
<img src="/images/main/title_main_hhcs.gif?ver=1.3" title="학술회의총서"/>
학술회의총서
<img src="/images/main/title_main_ch.gif?ver=1.3" title="주제별연표"/>
주제별연표
<img src="/images/main/title_main_okch.gif?ver=1.3" title="재외동포사연표"/>
재외동포사연표
고대
<img src="/images/main/

The previous results of id='container' have all repetitative data accoring to '시대별\~',   '형태별\~', '가다나\~', ..

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 

for tr in soup.find(id="container").find_all('tr') :
  #print(tr.th.strong)
  print('[시대:', tr.th.strong.img.get('title'), ']') #to distinguish 'time title' and 'item title'
  for li in tr.td.ul.find_all('li'):
    #print(li.find('img')) # to show that 'img' tag block has 'title' value.
    print(li.find('img').get('title'))

[시대: 통사 ]
한국사
신편한국사
한국사론
국사관논총
한국사료총서
해외사료총서
중국정사조선전
한국사연구휘보
동학농민혁명사논저목록
재외동포사총서
학술회의총서
주제별연표
재외동포사연표
[시대: 고대 ]
삼국사기
삼국유사
해동고승전
한국고대금석문
한국목간자료
한국고대사료집성 중국편
중국정사조선전
일본육국사 한국관계기사
입당구법순례행기
고대사연표
[시대: 고려시대 ]
고려사
고려사절요
동인지문사륙
동인지문오칠
제왕운기
보한집
파한집
선화봉사고려도경
원고려기사
중국사서 고려·발해유민 기사
고려시대 금석문·문자자료
개경기초자료
개경지리정보
[시대: 조선시대 ]
조선왕조실록
비변사등록
승정원일기
각사등록
각사등록 근대편
사료 고종시대사
고종시대사
주한일본공사관기록 & 통감부문서
근대한일외교자료
동학농민혁명자료총서
동학농민혁명사일지
동학농민혁명연표
대마도종가문서자료집
한국고지도목록
명실록
청실록
조선시대법령자료
수집사료해제집
[시대: 대한제국 ]
사료 고종시대사
고종시대사
각사등록 근대편
주한일본공사관기록 & 통감부문서
한국근대사자료집성
한국근대사기초자료집
직원록자료
한국근현대잡지자료
근대사연표
[시대: 일제강점기 ]
삼일운동격문
일제감시대상인물카드
일제침략하한국36년사
한민족독립운동사
한국독립운동사자료
한민족독립운동사자료집
대한민국임시정부자료집
국내 항일운동 자료 : 경성지방법원 검사국 문서
소요사건에 관한 도장관 보고철
조선소요사건관계서류
국외 항일운동 자료 : 일본 외무성기록
중추원조사자료
한국근대사자료집성
한국근대사기초자료집
직원록자료
한국근현대인물자료
한국근현대회사조합자료
한국근대지도자료
한국근대지리정보
한국근대지지자료
일제시기 희귀자료
한국근현대잡지자료
동아일보
시대일보
중외일보
중앙일보
조선중앙일보
조선총독부 관보
공립신보
신한민보
부산일보
조선시보
신문스크랩자료
사진유리필름자료
근대사연표
수집사료해제집
일본군 ‘위안부’·전쟁범죄 자료집
[시대: 대한민국 ]
자료대한민국사
FRUS 자료
반민특위조사기록
친일파관련문헌
미군정기군정단·군정중대문서
유엔의 한국문제처

**The goal/target block scraping**

mTime

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 

#print(soup.find(class_="mTime")) # Be carefule to use 'class_' with _ to distinguish class(of object)
for tr in soup.find(class_="mTime").find_all('tr') :
  print('[시대:', tr.th.strong.img.get('title'), ']')
  for li in tr.td.ul.find_all('li'):
    #print(li.find('img')) # to show that 'img' tag block has 'title' value.
    print(li.find('img').get('title'))

[시대: 통사 ]
한국사
신편한국사
한국사론
국사관논총
한국사료총서
해외사료총서
중국정사조선전
한국사연구휘보
동학농민혁명사논저목록
재외동포사총서
학술회의총서
주제별연표
재외동포사연표
[시대: 고대 ]
삼국사기
삼국유사
해동고승전
한국고대금석문
한국목간자료
한국고대사료집성 중국편
중국정사조선전
일본육국사 한국관계기사
입당구법순례행기
고대사연표
[시대: 고려시대 ]
고려사
고려사절요
동인지문사륙
동인지문오칠
제왕운기
보한집
파한집
선화봉사고려도경
원고려기사
중국사서 고려·발해유민 기사
고려시대 금석문·문자자료
개경기초자료
개경지리정보
[시대: 조선시대 ]
조선왕조실록
비변사등록
승정원일기
각사등록
각사등록 근대편
사료 고종시대사
고종시대사
주한일본공사관기록 & 통감부문서
근대한일외교자료
동학농민혁명자료총서
동학농민혁명사일지
동학농민혁명연표
대마도종가문서자료집
한국고지도목록
명실록
청실록
조선시대법령자료
수집사료해제집
[시대: 대한제국 ]
사료 고종시대사
고종시대사
각사등록 근대편
주한일본공사관기록 & 통감부문서
한국근대사자료집성
한국근대사기초자료집
직원록자료
한국근현대잡지자료
근대사연표
[시대: 일제강점기 ]
삼일운동격문
일제감시대상인물카드
일제침략하한국36년사
한민족독립운동사
한국독립운동사자료
한민족독립운동사자료집
대한민국임시정부자료집
국내 항일운동 자료 : 경성지방법원 검사국 문서
소요사건에 관한 도장관 보고철
조선소요사건관계서류
국외 항일운동 자료 : 일본 외무성기록
중추원조사자료
한국근대사자료집성
한국근대사기초자료집
직원록자료
한국근현대인물자료
한국근현대회사조합자료
한국근대지도자료
한국근대지리정보
한국근대지지자료
일제시기 희귀자료
한국근현대잡지자료
동아일보
시대일보
중외일보
중앙일보
조선중앙일보
조선총독부 관보
공립신보
신한민보
부산일보
조선시보
신문스크랩자료
사진유리필름자료
근대사연표
수집사료해제집
일본군 ‘위안부’·전쟁범죄 자료집
[시대: 대한민국 ]
자료대한민국사
FRUS 자료
반민특위조사기록
친일파관련문헌
미군정기군정단·군정중대문서
유엔의 한국문제처

In [0]:
import requests
from bs4 import BeautifulSoup

r = requests.get('http://db.history.go.kr/')
soup = BeautifulSoup(r.text, 'html.parser') 

#make a dictionary data structure to save items according to 시대(time period)
mtime = {}
for tr in soup.find(class_="mTime").find_all('tr') :
  print('[시대:', tr.th.strong.img.get('title'), ']')
  mtime[tr.th.strong.img.get('title')] = [] # make a key with an empty value list. 
  #print(tr.td.ul.li) #XXX: this returns just the first item only. 
  #print(tr.td.ul.find_all('li'))
  for li in tr.td.ul.find_all('li'):
    #print(li.find('img')) # to show that 'img' tag block has 'title' value.
    #print(li.find('img').get('title'))
    mtime[tr.th.strong.img.get('title')].append(li.find('img').get('title'))
  
print() #empty line
print(mtime)

[시대: 통사 ]
[시대: 고대 ]
[시대: 고려시대 ]
[시대: 조선시대 ]
[시대: 대한제국 ]
[시대: 일제강점기 ]
[시대: 대한민국 ]

{'통사': ['한국사', '신편한국사', '한국사론', '국사관논총', '한국사료총서', '해외사료총서', '중국정사조선전', '한국사연구휘보', '동학농민혁명사논저목록', '재외동포사총서', '학술회의총서', '주제별연표', '재외동포사연표'], '고대': ['삼국사기', '삼국유사', '해동고승전', '한국고대금석문', '한국목간자료', '한국고대사료집성 중국편', '중국정사조선전', '일본육국사 한국관계기사', '입당구법순례행기', '고대사연표'], '고려시대': ['고려사', '고려사절요', '동인지문사륙', '동인지문오칠', '제왕운기', '보한집', '파한집', '선화봉사고려도경', '원고려기사', '중국사서 고려·발해유민 기사', '고려시대 금석문·문자자료', '개경기초자료', '개경지리정보'], '조선시대': ['조선왕조실록', '비변사등록', '승정원일기', '각사등록', '각사등록 근대편', '사료 고종시대사', '고종시대사', '주한일본공사관기록 & 통감부문서', '근대한일외교자료', '동학농민혁명자료총서', '동학농민혁명사일지', '동학농민혁명연표', '대마도종가문서자료집', '한국고지도목록', '명실록', '청실록', '조선시대법령자료', '수집사료해제집'], '대한제국': ['사료 고종시대사', '고종시대사', '각사등록 근대편', '주한일본공사관기록 & 통감부문서', '한국근대사자료집성', '한국근대사기초자료집', '직원록자료', '한국근현대잡지자료', '근대사연표'], '일제강점기': ['삼일운동격문', '일제감시대상인물카드', '일제침략하한국36년사', '한민족독립운동사', '한국독립운동사자료', '한민족독립운동사자료집', '대한민국임시정부자료집', '국내 항일운동 자료 : 경성지방법원 검사국 문서', '소요사건에 관한 도장관 보고철', '조선소요사건관계서류', '국외 항일운동 자료 

In [0]:
for ptime in mtime:
  print(ptime, mtime[ptime])

통사 ['한국사', '신편한국사', '한국사론', '국사관논총', '한국사료총서', '해외사료총서', '중국정사조선전', '한국사연구휘보', '동학농민혁명사논저목록', '재외동포사총서', '학술회의총서', '주제별연표', '재외동포사연표']
고대 ['삼국사기', '삼국유사', '해동고승전', '한국고대금석문', '한국목간자료', '한국고대사료집성 중국편', '중국정사조선전', '일본육국사 한국관계기사', '입당구법순례행기', '고대사연표']
고려시대 ['고려사', '고려사절요', '동인지문사륙', '동인지문오칠', '제왕운기', '보한집', '파한집', '선화봉사고려도경', '원고려기사', '중국사서 고려·발해유민 기사', '고려시대 금석문·문자자료', '개경기초자료', '개경지리정보']
조선시대 ['조선왕조실록', '비변사등록', '승정원일기', '각사등록', '각사등록 근대편', '사료 고종시대사', '고종시대사', '주한일본공사관기록 & 통감부문서', '근대한일외교자료', '동학농민혁명자료총서', '동학농민혁명사일지', '동학농민혁명연표', '대마도종가문서자료집', '한국고지도목록', '명실록', '청실록', '조선시대법령자료', '수집사료해제집']
대한제국 ['사료 고종시대사', '고종시대사', '각사등록 근대편', '주한일본공사관기록 & 통감부문서', '한국근대사자료집성', '한국근대사기초자료집', '직원록자료', '한국근현대잡지자료', '근대사연표']
일제강점기 ['삼일운동격문', '일제감시대상인물카드', '일제침략하한국36년사', '한민족독립운동사', '한국독립운동사자료', '한민족독립운동사자료집', '대한민국임시정부자료집', '국내 항일운동 자료 : 경성지방법원 검사국 문서', '소요사건에 관한 도장관 보고철', '조선소요사건관계서류', '국외 항일운동 자료 : 일본 외무성기록', '중추원조사자료', '한국근대사자료집성', '한국근대사기초자료집', '직원록자료', '한국근현대인물자료', '한국근현대회사조합자료', '한국근대지도자료', '한국근대지

In [0]:
outfile = open('mtime.txt', 'w')
for ptime in mtime:
  #print(ptime, mtime[ptime])
  outfile.write('%s\t%s\n' %(ptime, mtime[ptime]))
outfile.close()

In [0]:
!ls -al
!pwd

total 24
drwxr-xr-x 1 root root 4096 Apr 21 03:52 .
drwxr-xr-x 1 root root 4096 Apr 21 02:02 ..
drwxr-xr-x 1 root root 4096 Apr 15 16:10 .config
drwx------ 4 root root 4096 Apr 21 03:52 drive
-rw-r--r-- 1 root root 3212 Apr 21 03:51 mtime.txt
drwxr-xr-x 1 root root 4096 Apr  3 16:24 sample_data
/content


In [0]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [0]:
!mv '/content/mtime.txt' '/content/drive/My Drive/2020-KS_DS/'

In [0]:
!ls 
!ls -al '/content/drive/My Drive/2020-KS_DS/mtime.txt'

drive  sample_data
-rw-------+ 1 root root 3212 Apr 21 03:51 '/content/drive/My Drive/2020-KS_DS/mtime.txt'
