# Namu Wiki JSON DB file parsing

## Reading DB Dump File

In [2]:
import json
from pprint import pprint

filename = '../namu/namuwiki_170327.json' 

# Read file to memory, it takes some time.
with open(filename) as data_file:    
    data = json.load(data_file)
   

## Data Exploration

In [3]:
# data is list of articles
# Let's see how many articles in the database
print("number of articles:", len(data)) 

# Let's see the first article
print("The first article is:")
print(data[0])

number of articles: 931029
The first article is:
{'namespace': '0', 'title': '!', 'contributors': ['namubot', 'R:hoon12560'], 'text': '#redirect 느낌표\n'}


In [4]:
print(data[201704])

{'namespace': '0', 'title': '전천역', 'contributors': ['namubot', 'R:CBQ', 'R:Daydream', 'R:sd1566', 'Sunshine', '218.48.46.25', '58.29.48.106'], 'text': "|||||||||| [[만포선]] ||<|2>'''관리 주체''' : [[조선민주주의인민공화국]] 철도성[br]'''소속''' : 개천철도총국 ||\n||<width=88px> [[순천역(평안남도)|순\u3000천]] 방면[br][[운송역|운\u3000송]] || {{{+1 ←}}} ||<width=60px> 전\u3000천 || {{{+1 →}}} ||<width=88px> [[만포청년역|만포청년]] 방면[br][[화암역|화\u3000암]] ||\n\n{{{+1 前川驛 / Jŏnchŏn Station }}}\n\n[[만포선]]의 철도역. [[자강도]] [[전천군]] 전천읍 소재.\n\n전천군이 비록 북한 체제하에서 1949년에 만들어진 군이기는 하지만, 전천이라는 지명은 강계군 전천면이라는 이름으로 일제 강점기부터 내려오고 있었다. 이 전천면의 중심지를 전천군의 중심지로 둔 것. 지도를 보면 구 전천면이 동서로 길게 있는 주제에 현 전천읍은 구 전천면의 남동쪽 끄트머리에 위치해 있는 것을 알 수 있는데, 이것은 전천면 서쪽이 모조리 산지이기 때문.\n\n고도 50km 정도에서 이 일대의 위성 사진을 보면 [[장자강]](將子江, 독로강이라고도 함)을 따라서 하얀 부분(=나무가 없는 부분, 즉 경작지 또는 민가)이 쭉 이어져 있는 것을 알 수 있다. 전천읍도 그 중에 있고.\n\n군의 중심지이기 때문인지 민가 및 수요는 상당한 편이라고 할 수 있다. 다만 그만큼 산림의 파괴가 극심한 것이 문제. 다른 마을보다 훨씬 파괴된 면적이 넓다. 자강도의 산지에 있는 군답게 주로 목재를 가공해서 먹고 산다고 한다. [[강계]]까지는 북쪽으로 55km.\n\n승강장은 2면 5선으로 규모가 좀 있는 편이다. 

In [5]:
# this black list article does not contain natural language knowledge
black_list_title = ['공지사항/차단 내역/통합본']

# Check some statistics of whole dataset
count_dict = {}
for article in data:
    if article['title'] in black_list_title:
        continue # remove blacklist article
        
#     if(len(article['text']) > 10000 and len(article['text']) < 11000):
#         print(article)
#         break
        
    if count_dict.get(len(article['text'])) == None:
        count_dict[len(article['text'])] = 1
    else:
        count_dict[len(article['text'])] = count_dict[len(article['text'])] + 1        
    
    
print("min text size:", min(count_dict.keys()))
print("max text size:", max(count_dict.keys()))


min text size: 0
max text size: 426441


In [11]:
MAX_ARTICLE_SIZE = max(count_dict.keys())

bucket_size = 1000
num_bucket = MAX_ARTICLE_SIZE // bucket_size + 1

print('num_bucket:', num_bucket)

bucket_counts = [0] * num_bucket
for key, value in count_dict.items():
    index = key // bucket_size
    bucket_counts[index] = bucket_counts[index] + value

print(bucket_counts)



num_bucket: 427
[655452, 75394, 47663, 31185, 21594, 15765, 12035, 9436, 7664, 6338, 5177, 4409, 3882, 3295, 2843, 2515, 2256, 1952, 1791, 1559, 1440, 1326, 1190, 1012, 944, 836, 771, 761, 727, 575, 589, 529, 495, 424, 382, 399, 379, 321, 309, 288, 297, 281, 269, 225, 200, 182, 182, 177, 179, 147, 120, 156, 140, 119, 122, 97, 92, 100, 92, 97, 83, 98, 77, 72, 76, 66, 56, 51, 48, 51, 53, 44, 38, 40, 35, 32, 43, 38, 34, 32, 30, 31, 24, 25, 31, 19, 19, 13, 21, 25, 10, 17, 11, 18, 18, 14, 18, 11, 22, 12, 19, 11, 13, 10, 13, 8, 15, 8, 10, 15, 6, 11, 6, 13, 10, 12, 7, 7, 6, 8, 10, 10, 1, 4, 7, 4, 3, 6, 6, 6, 3, 5, 9, 1, 3, 5, 4, 1, 4, 3, 3, 4, 4, 1, 1, 2, 1, 1, 0, 0, 1, 4, 3, 3, 2, 0, 0, 0, 2, 4, 1, 2, 1, 0, 0, 0, 0, 1, 1, 2, 2, 2, 1, 0, 2, 0, 0, 1, 1, 4, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 2, 1, 1, 0, 1, 0, 1, 2, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

# Test parsing

In [6]:
# Article contains title, text, and other things
# Let's extract title and text from several articles
for i in range(3):
    print(data[i]['title'])
    print(data[i]['text'])
    print()

!
#redirect 느낌표


!!아앗!!
[[파일:3444050440.jpg]]
([[신 세계수의 미궁 2]]에서 뜬 !!아앗!!)
{{{+1 ！！ああっと！！ }}}

[[세계수의 미궁 시리즈]]에 전통으로 등장하는 대사. [[세계수의 미궁 2 제왕의 성배|2편 제왕의 성배]]부터 등장했으며, 훌륭한 [[사망 플래그]]의 예시이다.

세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정된 만큼 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다.

 1. 채집용 캐릭터들로 이루어진 약한 파티(ex: [[레인저(세계수의 미궁 2)|레인저]] 5명)가 수해에 입장한다.
 1. 필드 전투를 회피하면서 채집 포인트에 도착해 열심히 아이템을 캐는 중에...
 1. '''!!아앗!!''' ~~라플레시아가 나타났다!~~
 '''이때 등장하는 것은 [[FOE(세계수의 미궁 시리즈)|FOE]]는 아닌 일단 필드 졸개지만, 훨씬 위 층에 등장하는 강력한 졸개이며 선 턴을 빼앗긴다!'''
 1. '''[[으앙 죽음|떡잎]]'''(hage)

작품마다 !!아앗!!의 세세한 모습은 다르다. 그 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었는데, 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 '''강제로''' 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 '위험감지(중간 확률로 적의 선제공격을 무효화)'는 작동하지 않았다!
[[세계수의 미궁 3 성해의 내방자|3편]], [[세계수의 미궁 4 전승의 거신|4편]]에는 숨통이 트이게도 채집 중 낮은 확률로 "좋은 아이템을 얻을 수 있을 것 같지만... 주변에서 몬스터들의 기척이 느껴진다."는 메시지가 뜨고 이때 운이 좋으면 레어 아이템을 얻을 수 있지만 반대의 경우 적

## Preprocessing with RegEx

In [8]:
# Using regular expression, we can strip some grammar. Let's see how we can do it. 
import re
text = "딴 사람도 아니고 프로팀 [[Counter Logic Gaming|CLG]] 소속 전 서포터 [[스티브 차우|차우스터]]가 남긴 말이다."
t1 = re.sub(r"\[\[([^\]|]*)\]\]", r'\1', text) # remove link
print(t1)
t2 = re.sub(r"\[\[(?:[^\]|]*\|)?([^\]|]+)\]\]", r'\1', text) # remove link
print(t2)

딴 사람도 아니고 프로팀 [[Counter Logic Gaming|CLG]] 소속 전 서포터 [[스티브 차우|차우스터]]가 남긴 말이다.
딴 사람도 아니고 프로팀 CLG 소속 전 서포터 차우스터가 남긴 말이다.


In [9]:
# We want only plain texts, so strip wiki grammer.
# Refer this link to know more about grammar. https://namu.wiki/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%AC%B8%EB%B2%95%20%EB%8F%84%EC%9B%80%EB%A7%90

# Use regular expression to capture some pattern

# see http://stackoverflow.com/questions/2718196/find-all-chinese-text-in-a-string-using-python-and-regex
chinese = re.compile(u'[⺀-⺙⺛-⻳⼀-⿕々〇〡-〩〸-〺〻㐀-䶵一-鿃豈-鶴侮-頻並-龎]', re.UNICODE)
japanese = re.compile(u'[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]', re.UNICODE)

# hangul = re.compile('[^ ㄱ-ㅣ가-힣]+') # 한글과 띄어쓰기를 제외한 모든 글자
# hangul = re.compile('[^ \u3131-\u3163\uac00-\ud7a3]+')  # 위와 동일
# result = hangul.sub('', s) # 한글과 띄어쓰기를 제외한 모든 부분을 제거


def strip(text):               
    text = re.sub(r"\{\{\{#\!html[^\}]*\}\}\}", '', text, flags=re.IGNORECASE|re.MULTILINE|re.DOTALL) # remove html
    text = re.sub(r"#redirect .*", '', text, flags=re.IGNORECASE) # remove redirect
    text = re.sub(r"\[\[분류:.*", '', text) # remove 분류
    text = re.sub(r"\[\[파일:.*", '', text) # remove 파일
    text = re.sub(r"\* 상위 문서 ?:.*", '', text) # remove 상위문서        
    text = re.sub(r"\[youtube\(\w+\)\]", '', text, flags=re.IGNORECASE) # remove youtube
    text = re.sub(r"\[include\(([^\]|]*)(\|[^]]*)?\]", r'\1', text, flags=re.IGNORECASE) # remove include
    text = re.sub(r"\[\[(?:[^\]|]*\|)?([^\]|]+)\]\]", r'\1', text) # remove link
    text = re.sub(r"\[\*([^\]]*)\]", '', text) # remove 각주
    text = re.sub(r"\{\{\{([^\ }|]*) ([^\}|]*)\}\}\}", r'\2', text) # remove text color/size
    text = re.sub(r"'''([^']*)'''", r'\1', text) # remove text bold
    text = re.sub(r"(~~|--)([^']*)(~~|--)", '', text) # remove strike-through
    
    text = re.sub(r"\|\|(.*)\|\|", '', text) # remove table
                                   
    text = chinese.sub('', text) # remove chinese
    text = japanese.sub('', text) # remove japanese
    return text

for i in range(2):
    print(data[i]['title'])
    # print(data[i]['text'])
    print(strip(data[i]['text']))
    print()

!



!!아앗!!

(신 세계수의 미궁 2에서 뜬 !!아앗!!)
 

세계수의 미궁 시리즈에 전통으로 등장하는 대사. 2편 제왕의 성배부터 등장했으며, 훌륭한 사망 플래그의 예시이다.

세계수의 모험가들이 탐험하는 던전인 수해의 구석구석에는 채취/벌채/채굴 포인트가 있으며, 이를 위한 채집 스킬에 투자하면 제한된 채집 기회에 보다 큰 이득을 챙길 수 있다. 그러나 분배할 수 있는 스킬 포인트는 한정된 만큼 채집 스킬에 투자하는 만큼 전투 스킬 레벨은 낮아지게 된다.

 1. 채집용 캐릭터들로 이루어진 약한 파티(ex: 레인저 5명)가 수해에 입장한다.
 1. 필드 전투를 회피하면서 채집 포인트에 도착해 열심히 아이템을 캐는 중에...
 1. !!아앗!! 
 이때 등장하는 것은 FOE는 아닌 일단 필드 졸개지만, 훨씬 위 층에 등장하는 강력한 졸개이며 선 턴을 빼앗긴다!
 1. 떡잎(hage)

작품마다 !!아앗!!의 세세한 모습은 다르다. 그 악랄함은 첫 등장한 작품이자 시리즈 중에서도 불친절하기로 정평이 난 2편이 절정이었는데, 그야말로 위의 !!아앗!! 시퀀스 그대로, 묻지도 따지지도 않고 채집할 때마다 일정 확률로 강제로 전투에 돌입해야 했다. 게다가 이럴 때 쓰라고 있는 레인저의 스킬 '위험감지(중간 확률로 적의 선제공격을 무효화)'는 작동하지 않았다!
3편, 4편에는 숨통이 트이게도 채집 중 낮은 확률로 "좋은 아이템을 얻을 수 있을 것 같지만... 주변에서 몬스터들의 기척이 느껴진다."는 메시지가 뜨고 이때 운이 좋으면 레어 아이템을 얻을 수 있지만 반대의 경우 적과 싸우게 되는 것으로 조정되었다. 단 4편은 움직이지 않고 채집할 때도 턴이 경과하도록 조정되었기 때문에 주변에 있는 FOE를 잊고 채집에 몰두하다가 FOE와 부딪히면 FOE 버전 !!아앗!!이 뜬다. 그리고 난이도 CASUAL로 플레이시 FOE로 인한 !!아앗!!을 제외하면 절대로 발생하지 않는다.
신 세계수의 미궁 시리즈, 그 이후에 나온 최신작 5편에서는 채집 방식이 한 턴으로 

In [12]:
# Generate raw text corpus

MIN_TEXT_SIZE = 5000

count = 10
with open('input.txt', 'w') as f:
    for article in data:
        if len(article['text']) < MIN_TEXT_SIZE or len(article['text']) >= MAX_ARTICLE_SIZE:        
            continue # skip too small, too large articles

        text = strip(article['text'])
        f.write("%s\n%s\n\n\n" % (article['title'], text))
        # print(article['title'])
        # print(article['text'])
        # print(text)
        

