In [1]:
import re
import json
from collections import defaultdict

In [2]:
import numpy as np
import pandas as pd

## Read namuwiki dump

In [3]:
with open('../data/namuwiki.json') as f:
    context_ = json.load(f)

In [4]:
context = defaultdict(dict)
for doc in context_:
    context[doc['title']][doc['namespace']] = doc

## Namuwiki document parser

In [5]:
regex_documnet = re.compile('\[\[(.[^:]+?)\]\]')
regex_attach = re.compile('\[\[파일:(.+?)\]\]')
regex_comment = re.compile('\[\*(.+?)\]')
regex_table = re.compile('\|\|(.+?)\|\|(.+?)\|\|')
regex_link = re.compile('\[\[(.[^:\[\]]+?)\|(.[^:\[\]]+?)\]\]')
regex_del = re.compile('~~(.+?)~~')
regex_tag = re.compile('\<(.+?)\>')

## Get drama titles from channles

In [6]:
interested = ["JTBC 금토 드라마(2014~2017)", "JTBC 금토 드라마(2017~2020)", "JTBC 드라마", "JTBC 수목 드라마", "JTBC 월화 드라마(2011~2014)", "JTBC 월화 드라마(2017~2020)", "JTBC 주말 드라마", "KBS 수목 드라마(2001~2005)", "KBS 수목 드라마(2006~2010)", "KBS 수목 드라마(2011~2015)", "KBS 수목 드라마(2016~2020)", "KBS 월화 드라마(2001~2005)", "KBS 월화 드라마(2006~2010)", "KBS 월화 드라마(2011~2015)", "KBS 월화 드라마(2016~2020)", "KBS 학교 시리즈", "MBC 수목 미니시리즈(2006~2010)", "MBC 수목 미니시리즈(2011~2015)", "MBC 수목 미니시리즈(2016~2020)", "MBC 아침 드라마(2011~2015)", "MBC 아침 드라마(2016~2020)", "MBC 예능 드라마", "MBC 월화 미니시리즈(2006~2010)", "MBC 월화 미니시리즈(2016~2020)", "MBC 월화특별기획(2011~2015)", "MBC 일일 드라마(2016~2020)", "MBC 일일 연속극(2011~2015)", "MBC 주말 드라마(2011~2015)", "MBC 주말 드라마(2016~2020)", "MBC 주말 특별기획(2011~2015)", "MBC 주말 특별기획(2016~2020)", "MBC 하이킥 시리즈", "MBN 수목 드라마", "OCN 로맨스 드라마", "OCN 수목 오리지널", "OCN 오리지널 드라마(2010~2016)", "OCN 월화 오리지널", "OCN 토일 오리지널(2017~2020)", "SBS 금토 드라마(2019~현재)", "SBS 드라마 스페셜(1992~1995)", "SBS 드라마 스페셜(1996~2000)", "SBS 드라마 스페셜(2001~2005)", "SBS 드라마 스페셜(2006~2010)", "SBS 드라마 스페셜(2011~2015)", "SBS 드라마 스페셜(2016~2020)", "SBS 아침 연속극(2016~2020)", "SBS 월화 드라마(1991~1995)", "SBS 월화 드라마(1996~2000)", "SBS 월화 드라마(2001~2005)", "SBS 월화 드라마(2006~2010)", "SBS 월화 드라마(2011~2015)", "SBS 월화 드라마(2016~2020)", "TV CHOSUN 토일드라마", "tvN 금요 드라마(2007~2015)", "tvN 금토 드라마", "tvN 로맨스가 필요해 시리즈", "tvN 불금 시리즈(2017~)", "tvN 월화 드라마(2011~2015)", "tvN 월화 드라마(2016~2020)", "tvN 토일 드라마(2017~2020)"]

In [7]:
titles = []

In [8]:
for inter in interested:
    document = context[inter]
    matches = regex_documnet.findall(document['1']['text'])
    
    for match in matches:
        name, *_ = match.split('|')
        name, *_ = name.split('#')
        titles.append(name)

## Get metadata from document

In [9]:
columns = {
    '방송 기간': ['방송기간', '방송 기간'],
    '방송 횟수': ['횟수', '방송 횟수'],
    '장르': ['장르'],
    '채널': ['채널', '방송사'],
    '제작사': ['제작사', '제작자', '제작'],
    '극본': ['극본', '대본'],
    '출연자': ['출연자', '출연', '출연진'],
}

In [10]:
data = defaultdict(dict)

In [11]:
notexists = []
notparser = []

In [12]:
for title in titles:
    try:
        document = context[title]['0']['text']                       
    except KeyError:
        notexists.append(title)
        
    matches = regex_table.findall(document)
    
    d = {key: '' for key in columns}
    
    for key, value in matches:
        key = next((ckey for ckey, cvalues in columns.items() if any(cvalue in key for cvalue in cvalues)), False)
        if key:
            d[key] = value
    
    if not d:
        notparser.append(title)
    else:
        data[title] = d

## Create table from data

In [13]:
table_columns = list(columns.keys())

In [14]:
table = np.empty((0, len(table_columns) + 1))

In [15]:
for title, values in data.items():
    d = [regex_tag.sub('', regex_comment.sub('', regex_del.sub(r'\1', regex_documnet.sub(r'\1', regex_link.sub(r'\1', regex_attach.sub('attach', values[column])))))).strip() 
         for column in table_columns]
    table = np.vstack((table, np.array([title, *d])))

In [16]:
df = pd.DataFrame(table)
df.columns = ['title', *table_columns]

In [17]:
df.head()

Unnamed: 0,title,방송 기간,방송 횟수,장르,채널,제작사,극본,출연자
0,하녀들(드라마),2014년 12월 12일 ~ 2015년 3월 28일,20부작,,JTBC,드라마하우스,조현경,"오지호(배우), 정유미(1984), 김동욱(배우), 이시아(배우) 外"
1,순정에 반하다,2015년 4월 3일 ~ 2015년 5월 23일,16부작,,JTBC,"손기원, 김운호",유희경,"정경호(1983), 김소연(배우), 윤현민, 진구 外"
2,사랑하는 은동아,2015년 5월 29일 ~ 2015년 7월 18일,16부작,멜로,JTBC,드라마하우스,백미경,"주진모(1974), 김사랑 外"
3,라스트(드라마),2015년 7월 24일 ~ 2015년 9월 12일,16부작,,JTBC,"드라마하우스, 에이스토리",한지훈,"윤계상, 이범수, 서예지, 박예진, 박원상 外"
4,디데이,2015년 9월 18일 ~ 2015년 11월 21일,20부작,자연재해,JTBC,SM C&C,황은경,"김영광(배우), 정소민, 하석진, 윤주희, 이경영(1960), 차인표 外"


In [18]:
df.to_csv('../results/namuwiki.csv', index=None)