# 드라마 대본 한글파일 정제하기
* 웹상에 공개된 드라마 W의 대본을 활용하여 데이터 분석을 처리하기 위해 테이블 형식으로 정리하기
1. 파일 읽어오기
2. 대본 규칙 파악 및 구성요소별 분리하기
3. CSV 파일로 저장하기

In [1]:
import os
import numpy as np
import pandas as pd
from google.colab import files, drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


## 한글파일 읽어오기

In [3]:
!pip install olefile
import olefile

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting olefile
  Downloading olefile-0.46.zip (112 kB)
[K     |████████████████████████████████| 112 kB 5.2 MB/s 
[?25hBuilding wheels for collected packages: olefile
  Building wheel for olefile (setup.py) ... [?25l[?25hdone
  Created wheel for olefile: filename=olefile-0.46-py2.py3-none-any.whl size=35430 sha256=168523645a64064fd1c59c6602068829deb42f702ca075c4ffb7595f54df1f25
  Stored in directory: /root/.cache/pip/wheels/84/53/e6/37d90ccb3ad1a3ca98d2b17107e9fda401a7c541ea1eb6a65a
Successfully built olefile
Installing collected packages: olefile
Successfully installed olefile-0.46


In [4]:
f = olefile.OleFileIO('/content/gdrive/MyDrive/hyu/social/W 마지막회 대본.hwp')

In [5]:
f.listdir()

[['\x05HwpSummaryInformation'],
 ['BodyText', 'Section0'],
 ['DocInfo'],
 ['DocOptions', '_LinkDoc'],
 ['FileHeader'],
 ['PrvImage'],
 ['PrvText'],
 ['Scripts', 'DefaultJScript'],
 ['Scripts', 'JScriptVersion']]

In [6]:
encoded_text = f.openstream('DocInfo').read()

In [7]:
text = encoded_text.decode('utf-16', errors='ignore')
print(text[:50])

埬蠱䃔純餳↬눞冲뎱⮼㴔Ꮍ뒮քᑭ睑䎹眔摝낯蜋嗂鶂੥ଛ輚舫樠⢷姛婘棚ꠣ㉿㙍䖹錍ﲙﾼ￾ℳꩃ᠈鸤퇘莀


* hwp를 직접 읽어오고 싶었으나, BodyText/section0 stream의 decoding 방법을 찾지 못하여 수작업으로 txt로 변환하여 사용

## txt 파일 읽어오기

In [8]:
f = open('/content/gdrive/MyDrive/hyu/social/w.txt')

In [9]:
text_lines = f.readlines()

In [10]:
text_lines[0:10], text_lines[-1]

(['씬/1\t성무집 앞 (밤)\n',
  '\n',
  '\t16회 83씬 中\n',
  '\n',
  '경찰\t(무전하는) 지원요청. 피의자 외에 동행이 있다. 차량 확인 바란다. 차량넘버 (강철의 차 번호를 읽는)\n',
  '\n',
  '씬/2\t성무의 작업실 (밤)\n',
  '\n',
  '\t16회 82씬에서 이어지고,\n',
  '\n'],
 '\n')

## 대본 구성형태 둘러보기

In [11]:
text_lines[:30] # 표지 및 배경설명 제외 예정

['씬/1\t성무집 앞 (밤)\n',
 '\n',
 '\t16회 83씬 中\n',
 '\n',
 '경찰\t(무전하는) 지원요청. 피의자 외에 동행이 있다. 차량 확인 바란다. 차량넘버 (강철의 차 번호를 읽는)\n',
 '\n',
 '씬/2\t성무의 작업실 (밤)\n',
 '\n',
 '\t16회 82씬에서 이어지고,\n',
 '\n',
 '연주\t(안절부절) 이메일로 뿌리면 돼요. 그리고 도윤씨가 잡혀있는 장소를 제보하구요. 거기서 바로 잡히면 되잖아요 그 다음에 \n',
 '강철\t(바로) 지금은 안돼요.\n',
 '연주\t왜요...?\n',
 '강철\t그렇게 해피엔딩이 되어버리면 아버지가 소멸되니까.\n',
 '연주\t(표정)\n',
 '강철\t내 해피엔딩이 진범한테는 새드엔딩이라서.\n',
 '연주\t(표정)\n',
 '강철\t지금 문제는... 어떤 엔딩이든 엔딩이 나면 아버지와 나.\n',
 '\t우리 둘 중의 하나는 이제 당신 옆에 없을 거라는 거예요.\n',
 '연주\t(!!!)\n',
 '강철\t죽거나... 사라지거나.\n',
 '연주\t(표정에)\n',
 '\t\n',
 '\t둘의 모습, 만화컷으로 변하면서. \n',
 '\n',
 '씬/3\t박교수 방 (아침)\n',
 '\n',
 '\t책상 앞에 앉아 모니터를 뚫어지게 보고 있는 박교수. \n',
 '\t<죽거나 사라지거나> 대사가 떠 있고.\n',
 '\t박교수, 그 다음 컷으로 내리는데 김간호사가 노크하며 들어온다.\n']

In [12]:
text_lines[85:100] # 90 line 부터 대본 시작 확인 "씬/1"

['박교수\t왜, 오연주 뭐가 어떤데?\n',
 '석범\t(낮게) 연주 집에 무슨 일 있나본데요.\n',
 '박교수\t무슨 일?\n',
 '석범\t(고개 저으며) 엄청 우는데요.\n',
 '박교수\t(....?)\n',
 '\n',
 '씬/8\t응급실 일각 (아침)\n',
 '\n',
 '\t한 구석에 덜 위급한 환자들이 누워있는 곳.\n',
 '\t박교수가 들여다보면 연주, 링거를 꽂고 누워있다.\n',
 '\t평소 같지 않은 연주의 흐느낌에 박교수, 움찔하고..\n',
 '\t연주의 옆에는 아무도 없다. 강철도 성무도 안 보이고.\n',
 '\n',
 '박교수\t.....? (다가가는)\n',
 '연주\t(팔뚝으로 눈을 가린 채 오열하고)\n']

In [13]:
text_lines[250:260]

['강철\t(문을 열고 나오는)\n',
 '경호원1\t(낮게) 어떻게 된 겁니까? 경찰이 찾고 있는데.. (하고) 형은 왜 여기..\n',
 '강철\t여기서 잠깐 기다려. (하고 바로 건너가는)\n',
 '\n',
 '\t철호의 경호원1,2가 상가 건물 앞에서 망을 보고 있다가 강철이 오자 보는.\n',
 '\n',
 '씬/22\t건물 지하실 (밤)\n',
 '\n',
 '\t정신 잃은 도윤을 앉혀놓고 기다리고 있는 철호.\n',
 '\t문이 열리고 철호의 경호원3이 들어오는\n']

In [14]:
text_lines[1050:1060]

['도윤\t(E) 네.\n',
 '성무\t거기가 어디야..? 나도 좀 알려줘\n',
 '\t(도윤이 뭐라고 하는 듯 잠시 듣다가) 내 딸 좀.. 마지막으로 보고 싶어서.\n',
 '\n',
 '씬/82\t회상 - 경호원의 차 안 (밤)\n',
 '\n',
 '\t성무, 힘들게 운전하며 국도를 달리고 있다.\n',
 '\t이미 온 몸은 나타났다 사라졌다... 눈가는 눈물로 젖어있고..\n',
 '\t네비게이션이 아직도 목적지가 5키로가 남았다고 알리고.. \n',
 '\t성무, 도착하지 못할 거 같자 핸드폰을 거는.\n']

In [15]:
text_lines[1051]

'성무\t거기가 어디야..? 나도 좀 알려줘\n'

* 대본의 씬/인물 부분과 대사/지문 부분은 tab(\t) 으로 구분 가능
* 씬 이후 인물 없이 글만 있는건 지문임
* 하나의 대사에는 개행(\n)이 없지만, 지문에는 개행이 존재함

## 데이터 분리 알고리즘 구상
* 1요소당 1개의 문장
* \t 이전은 씬/인물 등 구분
* \t 이후는 대사/지문
* \n 을 요소로 대사, 지문, 씬 간의 전환 구분
* 정규표현식을 통한 \t, \n 등의 위치를 찾아 활용

* 개괄적인 알고리즘을 간이식으로 정리
~~~python
시작위치 = 0
for 요소 in 리스트:
    정규 = 정규식컴파일("\t")
    위치tab = 정규.찾기(요소)
    구분 = 요소[:위치tab]

    if 구분 == "씬/1":
        break
        시작위치 += 1
저장위치 = 0
for 요소 in 리스트[시작위치:]:
    정규 = 정규식컴파일("t")
    위치tab = 정규.찾기(요소)

    if 위치tab:
      구분 = 요소[:위치tab]
      내용 = 요소[위치tab:]
      if 구분:
        구분저장[저장위치].추가(구분)
        내용저장[저장위치].추가(내용)
        저장위치 += 1
      else:
        내용저장[저장위치-1].추가(내용)
    else:
      저장위치 += 1
~~~

## 로직 구현
* 1개의 케이스로 조딕을 구현 해본다

In [16]:
import re

In [17]:
len(text_lines)

1398

In [18]:
start_idx = 0
act = None
for text in text_lines:
  text_t = re.compile("\t")
  tab_search = text_t.search(text) #\t 부분 찾기
  if tab_search: #\t 찾기 성공
    tab_loc = tab_search.start() #\t 시작부분 인덱스 tab_loc에 할당
    #print(tab_loc)
    act = text[:tab_loc] #\t 앞부분에는 씬/* 혹은 등장인물 이름
    #print(act)
    if act == "씬/1":
      break
  
  start_idx += 1

In [19]:
start_idx, text_lines[start_idx] # 씬/1의 시작위치가 정확히 확인되고있다.

(0, '씬/1\t성무집 앞 (밤)\n')

In [20]:
save_idx = 0
act = None
df_script = pd.DataFrame(columns=["act","content"])
for text in text_lines[start_idx:]:
  text_t = re.compile("\t")
  tab_search = text_t.search(text)
  if tab_search:
    tab_loc = tab_search.start()
    act = text[:tab_loc]
    content = text[tab_loc+1:]
    if content != "\n":
      #print(act + ":" + content)
      if act:
        df_script.loc[save_idx] = act, content
        save_idx += 1
      else:
        df_script.loc[save_idx-1,'content'] = df_script.loc[save_idx-1,'content'] + content
    else:
      #print("---")
      if df_script.loc[save_idx-1,'act'] != "지문":
        df_script.loc[save_idx] = "지문", ""
        save_idx += 1
  else:
    #print("---")
    if df_script.loc[save_idx-1,'act'] != "지문":
      df_script.loc[save_idx] = "지문", ""
      save_idx += 1
      
# 지문 없이 줄바꿈 발생생황에 대한 처리
df_script.drop(df_script[(df_script['act']=="지문") & (df_script['content']=="")].index, inplace=True)

In [21]:
df_script

Unnamed: 0,act,content
0,씬/1,성무집 앞 (밤)\n
1,지문,16회 83씬 中\n
2,경찰,(무전하는) 지원요청. 피의자 외에 동행이 있다. 차량 확인 바란다. 차량넘버 (강...
4,씬/2,성무의 작업실 (밤)\n
5,지문,"16회 82씬에서 이어지고,\n"
...,...,...
842,연주,(비로소 안도가) \n
843,수봉,(E) 만화 속 강철의 스토리는 해피엔딩이었지만\n진짜 살아있는 강철과 오연주의 엔...
844,지문,"둘, 함께 성무의 편지를 읽는 모습, 멀어지면서..\n창밖으로는 비가 내리고..\n"
845,수봉,"(E) 두 사람이 이제는 더 이상 만화처럼 생사의 기로에 서지 않고, 비록 지루하고..."


In [22]:
df_script[df_script['act']=='씬/2'].index

Int64Index([4], dtype='int64')

In [26]:
SAVE_PATH = '/content/gdrive/MyDrive/hyu/social/'
df_script.to_csv(SAVE_PATH + "w_final_test.csv", index=False)
df_script.to_excel(SAVE_PATH + "w_final_test.xlsx", index=False) # csv의 경우 한글로 저장 시 로컬 엑셀에서 글자 깨짐으로 테스트 용도

In [27]:
read_script = pd.read_csv(SAVE_PATH + "w_final_test.csv") # 정상적으로 파일이 사용 가능한지 확인

In [28]:
read_script # 정상 출력 확인

Unnamed: 0,act,content
0,씬/1,성무집 앞 (밤)\n
1,지문,16회 83씬 中\n
2,경찰,(무전하는) 지원요청. 피의자 외에 동행이 있다. 차량 확인 바란다. 차량넘버 (강...
3,씬/2,성무의 작업실 (밤)\n
4,지문,"16회 82씬에서 이어지고,\n"
...,...,...
746,연주,(비로소 안도가) \n
747,수봉,(E) 만화 속 강철의 스토리는 해피엔딩이었지만\n진짜 살아있는 강철과 오연주의 엔...
748,지문,"둘, 함께 성무의 편지를 읽는 모습, 멀어지면서..\n창밖으로는 비가 내리고..\n"
749,수봉,"(E) 두 사람이 이제는 더 이상 만화처럼 생사의 기로에 서지 않고, 비록 지루하고..."
