In [3]:
import os
import re

In [7]:
fdir_data = 'C:/Google Drive/playground/23_workspace/bug/data/accident_report/'
flist = os.listdir(fdir_data)

data = []
for fname in flist:
    fpath = os.path.join(fdir_data, fname)
    with open(fpath, 'r', encoding='utf-8') as f:
        text = f.read()
        
    data.append(text)

# Normalization

In [5]:
text_raw = data[0]

In [6]:
sents = re.split('\n', text_raw)
normalized_sents = [] #Normalization 결과를 저장할 빈 리스트

for sent in sents:
    sent = re.sub('[^ 0-9a-zA-Zㄱ-힣.:()]', '', sent.strip()) #.strip()을 사용하여 문자열 양 끝의 공백 제거
    sent = re.sub('\s+', ' ', sent)
    
    if len(sent.split()) > 3: #.split()을 사용하면 빈칸(' ')을 이용하여 문자열을 분할
        normalized_sents.append(sent)
    
print(normalized_sents)

['낙하물방지망 설치 중 가공전로에 감전', '2016.06.08(수) 14:30경 인천시 남구 숭의동 소재 (주)종합건설 숭의동 업무시설 신축공사현장에서 (주)종합건설 소속 피재자 피재자(남비계공51세)가 지상 4층(약 11m) 높이의 외부비계에서 강관파이프를 이용하여 낙하물방지망 설치용 비계를 설치하던 중 강관파이프(6m)가 가공전로(22.9KV 배전선로)의 충전부에 닿으며 발생한 아아크 및 전격에 의해 전신 화상을 당하고 지상 바닥으로 떨어져 사망한 재해 임.', '재 해 상 황 도', ' 가공전로와 접촉을 방지하기 위한 조치 실시', '사업주는 가공전로에 근접하여 비계를 설치하는 경우에는 가공', '전로를 이설하거나 가공전로에 절연용 방호구를 장착하는 등', '가공전로와의 접촉을 방지하기 위한 조치를 취해야 함', ' 충전전로 인근 접근금지 조치 실시', '사업주는 근로자가 충전전로 인근의 높은 곳에서 작업할 때에', '근로자의 몸 또는 긴 도전성 물체가 방호되지 않은 경우 충전', '전로에서 대지전압이 50킬로볼트 이하인 경우 3m 이내로 접근', '할 수 없도록 조치하여야 함', '전도된 방향으로 집진기에 걸쳐져 있는 내부 구조물(큐브시트)']


# Tokenization

KoNLPy를 사용하기 위해 다음의 링크에서 설치 과정을 따라간다.

https://velog.io/@qw4735/konlpy-%EC%84%A4%EC%B9%98%EB%B0%A9%EB%B2%95

※ 파이썬 버전 확인하기: !python --version  
※ 파이썬 설치위치 확인하기: import sys; sys.executable  
※ JDK 설치위치 확인하기: 기본경로("C:\Program Files\Java\jdk...")

In [8]:
from konlpy.tag import Komoran
komoran = Komoran()

In [9]:
tokenized_sents = []
for sent in normalized_sents:
    tokenized_sents.append(komoran.morphs(sent))
    
print(tokenized_sents)

[['낙하', '물', '방지', '망', '설치', '중', '가공', '전', '로', '에', '감전'], ['2016', '.', '06', '.', '08', '(', '수', ')', '14', ':', '30', '경', '인천시', '남구', '숭의동', '소재', '(', '주', ')', '종합', '건설', '숭의동', '업무', '시설', '신축', '공사', '현장', '에서', '(', '주', ')', '종합', '건설', '소속', '피', '재자', '피', '재자', '(', '남', '비계', '공', '51', '세', ')', '가', '지상', '4', '층', '(', '약', '11', 'm', ')', '높이', '의', '외부', '비계', '에서', '강', '관', '파이프', '를', '이용', '하', '아', '낙하', '물', '방지', '망', '설치', '용', '비계', '를', '설치', '하', '던', '중', '강', '관', '파이프', '(', '6', 'm', ')', '가', '가공', '전', '로', '(', '22', '.', '9', 'KV', '배전', '선로', ')', '의', '충전', '부', '에', '닿', '으며', '발생', '하', 'ㄴ', '아', '아크', '및', '전격', '에', '의하', '아', '전신', '화상', '을', '당하', '고', '지상', '바닥', '으로', '떨어지', '어', '사망', '하', 'ㄴ', '재해', '임', '.'], ['재', '하', '아', '상', '황', '도'], ['가공', '전', '롭', '아', '접촉', '을', '방지', '하', '기', '위하', 'ㄴ', '조치', '실시'], ['사업주', '는', '가공', '전', '로', '에', '근접', '하', '아', '비계', '를', '설치', '하', '는', '경우', '에', '는', '가공'], ['전', '로', '를', '이

In [10]:
sents_noun = []
for sent in normalized_sents:
    sents_noun.append(komoran.nouns(sent))
    
print(sents_noun)

[['낙하', '물', '방지', '망', '설치', '중', '가공', '전', '감전'], ['수', '경', '인천시', '남구', '숭의동', '소재', '주', '종합', '건설', '숭의동', '업무', '시설', '신축', '공사', '현장', '주', '종합', '건설', '소속', '재자', '재자', '남', '비계', '공', '세', '지상', '높이', '외부', '비계', '강', '관', '파이프', '이용', '낙하', '물', '방지', '망', '설치', '비계', '설치', '중', '강', '관', '파이프', '가공', '전', 'KV', '배전', '선로', '충전', '부', '발생', '아', '아크', '전격', '전신', '화상', '지상', '바닥', '사망', '재해', '임'], ['상', '황', '도'], ['가공', '전', '접촉', '방지', '조치', '실시'], ['사업주', '가공', '전', '근접', '비계', '설치', '경우', '가공'], ['전', '이설', '가공', '전', '절연', '방', '호구', '장착', '등'], ['가공', '전', '접촉', '방지', '조치'], ['충전', '전', '인근', '접근', '금지', '조치', '실시'], ['사업주', '근로자', '충전', '전', '인근', '곳', '작업', '때'], ['근로자', '몸', '도전', '물체', '방호', '경우', '충전'], ['전', '대지', '전압', '킬로', '볼트', '이하', '경우', '이내', '접근'], ['수', '조치'], ['전도', '방향', '집', '진기', '내부', '구조물', '큐브', '시트']]


### Advanced: Bi-gram Tokenization

In [12]:
fdir_thesaurus = 'C:/Google Drive/playground/23_workspace/bug/thesaurus/'
fname_bigramlist = 'bigramlist.txt'
fpath_bigramlist = os.path.join(fdir_thesaurus, fname_bigramlist)

with open(fpath_bigramlist, 'r', encoding='utf-8') as f:
    bigramlist = f.read().split('\n')
    
print(bigramlist)        

['낙하물', '강관']


In [23]:
sents_bigram = []
switch = False

for sent in sents_noun:
    sent_bigram = []
    for i in range(len(sent)):
        left = sent[i]
        
        try:
            right = sent[i+1]
        except IndexError:
            sent_bigram.append(left)
            continue
            
        bigram = left + right
        if bigram in bigramlist:
            sent_bigram.append(bigram)
            switch = True
        else:
            if switch == True:
                switch = False
                continue
            else:
                sent_bigram.append(left)
            
    sents_bigram.append(sent_bigram)
    
TEST_INDEX = 0
print(sents_noun[TEST_INDEX])
print(sents_bigram[TEST_INDEX])

['낙하', '물', '방지', '망', '설치', '중', '가공', '전', '감전']
['낙하물', '방지', '망', '설치', '중', '가공', '전', '감전']


# Stopwords Removal

In [16]:
fname_stoplist = 'stoplist.txt'
fpath_stoplist = os.path.join(fdir_thesaurus, fname_stoplist)
with open(fpath_stoplist, 'r', encoding='utf-8') as f:
    stoplist = f.read()

print(stoplist)

중
재해
임


In [24]:
sents_stop = []
for sent in sents_noun:
    sents_stop.append([word for word in sent if word not in stoplist])
    
print(sents_noun[TEST_INDEX])
print(sents_stop[TEST_INDEX])

['낙하', '물', '방지', '망', '설치', '중', '가공', '전', '감전']
['낙하', '물', '방지', '망', '설치', '가공', '전', '감전']


# Export Results

In [26]:
data_prep = []
for accident_case in data:
    # Normalization
    sents = re.split('\n', accident_case)
    sents_norm = []

    for sent in sents:
        sent = re.sub('[^ 0-9a-zA-Zㄱ-힣.:()]', '', sent.strip())
        sent = re.sub('\s+', ' ', sent)

        if len(sent.split()) > 3:
            sents_norm.append(sent)

    # Tokenization
    sents_noun = []
    for sent in sents_norm:
        sents_noun.append(komoran.nouns(sent))
        
    # Stopwords Removal
    sents_stop = []
    for sent in sents_noun:
        sents_stop.append([word for word in sent if word not in stoplist])
        
    # Result
    data_prep.append(sents_stop)
    
print(len(data_prep))
print('--'*30)
print(data_prep[TEST_INDEX])
print('--'*30)
print(data_prep)

10
------------------------------------------------------------
[['낙하', '물', '방지', '망', '설치', '가공', '전', '감전'], ['수', '경', '인천시', '남구', '숭의동', '소재', '주', '종합', '건설', '숭의동', '업무', '시설', '신축', '공사', '현장', '주', '종합', '건설', '소속', '재자', '재자', '남', '비계', '공', '세', '지상', '높이', '외부', '비계', '강', '관', '파이프', '이용', '낙하', '물', '방지', '망', '설치', '비계', '설치', '강', '관', '파이프', '가공', '전', 'KV', '배전', '선로', '충전', '부', '발생', '아', '아크', '전격', '전신', '화상', '지상', '바닥', '사망'], ['상', '황', '도'], ['가공', '전', '접촉', '방지', '조치', '실시'], ['사업주', '가공', '전', '근접', '비계', '설치', '경우', '가공'], ['전', '이설', '가공', '전', '절연', '방', '호구', '장착', '등'], ['가공', '전', '접촉', '방지', '조치'], ['충전', '전', '인근', '접근', '금지', '조치', '실시'], ['사업주', '근로자', '충전', '전', '인근', '곳', '작업', '때'], ['근로자', '몸', '도전', '물체', '방호', '경우', '충전'], ['전', '대지', '전압', '킬로', '볼트', '이하', '경우', '이내', '접근'], ['수', '조치'], ['전도', '방향', '집', '진기', '내부', '구조물', '큐브', '시트']]
------------------------------------------------------------
[[['낙하', '물', '방지', '망', '설치', '가공', '전',

JSON 패키지를 사용하여 Python의 객체(변수 등)를 외부 파일로 저장할 수 있음

In [54]:
import json

fdir_corpus = 'C:/Google Drive/playground/23_workspace/bug/corpus/'
fname_prep_json = 'data_prep.json'
fpath_prep_json = os.path.join(fdir_corpus, fname_prep_json)

with open(fpath_prep_json, 'w', encoding='utf-8') as f:
    json.dump(data_prep, f)

# NOTE. TXT

TXT 파일로 저장하고 싶다면 f.write(VARIABLE)을 사용

In [56]:
text_sample = 'I am a boy'

fdir_corpus = 'C:/Google Drive/playground/23_workspace/bug/corpus/'
fname_txt = 'text_sample.txt'
fpath_txt = os.path.join(fdir_corpus, fname_txt)

with open(fpath_txt, 'w', encoding='utf-8') as f:
    f.write(text_sample)