# Pre-Processing

Data 전처리를 통해 분석 목적에 맞게 데이터를 정리해 준다. 

텍스트 데이터의 경우 텍스트의 분할(`split`), 결합(`join`)을 가장 빈번히 사용하게 된다. 

복잡한 작업을 좀 더 효율적으로 하기 위해서는 정규식(`regular expressing`)의 사용이 필수적이다. 

## Data

In [1]:
data_path = "../data/kntk_formulas_toy.json"

import json
with open( data_path, 'r', encoding="utf-8" ) as fl:
    data = json.load( fl )

import pprint
pp = pprint.PrettyPrinter(indent=4, width=80, depth=8, compact=True)
pp.pprint( data )

[   {   'herbs': [   '감초(甘草)A', '비파엽(枇杷葉)A', '생지황(生地黃)A', '서각(犀角)A', '석곡(石斛)A',
                     '숙지황(熟地黃)A', '인진(茵蔯)A', '지각(枳殼)A', '천문동(天門冬)', '황금(黃芩)'],
        'symptoms': ['구창(口瘡)', '아선(牙宣)', '위열구취(胃熱口臭)']},
    {   'herbs': [   '감초(甘草)A', '건강(乾薑)', '계지(桂枝)A', '당귀(當歸)A', '백작약(白芍藥)A',
                     '소회향(小茴香)', '천우슬(川牛膝)'],
        'symptoms': ['소복통(小腹痛)']},
    {   'herbs': ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        'symptoms': ['번조(煩燥)', '오풍(惡風)', '온학(溫瘧)', '자한(自汗)']},
    {   'herbs': ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        'symptoms': ['온학(溫瘧)', '선열후한(先熱後寒)']},
    {   'herbs': [   '감초(甘草)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A',
                     '숙지황(熟地黃)A', '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        'symptoms': ['건망(健忘)', '중풍(中風)']},
    {   'herbs': [   '단삼(丹蔘)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A',
                     '숙지황(熟地黃)A', '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        'symptoms': ['건망(健忘)']},


## Mapping & Filtering

mapping과 filtering은 list나 tuple 등 [collection data](https://docs.python.org/2/library/collections.html)를 다룰 때 자주 사용되는 기법이다. 

In [2]:
# 현재의 데이터를 [ (herb_list, symp_list), (herb_list, symp_list), ... (herb_list, symp_list) ]로 바꾸어 보자. 

data_tuple = [ ( d.get('herbs'), d.get('symptoms') ) for d in data  ]
pp.pprint( data_tuple )

[   (   [   '감초(甘草)A', '비파엽(枇杷葉)A', '생지황(生地黃)A', '서각(犀角)A', '석곡(石斛)A',
            '숙지황(熟地黃)A', '인진(茵蔯)A', '지각(枳殼)A', '천문동(天門冬)', '황금(黃芩)'],
        ['구창(口瘡)', '아선(牙宣)', '위열구취(胃熱口臭)']),
    (   [   '감초(甘草)A', '건강(乾薑)', '계지(桂枝)A', '당귀(當歸)A', '백작약(白芍藥)A', '소회향(小茴香)',
            '천우슬(川牛膝)'],
        ['소복통(小腹痛)']),
    (   ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        ['번조(煩燥)', '오풍(惡風)', '온학(溫瘧)', '자한(自汗)']),
    (   ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        ['온학(溫瘧)', '선열후한(先熱後寒)']),
    (   [   '감초(甘草)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A', '숙지황(熟地黃)A',
            '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        ['건망(健忘)', '중풍(中風)']),
    (   [   '단삼(丹蔘)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A', '숙지황(熟地黃)A',
            '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        ['건망(健忘)']),
    (   [   '감국(甘菊)A', '감초(甘草)A', '강활(羌活)A', '고본(藁本)A', '길경(桔梗)', '만형자(蔓荊子)A',
            '박하(薄荷)A', '방풍(防風)A', '백지(白芷)A', '석고(石膏)', '세신(細辛)A', '조각(皂角)',
       

In [3]:
# 현재의 데이터에서 herb나 symptom의 데이터가 비어 있는 자료를 제거해 보자. 

data_non_zero = [ (h_, s_  )  for h_, s_ in data_tuple if len( h_ ) > 0 and len( s_ ) > 0 ]
pp.pprint( data_non_zero )

[   (   [   '감초(甘草)A', '비파엽(枇杷葉)A', '생지황(生地黃)A', '서각(犀角)A', '석곡(石斛)A',
            '숙지황(熟地黃)A', '인진(茵蔯)A', '지각(枳殼)A', '천문동(天門冬)', '황금(黃芩)'],
        ['구창(口瘡)', '아선(牙宣)', '위열구취(胃熱口臭)']),
    (   [   '감초(甘草)A', '건강(乾薑)', '계지(桂枝)A', '당귀(當歸)A', '백작약(白芍藥)A', '소회향(小茴香)',
            '천우슬(川牛膝)'],
        ['소복통(小腹痛)']),
    (   ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        ['번조(煩燥)', '오풍(惡風)', '온학(溫瘧)', '자한(自汗)']),
    (   ['감초(甘草)A', '갱미(粳米)', '계지(桂枝)A', '석고(石膏)', '지모(知母)'],
        ['온학(溫瘧)', '선열후한(先熱後寒)']),
    (   [   '감초(甘草)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A', '숙지황(熟地黃)A',
            '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        ['건망(健忘)', '중풍(中風)']),
    (   [   '단삼(丹蔘)A', '맥문동(麥門冬)A', '백복령(白茯苓)', '석창포(石菖蒲)A', '숙지황(熟地黃)A',
            '원지(遠志)A', '인삼(人蔘)A', '주사(朱砂)', '천문동(天門冬)'],
        ['건망(健忘)']),
    (   [   '감국(甘菊)A', '감초(甘草)A', '강활(羌活)A', '고본(藁本)A', '길경(桔梗)', '만형자(蔓荊子)A',
            '박하(薄荷)A', '방풍(防風)A', '백지(白芷)A', '석고(石膏)', '세신(細辛)A', '조각(皂角)',
       

## text manipulation

### split and join

In [4]:
# 알파벳을 제거하고 "한글|한자" 형태로 바꾸어 보자.

# split and join strategy
def split_and_join( txt, sep="|" ):
    head_, tail_ = txt.split("(")
    hanzi_, abc_ =  tail_.split(")")
    rst = sep.join( [ head_, hanzi_ ])
    return rst

data_updated = []

for h_list, s_list in data_non_zero:
    h_updated = [ split_and_join( h_ ) for h_ in h_list ]
    s_updated = [ split_and_join( s_ ) for s_ in s_list ]
    data_updated.append( ( h_updated, s_updated ) )

pp.pprint( data_updated )

[   (   [   '감초|甘草', '비파엽|枇杷葉', '생지황|生地黃', '서각|犀角', '석곡|石斛', '숙지황|熟地黃', '인진|茵蔯',
            '지각|枳殼', '천문동|天門冬', '황금|黃芩'],
        ['구창|口瘡', '아선|牙宣', '위열구취|胃熱口臭']),
    (   ['감초|甘草', '건강|乾薑', '계지|桂枝', '당귀|當歸', '백작약|白芍藥', '소회향|小茴香', '천우슬|川牛膝'],
        ['소복통|小腹痛']),
    (   ['감초|甘草', '갱미|粳米', '계지|桂枝', '석고|石膏', '지모|知母'],
        ['번조|煩燥', '오풍|惡風', '온학|溫瘧', '자한|自汗']),
    (['감초|甘草', '갱미|粳米', '계지|桂枝', '석고|石膏', '지모|知母'], ['온학|溫瘧', '선열후한|先熱後寒']),
    (   [   '감초|甘草', '맥문동|麥門冬', '백복령|白茯苓', '석창포|石菖蒲', '숙지황|熟地黃', '원지|遠志',
            '인삼|人蔘', '주사|朱砂', '천문동|天門冬'],
        ['건망|健忘', '중풍|中風']),
    (   [   '단삼|丹蔘', '맥문동|麥門冬', '백복령|白茯苓', '석창포|石菖蒲', '숙지황|熟地黃', '원지|遠志',
            '인삼|人蔘', '주사|朱砂', '천문동|天門冬'],
        ['건망|健忘']),
    (   [   '감국|甘菊', '감초|甘草', '강활|羌活', '고본|藁本', '길경|桔梗', '만형자|蔓荊子', '박하|薄荷',
            '방풍|防風', '백지|白芷', '석고|石膏', '세신|細辛', '조각|皂角', '천궁|川芎', '형개|荊芥'],
        ['두풍|頭風']),
    (   [   '목단피|牧丹皮', '백복령|白茯苓', '부자|附子', '산수유|山茱萸', '산약|山藥', '숙지황|熟地黃',
            '우슬|牛膝', '육계|肉桂

### Regular Expression

In [5]:
import re

test = re.findall( r"(.+?)\((.+?)\)(.*)", "목단피(牧丹皮)A" )
print( test )

[('목단피', '牧丹皮', 'A')]


In [6]:
# 알파벳을 제거하고 "한글|한자" 형태로 바꾸어 보자. 정규식을 이용해 보자.

# regular expression strategy
def split_and_join( txt, sep="|" ):
    rst = re.sub( r"(.+?)\((.+?)\)(.*)", r"\1|\2", txt )
    return rst

data_updated = []

for h_list, s_list in data_non_zero:
    h_updated = [ split_and_join( h_ ) for h_ in h_list ]
    s_updated = [ split_and_join( s_ ) for s_ in s_list ]
    data_updated.append( ( h_updated, s_updated ) )

pp.pprint( data_updated )

[   (   [   '감초|甘草', '비파엽|枇杷葉', '생지황|生地黃', '서각|犀角', '석곡|石斛', '숙지황|熟地黃', '인진|茵蔯',
            '지각|枳殼', '천문동|天門冬', '황금|黃芩'],
        ['구창|口瘡', '아선|牙宣', '위열구취|胃熱口臭']),
    (   ['감초|甘草', '건강|乾薑', '계지|桂枝', '당귀|當歸', '백작약|白芍藥', '소회향|小茴香', '천우슬|川牛膝'],
        ['소복통|小腹痛']),
    (   ['감초|甘草', '갱미|粳米', '계지|桂枝', '석고|石膏', '지모|知母'],
        ['번조|煩燥', '오풍|惡風', '온학|溫瘧', '자한|自汗']),
    (['감초|甘草', '갱미|粳米', '계지|桂枝', '석고|石膏', '지모|知母'], ['온학|溫瘧', '선열후한|先熱後寒']),
    (   [   '감초|甘草', '맥문동|麥門冬', '백복령|白茯苓', '석창포|石菖蒲', '숙지황|熟地黃', '원지|遠志',
            '인삼|人蔘', '주사|朱砂', '천문동|天門冬'],
        ['건망|健忘', '중풍|中風']),
    (   [   '단삼|丹蔘', '맥문동|麥門冬', '백복령|白茯苓', '석창포|石菖蒲', '숙지황|熟地黃', '원지|遠志',
            '인삼|人蔘', '주사|朱砂', '천문동|天門冬'],
        ['건망|健忘']),
    (   [   '감국|甘菊', '감초|甘草', '강활|羌活', '고본|藁本', '길경|桔梗', '만형자|蔓荊子', '박하|薄荷',
            '방풍|防風', '백지|白芷', '석고|石膏', '세신|細辛', '조각|皂角', '천궁|川芎', '형개|荊芥'],
        ['두풍|頭風']),
    (   [   '목단피|牧丹皮', '백복령|白茯苓', '부자|附子', '산수유|山茱萸', '산약|山藥', '숙지황|熟地黃',
            '우슬|牛膝', '육계|肉桂