In [None]:
import pandas as pd
import olefile
import zlib
import struct

In [None]:
def get_hwp_text(filename):
    #f = olefile.OleFileIO(filename)
    with olefile.OleFileIO(filename) as f:
        dirs = f.listdir()

        # HWP 파일 검증
        if ["FileHeader"] not in dirs or \
           ["\x05HwpSummaryInformation"] not in dirs:
            raise Exception("Not Valid HWP.")

        # 문서 포맷 압축 여부 확인
        header = f.openstream("FileHeader")
        header_data = header.read()
        is_compressed = (header_data[36] & 1) == 1

        # Body Sections 불러오기
        nums = []
        for d in dirs:
            if d[0] == "BodyText":
                nums.append(int(d[1][len("Section"):]))
        sections = ["BodyText/Section"+str(x) for x in sorted(nums)]

        # 전체 text 추출
        text = ""
        for section in sections:
            bodytext = f.openstream(section)
            data = bodytext.read()
            if is_compressed:
                unpacked_data = zlib.decompress(data, -15)
            else:
                unpacked_data = data
    
            # 각 Section 내 text 추출    
            section_text = ""
            i = 0
            size = len(unpacked_data)
            while i < size:
                header = struct.unpack_from("<I", unpacked_data, i)[0]
                rec_type = header & 0x3ff
                rec_len = (header >> 20) & 0xfff

                if rec_type in [67]:
                    rec_data = unpacked_data[i+4:i+4+rec_len]
                    section_text += rec_data.decode('utf-16')
                    section_text += "\n"

                i += 4 + rec_len

            text += section_text
            text += "\n"

    return text

In [None]:
def find_index(s, n):
    idx = [i for i in range(len(s)) if n in s[i]]
    if len(idx) > 0:
        return idx[0]
    else:
        return -1

In [None]:
def year_date(y):
    """ 2022년 되면 년도 바꿔주어야 함 """ 
    if len(y) < 3:
        return "2021-" + '-'.join(y)
    else:
        return '-'.join(y)

In [None]:
def transform_int(f, cols):
    for c in cols:
        f[c] = f[c].fillna(-1)
        f[c] = f[c].astype(int)
    return f

In [None]:
def transform_datetime(f, cols):
    for c in cols:
        f[c] = f[c].fillna("9999-12-31")
        try:
            f[c] = f[c].apply(lambda a: pd.to_datetime(a).date())
        except:
            continue
        
    return f

In [None]:
import os
import re

path = os.getcwd()
dir_name = input("폴더 이름을 입력하세요 : ")
print()

folder = os.path.join(path, dir_name)
file_list = os.listdir(folder)
file_count = len(file_list)

""" 형식이 맞지 않아 건너뛸 학교. """
miss = []
""" tmp dict를 모을 list. """
total = []

for f in range(file_count):
    hwp = file_list[f]
    print("%d번째 : " % (f + 1), hwp, "파일 진행중...")
    
    """ 한글 파일 텍스트로 불러오기.
    \r을 전부 지우고 \n을 기준으로 나눈다. """
    li = get_hwp_text(os.path.join(folder, hwp)).replace('\r', '').split('\n')    
    
    """ 파일 형식 상으로 기관명 아래에 있는 학교가 '학교'가 들어간 텍스트들 중 맨 처음에 위치함.
    학교 이전의 정보들은 엑셀 작성에 필요없는 자료이므로 이를 기준으로 리스트를 자른다. """
    idx_school = find_index(li, '학교')
    li = li[idx_school:]
    
    """ 공백 제거. """
    for i in range(len(li)):
        li[i] = li[i].strip()
    
    # print(li) # 파일 전체 내용 확인하기 위함
    """ i_OOO은 한글파일 표의 인덱스명의 index를 찾기 위함이다. (index를 알아야 그것을 기준으로 원하는 값을 추출할 수 있음.)
    li.index()으로 추출한 경우 -> 컬럼명이 정확하게 일치하지 않으면 출력되지 않음.
    반복문을 통해 추출한 경우 -> 엔터 등 중간중간 다른 부분이 있어서 해당 문자열을 포함하는 곳을 찾아 index를 추출.
    두가지 방법 모두 파일의 형태에 따라서 위험부담을 가지고 있다. """
    
    index_column = ['나이', '환자성명', '가족', '검사일', '확진일', '감염경로', '교내검사현황', '학원명']
    index_li = []
    
    if '최종 등교일' in li:
        index_column.append('최종 등교일')
    elif '최종 출근일' in li:
        index_column.append('최종 출근일')
    
    for c in index_column:
        index_li.append(find_index(li, c))
    
    if -1 in index_li:
        print(">>> 해당 학교 파일의 인덱스가 형식에 맞지 않습니다.")
        miss.append(hwp)
        continue
    
    i_age, i_name_gender, i_family, i_check, i_official, i_loc, i_school, i_cram, i_last = index_li[0], \
    index_li[1],index_li[2],index_li[3],index_li[4],index_li[5],index_li[6],index_li[7],index_li[8]

    """ '환자성명(성별)' 다음부터, '학년,반/' 이전까지만. """
    
    name_list = []
    for i in range(i_name_gender + 1, i_age - 1):
        if (li[i] != '비고') and (len(li[i]) > 0):
            name_list.append(li[i])
            
    """ 학생 수만큼의 정보가 필요하므로 앞으로의 모든 정보는 len_student만큼 반복하면 된다. """
    len_student = len(name_list)
    
    for i in range(len_student):
        """ 이름과 (를 엔터로 구분한 경우, (성별)이 하나의 이름으로 들어가있음. """
        if (len(name_list[i]) <= 3 and '(' in name_list[i]):
            continue
        
        """ 개인의 정보를 담을 tmp. """
        tmp = {}
        
        """ 이름, 성별을 형식에 맞게 '(' 으로 구분해야 정확하게 들어감. """
        g_txt = li[i_name_gender + 1 + i].split('(')
        
        # 학교명 추출.
        tmp['학교명'] = li[0]
        
        try:
            tmp['성명'] = re.findall('[ㄱ-힣]+', g_txt[0])[0]    # 무조건 처음에 이름을 써야 정상적으로 돌아간다.  
        except:
            tmp['성명'] = None
        
        try:
            sch = re.findall('유치원|초등학교|중학교|고등학교|특수|각종|기타|기관', tmp['학교명'])
            sch_1 = ('유치원', '초등학교', '중학교', '고등학교')
            sch_2 = ('특수', '각종', '기타', '기관')
        
            if '유치원' in sch:
                tmp['급별'] = '유'
            else:
                if sch[0] in sch_1:
                    tmp['급별'] = sch[0][0]
                elif sch[0] in sch_2:
                    tmp['급별'] = sch[0][0] + sch[0][1]
        except:
            tmp['급별'] = None
        
        """ 학년,반/나이(직책)이 1인당 몇 개의 원소를 가지고 있는지 판단.
        ex) 1-1반 \n 12세 -> 2개의 원소를 가지고 있는 것으로 인식함. 
        ex) 1-1반 12세 -> 1개의 원소를 가지고 있는 것으로 인식함.
        기준 : 엔터키('\n')를 누르면서 구분하였는가?
        
        3명이 모두 위와 같은 형식으로 이루어져 있다면 i_last - i_age = 7이 된다(사이에 6개가 있으므로)
        따라서 i_last - i_age - 1 에다가 사람수로 나누어주면 1인당 몇 개의 원소를 가지고 있는지 알 수 있다.
        단, 각 사람에 대해 같은 형식이어야 올바르게 출력 될 수 있다. """
        how_split = (i_last - i_age - 1) // len_student
        
        """ i_age + 1 + how_split * i 
            -> 나이 바로 다음부터 1인당 몇 개의 원소를 가지고 있는지에 따라 건너뛰는 폭을 결정함."""
        start_age = i_age + 1 + how_split * i
        all_None = False
        
        if how_split == 1:           
            """ 엔터로 구분을 하지 않은 케이스. """
            if '(' in li[start_age]:
                """ 나이를 정확히 소괄호로 감싸야 정확하게 나올 수 있음."""
                sp = li[start_age].split('(')
                grade_group, age = sp[0], sp[1]  # 학년,반 / 나이(직책) 구분.
            else:
                """ 하단 조건문에서 처리. """
                all_None = True     
        elif how_split == 2:
            """ 엔터로 구분을 한 번 한 케이스. """
            grade_group, age = li[start_age] ,li[start_age + 1] 
        else:
            """ 하단 조건문에서 처리. """
            all_None = True
        
        if all_None:
            """ 주어진 형식에 맞지 않으면 공란으로 비워두자. """
            tmp['학년'], tmp['반'], tmp['급별'], tmp['교직원 직책'], tmp['나이'] = None, None, None, None, None
        else:
            """ 학년, 반 형식을 어떻게 표현했을지 확실하지 않음.
                ex) 1-1, 1학년 1반, 1-1반, ... 
                하지만 정상적인 경우라면 학년, 반을 전부 표현하는 경우 숫자가 적어도 2개는 있을 것이라고 가정함.
                (만약 지혜반 등 숫자가 아닌 반인 경우는 고려하지 않음.)"""
            y_grade = re.findall('[0-9]+', grade_group)
            if len(y_grade) < 2:
                grade, group = None, None
            else:
                grade, group = y_grade[0], y_grade[1]
                
            tmp['학년'], tmp['반'] = grade, group
            tmp['교직원 직책'] = None
            """ 나이가 숫자로 표현되지 않은 경우는 공란으로 처리하자. (직책의 경우도 공란.)"""
            try:
                tmp['나이'] = re.findall('[0-9]+', age)[0]
            except IndexError:
                tmp['나이'] = None
            
        try:
            gender = re.search('남|여',g_txt[1]).group()
        except (AttributeError , IndexError):
            """ AttributeError : 남, 여 단어를 찾지 못한 경우.
                IndexError : 이름, 성별 두 가지가 빠짐없이 기재되지 않아 2번째 원소가 없는 경우. """
            gender = None
        tmp['성별'] = gender
        
        start_last, start_check, start_official = i_last + 1 + i, i_check + 1 + i, i_official + 1 + i
        last, check, official = li[start_last], li[start_check], li[start_official]
        y_last, y_check, y_official = re.findall('[0-9]+', last), re.findall('[0-9]+', check), re.findall('[0-9]+', official)      
        y_last, y_check, y_official = year_date(y_last), year_date(y_check), year_date(y_official)
                
        tmp['최종 등교일'], tmp['검사일'], tmp['확진일'], tmp['퇴원일'], tmp['사망일'] = y_last, y_check, y_official, None, None
        
        if len_student < 2:
            loc, family, school = " ".join(li[i_loc + 1 : i_family]), " ".join(li[i_family + 1 : i_school]), \
                                        " ".join(li[i_school + 1: i_cram - 1]) 
            tmp['감염경로(요약필요)'], tmp['역학조사 기준 등교여부'], tmp['미등교 사유'], tmp['가족검사현황'], \
            tmp['학교 역학조사'], tmp['감염 경로 요약'], tmp['음성 후 자가격리중 확진'] = None, None, None, family, school, loc, None            
        else:
            tmp['감염경로(요약필요)'], tmp['역학조사 기준 등교여부'], tmp['미등교 사유'], tmp['가족검사현황'], \
            tmp['학교 역학조사'], tmp['감염 경로 요약'], tmp['음성 후 자가격리중 확진'] = None, None, None, None, None, None, None
        
        tmp['학원명'], tmp['등원일'] = None, None
        total.append(tmp)

df = pd.DataFrame()
for d in total:
    f = pd.DataFrame([d])
    df = pd.concat([df, f])

col_int = ['학년', '반', '나이']
col_date = ['최종 등교일', '검사일', '확진일']

df = transform_int(df, col_int) 
df = transform_datetime(df, col_date)
df.to_excel("%s.xlsx" % dir_name, index = False)
pd.DataFrame(miss, columns = ['미포함학교']).to_csv("%s_미포함학교.csv" % dir_name, index = False, encoding = 'euc-kr')

print("====== 엑셀 파일에 포함되지 않은 내역입니다. =====")
for m in range(len(miss)):
    print("%d. " % (m + 1), miss[m])

print("프로그램을 종료합니다.")
    

        