In [1]:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

In [2]:
def pdf2txt(pdf_file):
    rsrcmgr = PDFResourceManager()
    
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(pdf_file, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()
    
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,
                                 caching=caching, check_extractable=True):
        interpreter.process_page(page)
    
    text = retstr.getvalue()
    
    fp.close()
    device.close()
    retstr.close()
    return text

In [4]:
import os
os.listdir('sample')

['bigstock-Group-Of-Animals-34563776.jpg',
 'nums_keywords.xlsx',
 'Relevant keywords 20190212 2313.xlsx',
 'resume template.docx',
 'resume template.hwp',
 'resume template.pdf',
 't1.daumcdn.png',
 'tiger.jpg',
 'wine_dataset.csv',
 '「인공지능 업무자동화교육」 참가신청서.docx',
 '「인공지능 업무자동화교육」 참가신청서.hwp',
 '「인공지능 업무자동화교육」 참가신청서.pdf']

In [6]:
pdf_path = 'sample/「인공지능 업무자동화교육」 참가신청서.pdf'

In [8]:
text = pdf2txt(pdf_path)
text

'[서식. 참가신청서]  \n\n교육  참가신청서 \n\n교  육  명 \n\n교육일시 \n\n인공지능을  활용한  업무자동화  교육 \n\n2019년  2월  15일(금) ~ 17일(일), 2박  3일 \n\n성        명 \n\n이준호 \n\n소        속 \n\nJ.AI Labs \n\n참가자 \n\n연  락  처 \n\n010-9507-2110 \n\nE-mail \n\nJune.datalabs@gmail.com   \n\n정보 \n\n주        소 \n\n제주시  인다15길   \n\n연  령  대 \n\n□ 10대              □ 20대            □ 30대            □ 40대이상 \n\n신청내용 \n\n관심분야 \n\n(중복선택가능) \n\n지원동기 \n\n(자유롭게  서술) \n\n기술역량 \n\n및  경험 \n\n(자유롭게  서술) \n\n□ HTML&CSS □ Javascript □ Python □ 서비스기획·런칭 □ 기타 (       ) \n\n평소에  파이썬에  관심이  많았고,  업무자동화를  저의  업무에  적용하고  싶은 \n\n마음이  컸습니다.   \n\n이번  기회에  많은  것을  얻어갈  수  있으면  좋겠습니다.   \n\n파이썬은  1년  공부해봤고,  개발  쪽으로는  5년  이상  했습니다.   \n\n평소  마케팅을  해왔습니다.   \n\n상기와 같이 참가를 신청합니다. \n\n \n\n \n\n \n\n \n\n \n\n2019년   1월   일 \n\n \n\n신 청 자 : \n\n이준호 \n\n(서명 또는 날인)  \n\n \n\n\x0c'

In [14]:
text_list = text.split('\n\n')
text_list[text_list.index('성        명 ')+1]
text_list 

['[서식. 참가신청서]  ',
 '교육  참가신청서 ',
 '교  육  명 ',
 '교육일시 ',
 '인공지능을  활용한  업무자동화  교육 ',
 '2019년  2월  15일(금) ~ 17일(일), 2박  3일 ',
 '성        명 ',
 '이준호 ',
 '소        속 ',
 'J.AI Labs ',
 '참가자 ',
 '연  락  처 ',
 '010-9507-2110 ',
 'E-mail ',
 'June.datalabs@gmail.com   ',
 '정보 ',
 '주        소 ',
 '제주시  인다15길   ',
 '연  령  대 ',
 '□ 10대              □ 20대            □ 30대            □ 40대이상 ',
 '신청내용 ',
 '관심분야 ',
 '(중복선택가능) ',
 '지원동기 ',
 '(자유롭게  서술) ',
 '기술역량 ',
 '및  경험 ',
 '(자유롭게  서술) ',
 '□ HTML&CSS □ Javascript □ Python □ 서비스기획·런칭 □ 기타 (       ) ',
 '평소에  파이썬에  관심이  많았고,  업무자동화를  저의  업무에  적용하고  싶은 ',
 '마음이  컸습니다.   ',
 '이번  기회에  많은  것을  얻어갈  수  있으면  좋겠습니다.   ',
 '파이썬은  1년  공부해봤고,  개발  쪽으로는  5년  이상  했습니다.   ',
 '평소  마케팅을  해왔습니다.   ',
 '상기와 같이 참가를 신청합니다. ',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 '2019년   1월   일 ',
 ' ',
 '신 청 자 : ',
 '이준호 ',
 '(서명 또는 날인)  ',
 ' ',
 '\x0c']

In [13]:
import pandas as pd
columns = ['Name', 'Phone', 'Address']
df = pd.DataFrame(columns = columns)
df

Unnamed: 0,Name,Phone,Address


In [15]:
personal_data = {}
# get target_list
target_list = ['성        명 ', '연  락  처 ', '주        소 ']
for n, target in enumerate(target_list):
    personal_data[columns[n]] = text_list[text_list.index(target)+1]
personal_data

{'Name': '이준호 ', 'Phone': '010-9507-2110 ', 'Address': '제주시  인다15길   '}

In [20]:
df = pd.DataFrame(data = personal_data, index = [1], columns = columns)
df

Unnamed: 0,Name,Phone,Address
1,이준호,010-9507-2110,제주시 인다15길
