In [None]:
import pdfplumber
import os
import multiprocessing

def pdf_to_txt_with_pdfplumber(pdf_path, txt_path):
    """PDF 파일을 텍스트로 변환"""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = "\n".join([page.extract_text() or "" for page in pdf.pages])  # None 방지
        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            txt_file.write(text)
    except Exception as e:
        print(f"PDF 변환 오류: {pdf_path} - {e}")

def rename_txt_file_based_on_pdf(pdf_path, txt_path):
    """PDF 파일명을 기반으로 텍스트 파일 이름 변경"""
    pdf_name = os.path.splitext(os.path.basename(pdf_path))[0]
    new_name = f"{pdf_name}.txt"
    new_path = os.path.join(os.path.dirname(txt_path), new_name)
    
    try:
        os.rename(txt_path, new_path)
        print(f"파일 이름 변경: {txt_path} → {new_name}")
    except Exception as e:
        print(f"파일 이름 변경 실패 ({txt_path}): {e}")

def process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=4, max_files=5):
    """PDF 폴더 내 모든 파일을 병렬 처리 (테스트용으로 일부만 실행)"""
    os.makedirs(txt_folder_path, exist_ok=True)

    pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]
    pdf_files = pdf_files[:max_files]  # 테스트를 위해 일부 파일만 실행 (기본 5개)

    if not pdf_files:
        print("변환할 PDF 파일이 없습니다! `naver_reports_pdf` 폴더에 PDF 파일을 추가하세요.")
        return

    print(f" 총 {len(pdf_files)}개의 PDF 변환을 시작합니다...")

    # 병렬 처리 실행
    with multiprocessing.Pool(processes=num_workers) as pool:
        pool.starmap(process_single_pdf, [(pdf, txt_folder_path) for pdf in pdf_files])

    print(f"테스트 완료! 변환된 TXT 파일 개수: {len(pdf_files)} (저장 폴더: {txt_folder_path})")

def process_single_pdf(pdf_path, txt_folder_path):
    """개별 PDF 파일을 처리"""
    txt_file_name = os.path.splitext(os.path.basename(pdf_path))[0] + ".txt"
    txt_path = os.path.join(txt_folder_path, txt_file_name)
    
    # PDF → TXT 변환
    pdf_to_txt_with_pdfplumber(pdf_path, txt_path)
    
    # TXT 파일명 변경
    rename_txt_file_based_on_pdf(pdf_path, txt_path)

# **경로 설정 (naver_reports_pdf 폴더 사용)**
pdf_folder_path = './naver_reports_pdf'  # PDF 파일이 저장된 폴더
txt_folder_path = './txt_files'  # 변환된 TXT 파일을 저장할 폴더

# 실행 (테스트: 5개 파일만 변환)
process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=4, max_files=5)


📝 총 5개의 PDF 변환을 시작합니다...


In [1]:
import pdfplumber
import os
import time

# 경로 설정
pdf_folder_path = './naver_reports_pdf'
txt_folder_path = './txt_files'

os.makedirs(txt_folder_path, exist_ok=True)

# PDF 파일 목록 가져오기 (1개만 테스트)
pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]
if not pdf_files:
    print("⚠️ 변환할 PDF 파일이 없습니다!")
else:
    pdf_path = pdf_files[0]  # 첫 번째 PDF만 테스트
    txt_path = os.path.join(txt_folder_path, os.path.splitext(os.path.basename(pdf_path))[0] + ".txt")
    
    print(f"🚀 테스트 실행: {pdf_path}")
    
    start_time = time.time()  # 실행 시간 체크
    with pdfplumber.open(pdf_path) as pdf:
        text = "\n".join([page.extract_text() or "" for page in pdf.pages])  # None 방지
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text)
    
    end_time = time.time()
    print(f"✅ 변환 완료: {txt_path} (소요 시간: {end_time - start_time:.2f}초)")


🚀 테스트 실행: ./naver_reports_pdf\080401_대우증권_1.pdf
✅ 변환 완료: ./txt_files\080401_대우증권_1.txt (소요 시간: 6.36초)


In [None]:
import pdfplumber
import os
import multiprocessing
import time

def pdf_to_txt_with_pdfplumber(pdf_path, txt_path):
    """PDF 파일을 텍스트로 변환 (속도 개선)"""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            # PDF 페이지 개수 체크 (너무 많으면 제외)
            if len(pdf.pages) > 50:  # 50페이지 이상이면 변환 제외 (필요시 조정)
                print(f"⚠️ 페이지가 너무 많아 변환 제외: {pdf_path}")
                return

            # 더 빠르게 추출하는 방식 적용
            text = "\n".join([page.extract_text() or "" for page in pdf.pages if page.extract_text()])
        
        # 변환된 텍스트 저장
        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            txt_file.write(text)

    except Exception as e:
        print(f"❌ PDF 변환 오류: {pdf_path} - {e}")

def process_single_pdf(pdf_path, txt_folder_path):
    """개별 PDF 파일을 처리"""
    txt_file_name = os.path.splitext(os.path.basename(pdf_path))[0] + ".txt"
    txt_path = os.path.join(txt_folder_path, txt_file_name)
    
    start_time = time.time()
    pdf_to_txt_with_pdfplumber(pdf_path, txt_path)
    end_time = time.time()

    print(f"✅ 변환 완료: {txt_path} (소요 시간: {end_time - start_time:.2f}초)")

def process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=4, max_files=5):
    """PDF 폴더 내 모든 파일을 병렬 처리"""
    os.makedirs(txt_folder_path, exist_ok=True)

    pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]
    pdf_files = pdf_files[:max_files]  # 테스트용 파일 개수 제한

    if not pdf_files:
        print("⚠️ 변환할 PDF 파일이 없습니다!")
        return

    print(f"📝 총 {len(pdf_files)}개의 PDF 변환을 시작합니다...")

    # 병렬 처리 실행 (적절한 workers 값 설정)
    with multiprocessing.Pool(processes=num_workers) as pool:
        pool.starmap(process_single_pdf, [(pdf, txt_folder_path) for pdf in pdf_files])

    print(f"✅ 변환 완료! (저장 폴더: {txt_folder_path})")

# **경로 설정**
pdf_folder_path = './naver_reports_pdf'  # PDF 파일이 저장된 폴더
txt_folder_path = './txt_files'  # 변환된 TXT 파일을 저장할 폴더

# 실행 (5개 파일 테스트, num_workers 최적화)
process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=2, max_files=5)


📝 총 5개의 PDF 변환을 시작합니다...


In [2]:
!pip install pytesseract pdf2image


Collecting pytesseract
  Downloading pytesseract-0.3.13-py3-none-any.whl.metadata (11 kB)
Collecting pdf2image
  Downloading pdf2image-1.17.0-py3-none-any.whl.metadata (6.2 kB)
Downloading pytesseract-0.3.13-py3-none-any.whl (14 kB)
Downloading pdf2image-1.17.0-py3-none-any.whl (11 kB)
Installing collected packages: pytesseract, pdf2image
Successfully installed pdf2image-1.17.0 pytesseract-0.3.13


In [3]:
import pdfplumber
import pytesseract
from pdf2image import convert_from_path
import os
import time
from concurrent.futures import ThreadPoolExecutor

# OCR을 위한 Tesseract 설치 경로 설정 (Windows 사용 시 필요)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"  # 실제 설치 경로 입력

def pdf_to_txt(pdf_path, txt_path):
    """PDF를 텍스트로 변환 (텍스트 PDF + OCR 지원)"""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = "\n".join([page.extract_text() or "" for page in pdf.pages if page.extract_text()])

        # 🔥 OCR 적용: PDF가 텍스트를 포함하지 않는 경우 OCR 사용
        if not text.strip():
            print(f"⚠️ {pdf_path}는 이미지 PDF일 가능성이 높음 → OCR 실행")
            text = ocr_pdf(pdf_path)

        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            txt_file.write(text)

    except Exception as e:
        print(f"❌ PDF 변환 오류: {pdf_path} - {e}")

def ocr_pdf(pdf_path):
    """OCR을 사용하여 이미지 PDF에서 텍스트 추출"""
    try:
        images = convert_from_path(pdf_path)
        text = "\n".join([pytesseract.image_to_string(img, lang='kor+eng') for img in images])
        return text
    except Exception as e:
        print(f"❌ OCR 변환 오류: {pdf_path} - {e}")
        return ""

def process_single_pdf(pdf_path, txt_folder_path):
    """PDF 하나를 변환하는 함수"""
    txt_file_name = os.path.splitext(os.path.basename(pdf_path))[0] + ".txt"
    txt_path = os.path.join(txt_folder_path, txt_file_name)

    start_time = time.time()
    pdf_to_txt(pdf_path, txt_path)
    end_time = time.time()

    print(f"✅ 변환 완료: {txt_path} (소요 시간: {end_time - start_time:.2f}초)")

def process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=4, max_files=5):
    """PDF 폴더 내 모든 파일을 병렬 처리 (멀티쓰레딩 사용)"""
    os.makedirs(txt_folder_path, exist_ok=True)

    pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]
    pdf_files = pdf_files[:max_files]  # 테스트용 파일 개수 제한

    if not pdf_files:
        print("⚠️ 변환할 PDF 파일이 없습니다!")
        return

    print(f"📝 총 {len(pdf_files)}개의 PDF 변환을 시작합니다...")

    # 🔥 멀티쓰레딩 적용 (속도 최적화)
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        executor.map(lambda pdf: process_single_pdf(pdf, txt_folder_path), pdf_files)

    print(f"✅ 변환 완료! (저장 폴더: {txt_folder_path})")

# **경로 설정**
pdf_folder_path = './naver_reports_pdf'  # PDF 파일이 저장된 폴더
txt_folder_path = './txt_files'  # 변환된 TXT 파일을 저장할 폴더

# 실행 (5개 파일 테스트, num_workers 최적화)
process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=4, max_files=5)


📝 총 5개의 PDF 변환을 시작합니다...
✅ 변환 완료: ./txt_files\080407_대우증권_1.txt (소요 시간: 9.15초)
✅ 변환 완료: ./txt_files\080407_대우증권_2.txt (소요 시간: 9.99초)
✅ 변환 완료: ./txt_files\080414_대우증권_1.txt (소요 시간: 13.01초)
✅ 변환 완료: ./txt_files\080421_대우증권_1.txt (소요 시간: 29.90초)
✅ 변환 완료: ./txt_files\080401_대우증권_1.txt (소요 시간: 62.89초)
✅ 변환 완료! (저장 폴더: ./txt_files)


In [None]:
import pdfplumber
import pytesseract
from pdf2image import convert_from_path
import os
import time
from concurrent.futures import ThreadPoolExecutor

# OCR을 위한 Tesseract 경로 설정 (Windows 사용 시 필요)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"  # 실제 설치 경로 입력

def pdf_to_txt(pdf_path, txt_path):
    """PDF를 텍스트로 변환 (OCR 포함)"""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = "\n".join([page.extract_text() or "" for page in pdf.pages if page.extract_text()])

        # OCR 적용: 텍스트가 없으면 OCR 실행
        if not text.strip():
            print(f" {pdf_path}는 이미지 PDF일 가능성이 높음 → OCR 실행")
            text = ocr_pdf(pdf_path)

        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            txt_file.write(text)

    except Exception as e:
        print(f" PDF 변환 오류: {pdf_path} - {e}")

def ocr_pdf(pdf_path):
    """OCR을 사용하여 이미지 PDF에서 텍스트 추출"""
    try:
        images = convert_from_path(pdf_path)
        text = "\n".join([pytesseract.image_to_string(img, lang='kor+eng', config='--psm 3 --oem 1') for img in images])
        return text
    except Exception as e:
        print(f" OCR 변환 오류: {pdf_path} - {e}")
        return ""

def process_single_pdf(pdf_path, txt_folder_path):
    """PDF 하나를 변환하는 함수"""
    txt_file_name = os.path.splitext(os.path.basename(pdf_path))[0] + ".txt"
    txt_path = os.path.join(txt_folder_path, txt_file_name)

    start_time = time.time()
    pdf_to_txt(pdf_path, txt_path)
    end_time = time.time()

    print(f"변환 완료: {txt_path} (소요 시간: {end_time - start_time:.2f}초)")

def process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=8, max_files=8000):
    """PDF 폴더 내 모든 파일을 병렬 처리 (최대 8000개)"""
    os.makedirs(txt_folder_path, exist_ok=True)

    pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]
    pdf_files = pdf_files[:max_files]  # 최대 8000개 파일 변환

    if not pdf_files:
        print(" 변환할 PDF 파일이 없습니다!")
        return

    print(f"총 {len(pdf_files)}개의 PDF 변환을 시작합니다...")

    # 멀티쓰레딩 적용 (속도 최적화)
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        executor.map(lambda pdf: process_single_pdf(pdf, txt_folder_path), pdf_files)

    print(f" 변환 완료! (저장 폴더: {txt_folder_path})")

# **경로 설정**
pdf_folder_path = './naver_reports_pdf'  # PDF 파일이 저장된 폴더
txt_folder_path = './txt_files'  # 변환된 TXT 파일을 저장할 폴더

# 전체 실행 (최대 8000개 변환)
process_pdf_folder(pdf_folder_path, txt_folder_path, num_workers=8, max_files=8000)


총 8000개의 PDF 변환을 시작합니다...
변환 완료: ./txt_files\080407_대우증권_1.txt (소요 시간: 15.14초)
변환 완료: ./txt_files\080407_대우증권_2.txt (소요 시간: 19.89초)
변환 완료: ./txt_files\080414_대우증권_1.txt (소요 시간: 29.14초)
변환 완료: ./txt_files\080519_대우증권_1.txt (소요 시간: 26.24초)
변환 완료: ./txt_files\080520_대우증권_1.txt (소요 시간: 33.56초)
변환 완료: ./txt_files\080521_대우증권_1.txt (소요 시간: 27.64초)
변환 완료: ./txt_files\080428_대우증권_1.txt (소요 시간: 68.24초)
변환 완료: ./txt_files\080522_대우증권_1.txt (소요 시간: 32.46초)
변환 완료: ./txt_files\080513_대우증권_1.txt (소요 시간: 77.22초)
변환 완료: ./txt_files\080523_대우증권_1.txt (소요 시간: 25.25초)
변환 완료: ./txt_files\080526_대우증권_1.txt (소요 시간: 28.48초)
변환 완료: ./txt_files\080527_대우증권_1.txt (소요 시간: 22.69초)
변환 완료: ./txt_files\080421_대우증권_1.txt (소요 시간: 100.09초)
변환 완료: ./txt_files\080529_대우증권_1.txt (소요 시간: 26.75초)
변환 완료: ./txt_files\080528_대우증권_1.txt (소요 시간: 27.76초)
변환 완료: ./txt_files\080530_대우증권_1.txt (소요 시간: 28.51초)
변환 완료: ./txt_files\080602_대우증권_1.txt (소요 시간: 27.93초)
변환 완료: ./txt_files\080603_대우증권_1.txt (소요 시간: 31.28초)
변환 완료: ./txt_files\

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\170329_하나증권_1.txt (소요 시간: 39.77초)
변환 완료: ./txt_files\170327_케이프투자증권_1.txt (소요 시간: 93.65초)
 PDF 변환 오류: ./naver_reports_pdf\170227_이베스트투자증권_1.pdf - bytes must be in range(0, 256)
변환 완료: ./txt_files\170227_이베스트투자증권_1.txt (소요 시간: 350.62초)


Data-loss while decompressing corrupted data


 PDF 변환 오류: ./naver_reports_pdf\170320_이베스트투자증권_1.pdf - can't concat float to bytes
변환 완료: ./txt_files\170320_이베스트투자증권_1.txt (소요 시간: 141.17초)
변환 완료: ./txt_files\170406_미래에셋증권_1.txt (소요 시간: 72.73초)
변환 완료: ./txt_files\170405_하나증권_1.txt (소요 시간: 80.49초)
변환 완료: ./txt_files\170407_이베스트투자증권_1.txt (소요 시간: 89.49초)
변환 완료: ./txt_files\170403_현대차증권_1.txt (소요 시간: 109.63초)
변환 완료: ./txt_files\170327_현대차증권_2.txt (소요 시간: 141.94초)
변환 완료: ./txt_files\170403_현대차증권_2.txt (소요 시간: 131.98초)
변환 완료: ./txt_files\170414_미래에셋증권_2.txt (소요 시간: 31.96초)
변환 완료: ./txt_files\170410_현대차증권_1.txt (소요 시간: 67.86초)
변환 완료: ./txt_files\170414_케이프투자증권_1.txt (소요 시간: 38.50초)
변환 완료: ./txt_files\170403_이베스트투자증권_1.txt (소요 시간: 196.63초)
변환 완료: ./txt_files\170414_미래에셋증권_3.txt (소요 시간: 48.89초)
변환 완료: ./txt_files\170410_키움증권_1.txt (소요 시간: 104.58초)
변환 완료: ./txt_files\170407_하나증권_1.txt (소요 시간: 207.14초)
변환 완료: ./txt_files\170417_IBK투자증권_1.txt (소요 시간: 47.28초)
변환 완료: ./txt_files\170414_미래에셋증권_1.txt (소요 시간: 167.35초)
변환 완료: ./txt_files\170417_현대차증

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\170508_미래에셋증권_1.txt (소요 시간: 61.10초)
변환 완료: ./txt_files\170428_미래에셋증권_1.txt (소요 시간: 137.05초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\170512_이베스트투자증권_1.txt (소요 시간: 37.67초)
변환 완료: ./txt_files\170425_이베스트투자증권_1.txt (소요 시간: 231.08초)
변환 완료: ./txt_files\170508_키움증권_1.txt (소요 시간: 107.99초)
변환 완료: ./txt_files\170511_미래에셋증권_1.txt (소요 시간: 79.66초)
변환 완료: ./txt_files\170511_하나증권_1.txt (소요 시간: 67.44초)
변환 완료: ./txt_files\170508_미래에셋증권_2.txt (소요 시간: 145.36초)
변환 완료: ./txt_files\170515_미래에셋증권_1.txt (소요 시간: 73.85초)
변환 완료: ./txt_files\170510_하나증권_1.txt (소요 시간: 144.95초)
변환 완료: ./txt_files\170519_이베스트투자증권_1.txt (소요 시간: 77.79초)
변환 완료: ./txt_files\170517_미래에셋증권_2.txt (소요 시간: 104.77초)
변환 완료: ./txt_files\170515_현대차증권_1.txt (소요 시간: 144.75초)
변환 완료: ./txt_files\170516_하나증권_1.txt (소요 시간: 160.38초)
변환 완료: ./txt_files\170519_케이프투자증권_1.txt (소요 시간: 104.78초)
변환 완료: ./txt_files\170522_미래에셋증권_1.txt (소요 시간: 61.82초)
변환 완료: ./txt_files\170519_하나증권_1.txt (소요 시간: 68.83초)
변환 완료: ./txt_files\170515_이베스트투자증권_1.txt (소요 시간: 241.09초)
변환 완료: ./txt_files\170524_하나증권_1.txt (소요 시간: 66.69초)
변환 완료: ./txt_files\170424_현대차증권_2.txt (소요 시간: 535.15초)
변환 완료

Data-loss while decompressing corrupted data


 PDF 변환 오류: ./naver_reports_pdf\170623_미래에셋증권_1.pdf - cannot convert 'PSKeyword' object to bytearray
변환 완료: ./txt_files\170623_미래에셋증권_1.txt (소요 시간: 148.99초)
변환 완료: ./txt_files\170529_하나증권_1.txt (소요 시간: 837.39초)
변환 완료: ./txt_files\170615_현대차증권_1.txt (소요 시간: 354.64초)
변환 완료: ./txt_files\170626_현대차증권_1.txt (소요 시간: 55.70초)
변환 완료: ./txt_files\170622_미래에셋증권_1.txt (소요 시간: 219.18초)
변환 완료: ./txt_files\170626_현대차증권_2.txt (소요 시간: 63.84초)
변환 완료: ./txt_files\170703_하나증권_1.txt (소요 시간: 58.49초)
변환 완료: ./txt_files\170626_키움증권_1.txt (소요 시간: 119.36초)
변환 완료: ./txt_files\170629_하나증권_1.txt (소요 시간: 78.51초)
변환 완료: ./txt_files\170629_IBK투자증권_1.txt (소요 시간: 129.27초)
변환 완료: ./txt_files\170703_현대차증권_1.txt (소요 시간: 93.96초)
변환 완료: ./txt_files\170703_키움증권_1.txt (소요 시간: 106.61초)
변환 완료: ./txt_files\170705_미래에셋증권_1.txt (소요 시간: 51.18초)
변환 완료: ./txt_files\170703_이베스트투자증권_1.txt (소요 시간: 164.08초)
변환 완료: ./txt_files\170710_이베스트증권_1.txt (소요 시간: 61.59초)
변환 완료: ./txt_files\170710_미래에셋증권_1.txt (소요 시간: 73.19초)
변환 완료: ./txt_files\170

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\170724_현대차증권_1.txt (소요 시간: 306.00초)
변환 완료: ./txt_files\170731_현대차증권_2.txt (소요 시간: 164.72초)
변환 완료: ./txt_files\170804_현대차증권_1.txt (소요 시간: 143.87초)
변환 완료: ./txt_files\170811_현대차증권_1.txt (소요 시간: 119.42초)
변환 완료: ./txt_files\170814_키움증권_1.txt (소요 시간: 89.60초)
변환 완료: ./txt_files\170807_이베스트증권_1.txt (소요 시간: 221.75초)
변환 완료: ./txt_files\170808_하나증권_1.txt (소요 시간: 148.76초)
변환 완료: ./txt_files\170814_미래에셋증권_1.txt (소요 시간: 129.30초)
변환 완료: ./txt_files\170818_현대차증권_1.txt (소요 시간: 80.55초)
변환 완료: ./txt_files\170821_미래에셋증권_1.txt (소요 시간: 70.93초)
변환 완료: ./txt_files\170809_미래에셋증권_1.txt (소요 시간: 233.31초)
변환 완료: ./txt_files\170818_미래에셋증권_1.txt (소요 시간: 93.12초)
변환 완료: ./txt_files\170816_이베스트증권_1.txt (소요 시간: 103.00초)
변환 완료: ./txt_files\170821_현대차증권_1.txt (소요 시간: 22.50초)
변환 완료: ./txt_files\170821_키움증권_1.txt (소요 시간: 62.39초)
변환 완료: ./txt_files\170822_하나증권_1.txt (소요 시간: 82.61초)
변환 완료: ./txt_files\170821_이베스트증권_1.txt (소요 시간: 105.36초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\170828_미래에셋증권_1.txt (소요 시간: 46.90초)
변환 완료: ./txt_files\170828_이베스트증권_1.txt (소요 시간: 71.80초)
변환 완료: ./txt_files\170828_현대차증권_1.txt (소요 시간: 55.33초)
변환 완료: ./txt_files\170825_미래에셋증권_1.txt (소요 시간: 150.28초)


Data-loss while decompressing corrupted data


 PDF 변환 오류: ./naver_reports_pdf\170814_이베스트증권_1.pdf - bytes must be in range(0, 256)
변환 완료: ./txt_files\170814_이베스트증권_1.txt (소요 시간: 398.89초)
변환 완료: ./txt_files\170828_이베스트증권_2.txt (소요 시간: 139.60초)
변환 완료: ./txt_files\170829_미래에셋증권_1.txt (소요 시간: 75.49초)
변환 완료: ./txt_files\170828_현대차증권_2.txt (소요 시간: 97.20초)
변환 완료: ./txt_files\170901_미래에셋증권_1.txt (소요 시간: 22.99초)
변환 완료: ./txt_files\170901_이베스트증권_1.txt (소요 시간: 21.41초)
변환 완료: ./txt_files\170901_현대차증권_1.txt (소요 시간: 11.85초)
변환 완료: ./txt_files\170904_키움증권_1.txt (소요 시간: 34.10초)
변환 완료: ./txt_files\170809_하나증권_1.txt (소요 시간: 516.70초)
변환 완료: ./txt_files\170908_이베스트증권_1.txt (소요 시간: 26.11초)
변환 완료: ./txt_files\170816_하나증권_1.txt (소요 시간: 419.21초)
변환 완료: ./txt_files\170904_현대차증권_1.txt (소요 시간: 76.72초)
변환 완료: ./txt_files\170907_미래에셋증권_1.txt (소요 시간: 61.16초)
변환 완료: ./txt_files\170905_하나증권_1.txt (소요 시간: 116.90초)
변환 완료: ./txt_files\170911_IBK투자증권_1.txt (소요 시간: 49.12초)
변환 완료: ./txt_files\170911_미래에셋증권_1.txt (소요 시간: 59.06초)
변환 완료: ./txt_files\170908_하나증권_1.txt (소요

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\171113_키움증권_1.txt (소요 시간: 32.57초)
변환 완료: ./txt_files\171114_교보증권_1.txt (소요 시간: 29.47초)
변환 완료: ./txt_files\171013_미래에셋증권_1.txt (소요 시간: 775.10초)
변환 완료: ./txt_files\171106_현대차증권_1.txt (소요 시간: 177.66초)
변환 완료: ./txt_files\171110_미래에셋증권_1.txt (소요 시간: 112.98초)
변환 완료: ./txt_files\171114_미래에셋증권_1.txt (소요 시간: 83.57초)
변환 완료: ./txt_files\171114_하나증권_3.txt (소요 시간: 62.85초)
변환 완료: ./txt_files\171115_교보증권_1.txt (소요 시간: 32.39초)
변환 완료: ./txt_files\171116_교보증권_1.txt (소요 시간: 32.84초)
변환 완료: ./txt_files\171117_교보증권_1.txt (소요 시간: 39.37초)
변환 완료: ./txt_files\171117_미래에셋증권_1.txt (소요 시간: 114.62초)
변환 완료: ./txt_files\171114_하나증권_2.txt (소요 시간: 231.35초)
변환 완료: ./txt_files\171120_교보증권_1.txt (소요 시간: 45.19초)
변환 완료: ./txt_files\171114_하나증권_1.txt (소요 시간: 246.62초)
변환 완료: ./txt_files\171114_현대차증권_1.txt (소요 시간: 256.61초)
변환 완료: ./txt_files\171121_교보증권_2.txt (소요 시간: 43.74초)
변환 완료: ./txt_files\171122_교보증권_1.txt (소요 시간: 52.67초)
변환 완료: ./txt_files\171122_미래에셋증권_2.txt (소요 시간: 26.14초)
변환 완료: ./txt_files\171127_교

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\171227_하나증권_1.txt (소요 시간: 255.37초)
변환 완료: ./txt_files\180104_하나증권_1.txt (소요 시간: 219.13초)
변환 완료: ./txt_files\171120_IBK투자증권_1.txt (소요 시간: 973.20초)
변환 완료: ./txt_files\180110_하나증권_1.txt (소요 시간: 123.51초)
변환 완료: ./txt_files\180112_하나증권_1.txt (소요 시간: 68.47초)
변환 완료: ./txt_files\171206_미래에셋증권_1.txt (소요 시간: 557.28초)
변환 완료: ./txt_files\180115_IBK투자증권_1.txt (소요 시간: 83.84초)
변환 완료: ./txt_files\180115_현대차증권_2.txt (소요 시간: 47.71초)
변환 완료: ./txt_files\180119_미래에셋증권_1.txt (소요 시간: 19.92초)
변환 완료: ./txt_files\180122_현대차증권_1.txt (소요 시간: 61.17초)
변환 완료: ./txt_files\180115_현대차증권_1.txt (소요 시간: 145.77초)
변환 완료: ./txt_files\180112_미래에셋증권_1.txt (소요 시간: 196.39초)
변환 완료: ./txt_files\180115_이베스트증권_1.txt (소요 시간: 187.39초)
변환 완료: ./txt_files\180117_하나증권_2.txt (소요 시간: 135.98초)
변환 완료: ./txt_files\180124_이베스트증권_1.txt (소요 시간: 31.00초)
변환 완료: ./txt_files\180124_미래에셋증권_1.txt (소요 시간: 70.82초)
변환 완료: ./txt_files\180123_하나증권_1.txt (소요 시간: 130.39초)
변환 완료: ./txt_files\180124_하나증권_2.txt (소요 시간: 77.41초)
변환 완료: ./txt_fi

Data-loss while decompressing corrupted data


 PDF 변환 오류: ./naver_reports_pdf\180427_미래에셋증권_1.pdf - bytes must be in range(0, 256)
변환 완료: ./txt_files\180427_미래에셋증권_1.txt (소요 시간: 249.42초)
변환 완료: ./txt_files\180425_하나증권_1.txt (소요 시간: 353.53초)
변환 완료: ./txt_files\180514_교보증권_1.txt (소요 시간: 51.23초)
변환 완료: ./txt_files\180425_하나증권_2.txt (소요 시간: 361.40초)
변환 완료: ./txt_files\180508_이베스트증권_1.txt (소요 시간: 129.54초)
변환 완료: ./txt_files\180509_하나증권_1.txt (소요 시간: 140.31초)
변환 완료: ./txt_files\180511_미래에셋증권_1.txt (소요 시간: 96.70초)
변환 완료: ./txt_files\180514_현대차증권_1.txt (소요 시간: 84.12초)
변환 완료: ./txt_files\180430_현대차증권_1.txt (소요 시간: 361.65초)
변환 완료: ./txt_files\180515_미래에셋증권_1.txt (소요 시간: 112.88초)
변환 완료: ./txt_files\180521_미래에셋증권_1.txt (소요 시간: 38.47초)
변환 완료: ./txt_files\180518_하나증권_1.txt (소요 시간: 95.94초)
변환 완료: ./txt_files\180516_하나증권_1.txt (소요 시간: 168.82초)
변환 완료: ./txt_files\180514_이베스트증권_1.txt (소요 시간: 195.45초)
변환 완료: ./txt_files\180521_한국투자증권_1.txt (소요 시간: 62.32초)
변환 완료: ./txt_files\180525_이베스트증권_1.txt (소요 시간: 28.02초)
변환 완료: ./txt_files\180521_이베스트증권_1.txt (

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\180601_미래에셋증권_1.txt (소요 시간: 92.46초)
변환 완료: ./txt_files\180528_현대차증권_1.txt (소요 시간: 268.70초)
변환 완료: ./txt_files\180531_현대차증권_1.txt (소요 시간: 189.57초)
변환 완료: ./txt_files\180604_IBK투자증권_1.txt (소요 시간: 58.49초)
변환 완료: ./txt_files\180605_현대차증권_1.txt (소요 시간: 50.59초)
변환 완료: ./txt_files\180604_미래에셋증권_1.txt (소요 시간: 82.41초)
변환 완료: ./txt_files\180530_하나증권_2.txt (소요 시간: 279.74초)
변환 완료: ./txt_files\180614_교보증권_1.txt (소요 시간: 32.04초)
변환 완료: ./txt_files\180611_하나증권_1.txt (소요 시간: 67.75초)
변환 완료: ./txt_files\180614_미래에셋증권_1.txt (소요 시간: 33.54초)
변환 완료: ./txt_files\180611_현대차증권_1.txt (소요 시간: 71.90초)
변환 완료: ./txt_files\180615_이베스트증권_1.txt (소요 시간: 18.86초)
변환 완료: ./txt_files\180614_이베스트증권_1.txt (소요 시간: 32.59초)
변환 완료: ./txt_files\180605_교보증권_1.txt (소요 시간: 164.27초)
변환 완료: ./txt_files\180615_미래에셋증권_1.txt (소요 시간: 85.18초)
변환 완료: ./txt_files\180618_현대차증권_1.txt (소요 시간: 82.75초)
변환 완료: ./txt_files\180608_미래에셋증권_1.txt (소요 시간: 237.88초)
변환 완료: ./txt_files\180620_하나증권_3.txt (소요 시간: 113.11초)
변환 완료: ./txt_files

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\180626_교보증권_1.txt (소요 시간: 271.66초)
변환 완료: ./txt_files\180411_하나증권_2.txt (소요 시간: 1772.14초)
변환 완료: ./txt_files\180627_현대차증권_1.txt (소요 시간: 236.04초)
변환 완료: ./txt_files\180711_이베스트증권_1.txt (소요 시간: 41.62초)
변환 완료: ./txt_files\180706_미래에셋증권_1.txt (소요 시간: 108.40초)
변환 완료: ./txt_files\180627_하나증권_2.txt (소요 시간: 340.65초)
변환 완료: ./txt_files\180712_하나증권_1.txt (소요 시간: 72.11초)
변환 완료: ./txt_files\180713_교보증권_1.txt (소요 시간: 44.22초)
변환 완료: ./txt_files\180711_하나증권_1.txt (소요 시간: 121.78초)


Data-loss while decompressing corrupted data


 PDF 변환 오류: ./naver_reports_pdf\180713_미래에셋증권_1.pdf - unsupported operand type(s) for +: 'float' and 'bytes'
변환 완료: ./txt_files\180713_미래에셋증권_1.txt (소요 시간: 76.92초)
변환 완료: ./txt_files\180713_하나증권_1.txt (소요 시간: 60.83초)
변환 완료: ./txt_files\180713_현대차증권_1.txt (소요 시간: 62.84초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\180718_하나증권_1.txt (소요 시간: 136.35초)
변환 완료: ./txt_files\180704_하나증권_2.txt (소요 시간: 336.61초)
변환 완료: ./txt_files\180720_미래에셋증권_1.txt (소요 시간: 124.43초)
변환 완료: ./txt_files\180723_현대차증권_1.txt (소요 시간: 72.42초)
변환 완료: ./txt_files\180711_하나증권_2.txt (소요 시간: 318.06초)
변환 완료: ./txt_files\180726_하나증권_1.txt (소요 시간: 68.40초)
변환 완료: ./txt_files\180727_미래에셋증권_1.txt (소요 시간: 82.64초)
변환 완료: ./txt_files\180718_하나증권_2.txt (소요 시간: 236.77초)
변환 완료: ./txt_files\180801_현대차증권_1.txt (소요 시간: 28.64초)
변환 완료: ./txt_files\180730_현대차증권_1.txt (소요 시간: 65.03초)
변환 완료: ./txt_files\180803_미래에셋증권_2.txt (소요 시간: 48.39초)
변환 완료: ./txt_files\180803_미래에셋증권_1.txt (소요 시간: 69.19초)
변환 완료: ./txt_files\180730_미래에셋증권_1.txt (소요 시간: 154.30초)
변환 완료: ./txt_files\180806_IBK투자증권_1.txt (소요 시간: 49.03초)
변환 완료: ./txt_files\180601_하나증권_1.txt (소요 시간: 1270.15초)
변환 완료: ./txt_files\180810_미래에셋증권_1.txt (소요 시간: 94.83초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\180719_하나증권_1.txt (소요 시간: 505.69초)
변환 완료: ./txt_files\180801_하나증권_1.txt (소요 시간: 329.34초)
변환 완료: ./txt_files\180813_현대차증권_1.txt (소요 시간: 77.06초)
변환 완료: ./txt_files\180808_하나증권_2.txt (소요 시간: 186.62초)
변환 완료: ./txt_files\180808_하나증권_1.txt (소요 시간: 225.73초)
변환 완료: ./txt_files\180817_미래에셋증권_1.txt (소요 시간: 107.02초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\180802_하나증권_1.txt (소요 시간: 361.84초)
변환 완료: ./txt_files\180704_하나증권_1.txt (소요 시간: 927.08초)변환 완료: ./txt_files\180824_미래에셋증권_2.txt (소요 시간: 46.32초)

변환 완료: ./txt_files\180820_현대차증권_1.txt (소요 시간: 85.31초)
변환 완료: ./txt_files\180824_미래에셋증권_1.txt (소요 시간: 117.09초)
변환 완료: ./txt_files\180822_하나증권_1.txt (소요 시간: 174.44초)
변환 완료: ./txt_files\180824_하나증권_1.txt (소요 시간: 122.33초)
변환 완료: ./txt_files\180829_하나증권_1.txt (소요 시간: 122.98초)
변환 완료: ./txt_files\180817_하나증권_1.txt (소요 시간: 217.05초)
변환 완료: ./txt_files\180827_현대차증권_1.txt (소요 시간: 159.40초)
변환 완료: ./txt_files\180907_미래에셋증권_1.txt (소요 시간: 118.11초)
변환 완료: ./txt_files\180913_하나증권_1.txt (소요 시간: 73.56초)
변환 완료: ./txt_files\180912_하나증권_2.txt (소요 시간: 101.54초)
변환 완료: ./txt_files\180914_미래에셋증권_1.txt (소요 시간: 117.34초)
변환 완료: ./txt_files\180914_현대차증권_1.txt (소요 시간: 85.52초)
변환 완료: ./txt_files\180822_하나증권_2.txt (소요 시간: 367.52초)
변환 완료: ./txt_files\180920_하나증권_1.txt (소요 시간: 86.21초)
변환 완료: ./txt_files\180919_하나증권_1.txt (소요 시간: 155.61초)
변환 완료: ./txt_files\180

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\181130_미래에셋증권_1.txt (소요 시간: 107.09초)
변환 완료: ./txt_files\181126_현대차증권_1.txt (소요 시간: 194.79초)
변환 완료: ./txt_files\181203_현대차증권_1.txt (소요 시간: 102.56초)
변환 완료: ./txt_files\181207_하나증권_1.txt (소요 시간: 105.15초)
변환 완료: ./txt_files\181207_미래에셋증권_1.txt (소요 시간: 124.27초)
변환 완료: ./txt_files\181205_하나증권_1.txt (소요 시간: 206.17초)
변환 완료: ./txt_files\181127_미래에셋증권_1.txt (소요 시간: 326.70초)
변환 완료: ./txt_files\181109_하나증권_1.txt (소요 시간: 422.67초)
변환 완료: ./txt_files\181205_하나증권_2.txt (소요 시간: 215.75초)
변환 완료: ./txt_files\181207_하나증권_2.txt (소요 시간: 159.07초)
변환 완료: ./txt_files\181219_하나증권_1.txt (소요 시간: 61.15초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\181228_하나증권_1.txt (소요 시간: 73.52초)
변환 완료: ./txt_files\181212_하나증권_1.txt (소요 시간: 170.71초)
변환 완료: ./txt_files\181214_미래에셋증권_1.txt (소요 시간: 136.55초)
변환 완료: ./txt_files\181221_하나증권_1.txt (소요 시간: 115.66초)
변환 완료: ./txt_files\181212_하나증권_2.txt (소요 시간: 190.25초)
변환 완료: ./txt_files\181224_현대차증권_1.txt (소요 시간: 126.47초)
변환 완료: ./txt_files\190107_미래에셋증권_1.txt (소요 시간: 14.71초)
변환 완료: ./txt_files\190108_IBK투자증권_1.txt (소요 시간: 50.50초)
변환 완료: ./txt_files\190102_현대차증권_1.txt (소요 시간: 128.74초)
변환 완료: ./txt_files\190104_미래에셋증권_1.txt (소요 시간: 131.88초)
변환 완료: ./txt_files\190102_하나증권_1.txt (소요 시간: 201.19초)
변환 완료: ./txt_files\190104_하나증권_1.txt (소요 시간: 142.29초)
변환 완료: ./txt_files\190109_하나증권_2.txt (소요 시간: 86.26초)
변환 완료: ./txt_files\190114_현대차증권_1.txt (소요 시간: 74.04초)
변환 완료: ./txt_files\190109_하나증권_1.txt (소요 시간: 214.68초)
변환 완료: ./txt_files\190118_미래에셋증권_1.txt (소요 시간: 122.29초)
변환 완료: ./txt_files\190114_미래에셋증권_1.txt (소요 시간: 135.63초)
변환 완료: ./txt_files\190103_미래에셋증권_1.txt (소요 시간: 303.26초)
변환 완료: ./txt_fi

Data-loss while decompressing corrupted data


변환 완료: ./txt_files\190304_미래에셋증권_2.txt (소요 시간: 134.33초)
변환 완료: ./txt_files\190220_하나증권_1.txt (소요 시간: 312.21초)
변환 완료: ./txt_files\190308_미래에셋증권_1.txt (소요 시간: 131.29초)
변환 완료: ./txt_files\190325_미래에셋증권_1.txt (소요 시간: 25.28초)
변환 완료: ./txt_files\190315_미래에셋증권_1.txt (소요 시간: 135.22초)
변환 완료: ./txt_files\190318_하나증권_1.txt (소요 시간: 94.83초)
변환 완료: ./txt_files\190322_하나증권_1.txt (소요 시간: 89.04초)
변환 완료: ./txt_files\190409_미래에셋증권_1.txt (소요 시간: 16.38초)


Data-loss while decompressing corrupted data


변환 완료: ./txt_files\190322_미래에셋증권_1.txt (소요 시간: 154.86초)
변환 완료: ./txt_files\190313_하나증권_1.txt (소요 시간: 255.91초)
변환 완료: ./txt_files\190329_미래에셋증권_1.txt (소요 시간: 116.20초)
변환 완료: ./txt_files\190405_미래에셋증권_1.txt (소요 시간: 105.34초)
변환 완료: ./txt_files\190422_미래에셋증권_1.txt (소요 시간: 20.48초)
변환 완료: ./txt_files\190412_미래에셋증권_1.txt (소요 시간: 114.08초)
변환 완료: ./txt_files\190419_하나증권_1.txt (소요 시간: 105.91초)
변환 완료: ./txt_files\190410_미래에셋증권_1.txt (소요 시간: 153.25초)
변환 완료: ./txt_files\190419_미래에셋증권_1.txt (소요 시간: 139.28초)
변환 완료: ./txt_files\190426_미래에셋증권_1.txt (소요 시간: 113.28초)
변환 완료: ./txt_files\190509_미래에셋증권_1.txt (소요 시간: 43.78초)
변환 완료: ./txt_files\190426_하나증권_1.txt (소요 시간: 98.74초)
변환 완료: ./txt_files\190514_하나증권_1.txt (소요 시간: 98.12초)
변환 완료: ./txt_files\190515_하나증권_2.txt (소요 시간: 99.87초)
변환 완료: ./txt_files\190305_하나증권_1.txt (소요 시간: 581.95초)
변환 완료: ./txt_files\190508_하나증권_1.txt (소요 시간: 240.63초)
변환 완료: ./txt_files\190524_하나증권_1.txt (소요 시간: 117.49초)
변환 완료: ./txt_files\190430_미래에셋증권_1.txt (소요 시간: 271.36초)
변환 완료: ./txt_

✅ 민정 담당 기간(2023.03.01~2023.08.31) 데이터 저장 완료! (파일: ./filtered_minjeong.txt)


In [None]:
import pdfplumber 
import pytesseract
from pdf2image import convert_from_path
import os
import time
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor

# OCR을 위한 Tesseract 경로 설정 (Windows 사용 시 필요)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"  # 실제 설치 경로 입력

def pdf_to_txt(pdf_path, txt_path):
    """PDF를 텍스트로 변환 (OCR 포함)"""
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = "\n".join([page.extract_text() or "" for page in pdf.pages if page.extract_text()])

        # OCR 적용: 텍스트가 없으면 OCR 실행
        if not text.strip():
            print(f" {pdf_path}는 이미지 PDF일 가능성이 높음 → OCR 실행")
            text = ocr_pdf(pdf_path)

        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            txt_file.write(text)

    except Exception as e:
        print(f" PDF 변환 오류: {pdf_path} - {e}")

def ocr_pdf(pdf_path):
    """OCR을 사용하여 이미지 PDF에서 텍스트 추출"""
    try:
        images = convert_from_path(pdf_path)
        text = "\n".join([pytesseract.image_to_string(img, lang='kor+eng', config='--psm 3 --oem 1') for img in images])
        return text
    except Exception as e:
        print(f" OCR 변환 오류: {pdf_path} - {e}")
        return ""

def process_single_pdf(pdf_path, txt_folder_path):
    """PDF 하나를 변환하는 함수"""
    txt_file_name = os.path.splitext(os.path.basename(pdf_path))[0] + ".txt"
    txt_path = os.path.join(txt_folder_path, txt_file_name)

    start_time = time.time()
    pdf_to_txt(pdf_path, txt_path)
    end_time = time.time()

    print(f"변환 완료: {txt_path} (소요 시간: {end_time - start_time:.2f}초)")

def filter_pdfs_by_date(pdf_folder_path, start_date, end_date):
    """지정된 날짜 범위 내의 PDF 파일만 필터링"""
    pdf_files = [os.path.join(pdf_folder_path, f) for f in os.listdir(pdf_folder_path) if f.endswith('.pdf')]

    # 파일명이 'YYMMDD_...' 형식이라고 가정하고 필터링
    filtered_files = []
    for pdf in pdf_files:
        try:
            file_name = os.path.basename(pdf)
            file_date_str = file_name[:6]  # 앞 6자리 추출 (YYMMDD)
            
            # 'YYMMDD'를 '20YYMMDD'로 변환
            file_date = datetime.strptime("20" + file_date_str, "%Y%m%d")

            if start_date <= file_date <= end_date:
                filtered_files.append(pdf)
        except ValueError:
            continue  # 날짜 형식이 맞지 않으면 건너뜀

    return filtered_files

def process_pdf_folder(pdf_folder_path, txt_folder_path, start_date, end_date, num_workers=8):
    """PDF 폴더 내에서 특정 기간의 파일을 병렬 처리"""
    os.makedirs(txt_folder_path, exist_ok=True)

    # 지정된 날짜 범위의 파일만 필터링
    pdf_files = filter_pdfs_by_date(pdf_folder_path, start_date, end_date)

    if not pdf_files:
        print(f" {start_date.strftime('%Y-%m-%d')} ~ {end_date.strftime('%Y-%m-%d')} 기간 내 변환할 PDF 파일이 없습니다!")
        return

    print(f"총 {len(pdf_files)}개의 PDF 변환을 시작합니다...")

    # 멀티쓰레딩 적용 (속도 최적화)
    with ThreadPoolExecutor(max_workers=num_workers) as executor:
        executor.map(lambda pdf: process_single_pdf(pdf, txt_folder_path), pdf_files)

    print(f" 변환 완료! (저장 폴더: {txt_folder_path})")

# **경로 설정**
pdf_folder_path = './naver_reports_pdf'  # PDF 파일이 저장된 폴더
txt_folder_path = './txt_files'  # 변환된 TXT 파일을 저장할 폴더

# **변환할 날짜 범위 설정 (담당자가 직접 수정)**
start_date = datetime(2023, 3, 1)  # 시작 날짜 (예: 2023년 7월 24일)
end_date = datetime(2024, 2, 29)   # 종료 날짜 (예: 2023년 7월 25일)

# 전체 실행 (기간 내 파일만 변환)
process_pdf_folder(pdf_folder_path, txt_folder_path, start_date, end_date, num_workers=8)



총 18개의 PDF 변환을 시작합니다...
변환 완료: ./txt_files\230724_키움증권_1.txt (소요 시간: 4.58초)
변환 완료: ./txt_files\230724_교보증권_1.txt (소요 시간: 6.93초)
변환 완료: ./txt_files\230724_유진투자증권_1.txt (소요 시간: 7.01초)
변환 완료: ./txt_files\230724_신한투자증권_1.txt (소요 시간: 7.34초)
변환 완료: ./txt_files\230724_다올투자증권_1.txt (소요 시간: 7.52초)
변환 완료: ./txt_files\230724_키움증권_3.txt (소요 시간: 8.04초)
변환 완료: ./txt_files\230724_유안타증권_1.txt (소요 시간: 8.38초)
변환 완료: ./txt_files\230724_키움증권_2.txt (소요 시간: 8.50초)
변환 완료: ./txt_files\230725_다올투자증권_1.txt (소요 시간: 5.92초)
변환 완료: ./txt_files\230725_신한투자증권_1.txt (소요 시간: 6.25초)
변환 완료: ./txt_files\230724_한화투자증권_1.txt (소요 시간: 10.51초)
변환 완료: ./txt_files\230725_교보증권_1.txt (소요 시간: 8.39초)
변환 완료: ./txt_files\230725_유진투자증권_1.txt (소요 시간: 7.21초)
변환 완료: ./txt_files\230725_유안타증권_1.txt (소요 시간: 8.31초)
변환 완료: ./txt_files\230725_키움증권_1.txt (소요 시간: 8.51초)
