In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:95% !important;}
div.cell.code_cell.rendered{width:100%;}
div.CodeMirror {font-family:Consolas; font-size:15pt;}
div.output {font-size:15pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:15pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:12pt;padding:5px;}
table.dataframe{font-size:15px;}
</style>
"""))

# <span style="color:red"> Step.2_PDF (심의사례집) 데이터 추출 </span>

In [2]:
import pdfplumber
import pandas as pd
import re
import os

def extract_fault_cases_pdf(pdf_path):
    print(f"📖 두 번째 PDF 처리 시작: {os.path.basename(pdf_path)}")
    
    extracted_data = []
    
    with pdfplumber.open(pdf_path) as pdf:
        for page_num, page in enumerate(pdf.pages):
            print(f"   📄 페이지 {page_num + 1} 처리 중...")
            
            tables = page.extract_tables()
            for table in tables:
                for row in table:
                    if row and len(row) >= 6:  # 표 구조를 기준으로 필터링
                        # 정제된 값 추출
                        code = extract_code(row[0])
                        name = clean_text(row[1])
                        base_ratio = clean_text(row[2])
                        mod_factor = clean_text(row[3])
                        final_ratio = clean_text(row[4])
                        case_number = clean_text(row[5])

                        if code or name:
                            extracted_data.append({
                                "source_pdf": "과실비율심의사례",
                                "page_number": page_num + 1,
                                "accident_code": code,
                                "accident_name": name,
                                "basic_fault_ratio": base_ratio,
                                "modification_factors": mod_factor,
                                "related_cases": case_number,
                                "video_link": "",
                                "raw_text": ' | '.join([clean_text(c) for c in row if c])
                            })
    
    print(f"✅ 두 번째 PDF 완료: 총 {len(extracted_data)}개 사례 추출")
    return extracted_data

def extract_code(text):
    """사고유형 코드 추출"""
    if not text:
        return ""
    match = re.search(r'([보차이pmPM]\d+)', text, re.IGNORECASE)
    return match.group(1).upper() if match else ""

def clean_text(text):
    """텍스트 전처리"""
    if not text:
        return ""
    return re.sub(r'\s+', ' ', text.strip())

def validate_and_save_data(data_list, filename):
    """데이터 검증 및 저장"""
    if not data_list:
        print("❌ 추출된 데이터가 없습니다.")
        return
    
    df = pd.DataFrame(data_list)
    df.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"💾 CSV 파일 저장 완료: {filename}")

# === 실행 ===
if __name__ == "__main__":
    pdf_path_2 = r"C:\project\2stProject_jun\jun\과실비율PDF\(최종)과실비율심의사례_(54MB).pdf"
    print("🚀 Step 2 심의사례 PDF 처리 시작")
    data_cases = extract_fault_cases_pdf(pdf_path_2)
    
    validate_and_save_data(data_cases, "temp_step2_cases_final.csv")


🚀 Step 2 심의사례 PDF 처리 시작
📖 두 번째 PDF 처리 시작: (최종)과실비율심의사례_(54MB).pdf
   📄 페이지 1 처리 중...
   📄 페이지 2 처리 중...
   📄 페이지 3 처리 중...
   📄 페이지 4 처리 중...
   📄 페이지 5 처리 중...
   📄 페이지 6 처리 중...
   📄 페이지 7 처리 중...
   📄 페이지 8 처리 중...
   📄 페이지 9 처리 중...
   📄 페이지 10 처리 중...
   📄 페이지 11 처리 중...
   📄 페이지 12 처리 중...
   📄 페이지 13 처리 중...
   📄 페이지 14 처리 중...
   📄 페이지 15 처리 중...
   📄 페이지 16 처리 중...
   📄 페이지 17 처리 중...
   📄 페이지 18 처리 중...
   📄 페이지 19 처리 중...
   📄 페이지 20 처리 중...
   📄 페이지 21 처리 중...
   📄 페이지 22 처리 중...
   📄 페이지 23 처리 중...
   📄 페이지 24 처리 중...
   📄 페이지 25 처리 중...
   📄 페이지 26 처리 중...
   📄 페이지 27 처리 중...
   📄 페이지 28 처리 중...
   📄 페이지 29 처리 중...
   📄 페이지 30 처리 중...
   📄 페이지 31 처리 중...
   📄 페이지 32 처리 중...
   📄 페이지 33 처리 중...
   📄 페이지 34 처리 중...
   📄 페이지 35 처리 중...
   📄 페이지 36 처리 중...
   📄 페이지 37 처리 중...
   📄 페이지 38 처리 중...
   📄 페이지 39 처리 중...
   📄 페이지 40 처리 중...
   📄 페이지 41 처리 중...
   📄 페이지 42 처리 중...
   📄 페이지 43 처리 중...
   📄 페이지 44 처리 중...
   📄 페이지 45 처리 중...
   📄 페이지 46 처리 중...
   📄 페이지 47 처리 중...
   

   📄 페이지 376 처리 중...
   📄 페이지 377 처리 중...
   📄 페이지 378 처리 중...
   📄 페이지 379 처리 중...
   📄 페이지 380 처리 중...
   📄 페이지 381 처리 중...
   📄 페이지 382 처리 중...
   📄 페이지 383 처리 중...
   📄 페이지 384 처리 중...
   📄 페이지 385 처리 중...
   📄 페이지 386 처리 중...
   📄 페이지 387 처리 중...
   📄 페이지 388 처리 중...
   📄 페이지 389 처리 중...
   📄 페이지 390 처리 중...
   📄 페이지 391 처리 중...
   📄 페이지 392 처리 중...
   📄 페이지 393 처리 중...
   📄 페이지 394 처리 중...
   📄 페이지 395 처리 중...
   📄 페이지 396 처리 중...
   📄 페이지 397 처리 중...
   📄 페이지 398 처리 중...
   📄 페이지 399 처리 중...
   📄 페이지 400 처리 중...
   📄 페이지 401 처리 중...
   📄 페이지 402 처리 중...
   📄 페이지 403 처리 중...
   📄 페이지 404 처리 중...
   📄 페이지 405 처리 중...
   📄 페이지 406 처리 중...
   📄 페이지 407 처리 중...
   📄 페이지 408 처리 중...
   📄 페이지 409 처리 중...
   📄 페이지 410 처리 중...
   📄 페이지 411 처리 중...
   📄 페이지 412 처리 중...
   📄 페이지 413 처리 중...
   📄 페이지 414 처리 중...
   📄 페이지 415 처리 중...
   📄 페이지 416 처리 중...
   📄 페이지 417 처리 중...
   📄 페이지 418 처리 중...
   📄 페이지 419 처리 중...
   📄 페이지 420 처리 중...
   📄 페이지 421 처리 중...
   📄 페이지 422 처리 중...
   📄 페이지 423 

# 1. 수정보완(EasyOCR)

In [1]:
import pdfplumber
import pandas as pd
import os
import easyocr
import numpy as np
from PIL import Image
import time
import re

class SimpleTextExtractor:
    def __init__(self, use_gpu=True):
        """
        단순한 텍스트 추출기 - 복잡한 필터링 없이 모든 텍스트 저장
        """
        print("🚀 단순 텍스트 추출기 초기화 중...")
        
        try:
            self.reader = easyocr.Reader(['ko', 'en'], gpu=use_gpu)
            print(f"✅ EasyOCR 초기화 완료 (GPU: {use_gpu})")
        except Exception as e:
            print(f"⚠️  GPU 초기화 실패, CPU 모드로 전환: {e}")
            self.reader = easyocr.Reader(['ko', 'en'], gpu=False)

    def extract_all_text(self, pdf_path, output_format='both', max_pages=None):
        """
        모든 페이지에서 텍스트 추출하여 저장
        
        Args:
            pdf_path: PDF 파일 경로
            output_format: 'csv', 'txt', 'both' 중 선택
            max_pages: 처리할 최대 페이지 수 (None이면 전체)
        """
        print(f"📖 전체 텍스트 추출 시작: {os.path.basename(pdf_path)}")
        
        results = []
        
        with pdfplumber.open(pdf_path) as pdf:
            total_pages = len(pdf.pages)
            if max_pages:
                total_pages = min(total_pages, max_pages)
            
            print(f"📄 총 {total_pages}페이지 처리 예정")
            
            for page_num in range(total_pages):
                page = pdf.pages[page_num]
                print(f"   📄 페이지 {page_num + 1}/{total_pages} 처리 중...")
                
                # EasyOCR 추출
                text_ocr = self.extract_with_easyocr(page, page_num + 1)
                
                # pdfplumber 추출
                text_pdf = self.extract_with_pdfplumber(page)
                
                # 최적 텍스트 선택
                best_text, method = self.choose_better_text(text_ocr, text_pdf)
                
                # 결과 저장
                page_result = {
                    'page_number': page_num + 1,
                    'extraction_method': method,
                    'text_length': len(best_text),
                    'ocr_text': text_ocr,
                    'pdf_text': text_pdf,
                    'selected_text': best_text,
                    'has_korean': len(re.findall(r'[가-힣]', best_text)) > 0,
                    'has_numbers': len(re.findall(r'\d', best_text)) > 0,
                    'contains_keywords': self.check_keywords(best_text)
                }
                
                results.append(page_result)
                
                print(f"      ✅ 완료 - {method}: {len(best_text)}자")
        
        # 결과 저장
        base_filename = os.path.splitext(os.path.basename(pdf_path))[0]
        
        if output_format in ['csv', 'both']:
            self.save_to_csv(results, f"{base_filename}_extracted_text.csv")
        
        if output_format in ['txt', 'both']:
            self.save_to_txt(results, f"{base_filename}_extracted_text.txt")
        
        # 통계 출력
        self.print_statistics(results)
        
        return results

    def extract_with_easyocr(self, page, page_num):
        """EasyOCR로 텍스트 추출"""
        try:
            start_time = time.time()
            
            # 고해상도 이미지 변환
            pil_image = page.to_image(resolution=300).original
            image_array = np.array(pil_image)
            
            # EasyOCR 실행
            results = self.reader.readtext(image_array)
            
            if results:
                # 위치 기반 정렬 (위→아래, 왼쪽→오른쪽)
                sorted_results = sorted(results, key=lambda x: (x[0][0][1], x[0][0][0]))
                extracted_text = '\n'.join([result[1] for result in sorted_results])
                
                elapsed = time.time() - start_time
                print(f"      🔍 EasyOCR: {len(extracted_text)}자 ({elapsed:.1f}초)")
                return extracted_text
            else:
                print(f"      ❌ EasyOCR: 텍스트 없음")
                return ""
                
        except Exception as e:
            print(f"      ❌ EasyOCR 오류: {e}")
            return ""

    def extract_with_pdfplumber(self, page):
        """pdfplumber로 텍스트 추출"""
        try:
            text = page.extract_text()
            if text:
                print(f"      📄 pdfplumber: {len(text)}자")
                return text
            else:
                print(f"      ❌ pdfplumber: 텍스트 없음")
                return ""
        except Exception as e:
            print(f"      ❌ pdfplumber 오류: {e}")
            return ""

    def choose_better_text(self, text_ocr, text_pdf):
        """더 나은 텍스트 선택"""
        
        # 둘 다 비어있으면
        if not text_ocr and not text_pdf:
            return "", "None"
        
        # 하나만 있으면 그것 선택
        if not text_ocr:
            return text_pdf, "pdfplumber"
        if not text_pdf:
            return text_ocr, "EasyOCR"
        
        # 둘 다 있으면 품질 비교
        score_ocr = self.calculate_simple_score(text_ocr)
        score_pdf = self.calculate_simple_score(text_pdf)
        
        # 길이도 고려 (너무 짧으면 점수 감점)
        if len(text_ocr) < 50:
            score_ocr *= 0.5
        if len(text_pdf) < 50:
            score_pdf *= 0.5
        
        if score_ocr > score_pdf:
            return text_ocr, "EasyOCR"
        else:
            return text_pdf, "pdfplumber"

    def calculate_simple_score(self, text):
        """간단한 텍스트 품질 점수"""
        if not text:
            return 0
        
        score = 0
        
        # 기본 점수: 텍스트 길이
        score += len(text) / 100
        
        # 한국어 있으면 보너스
        korean_count = len(re.findall(r'[가-힣]', text))
        score += korean_count / 10
        
        # 숫자 있으면 보너스
        number_count = len(re.findall(r'\d', text))
        score += number_count / 20
        
        # 특수 키워드 보너스
        keywords = ['보1', '보2', '차1', '차2', '과실', '비율', '%', '대법원', '판결']
        for keyword in keywords:
            if keyword in text:
                score += 5
        
        return score

    def check_keywords(self, text):
        """주요 키워드 포함 여부 확인"""
        keywords = [
            '과실', '비율', '사고', '보행자', '자동차', '교차로', 
            '직진', '좌회전', '우회전', '신호', '횡단보도',
            '보1', '보2', '보3', '차1', '차2', '차3',
            '대법원', '판결', '①', '②', '③'
        ]
        
        found_keywords = [kw for kw in keywords if kw in text]
        return ', '.join(found_keywords) if found_keywords else 'None'

    def save_to_csv(self, results, filename):
        """CSV 파일로 저장"""
        print(f"\n💾 CSV 저장 중: {filename}")
        
        # DataFrame 생성
        df_data = []
        for result in results:
            df_data.append({
                'page_number': result['page_number'],
                'extraction_method': result['extraction_method'],
                'text_length': result['text_length'],
                'has_korean': result['has_korean'],
                'has_numbers': result['has_numbers'],
                'contains_keywords': result['contains_keywords'],
                'selected_text': result['selected_text'],
                'ocr_text': result['ocr_text'],
                'pdf_text': result['pdf_text']
            })
        
        df = pd.DataFrame(df_data)
        df.to_csv(filename, index=False, encoding='utf-8-sig')
        print(f"✅ CSV 저장 완료: {filename}")

    def save_to_txt(self, results, filename):
        """TXT 파일로 저장 (읽기 편한 형태)"""
        print(f"\n💾 TXT 저장 중: {filename}")
        
        with open(filename, 'w', encoding='utf-8') as f:
            f.write("=" * 80 + "\n")
            f.write("PDF 텍스트 추출 결과\n")
            f.write("=" * 80 + "\n\n")
            
            for result in results:
                f.write(f"📄 페이지 {result['page_number']}\n")
                f.write(f"📊 추출방법: {result['extraction_method']}\n")
                f.write(f"📏 텍스트 길이: {result['text_length']}자\n")
                f.write(f"🔍 포함 키워드: {result['contains_keywords']}\n")
                f.write("-" * 60 + "\n")
                f.write(result['selected_text'])
                f.write("\n\n" + "=" * 80 + "\n\n")
        
        print(f"✅ TXT 저장 완료: {filename}")

    def print_statistics(self, results):
        """추출 통계 출력"""
        total_pages = len(results)
        
        # 추출 방법별 통계
        method_counts = {}
        for result in results:
            method = result['extraction_method']
            method_counts[method] = method_counts.get(method, 0) + 1
        
        # 텍스트 품질 통계
        text_lengths = [r['text_length'] for r in results]
        avg_length = sum(text_lengths) / len(text_lengths) if text_lengths else 0
        
        korean_pages = sum(1 for r in results if r['has_korean'])
        keyword_pages = sum(1 for r in results if r['contains_keywords'] != 'None')
        
        print(f"\n📊 최종 추출 통계")
        print("=" * 50)
        print(f"📄 총 페이지: {total_pages}")
        print(f"📝 평균 텍스트 길이: {avg_length:.0f}자")
        print(f"🇰🇷 한국어 포함 페이지: {korean_pages}페이지 ({korean_pages/total_pages*100:.1f}%)")
        print(f"🔍 키워드 포함 페이지: {keyword_pages}페이지 ({keyword_pages/total_pages*100:.1f}%)")
        
        print(f"\n🏆 추출 방법별 선택 횟수:")
        for method, count in method_counts.items():
            print(f"   {method}: {count}회 ({count/total_pages*100:.1f}%)")
        
        # 최고 품질 페이지 Top 5
        top_pages = sorted(results, key=lambda x: x['text_length'], reverse=True)[:5]
        print(f"\n🏅 텍스트 길이 상위 5페이지:")
        for i, page in enumerate(top_pages):
            keywords = page['contains_keywords'][:50] + "..." if len(page['contains_keywords']) > 50 else page['contains_keywords']
            print(f"   {i+1}. 페이지 {page['page_number']}: {page['text_length']}자 ({page['extraction_method']}) - {keywords}")

def main():
    """메인 실행 함수"""
    print("🚀 단순 텍스트 추출기 시작")
    print("="*60)
    
    # PDF 파일 경로
    pdf_path = r"C:\project\2stProject_jun\jun\과실비율PDF\(최종)과실비율심의사례_(54MB).pdf"
    
    if not os.path.exists(pdf_path):
        print(f"❌ PDF 파일을 찾을 수 없습니다: {pdf_path}")
        return
    
    # 추출기 초기화
    extractor = SimpleTextExtractor(use_gpu=True)
    
    # 선택 메뉴
    print("\n📋 추출 옵션을 선택하세요:")
    print("1. 전체 페이지 추출 (CSV + TXT)")
    print("2. 처음 20페이지만 테스트 (CSV + TXT)")
    print("3. CSV만 저장")
    print("4. TXT만 저장")
    
    choice = input("\n선택 (1-4): ").strip()
    
    if choice == '1':
        results = extractor.extract_all_text(pdf_path, output_format='both')
    elif choice == '2':
        results = extractor.extract_all_text(pdf_path, output_format='both', max_pages=20)
    elif choice == '3':
        results = extractor.extract_all_text(pdf_path, output_format='csv')
    elif choice == '4':
        results = extractor.extract_all_text(pdf_path, output_format='txt')
    else:
        print("기본값으로 처음 20페이지 테스트를 실행합니다.")
        results = extractor.extract_all_text(pdf_path, output_format='both', max_pages=20)
    
    print(f"\n🎉 추출 완료!")
    print(f"📁 생성된 파일들을 확인하세요.")

if __name__ == "__main__":
    main()
    

Neither CUDA nor MPS are available - defaulting to CPU. Note: This module is much faster with a GPU.


🚀 단순 텍스트 추출기 시작
🚀 단순 텍스트 추출기 초기화 중...
✅ EasyOCR 초기화 완료 (GPU: True)

📋 추출 옵션을 선택하세요:
1. 전체 페이지 추출 (CSV + TXT)
2. 처음 20페이지만 테스트 (CSV + TXT)
3. CSV만 저장
4. TXT만 저장

선택 (1-4): 1
📖 전체 텍스트 추출 시작: (최종)과실비율심의사례_(54MB).pdf
📄 총 472페이지 처리 예정
   📄 페이지 1/472 처리 중...




      🔍 EasyOCR: 33자 (7.0초)
      ❌ pdfplumber: 텍스트 없음
      ✅ 완료 - EasyOCR: 33자
   📄 페이지 2/472 처리 중...
      🔍 EasyOCR: 1030자 (11.7초)
      📄 pdfplumber: 3639자
      ✅ 완료 - pdfplumber: 3639자
   📄 페이지 3/472 처리 중...
      🔍 EasyOCR: 1303자 (14.0초)
      📄 pdfplumber: 3835자
      ✅ 완료 - pdfplumber: 3835자
   📄 페이지 4/472 처리 중...
      🔍 EasyOCR: 1201자 (10.5초)
      📄 pdfplumber: 3866자
      ✅ 완료 - pdfplumber: 3866자
   📄 페이지 5/472 처리 중...
      🔍 EasyOCR: 1488자 (11.7초)
      📄 pdfplumber: 4665자
      ✅ 완료 - pdfplumber: 4665자
   📄 페이지 6/472 처리 중...
      🔍 EasyOCR: 1102자 (10.5초)
      📄 pdfplumber: 4036자
      ✅ 완료 - pdfplumber: 4036자
   📄 페이지 7/472 처리 중...
      🔍 EasyOCR: 1319자 (11.3초)
      📄 pdfplumber: 4027자
      ✅ 완료 - pdfplumber: 4027자
   📄 페이지 8/472 처리 중...
      🔍 EasyOCR: 1179자 (11.2초)
      📄 pdfplumber: 4037자
      ✅ 완료 - pdfplumber: 4037자
   📄 페이지 9/472 처리 중...
      🔍 EasyOCR: 1387자 (11.7초)
      📄 pdfplumber: 4209자
      ✅ 완료 - pdfplumber: 4209자
   📄 페이지 10/472 처리 중...
      🔍

      🔍 EasyOCR: 639자 (8.9초)
      📄 pdfplumber: 646자
      ✅ 완료 - pdfplumber: 646자
   📄 페이지 77/472 처리 중...
      🔍 EasyOCR: 741자 (9.3초)
      📄 pdfplumber: 767자
      ✅ 완료 - pdfplumber: 767자
   📄 페이지 78/472 처리 중...
      🔍 EasyOCR: 732자 (9.3초)
      📄 pdfplumber: 743자
      ✅ 완료 - pdfplumber: 743자
   📄 페이지 79/472 처리 중...
      🔍 EasyOCR: 738자 (9.3초)
      📄 pdfplumber: 792자
      ✅ 완료 - pdfplumber: 792자
   📄 페이지 80/472 처리 중...
      🔍 EasyOCR: 697자 (9.1초)
      📄 pdfplumber: 705자
      ✅ 완료 - pdfplumber: 705자
   📄 페이지 81/472 처리 중...
      🔍 EasyOCR: 930자 (11.1초)
      📄 pdfplumber: 740자
      ✅ 완료 - EasyOCR: 930자
   📄 페이지 82/472 처리 중...
      🔍 EasyOCR: 754자 (9.5초)
      📄 pdfplumber: 762자
      ✅ 완료 - pdfplumber: 762자
   📄 페이지 83/472 처리 중...
      🔍 EasyOCR: 883자 (9.7초)
      📄 pdfplumber: 935자
      ✅ 완료 - pdfplumber: 935자
   📄 페이지 84/472 처리 중...
      🔍 EasyOCR: 810자 (9.8초)
      📄 pdfplumber: 794자
      ✅ 완료 - EasyOCR: 810자
   📄 페이지 85/472 처리 중...
      🔍 EasyOCR: 854자 (9.9초)
    

      🔍 EasyOCR: 880자 (10.0초)
      📄 pdfplumber: 870자
      ✅ 완료 - pdfplumber: 870자
   📄 페이지 151/472 처리 중...
      🔍 EasyOCR: 897자 (9.5초)
      📄 pdfplumber: 914자
      ✅ 완료 - pdfplumber: 914자
   📄 페이지 152/472 처리 중...
      🔍 EasyOCR: 846자 (9.6초)
      📄 pdfplumber: 843자
      ✅ 완료 - pdfplumber: 843자
   📄 페이지 153/472 처리 중...
      🔍 EasyOCR: 1062자 (11.2초)
      📄 pdfplumber: 900자
      ✅ 완료 - EasyOCR: 1062자
   📄 페이지 154/472 처리 중...
      🔍 EasyOCR: 910자 (9.9초)
      📄 pdfplumber: 899자
      ✅ 완료 - EasyOCR: 910자
   📄 페이지 155/472 처리 중...
      🔍 EasyOCR: 825자 (9.3초)
      📄 pdfplumber: 813자
      ✅ 완료 - pdfplumber: 813자
   📄 페이지 156/472 처리 중...
      🔍 EasyOCR: 771자 (9.3초)
      📄 pdfplumber: 767자
      ✅ 완료 - pdfplumber: 767자
   📄 페이지 157/472 처리 중...
      🔍 EasyOCR: 1074자 (11.3초)
      📄 pdfplumber: 913자
      ✅ 완료 - EasyOCR: 1074자
   📄 페이지 158/472 처리 중...
      🔍 EasyOCR: 650자 (8.7초)
      📄 pdfplumber: 674자
      ✅ 완료 - pdfplumber: 674자
   📄 페이지 159/472 처리 중...
      🔍 EasyOCR: 827자

      🔍 EasyOCR: 813자 (9.5초)
      📄 pdfplumber: 843자
      ✅ 완료 - pdfplumber: 843자
   📄 페이지 225/472 처리 중...
      🔍 EasyOCR: 918자 (9.9초)
      📄 pdfplumber: 984자
      ✅ 완료 - pdfplumber: 984자
   📄 페이지 226/472 처리 중...
      🔍 EasyOCR: 999자 (11.2초)
      📄 pdfplumber: 865자
      ✅ 완료 - EasyOCR: 999자
   📄 페이지 227/472 처리 중...
      🔍 EasyOCR: 808자 (9.5초)
      📄 pdfplumber: 827자
      ✅ 완료 - pdfplumber: 827자
   📄 페이지 228/472 처리 중...
      🔍 EasyOCR: 969자 (10.1초)
      📄 pdfplumber: 948자
      ✅ 완료 - EasyOCR: 969자
   📄 페이지 229/472 처리 중...
      🔍 EasyOCR: 1112자 (11.3초)
      📄 pdfplumber: 1028자
      ✅ 완료 - EasyOCR: 1112자
   📄 페이지 230/472 처리 중...
      🔍 EasyOCR: 757자 (9.1초)
      📄 pdfplumber: 777자
      ✅ 완료 - pdfplumber: 777자
   📄 페이지 231/472 처리 중...
      🔍 EasyOCR: 987자 (10.8초)
      📄 pdfplumber: 835자
      ✅ 완료 - EasyOCR: 987자
   📄 페이지 232/472 처리 중...
      🔍 EasyOCR: 769자 (9.3초)
      📄 pdfplumber: 767자
      ✅ 완료 - pdfplumber: 767자
   📄 페이지 233/472 처리 중...
      🔍 EasyOCR: 924자 (9

      🔍 EasyOCR: 1051자 (10.7초)
      📄 pdfplumber: 1009자
      ✅ 완료 - EasyOCR: 1051자
   📄 페이지 299/472 처리 중...
      🔍 EasyOCR: 1035자 (10.5초)
      📄 pdfplumber: 1065자
      ✅ 완료 - pdfplumber: 1065자
   📄 페이지 300/472 처리 중...
      🔍 EasyOCR: 898자 (9.7초)
      📄 pdfplumber: 957자
      ✅ 완료 - pdfplumber: 957자
   📄 페이지 301/472 처리 중...
      🔍 EasyOCR: 683자 (9.0초)
      📄 pdfplumber: 693자
      ✅ 완료 - pdfplumber: 693자
   📄 페이지 302/472 처리 중...
      🔍 EasyOCR: 902자 (9.5초)
      📄 pdfplumber: 943자
      ✅ 완료 - pdfplumber: 943자
   📄 페이지 303/472 처리 중...
      🔍 EasyOCR: 824자 (9.8초)
      📄 pdfplumber: 828자
      ✅ 완료 - pdfplumber: 828자
   📄 페이지 304/472 처리 중...
      🔍 EasyOCR: 1187자 (12.5초)
      📄 pdfplumber: 914자
      ✅ 완료 - EasyOCR: 1187자
   📄 페이지 305/472 처리 중...
      🔍 EasyOCR: 857자 (10.0초)
      📄 pdfplumber: 805자
      ✅ 완료 - EasyOCR: 857자
   📄 페이지 306/472 처리 중...
      🔍 EasyOCR: 822자 (9.3초)
      📄 pdfplumber: 880자
      ✅ 완료 - pdfplumber: 880자
   📄 페이지 307/472 처리 중...
      🔍 EasyOCR:

      🔍 EasyOCR: 752자 (9.9초)
      📄 pdfplumber: 699자
      ✅ 완료 - EasyOCR: 752자
   📄 페이지 372/472 처리 중...
      🔍 EasyOCR: 923자 (10.3초)
      📄 pdfplumber: 931자
      ✅ 완료 - pdfplumber: 931자
   📄 페이지 373/472 처리 중...
      🔍 EasyOCR: 772자 (9.5초)
      📄 pdfplumber: 735자
      ✅ 완료 - pdfplumber: 735자
   📄 페이지 374/472 처리 중...
      🔍 EasyOCR: 996자 (10.3초)
      📄 pdfplumber: 1061자
      ✅ 완료 - pdfplumber: 1061자
   📄 페이지 375/472 처리 중...
      🔍 EasyOCR: 884자 (10.1초)
      📄 pdfplumber: 882자
      ✅ 완료 - EasyOCR: 884자
   📄 페이지 376/472 처리 중...
      🔍 EasyOCR: 936자 (9.9초)
      📄 pdfplumber: 989자
      ✅ 완료 - pdfplumber: 989자
   📄 페이지 377/472 처리 중...
      🔍 EasyOCR: 956자 (10.2초)
      📄 pdfplumber: 914자
      ✅ 완료 - pdfplumber: 914자
   📄 페이지 378/472 처리 중...
      🔍 EasyOCR: 1314자 (12.6초)
      📄 pdfplumber: 1153자
      ✅ 완료 - EasyOCR: 1314자
   📄 페이지 379/472 처리 중...
      🔍 EasyOCR: 884자 (9.9초)
      📄 pdfplumber: 899자
      ✅ 완료 - EasyOCR: 884자
   📄 페이지 380/472 처리 중...
      🔍 EasyOCR: 878자

      🔍 EasyOCR: 754자 (10.3초)
      📄 pdfplumber: 747자
      ✅ 완료 - pdfplumber: 747자
   📄 페이지 445/472 처리 중...
      🔍 EasyOCR: 901자 (10.6초)
      📄 pdfplumber: 911자
      ✅ 완료 - pdfplumber: 911자
   📄 페이지 446/472 처리 중...
      🔍 EasyOCR: 765자 (9.9초)
      📄 pdfplumber: 772자
      ✅ 완료 - pdfplumber: 772자
   📄 페이지 447/472 처리 중...
      🔍 EasyOCR: 1094자 (11.2초)
      📄 pdfplumber: 1140자
      ✅ 완료 - pdfplumber: 1140자
   📄 페이지 448/472 처리 중...
      🔍 EasyOCR: 758자 (10.8초)
      📄 pdfplumber: 677자
      ✅ 완료 - EasyOCR: 758자
   📄 페이지 449/472 처리 중...
      🔍 EasyOCR: 768자 (9.9초)
      📄 pdfplumber: 822자
      ✅ 완료 - pdfplumber: 822자
   📄 페이지 450/472 처리 중...
      🔍 EasyOCR: 777자 (10.5초)
      📄 pdfplumber: 735자
      ✅ 완료 - EasyOCR: 777자
   📄 페이지 451/472 처리 중...
      🔍 EasyOCR: 837자 (10.1초)
      📄 pdfplumber: 891자
      ✅ 완료 - pdfplumber: 891자
   📄 페이지 452/472 처리 중...
      🔍 EasyOCR: 825자 (10.5초)
      📄 pdfplumber: 762자
      ✅ 완료 - EasyOCR: 825자
   📄 페이지 453/472 처리 중...
      🔍 EasyOCR: 7

# 2. 수정보완(마크다운)

In [1]:
# 1단계: 필수 패키지 설치
import subprocess
import sys

def install_package(package):
    subprocess.check_call([sys.executable, "-m", "pip", "install", package])

print("필수 패키지 설치 중...")
try:
    install_package("PyMuPDF")
    install_package("pandas")
    print("설치 완료!")
except Exception as e:
    print(f"설치 오류: {e}")

# 2단계: 패키지 import 및 PDF 변환 함수
try:
    import fitz  # PyMuPDF
    import pandas as pd
    import io
    import os
    import re
    print("패키지 import 성공!")
    
    def extract_text_from_pdf_simple(pdf_path):
        """간단한 PDF 텍스트 추출 (OCR 없음)"""
        if not os.path.exists(pdf_path):
            return f"파일을 찾을 수 없습니다: {pdf_path}"
        
        doc = fitz.open(pdf_path)
        markdown_content = []
        
        for page_num in range(len(doc)):
            page = doc.load_page(page_num)
            
            # 페이지 제목
            markdown_content.append(f"# 페이지 {page_num + 1}\n")
            
            # 텍스트 추출
            text = page.get_text()
            if text.strip():
                # 기본 정리
                lines = text.split('\n')
                cleaned_lines = []
                
                for line in lines:
                    line = line.strip()
                    if not line:
                        continue
                    
                    # 제목 패턴 감지
                    if re.match(r'^[\d\.\)]+\s+', line):
                        cleaned_lines.append(f"### {line}")
                    else:
                        cleaned_lines.append(line)
                
                markdown_content.append("\n".join(cleaned_lines) + "\n")
            
            # 표 추출 시도
            blocks = page.get_text("dict")["blocks"]
            for block_idx, block in enumerate(blocks):
                if "lines" in block:
                    lines = []
                    for line in block["lines"]:
                        spans = []
                        for span in line["spans"]:
                            spans.append(span["text"])
                        line_text = " ".join(spans).strip()
                        if line_text:
                            lines.append(line_text)
                    
                    # 표 패턴 감지
                    if len(lines) > 1:
                        table_data = []
                        for line in lines:
                            cols = re.split(r'\s{3,}|\t', line)
                            if len(cols) > 1:
                                table_data.append(cols)
                        
                        if len(table_data) > 1:
                            markdown_content.append(f"## 표 {block_idx + 1}\n")
                            # 마크다운 테이블 생성
                            max_cols = max(len(row) for row in table_data)
                            for row in table_data:
                                while len(row) < max_cols:
                                    row.append("")
                            
                            # 헤더
                            header = "| " + " | ".join(table_data[0]) + " |"
                            separator = "| " + " | ".join(["---"] * max_cols) + " |"
                            markdown_content.append(header)
                            markdown_content.append(separator)
                            
                            # 데이터 행
                            for row in table_data[1:]:
                                data_row = "| " + " | ".join(row) + " |"
                                markdown_content.append(data_row)
                            markdown_content.append("")
        
        doc.close()
        return "\n".join(markdown_content)
    
    # 3단계: PDF 변환 실행
    pdf_path = r"C:\project\2stProject_jun\jun\과실비율PDF\(최종)과실비율심의사례_(54MB).pdf"
    
    print("PDF 변환 시작...")
    result = extract_text_from_pdf_simple(pdf_path)
    
    if "파일을 찾을 수 없습니다" in result:
        print(result)
        print("파일 경로를 확인해주세요.")
    else:
        # 결과 저장
        output_path = pdf_path.replace('.pdf', '.md')
        with open(output_path, 'w', encoding='utf-8') as f:
            f.write(result)
        
        print(f"변환 완료: {output_path}")
        print(f"변환된 내용 길이: {len(result)} 문자")
        
        # 처음 500자 미리보기
        print("\n=== 변환 결과 미리보기 ===")
        print(result[:500])
        print("...")

except ImportError as e:
    print(f"import 오류: {e}")
    print("커널을 다시 시작한 후 다시 실행해보세요.")
except Exception as e:
    print(f"실행 오류: {e}")

필수 패키지 설치 중...
설치 오류: Command '['C:\\Users\\kmj11\\anaconda3\\envs\\gpudm\\python.exe', '-m', 'pip', 'install', 'pandas']' returned non-zero exit status 1.
패키지 import 성공!
PDF 변환 시작...
변환 완료: C:\project\2stProject_jun\jun\과실비율PDF\(최종)과실비율심의사례_(54MB).md
변환된 내용 길이: 445586 문자

=== 변환 결과 미리보기 ===
# 페이지 1

# 페이지 2

자동차사고 과실비율분쟁 심의 사례
001
발간사..............................................................................................................................................................011
과실비율분쟁 심의위원회 운영현황...................................................................015
제1장 자동차와 자동차의 사고..................................................................................019
직진 대 직진 사고 .............................................................................................
...


In [2]:
# 변환된 마크다운 파일 내용 확인
import os

def analyze_converted_file(md_path):
    """변환된 마크다운 파일 분석"""
    
    if not os.path.exists(md_path):
        print(f"파일이 없습니다: {md_path}")
        return
    
    with open(md_path, 'r', encoding='utf-8') as f:
        content = f.read()
    
    lines = content.split('\n')
    
    # 기본 통계
    print("=== 변환 파일 분석 ===")
    print(f"총 문자 수: {len(content):,}")
    print(f"총 줄 수: {len(lines):,}")
    
    # 페이지 수 계산
    pages = [line for line in lines if line.startswith('# 페이지')]
    print(f"총 페이지 수: {len(pages)}")
    
    # 제목/구조 분석
    headers = [line for line in lines if line.startswith('#')]
    print(f"제목 개수: {len(headers)}")
    
    # 표 개수
    tables = [line for line in lines if line.startswith('## 표')]
    print(f"표 개수: {len(tables)}")
    
    # 처음 20줄 미리보기
    print("\n=== 처음 20줄 미리보기 ===")
    for i, line in enumerate(lines[:20]):
        if line.strip():
            print(f"{i+1:2d}: {line}")
    
    # 목차 추출
    print("\n=== 주요 제목 구조 ===")
    for line in lines[:100]:  # 처음 100줄에서 제목 찾기
        if line.startswith('### ') and ('.' in line or ')' in line):
            print(line)
    
    return content

# 변환된 파일 분석
md_path = r"C:\project\2stProject_jun\jun\과실비율PDF\(최종)과실비율심의사례_(54MB).md"
content = analyze_converted_file(md_path)

# 특정 페이지 내용 확인 (예: 첫 번째 페이지)
def show_page_content(content, page_num, max_lines=30):
    """특정 페이지 내용 표시"""
    lines = content.split('\n')
    page_start = -1
    page_end = -1
    
    for i, line in enumerate(lines):
        if line == f"# 페이지 {page_num}":
            page_start = i
        elif line.startswith(f"# 페이지 {page_num + 1}"):
            page_end = i
            break
    
    if page_start == -1:
        print(f"페이지 {page_num}을 찾을 수 없습니다.")
        return
    
    if page_end == -1:
        page_end = len(lines)
    
    print(f"\n=== 페이지 {page_num} 내용 (최대 {max_lines}줄) ===")
    page_lines = lines[page_start:page_end]
    
    for i, line in enumerate(page_lines[:max_lines]):
        if line.strip():
            print(f"{i+1:2d}: {line}")
    
    if len(page_lines) > max_lines:
        print(f"... (총 {len(page_lines)}줄 중 {max_lines}줄만 표시)")

# 첫 번째 페이지 내용 확인
if content:
    show_page_content(content, 1)

=== 변환 파일 분석 ===
총 문자 수: 445,586
총 줄 수: 19,855
총 페이지 수: 472
제목 개수: 1837
표 개수: 9

=== 처음 20줄 미리보기 ===
 1: # 페이지 1
 3: # 페이지 2
 5: 자동차사고 과실비율분쟁 심의 사례
 6: 001
 7: 발간사..............................................................................................................................................................011
 8: 과실비율분쟁 심의위원회 운영현황...................................................................015
 9: 제1장 자동차와 자동차의 사고..................................................................................019
10: 직진 대 직진 사고 ......................................................................................................................................020
11: 사거리 교차로(상대 차량이 측면 방향에서 진입)...................................................................................................020
12: 한쪽 차량 신호위반 사고 (기본과실).......................................................................................................020
13: 한쪽 차량 신호위반 사고 (수정과실)....................................