In [1]:
pip install pdf2image Pillow

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [3]:
import os

import win32com.client

from datetime import datetime

from pdf2image import convert_from_path

from PIL import Image



# 현재 날짜 가져오기 (yyyyMMdd 형식)

current_date = datetime.now().strftime("%Y%m%d")



# PDF 저장 경로 및 파일 이름 지정

output_dir = "D:\\신규P값총량제\\공유메일"

if not os.path.exists(output_dir):

    os.makedirs(output_dir)



output_pdf = f"메일용_{current_date}.pdf"

final_pdf = os.path.join(output_dir, output_pdf)



# Excel Application에 연결

excel = win32com.client.Dispatch("Excel.Application")

excel.DisplayAlerts = False  # 모든 경고 비활성화

excel.Visible = False  # Excel 창을 보이지 않게 설정



# PDF 변환 함수 (눈금선 제외)

def export_sheet_to_pdf(sheet, temp_pdf_path, start_row, end_row):

    try:

        # 페이지 설정 - 페이지 영역을 지정하여 각 행 번호 범위에 맞게 설정

        sheet.PageSetup.PrintArea = f"A{start_row}:Z{end_row}"  # A열부터 Z열까지 범위 지정

        sheet.PageSetup.PrintGridlines = False  # 눈금선 제외

        sheet.PageSetup.Zoom = False  # 확대/축소 비활성화

        sheet.PageSetup.FitToPagesWide = 1  # 너비를 한 페이지에 맞춤

        sheet.PageSetup.FitToPagesTall = 1  # 높이를 한 페이지에 맞춤

        sheet.PageSetup.Orientation = 2  # 가로 모드 설정 (xlLandscape = 2)

        sheet.PageSetup.CenterHorizontally = True  # 가로 중앙에 맞춤

        sheet.PageSetup.CenterVertically = True  # 세로 중앙에 맞춤



        # 시트를 PDF로 저장

        sheet.ExportAsFixedFormat(0, temp_pdf_path)

        if os.path.exists(temp_pdf_path) and os.path.getsize(temp_pdf_path) > 0:

            print(f"{sheet.Name} 시트가 성공적으로 PDF로 저장되었습니다: {temp_pdf_path}")

            return True

    except Exception as e:

        print(f"Error converting sheet {sheet.Name} to PDF: {e}")

    return False



# PDF를 이미지로 변환하는 함수

def convert_pdf_to_images(pdf_path, output_dir):

    try:

        images = convert_from_path(pdf_path, 300)  # 해상도 300 DPI

        image_paths = []

        for i, image in enumerate(images):

            image_path = os.path.join(output_dir, f"page_{i+1}.jpg")

            image.save(image_path, "JPEG")

            image_paths.append(image_path)

            print(f"이미지가 성공적으로 저장되었습니다: {image_path}")

        return image_paths

    except Exception as e:

        print(f"Error converting PDF to images: {e}")

        return []



try:

    # 열려있는 모든 Workbooks 가져오기

    workbooks = excel.Workbooks

    mail_sheet = None



    # "메일"이라는 이름의 시트를 찾기

    for workbook in workbooks:

        for sheet in workbook.Sheets:

            if sheet.Name == "메일":

                mail_sheet = sheet

                break



    # "메일" 시트가 발견되면 처리

    if mail_sheet:

        # 숨겨진 시트 표시

        mail_sheet.Visible = True

        print(f"시트 {mail_sheet.Name}를 PDF로 변환합니다.")



        # 첫 번째 페이지 (행 1~28) PDF로 변환

        page1_pdf = final_pdf.replace(".pdf", "_page1.pdf")

        if export_sheet_to_pdf(mail_sheet, page1_pdf, start_row=1, end_row=28):

            print(f"첫 번째 페이지가 성공적으로 생성되었습니다: {page1_pdf}")



        # 두 번째 페이지 (행 30~114) PDF로 변환

        page2_pdf = final_pdf.replace(".pdf", "_page2.pdf")

        if export_sheet_to_pdf(mail_sheet, page2_pdf, start_row=30, end_row=114):

            print(f"두 번째 페이지가 성공적으로 생성되었습니다: {page2_pdf}")



            # PDF 파일을 이미지로 변환

            image_paths_page1 = convert_pdf_to_images(page1_pdf, output_dir)

            image_paths_page2 = convert_pdf_to_images(page2_pdf, output_dir)



            # PDF 파일 열기 (첫 번째 페이지와 두 번째 페이지 모두 열기)

            os.startfile(page1_pdf)

            os.startfile(page2_pdf)

        else:

            print(f"두 번째 페이지 PDF 변환에 실패했습니다.")



    else:

        print("시트 '메일'을 찾을 수 없습니다.")



finally:

    # Excel 종료

    if excel:

        excel.Quit()



    print("작업이 완료되었습니다.")

시트 메일를 PDF로 변환합니다.
메일 시트가 성공적으로 PDF로 저장되었습니다: D:\신규P값총량제\공유메일\메일용_20241024_page1.pdf
첫 번째 페이지가 성공적으로 생성되었습니다: D:\신규P값총량제\공유메일\메일용_20241024_page1.pdf
메일 시트가 성공적으로 PDF로 저장되었습니다: D:\신규P값총량제\공유메일\메일용_20241024_page2.pdf
두 번째 페이지가 성공적으로 생성되었습니다: D:\신규P값총량제\공유메일\메일용_20241024_page2.pdf
Error converting PDF to images: Unable to get page count.

Error converting PDF to images: Unable to get page count.

작업이 완료되었습니다.


In [None]:
Jupyter 노트북에서 PDF 파일을 열고 값이나 표가 있는 부분을 캡처하여 이메일로 전송하는 자동화 코드를 작성하려면, 몇 가지 라이브러리가 필요합니다. 먼저, PDF 파일에서 데이터를 추출하고, 해당 데이터를 이미지로 캡처한 뒤, 이메일로 보내는 작업을 단계별로 구현할 수 있습니다.

필요한 라이브러리

	•	PyPDF2 또는 pdfplumber: PDF에서 텍스트나 테이블을 추출하는 데 사용.
	•	Pillow: 이미지를 처리하고 저장하는 데 사용.
	•	smtplib: 이메일 전송.
	•	pdf2image: PDF 페이지를 이미지로 변환.

먼저 필요한 라이브러리들을 설치해야 합니다.



pip install PyPDF2 pdfplumber Pillow smtplib pdf2image



단계 1: PDF 파일에서 데이터 추출 (표가 있는 부분)



다음 코드에서는 pdfplumber 라이브러리를 사용하여 PDF 파일에서 표나 값을 추출합니다.



import pdfplumber



def extract_table_from_pdf(pdf_path):

    # PDF 파일 열기

    with pdfplumber.open(pdf_path) as pdf:

        for page in pdf.pages:

            # 표가 있는지 확인

            tables = page.extract_tables()

            if tables:

                # 첫 번째 표만 추출 (필요시 모든 표 처리 가능)

                return tables[0]

    return None



pdf_path = "D:/00.pdf"

table_data = extract_table_from_pdf(pdf_path)



if table_data:

    for row in table_data:

        print(row)

else:

    print("표를 찾을 수 없습니다.")



단계 2: PDF 페이지를 이미지로 변환하고 표가 있는 부분 캡처



다음으로 pdf2image를 사용하여 PDF를 이미지로 변환하고, 해당 이미지를 캡처합니다.



from pdf2image import convert_from_path

from PIL import Image



def convert_pdf_to_image(pdf_path):

    # PDF 파일을 이미지로 변환

    pages = convert_from_path(pdf_path, 300)  # 해상도 300 DPI

    return pages



def save_image_from_pdf(pdf_path, output_path):

    images = convert_pdf_to_image(pdf_path)

    if images:

        # 첫 페이지 이미지를 저장 (필요시 여러 페이지 처리 가능)

        images[0].save(output_path, "JPEG")



# PDF 파일을 이미지로 변환하여 저장

output_image_path = "D:/00_page1.jpg"

save_image_from_pdf(pdf_path, output_image_path)



단계 3: 이메일로 이미지 전송



다음으로, 이메일을 전송하는 기능을 구현합니다. smtplib을 사용하여 이메일을 자동으로 전송할 수 있습니다.



import smtplib

from email.mime.multipart import MIMEMultipart

from email.mime.text import MIMEText

from email.mime.base import MIMEBase

from email import encoders



def send_email_with_image(sender_email, receiver_email, subject, body, image_path, smtp_server, smtp_port, login, password):

    # 이메일 메시지 구성

    msg = MIMEMultipart()

    msg['From'] = sender_email

    msg['To'] = receiver_email

    msg['Subject'] = subject



    # 본문 추가

    msg.attach(MIMEText(body, 'plain'))



    # 이미지 파일 첨부

    with open(image_path, "rb") as attachment:

        part = MIMEBase('application', 'octet-stream')

        part.set_payload(attachment.read())

        encoders.encode_base64(part)

        part.add_header('Content-Disposition', f'attachment; filename= {image_path}')

        msg.attach(part)



    # 이메일 전송

    with smtplib.SMTP(smtp_server, smtp_port) as server:

        server.starttls()

        server.login(login, password)

        text = msg.as_string()

        server.sendmail(sender_email, receiver_email, text)



# 이메일 전송 예시

sender_email = "your_email@example.com"

receiver_email = "receiver@example.com"

subject = "PDF에서 추출된 표"

body = "첨부된 이미지는 PDF에서 추출된 표입니다."

image_path = output_image_path  # PDF에서 추출한 이미지 경로

smtp_server = "smtp.example.com"

smtp_port = 587

login = "your_email@example.com"

password = "your_password"



send_email_with_image(sender_email, receiver_email, subject, body, image_path, smtp_server, smtp_port, login, password)



요약



	1.	PDF 파일에서 표 추출: pdfplumber를 사용해 PDF 파일에서 표를 찾습니다.

	2.	PDF 파일을 이미지로 변환: pdf2image를 사용하여 PDF 페이지를 이미지로 변환하고 필요한 이미지를 저장합니다.

	3.	이미지를 이메일로 전송: smtplib을 사용해 해당 이미지를 이메일로 전송합니다.



이 코드는 D 드라이브의 “00.pdf” 파일을 읽어, 표나 값이 있는 부분을 추출하고, 해당 이미지를 캡처하여 이메일로 보내는 과정을 자동화합니다. SMTP 서버 설정은 이메일 서비스 제공자에 따라 달라질 수 있으니, 해당 설정을 확인하고 코드에 반영해 주세요.




In [1]:
pip install PyPDF2 pdfplumber Pillow smtplib pdf2image

Defaulting to user installation because normal site-packages is not writeable
Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Collecting pdfplumber
  Downloading pdfplumber-0.11.4-py3-none-any.whl.metadata (41 kB)
     ---------------------------------------- 0.0/42.0 kB ? eta -:--:--
     ---------------------------------------- 0.0/42.0 kB ? eta -:--:--
     ------------------ ------------------- 20.5/42.0 kB 640.0 kB/s eta 0:00:01
     -------------------------------------- 42.0/42.0 kB 401.9 kB/s eta 0:00:00
Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement smtplib (from versions: none)
ERROR: No matching distribution found for smtplib


In [3]:
from pdf2image import convert_from_path
from PIL import Image
def convert_pdf_to_image(pdf_path):
    # PDF 파일을 이미지로 변환
    pages = convert_from_path(pdf_path, 300)  # 해상도 300 DPI
    return pages
def save_image_from_pdf(pdf_path, output_path):
    images = convert_pdf_to_image(pdf_path)
    if images:
        # 첫 페이지 이미지를 저장 (필요시 여러 페이지 처리 가능)
        images[0].save(output_path, "JPEG")

# PDF 파일을 이미지로 변환하여 저장

output_image_path = "D:/00_page1.jpg"

save_image_from_pdf(pdf_path, output_image_path)

ModuleNotFoundError: No module named 'pdf2image'

In [5]:
pip install PyMuPDF

Defaulting to user installation because normal site-packages is not writeable
Collecting PyMuPDF
  Downloading PyMuPDF-1.24.12-cp39-abi3-win_amd64.whl.metadata (3.4 kB)
Downloading PyMuPDF-1.24.12-cp39-abi3-win_amd64.whl (16.0 MB)
   ---------------------------------------- 0.0/16.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/16.0 MB ? eta -:--:--
    --------------------------------------- 0.4/16.0 MB 5.6 MB/s eta 0:00:03
   -- ------------------------------------- 1.1/16.0 MB 10.2 MB/s eta 0:00:02
   ----- ---------------------------------- 2.3/16.0 MB 14.6 MB/s eta 0:00:01
   -------- ------------------------------- 3.5/16.0 MB 16.0 MB/s eta 0:00:01
   ----------- ---------------------------- 4.7/16.0 MB 17.6 MB/s eta 0:00:01
   -------------- ------------------------- 5.8/16.0 MB 18.7 MB/s eta 0:00:01
   ----------------- ---------------------- 7.0/16.0 MB 18.7 MB/s eta 0:00:01
   ------------------- -------------------- 7.9/16.0 MB 19.3 MB/s eta 0:00:01
   ---



In [11]:
import os
import win32com.client
from datetime import datetime

# 현재 날짜 가져오기 (yyyyMMdd 형식)
current_date = datetime.now().strftime("%Y%m%d")

# PDF 저장 경로 및 파일 이름 지정 (확장자 .pd)
output_dir = "D:\\신규P값총량제\\공유메일"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

output_pdf = f"메일용_{current_date}.pd"  # 확장자를 .pd로 변경
final_pdf = os.path.join(output_dir, output_pdf)

# Excel Application에 연결
excel = win32com.client.Dispatch("Excel.Application")
excel.DisplayAlerts = False  # 모든 경고 비활성화
excel.Visible = False  # Excel 창을 보이지 않게 설정

# PDF 변환 함수 (눈금선 제외)
def export_sheet_to_pdf(sheet, temp_pdf_path, start_row, end_row):
    try:
        # 페이지 설정 - 페이지 영역을 지정하여 각 행 번호 범위에 맞게 설정
        sheet.PageSetup.PrintArea = f"A{start_row}:Z{end_row}"  # A열부터 Z열까지 범위 지정
        sheet.PageSetup.PrintGridlines = False  # 눈금선 제외
        sheet.PageSetup.Zoom = False  # 확대/축소 비활성화
        sheet.PageSetup.FitToPagesWide = 1  # 너비를 한 페이지에 맞춤
        sheet.PageSetup.FitToPagesTall = 1  # 높이를 한 페이지에 맞춤
        sheet.PageSetup.Orientation = 2  # 가로 모드 설정 (xlLandscape = 2)
        sheet.PageSetup.CenterHorizontally = True  # 가로 중앙에 맞춤
        sheet.PageSetup.CenterVertically = True  # 세로 중앙에 맞춤

        # 시트를 PDF로 저장
        sheet.ExportAsFixedFormat(0, temp_pdf_path)
        if os.path.exists(temp_pdf_path) and os.path.getsize(temp_pdf_path) > 0:
            print(f"{sheet.Name} 시트가 성공적으로 PDF로 저장되었습니다: {temp_pdf_path}")
            return True
    except Exception as e:
        print(f"Error converting sheet {sheet.Name} to PDF: {e}")
    return False

try:
    # 열려있는 모든 Workbooks 가져오기
    workbooks = excel.Workbooks
    mail_sheet = None

    # "메일"이라는 이름의 시트를 찾기
    for workbook in workbooks:
        for sheet in workbook.Sheets:
            if sheet.Name == "메일":
                mail_sheet = sheet
                break

    # "메일" 시트가 발견되면 처리
    if mail_sheet:
        # 숨겨진 시트 표시
        mail_sheet.Visible = True
        print(f"시트 {mail_sheet.Name}를 PDF로 변환합니다.")

        # 첫 번째 페이지 (행 1~28) PDF로 변환
        page1_pdf = final_pdf.replace(".pd", "_page1.pd")
        if export_sheet_to_pdf(mail_sheet, page1_pdf, start_row=1, end_row=28):
            print(f"첫 번째 페이지가 성공적으로 생성되었습니다: {page1_pdf}")

        # 두 번째 페이지 (행 30~114) PDF로 변환
        page2_pdf = final_pdf.replace(".pd", "_page2.pd")
        if export_sheet_to_pdf(mail_sheet, page2_pdf, start_row=30, end_row=114):
            print(f"두 번째 페이지가 성공적으로 생성되었습니다: {page2_pdf}")
        else:
            print(f"두 번째 페이지 PDF 변환에 실패했습니다.")

    else:
        print("시트 '메일'을 찾을 수 없습니다.")

finally:
    # Excel 종료
    if excel:
        excel.Quit()

    print("작업이 완료되었습니다.")

시트 메일를 PDF로 변환합니다.
두 번째 페이지 PDF 변환에 실패했습니다.
작업이 완료되었습니다.
