# 06.3 파워포인트 파일 읽기
## 파워포인트 파일 열기

In [None]:
from pptx import Presentation

# 기존의 파워포인트 파일 열기
prs = Presentation('presentation_with_list.pptx')

## 슬라이드 제목과 본문 텍스트 추출

In [None]:
from pptx import Presentation

prs = Presentation('presentation_with_list.pptx')

# 각 슬라이드의 제목과 본문 텍스트를 출력
for slide_number, slide in enumerate(prs.slides): #전체 슬라이드를 순회
    print(f"Slide {slide_number+1}")

    # 슬라이드의 제목 출력 (제목이 있는 경우)
    if slide.shapes.title:
        print(f"Title: {slide.shapes.title.text}")

    # 슬라이드의 본문 텍스트 출력
    #각 슬라이드에 포함된 모든 개체(도형, 텍스트 상자, 표 등)를 순회
    for shape in slide.shapes: 

        # 현재 개체의 형태가 텍스트 상자인지 확인, 텍스트 상자일 경우 아래 코드를 실행
        if hasattr(shape, "text_frame") and shape.text_frame:

            for paragraph in shape.text_frame.paragraphs: # 텍스트 상자의 모든 단락을 순회
                for run in paragraph.runs: # 현재 단락의 텍스트 런에 접근
                    print(run.text) #현재 텍스트 런을 출력


## 추출한 텍스트를 파일에 저장

In [None]:
from pptx import Presentation

prs = Presentation('presentation_with_list.pptx')

extracted_text = "" # 빈 문자열 변수 'extracted_text'를 생성

for slide_number, slide in enumerate(prs.slides):
    for shape in slide.shapes:

        #  텍스트일 경우, extracted_text에 슬라이드 번호와 텍스트 내용을 추가
        if hasattr(shape, "text"): 
            extracted_text += f"Slide {slide_number+1}: {shape.text}\n" 

with open('extracted_text.txt', 'w') as file:
    file.write(extracted_text)


## 표 데이터 추출하기

In [None]:
from pptx import Presentation

prs = Presentation("presentation_with_table.pptx")

# 전체 슬라이드를 순회하며 표를 찾아 데이터를 추출
for slide_number, slide in enumerate(prs.slides):
    #각 슬라이드에 포함된 모든 개체(도형, 텍스트 상자, 표 등)를 순회
    for shape in slide.shapes:  

        if hasattr(shape, "table"): # 현재 개체의 형태가 표인지 확인
            table = shape.table # 현재 표를 table 변수에 할당

            for row in table.rows: # 테이블의 모든 행을 순회
                for cell in row.cells: # 현재 행의 모든 셀을 순회
                    print(cell.text) #현재 셀의 텍스트를 출력


## 이미지 파일 추출하기

In [None]:
from pptx import Presentation

prs = Presentation("presentation_with_image.pptx")

# 전체 슬라이드를 순회
for slide_number, slide in enumerate(prs.slides):

    # 각 슬라이드에서 모든 개체(shape)를 순회
    for shape in slide.shapes:

        # 현재 개체가 이미지의 속성을 가지고 있는지 확인하고, 이미지일 경우 아래 코드를 실행
        if hasattr(shape, "image"):

            # 이미지의 바이트 데이터와 확장자를 가져와 변수에 할당
            image_stream = shape.image.blob
            image_format = shape.image.ext

            # 바이트 데이터를 사용하여 이미지 파일을 생성
            with open(f"slide_{slide_number}_image.{image_format}", "wb") as img_file:
                img_file.write(image_stream)
                print('저장된 파일명: ', f'slide_{slide_number}_image.{image_format}')

## 차트 데이터 추출하기

In [None]:
from pptx import Presentation

prs = Presentation("presentation_with_chart.pptx")

# 전체 슬라이드를 순회
for slide_number, slide in enumerate(prs.slides):

    # 각 슬라이드 내의 모든 개체를 순회
    for shape in slide.shapes:

        # if문과 hasattr 함수를 사용하여 현재 개체가 차트인지 확인하고 차트일 경우 chart에 할당
        if hasattr(shape, "chart"):
            chart = shape.chart

            # 차트 내의 모든 시리즈를 순회
            for series in chart.series:
                print(f"Series title: {series.name}") # 시리즈 이름을 출력

                # 첫 번째 플롯(plot)의 카테고리와 값(즉, x값과 y값)의 쌍을 순회
                for x_val, y_val in zip(chart.plots[0].categories, series.values):
                    print(f"Data point: x={x_val}, y={y_val}")
