In [60]:
from pptx import Presentation
from pptx.enum.shapes import MSO_SHAPE_TYPE
def extract_text_from_shape(shape):
    text = []
    if shape.has_text_frame:
        for paragraph in shape.text_frame.paragraphs:
            text.append(paragraph.text)
    elif shape.shape_type == MSO_SHAPE_TYPE.GROUP:
        for subshape in shape.shapes:
            text.extend(extract_text_from_shape(subshape))
    elif shape.shape_type == MSO_SHAPE_TYPE.TABLE:
        for row in shape.table.rows:
            for cell in row.cells:
                text.append(cell.text)
    return text

def extract_all_text_from_pptx(pptx_path):
    prs = Presentation(pptx_path)
    all_text = []

    for slide_number, slide in enumerate(prs.slides, start=1):
        slide_text = []
        shapes = sorted(slide.shapes, key=lambda s: (s.top, s.left))
        
        for shape in shapes:
            shape_text = extract_text_from_shape(shape)
            if shape_text:
                slide_text.extend(shape_text)
        
        all_text.append((slide_number, slide_text))

    return all_text

# 使用例
pptx_path = r'C:\Users\tmina\Google ドライブ\github\sandbox\LangChain\data\OB近況.pptx'
extracted_text = extract_all_text_from_pptx(pptx_path)

for slide_number, slide_text in extracted_text:
    print(f"Slide {slide_number}:")
    for text in slide_text:
        print(f"  {text}")
    print()

Slide 1:
  
  
  学生時代
  
  社会人1年目
  
  社会人3年目
  The Power of PowerPoint - thepopp.com
  1

Slide 2:
  発電所建設プロジェクトのリスクマネジメント
  ある地域に発電所建設した際に、儲かるのか？儲からないか？
  収入・・・「売電価格」
  ある程度は原油価格に連動する制度になってはいるが、リスクとなる。
  支出・・・「燃料調達価格、支払利息」
  プロジェクトは20年～30年に渡り、金利のブレによっては支払利息が負担になることも。
  利益・・・海外の場合「為替リスク」
  発電所建設に関わらず、あらゆるグローバル企業で問題となる。
  あらゆる「リスク」を洗い出し、過去のデータから将来の変動を推定する。
  
  2

Slide 3:
  数学的手法を駆使して、定量的に評価する
  どのようにモデル化を試みるか？
  ヒストリカル法、分散共分散法など伝統的なモデル
  過去データの推移が、将来も同様に発生すると仮定して構築。
  産業知見を用いた、理論的なモデル
  電力の需要供給曲線を発電所の稼働状況、電力オークション価格から推計
  流行りの機械学習
  重回帰、時系列モデルは受け入れやすい一方、ニューラルネットワーク、ランダムフォレストなど、ブラックボックス的なモデルは説明が難しい。
  収入と支出をモデル化し、利益を算出。				　　　投資効率の観点から妥当性を定量的に評価する。
  
  3

Slide 4:
  農林水産省　スマート農業実証プロジェクト（2019年8月5日）
  4

Slide 5:
  ハウス栽培における、トマトの収量を最大化するためには？
  ハウス栽培において、トマトの収量に関わる要因は膨大
  日射量、CO2濃度、ハウス内気温、ハウス外気温、湿度、遮光カーテン、水撒き、農薬散布、給液、トマト品種、資材の種類
  データと現象に合わせてモデルを選択する
  データを集計して、ブラックボックスモデルに突っ込む？（社会実装という国の思惑とはかけ離れたものになる・・・）
  光合成などの理論的なモデルをベースに組み立てる？（専門知識が必須だが、最も受け入れやすいモデル。）
  累積日射量、CO2が効くことがわかっているから、Al

In [3]:
# 精度イマイチ
# import win32com.client


# def extract_text_from_ppt(file_path):
#     ppt = win32com.client.Dispatch("PowerPoint.Application")
#     presentation = ppt.Presentations.Open(file_path, ReadOnly=True)
#     text = ""

#     for slide in presentation.Slides:
#         for shape in slide.Shapes:
#             if shape.HasTextFrame:
#                 text += shape.TextFrame.TextRange.Text + "\n"
#             elif shape.HasTable:
#                 table = shape.Table
#                 for row in range(1, table.Rows.Count + 1):
#                     for col in range(1, table.Columns.Count + 1):
#                         cell = table.Cell(row, col)
#                         if cell.Shape.HasTextFrame:
#                             text += cell.Shape.TextFrame.TextRange.Text + "\t"
#                     text += "\n"
#             text += "\n"

#     presentation.Close()
#     ppt.Quit()
#     return text

# # 使用例
# file_path = r'C:\Users\tmina\Google ドライブ\github\sandbox\LangChain\data\OB近況.pptx'
# extracted_text = extract_text_from_ppt(file_path)
# print(extracted_text)



1

The Power of PowerPoint - thepopp.com

学生時代



社会人1年目



社会人3年目



発電所建設プロジェクトのリスクマネジメント

あらゆる「リスク」を洗い出し、過去のデータから将来の変動を推定する。

2




発電所建設に関わらず、あらゆるグローバル企業で問題となる。払利息が負担になることも。

数学的手法を駆使して、定量的に評価する

3


収入と支出をモデル化し、利益を算出。				　　　投資効率の観点から妥当性を定量的に評価する。



重回帰、時系列モデルは受け入れやすい一方、ニューラルネットワーク、ランダムフォレストなど、ブラックボックス的なモデルは説明が難しい。

農林水産省　スマート農業実証プロジェクト（2019年8月5日）

4


ハウス栽培における、トマトの収量を最大化するためには？

「ビジネスに数学を応用させていく」という視点が求められる。

5



累積日射量、CO2が効くことがわかっているから、AlphaGoなどで有名な、強化学習を用いる？（環境変数の最適コントロールが説明できる。キュウリなどで実績あり。）






In [52]:
from pptx import Presentation
from pptx.dml.color import RGBColor
from pptx.enum.shapes import MSO_SHAPE
from pptx.util import Inches

prs = Presentation(r'C:\Users\tmina\Google ドライブ\github\sandbox\LangChain\data\OB近況.pptx')

In [53]:
for i in range(len(prs.slide_layouts)):
    slide_layout = prs.slide_layouts[i]  # スライドマスターのレイアウトを選択
    slide = prs.slides.add_slide(slide_layout)

    title = slide.shapes.title
    title.text = "新しいスライドのタイトル"
    
    placeholders = [shape for shape in slide.placeholders]
    for j in range(len(placeholders)-1):
        content = placeholders[j]  # テキスト欄のプレースホルダー
        content.text = f"{j}_ここに本文を入力します"

In [55]:
left = top = width = height = Inches(1)
shape = slide.shapes.add_shape(
    MSO_SHAPE.RECTANGLE, left, top, width, height
)

fill = shape.fill
fill.solid()
fill.fore_color.rgb = RGBColor(255, 0, 0)  # 赤色に設定

In [56]:
prs.save('modified_presentation.pptx')