# CH-07 年報問答機器人

## 7-2 取得年報 (需要開T4 GPU)

### 1️⃣  匯入套件

In [1]:
import requests
from bs4 import BeautifulSoup

### 2️⃣ 建立函式-取得年報

In [2]:
def annual_report(id,y):
  url = 'https://doc.twse.com.tw/server-java/t57sb01'
  # 建立 POST 請求的表單
  data = {
      "id":"",
      "key":"",
      "step":"1",
      "co_id":id,
      "year":y,
      "seamon":"",
      "mtype":'F',
      "dtype":'F04'
  }
  try:
    # 發送 POST 請求
    response = requests.post(url, data=data)
    # 取得回應後擷取檔案名稱
    link=BeautifulSoup(response.text, 'html.parser')
    link1=link.find('a').text
    print(link1)
  except Exception as e:
    print(f"發生{e}錯誤")
  # 建立第二個 POST 請求的表單
  data2 = {
      'step':'9',
      'kind':'F',
      'co_id':id,
      'filename':link1 # 檔案名稱
  }
  try:
    # 發送 POST 請求
    response = requests.post(url, data=data2)
    link=BeautifulSoup(response.text, 'html.parser')
    link1=link.find('a')
    # 取得 PDF 連結
    link2 = link1.get('href')
    print(link2)
  except Exception as e:
    print(f"發生{e}錯誤")
  # 發送 GET 請求
  try:
    response = requests.get('https://doc.twse.com.tw' + link2)
    # 取得 PDF 資料
    with open(y + '_' + id + '.pdf', 'wb') as file:
        file.write(response.content)
    print('OK')
  except Exception as e:
    print(f"發生{e}錯誤")

### 3️⃣ 呼叫函式

In [3]:
annual_report('2330','113')

2023_2330_20240604F04.pdf
/pdf/2023_2330_20240604F04_20250216_145539.pdf
OK


## 7-3 年報問答

langchain 以更新至新版寫法，舊版可參考：
https://colab.research.google.com/drive/16x0mUitJjH0PZx7kk2Kew2MSlkB9G_lA

###4️⃣ 安裝相關套件

In [4]:
!pip install pydantic
!pip install pdfplumber langchain langchain_community
!pip install langchain-google-genai

Collecting pdfplumber
  Downloading pdfplumber-0.11.5-py3-none-any.whl.metadata (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.5/42.5 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting langchain_community
  Downloading langchain_community-0.3.17-py3-none-any.whl.metadata (2.4 kB)
Collecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain_community)
  Downloading pydantic_settings-2.7.1-py3-none-any.whl.metadata (3.5 kB)
Collecting

###  5️⃣ 匯入相關套件

In [5]:
import os
import getpass
from langchain_community.document_loaders import PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import InMemoryVectorStore
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI

### 6️⃣ 設定環境變數和建立 Google Gemini 模型

In [6]:
from google.colab import userdata
GEMINI_API_KEY = userdata.get('GEMINI_API_KEY')

llm_model = ChatGoogleGenerativeAI(
    api_key = GEMINI_API_KEY,
    model="gemini-2.0-flash",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
    # other params...
)

### 7️⃣ 建立函式-建立向量資料庫

In [7]:
!pip install langchain-huggingface
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-base-en-v1.5",encode_kwargs={"normalize_embeddings": True})

#embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

def build_vector_db(file_path, size, overlap):
    loader = PDFPlumberLoader(file_path)
    doc = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=size,
        chunk_overlap=overlap)
    docs = text_splitter.split_documents(doc)
    db = InMemoryVectorStore.from_documents(docs, embeddings)
    return db

Collecting langchain-huggingface
  Downloading langchain_huggingface-0.1.2-py3-none-any.whl.metadata (1.3 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain-huggingface)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain-huggingface)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain-huggingface)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain-huggingface)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==1

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/94.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/777 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

1_Pooling%2Fconfig.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

### 8️⃣  呼叫函式

In [8]:
db = build_vector_db('/content/113_2330.pdf', 500, 50)

### 9️⃣ 查詢相關資料

In [9]:
similarity_docs = db.similarity_search("研發的產品", k=5)
for i in similarity_docs:
    print(i.page_content)
    print('_________')

其他非流動負債 - 165,188,432 6,303,135 2,908,666 174,400,233
376,088,869 266,556,090 201,444,016 246,651,391 1,090,740,366
（接次頁）
- 182 -
- 182 -
_________
(
-
-
-
-
積公餘盈別特
) 581,432,582
(
-
-
-
-
-
-
) 581,432,582
(
) 581,432,582
(
-
-
-
-
-
利股金現
) 581,432,582
(
-
-
-
-
-
-
) 581,432,582
(
) 382,480,922
(
) 209,941,65
(
-
-
-
-
計合配分餘盈
942,035,610,1
-
-
-
-
-
-
942,035,610,1
942,035,610,1
-
-
-
-
-
利淨度年本
-
146,495,24
-
312,446,24
-
475,114,1
) 124,723,01
(
060,065,15
) 275,94
(
) 275,94
(
-
-
-
-
-
益損合綜他其後稅度年本
098,421,950,1
-
312,446,24
-
475,114,1
) 124,723,01
(
060,065,15
776,084,610,1
776,084,610,1
-
-
-
-
-
額總益損合綜度年本
647,662
-
) 351,581
(
_________
不動產、廠房及設備減損損失 - 790,740
外幣兌換淨損 183,093 9,965,603
股利收入 ( 214,911 ) ( 207,028 )
其 他 ( 317,394 ) 131,637
與營業活動相關之資產／負債淨變動數
透過損益按公允價值衡量之金融工具 ( 24,326 ) ( 1,025,979 )
應收票據及帳款淨額 7,754,557 4,588,461
應收關係人款項 17,782,935 ( 34,692,438 )
其他應收關係人款項 2,115,413 ( 1,074,087 )
存 貨 ( 29,976,300 ) ( 23,123,047 )
其他金融資產 ( 1,019,979 ) 1,894,328
其他流動資產 ( 7,799,552 ) (

### 🔟  匯入問答相關套件

In [10]:
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import RetrievalQA

### 1️⃣1️⃣  建立函式-問答程式

In [11]:
# 提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system",
     "你是一個根據年報資料與上下文作回答的助手,"
     "如果有明確數據或技術(產品)名稱可以用數據或名稱回答,"
     "回答以繁體中文為主。"
     "{context}"),
    ("human","{question}")])

# 建立問答函式
def question_and_answer(question):
    retrievalQA = RetrievalQA.from_llm(
        llm=llm_model,
        prompt=prompt,
        return_source_documents=True,
        retriever=db.as_retriever(
        search_kwargs={'k':8}))
    answer = retrievalQA.invoke(question)
    return answer

### 1️⃣2️⃣ 建立迴圈進行問答

In [12]:
while True:
    question = input("輸入問題:")
    if not question.strip():
        break
    result = question_and_answer(question)
    print(result['result'])
    print('_________')
    #print(result["source_documents"])

輸入問題:請說明該公司現金流情況
根據提供的部分年報資訊，台灣積體電路製造股份有限公司（台積電）的現金流量情況如下：

*   **投資活動之淨現金流出：** (588,128,653)
*   **籌資活動之現金流量：**
    *   發行公司債：85,700,000
    *   償還公司債：(18,100,000)
    *   支付現金股利：(291,721,852)
    *   取得子公司部分權益價款：(326,167,994)
    *   處分子公司部分權益價款：244,376

請注意，以上僅為部分現金流量項目，並非完整的現金流量表。
_________


KeyboardInterrupt: Interrupted by user

## 7-4 年報總結與分析

### 1️⃣3️⃣ 回答結果及原始資料

In [13]:
from langchain.chains.summarize import load_summarize_chain

### 1️⃣4️⃣ 總結原始資料

In [14]:
# 建立關鍵字串列
key_word = ['正在開發的產品及銷售狀況',
            '市場策略的調整或變化',
            '公司預期未來展望',
            '總營收、稅前淨利的成長或變動分析',
            '國際競爭以及海外市場銷售情形']

data_list = []
for word in key_word:
    data = db.similarity_search(word, k=3)
    # 整合 Document 串列
    data_list += data

# 建立提示訊息串列
prompt_template = [("system","你的任務是對年報資訊進行摘要總結。"
                    "以下為提供的年報資訊：{text},"
                    "請給我重點數據, 如銷售增長情形、營收變化、開發項目等,"
                    "最後請使用繁體中文輸出報告")]
prompt = ChatPromptTemplate.from_messages(messages=prompt_template)

### 1️⃣5️⃣  呼叫函式

In [17]:
refine_chain = load_summarize_chain(llm=llm_model,chain_type='stuff',prompt=prompt)
summary_refine = refine_chain.invoke({"input_documents": data_list})
print(summary_refine['output_text'])

ChatGoogleGenerativeAIError: Invalid argument provided to Gemini: 400 * GenerateContentRequest.contents: contents is not specified


### 1️⃣6️⃣  提取關鍵字
使用 MMR 搜尋方法

In [18]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser, StrOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnableSequence

word_prompt = PromptTemplate.from_template(
     "從{input}聯想出4個與年報分析有關的重要關鍵字,"\
     "請確保回答具有具有關聯性、多樣性和變化性。 \n "
     "僅回覆關鍵字, 並以半形逗號與空格來分隔。不要加入其他內容")

word_chain = word_prompt | llm_model | CommaSeparatedListOutputParser()
print(word_chain.invoke({"input": "公司的營運狀況如何?"}))

['營收成長', '獲利能力', '償債能力', '現金流量']


### 1️⃣7️⃣ 設定 AI 角色讓其分析報告

In [19]:
data_prompt = PromptTemplate.from_template(
    "你現在是一位專業的股票分析師,"
    "會以詳細、嚴謹的角度針對 {key_words} 進行年報分析,"
    "請提及關於營收、是否成長以及利潤等重要數字,"
    "最後生成一份專業的趨勢分析報告。"
    "以下為年報資料：{data_content}")

data_chain = data_prompt | llm_model | StrOutputParser()

### 1️⃣8️⃣ 整合函式

In [20]:
def analyze_chain(input):
    # 搜尋「問題」的相關資料
    data = db.max_marginal_relevance_search(input, fetch_k=5, k=2)

    # 第一個 Chain 元件, 建立「關鍵字」串列
    word_list = word_chain.invoke({"input": input})

    # 搜尋「關鍵字」的相關資料
    for word in word_list:
      data += db.max_marginal_relevance_search(word, fetch_k=5, k=2)
    word_list.append(input)

    # 第二個 Chain 元件, 生成分析報告
    result = data_chain.invoke({'key_words':word_list,'data_content':data})

    return result

### 1️⃣9️⃣ 呼叫函式

In [21]:
input = '公司的營收狀況如何？'
analyze_report = analyze_chain(input)
print(analyze_report)

好的，我將根據您提供的年報資料，進行一次詳細且嚴謹的股票分析，並生成一份專業的趨勢分析報告。

**資料審閱與分析**

由於您提供的資料主要為年報的部分章節，缺乏完整的財務報表（如損益表、資產負債表、現金流量表），因此我將著重於已提供的資訊，並結合一般行業分析的框架進行推論。

1.  **營收成長率：**

*   **初步判斷：** 雖然沒有直接的營收數字，但從「掌握更多的產業成長機會」、「支持客戶成長」等描述可推斷，公司管理層對營收成長抱持樂觀態度。
*   **深入分析：**
    *   需關注公司是否能持續推出先進製程技術和產品，以維持競爭力並掌握成長機會。
    *   全球製造足跡的擴張策略，有助於支持客戶成長，但也可能增加成本和管理複雜度。

2.  **獲利能力：**

*   **初步判斷：** 文件中未直接提及獲利能力，但提到「致力實現全方位的智慧化和自動化製造」、「成為具有最高效率和最具成本效益的半導體製造者」，暗示公司追求成本優勢，以提升獲利能力。
*   **深入分析：**
    *   需關注公司在數位卓越化和智慧製造方面的投資，是否能有效降低成本並提高生產效率。
    *   客戶需求縮短產品上市時間的壓力，可能對平均售價和獲利空間造成影響。

3.  **成本結構：**

*   **初步判斷：** 從風險因素中可見，原物料價格波動、供應鏈風險、產能擴充成本等，都是影響公司成本結構的重要因素。
*   **深入分析：**
    *   公司分散生產廠區、降低供應鏈風險的策略，有助於控制成本。
    *   需關注新台幣匯率波動對以美元計價的營收和資本支出的影響。

4.  **現金流量：**

*   **初步判斷：** 提供的現金流量資訊顯示，營業活動的淨現金流入可觀，但支付所得稅的金額也相當大。
*   **深入分析：**
    *   需關注營業活動淨現金流量是否足以支應資本支出、股利發放和投資需求。
    *   現金再投資比率是衡量公司擴張和成長能力的重要指標。

5. **公司的營收狀況如何？**
    *   **初步判斷：** 從「掌握更多的產業成長機會」、「支持客戶成長」等描述可推斷，公司管理層對營收成長抱持樂觀態度。
    *   **深入分析：**
        *   需關注公司是否