<a href="https://colab.research.google.com/github/ckjen168/LLMColab/blob/main/ai_finance_statement_analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# CH-07 年報問答機器人

## 7-2 取得年報

### 1️⃣  匯入套件

In [None]:
import requests
from bs4 import BeautifulSoup

### 2️⃣ 建立函式-取得年報

In [None]:
def annual_report(id,y):
  url = 'https://doc.twse.com.tw/server-java/t57sb01'
  # 建立 POST 請求的表單
  data = {
      "id":"",
      "key":"",
      "step":"1",
      "co_id":id,
      "year":y,
      "seamon":"",
      "mtype":'F',
      "dtype":'F04'
  }
  try:
    # 發送 POST 請求
    response = requests.post(url, data=data)
    # 取得回應後擷取檔案名稱
    link=BeautifulSoup(response.text, 'html.parser')
    link1=link.find('a').text
    print(link1)
  except Exception as e:
    print(f"發生{e}錯誤")
  # 建立第二個 POST 請求的表單
  data2 = {
      'step':'9',
      'kind':'F',
      'co_id':id,
      'filename':link1 # 檔案名稱
  }
  try:
    # 發送 POST 請求
    response = requests.post(url, data=data2)
    link=BeautifulSoup(response.text, 'html.parser')
    link1=link.find('a')
    # 取得 PDF 連結
    link2 = link1.get('href')
    print(link2)
  except Exception as e:
    print(f"發生{e}錯誤")
  # 發送 GET 請求
  try:
    response = requests.get('https://doc.twse.com.tw' + link2)
    # 取得 PDF 資料
    with open(y + '_' + id + '.pdf', 'wb') as file:
        file.write(response.content)
    print('OK')
  except Exception as e:
    print(f"發生{e}錯誤")

### 3️⃣ 呼叫函式

In [None]:
annual_report('2330','113')

2023_2330_20240604F04.pdf
/pdf/2023_2330_20240604F04_20250121_151659.pdf
OK


## 7-3 年報問答

###4️⃣ 安裝相關套件

由於版本更新的相容性問題, pdfplumber使用舊版本的0.10.2

In [None]:
!pip install langchain==0.0.335 openai tiktoken pdfplumber==0.10.2 faiss-cpu



In [None]:
import os
import getpass
from langchain.document_loaders import PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chat_models import ChatOpenAI

### 6️⃣ 設定環境變數和建立 OpenAI 模型

In [None]:
from google.colab import userdata
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')
llm_16k = ChatOpenAI(model="gpt-3.5-turbo")

### 7️⃣ 建立函式-建立RAG向量資料庫

In [None]:
def pdf_loader(file,size,overlap):
  loader = PDFPlumberLoader(file)
  doc = loader.load()
  text_splitter = RecursiveCharacterTextSplitter(
                          chunk_size=size,
                          chunk_overlap=overlap)
  new_doc = text_splitter.split_documents(doc)
  db = FAISS.from_documents(new_doc, OpenAIEmbeddings())
  return db

### 8️⃣  呼叫函式

In [None]:
db = pdf_loader('/content/113_2330.pdf',500,50)

### 9️⃣ 查詢相關資料

In [None]:
query = "公司是否有明確的成長或創新策略?"
docs = db.similarity_search(query,k=3)
for i in docs:
    print(i.page_content)
    print('_________')

使命
創新是我們的成長的泉源。我們追求的是全面，涵
蓋策略、行銷、管理、技術、製造等各方面的創
作為全球邏輯積體電路產業中，長期且值得信賴的
新。創新不僅僅是有新的想法，還需要執行力，做
Fab 10 技術及產能提供者。
出改變，否則只是空想，沒有益處。
企業核心價值
客戶信任
客戶是我們的夥伴，因此我們優先考慮客戶的需
誠信正直
AP3 求。我們視客戶的競爭力為台積公司的競爭力，而
這是我們最基本也是最重要的理念。我們說真話； 客戶的成功也是台積公司的成功。我們努力與客戶
我們不誇張、不作秀；對客戶我們不輕易承諾，一 建立深遠的夥伴關係，並成為客戶信賴且賴以成功
旦做出承諾，必定不計代價，全力以赴；對同業 的長期重要夥伴。
II 001
_________
和先進封裝解決方案方面強大的技術領先，我們能夠掌握更多的產業成長機會。
我們專注於公司的業務基本面，有目標地執行我們的全球製造足跡策略，以支持客戶成長與增加他們的信任。我
劉德音 魏哲家
們將繼續推動台積公司在全球所有晶圓廠的數位卓越化，並致力實現全方位的智慧化和自動化製造。無論我們在
董事長 總裁
何處營運，我們都決心要成為具有最高效率和最具成本效益的半導體製造者。
010 011
_________
前提下追求收益。一般而言，該政策要求須投資於投資
可能使台積公司必須採取以下措施：（一）購買、使用並 於獲得融資前削減、修改或是延遲產能擴充計劃。
144 145
_________


### 🔟  匯入問答相關套件

In [None]:
from langchain.prompts import ChatPromptTemplate
from langchain.chains import RetrievalQA

### 1️⃣1️⃣  建立函式-問答程式

In [None]:
# 提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system",
     "你是一個根據年報資料與上下文作回答的助手,"
     "如果有明確數據或技術(產品)名稱可以用數據或名稱回答,"
     "回答以繁體中文和台灣用語為主。"
     "{context}"),
    ("human","{question}")])

# 建立問答函式
def question_and_answer(question):
    qa = RetrievalQA.from_llm(llm=llm_16k,
                    prompt=prompt,
                    return_source_documents=True,
                    retriever=db.as_retriever(
                    search_kwargs={'k':10}))
    result = qa(question)
    return result

### 1️⃣2️⃣ 建立迴圈進行問答

In [None]:
while True:
    question = input("輸入問題:")
    if not question.strip():
        break
    result=question_and_answer(question)
    print(result['result'])
    print('_________')
    #print(result["source_documents"])

TypeError: 'str' object is not callable

## 7-4 年報總結與分析

### 1️⃣3️⃣ 回答結果及原始資料

In [None]:
from langchain.chains.summarize import load_summarize_chain

### 1️⃣4️⃣ 總結原始資料

In [None]:
# 建立關鍵字串列
key_questions = ['有關市場策略的調整或變化有何提及？',
          '公司對未來一年的展望是什麼？',
          '公司的總收入是否增長，淨利潤的正負情況是否有變化？',
          '國際競爭及海外市場情況',
          '目前的研發狀況?']
data_list = []
for word in key_questions:
    data = db.max_marginal_relevance_search(word)
    # 整合 Document 串列
    data_list += data

# 建立提示訊息串列
prompt_template = [("system","你的任務是生成年報摘要。"
                "我們提供年報{text}請你負責生成,"
                "且要保留重點如營收漲跌、開發項目等,"
                "最後請使用繁體中文輸出報告")]
prompt = ChatPromptTemplate.from_messages(messages=prompt_template)

### 1️⃣5️⃣  呼叫函式

In [None]:
chain_refine_16k = load_summarize_chain(llm=llm_16k,
                        chain_type='stuff',
                        prompt=prompt)
print(chain_refine_16k.run(data_list))

### 1️⃣6️⃣  提取關鍵字

In [None]:
from langchain.chains import LLMChain
from langchain.output_parsers import CommaSeparatedListOutputParser
output_parser = CommaSeparatedListOutputParser()

word_prompt=ChatPromptTemplate.from_messages(messages=[
    ("human","從{input}聯想出4個與年報分析有關的重要關鍵字,"\
     "請確保回答具有具有關聯性、多樣性和變化性。 \n "
     "僅回覆關鍵字, 並以半形逗號與空格來分隔。不要加入其他內容"
    "")]
)
word_chain = LLMChain(llm=llm_16k, prompt=word_prompt)
output_parser.parse(word_chain('公司的營收狀況如何？')['text'])

### 1️⃣7️⃣ 設定 AI 角色讓其分析報告

In [None]:
data_prompt=ChatPromptTemplate.from_messages(messages=[
    ("system","你現在是一位專業的股票分析師,"
    "你會以詳細、嚴謹的角度進行年報分析, 針對{output}作分析並提及重要數字\
    ,然後生成一份專業的趨勢分析報告。"),
    ("human","{text}")])
data_chain = LLMChain(llm=llm_16k, prompt=data_prompt)

### 1️⃣8️⃣ 整合函式

In [None]:
def analyze_chain(input):
    # 搜尋「問題」的相關資料
    data = db.max_marginal_relevance_search(input)

    # 第一個 Chain 元件, 建立「關鍵字」串列
    word = word_chain(input)
    word_list = output_parser.parse(word['text'])

    # 搜尋「關鍵字」的相關資料
    for i in word_list:
      data += db.max_marginal_relevance_search(i,k=2)
    word_list.append(input)

    # 第二個 Chain 元件, 生成分析報告
    result = data_chain({'output':word_list,'text':data})

    return result['text']

### 1️⃣9️⃣ 呼叫函式

In [None]:
input = '公司的營收狀況如何？'
print(analyze_chain(input))