<a href="https://colab.research.google.com/github/AS-AIGFAQ/AS-AIGFAQ/blob/main/colab_notebook_AS_AIGFAQ.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# AI Generated FAQ by Academia Sinica (AS-AIGFAQ)

## 現有行政服務的常態與問題

- 所有的法條、服務說明、公告事項都會放置在網站上
- 網頁就像一個大迷宮，什麼都有，但是想找的往往都找不到
- 最快的方法就是打電話問承辦人，導致承辦人花費大量的時間在回答類似的問題，反而減少可以處理日常公務的時間

## 現有行政服務的解方

- 單一服務窗口：由專業客服代為回答簡易問題。但是，複雜問題仍須轉介承辦人、轉介案的回應所需時間拉長、客服可能判斷錯誤
- 整理 FAQ 讓使用者自行查詢：由專人撰寫且隨時更新 FAQ。但是，FAQ 的文句、口氣、題目類型難以標準化；更新時容易掛一漏萬
- 導入 chatbot ：根據資料庫設計交談式機器人回答問題。但是，往往只能回答制式問題、需花費大量成本進行調校

## 我們的解法

- 讓 chatGPT 提供對使用者感興趣的問題建議，進而達到自動生成 FAQ 的目標
- 透過 OpenAI API，施展咒語 (prompt) 讓 chatGPT  依據輸入的內容 (context，即相關規定) 提出問題；接著再請 chatGPT  依據輸入的內容，回答所收集到的問題


## 註記

以下程式內容說明與註解，皆由 ChatGPT 產生，並經人工簡略編輯而成。


## Initialization

首先我們升級 pip 和 openai 套件的版本，並且設定為在靜默模式下執行，以避免顯示太多的輸出。

First, we upgrade the versions of the pip and openai packages in quiet mode to avoid displaying too much output.

In [None]:
# Upgrade pip (Python package installer) to the latest version in quiet mode
!pip install -q --upgrade pip

# Install or upgrade the 'openai' package in quiet mode
!pip install -q --upgrade openai

接著導入 openai 和 pandas 庫，然後設置了環境變量 OPENAI_API_KEY 的值。接著並將 openai.api_key 設為 API 密鑰。最後，設置了文件名和 HTML 標題。

We import the openai and pandas libraries, then sets the value of the environment variable OPENAI_API_KEY. After that, it sets openai.api_key to the API key. Finally, it sets the file name and HTML title.

In [None]:
import openai
import pandas as pd

# Set the environment variable for OpenAI API key
%env OPENAI_API_KEY=YOUR_OPENAI_API_KEY

# Set organization and API key for OpenAI
openai.organization = ""
openai.api_key = "YOUR_OPENAI_API_KEY"

# Set the file name and HTML title
fname = 'AS-ITS'
HTML_title = '中央研究院 資訊服務 FAQ'

faq_name = fname + '-QA.csv'

# Read in the data

我們首先從 csv 檔案中讀取資料並將其存入名為 df 的變數。然後，我們印出原始資料的行數。接著，我們使用 dropna 函數移除 df 中所有空行，並用 inplace 參數直接替換原資料。最後，我們印出移除空行後的行數，並顯示前五行資料。

We first read data from a csv file and store it in a variable called df. Then, we print the number of rows in the original data. After that, we use the dropna function to remove all empty rows in df, and replace the original data directly with the inplace parameter. Finally, we print the number of rows after removing empty rows and display the first five rows of data.

In [None]:
# Read data from a csv file and store it in the 'df' variable
df = pd.read_csv(fname + ".csv")

# Print the number of rows in the original data
print("Before removing empty rows: " + str(len(df.index)))

# Remove all empty rows in 'df' and replace the original data directly with the inplace parameter
df.dropna(inplace = True)   

# Print the number of rows after removing empty rows
print("After removing empty rows: " + str(len(df.index)))

# Display the first five rows of data
df.head()

Before removing empty rows: 15
After removing empty rows: 15


Unnamed: 0,category,title,context
0,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...
1,學術處計畫申請案,學術處計畫申請案,自110 年起重新規劃中研院研究人員可向院方申請的競爭型學術研究計畫經費之類型，依計畫性質與...
2,學術處計畫申請案,第一、二類型計畫,中研院研究人員可主動向院方申請的競爭型學術研究計畫經費之類型，為第一、二類型計畫：1)前瞻計...
3,學術處計畫申請案-第一、二類型計畫,前瞻計畫,中研院前瞻計畫旨在延攬、拔擢研究成果優異並深具發展潛力的年輕學者，以進行具國際競爭力之前瞻性...
4,學術處計畫申請案-第一、二類型計畫,深耕計畫,中研院深耕計畫旨在拔擢並長期培育中研院傑出且具潛能之研究人員，使其長期致力於知識領域重要課題...


# Use OpenAI API (gpt-3.5-turbo) to generate Q&A

## Create questions based on the data

我們定義了一個名為 chatGPT_get_questions 的函數，它接收一個名為 row 的參數。函數中，我們嘗試建立一個問題 q，根據服務項目和服務說明來提出問題。然後，我們使用 GPT-3.5 Turbo 模型向 OpenAI 請求回答。如果一切正常，我們將返回回答內容。如果遇到錯誤，則返回空字符串。

We define a function called chatGPT_get_questions, which takes a parameter called row. In the function, we try to create a question q based on the service item and service description. Then, we request an answer from OpenAI using the GPT-3.5 Turbo model. If everything goes well, we return the answer content. If there is an error, we return an empty string.

In [None]:
def chatGPT_get_questions(row):
    try:
        # Create a question based on the service item and service description
        q = "請根據以下的服務項目與服務說明，提出以問號為結尾，並且清楚說明服務項目的問題\n\n服務項目：{"+row.title+"}\n\n服務說明：{"+row.context+"}\n\n問題：\n1."
        
        # Request an answer from OpenAI using the GPT-3.5 Turbo model
        rsp = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": "使用者"},
                {"role": "user", "content": q}
            ]
        )
        
        # Return the answer content
        return rsp.get("choices")[0]["message"]["content"]
    except:
        # Return an empty string if there is an error
        return ""

我們首先使用 apply 函數將 chatGPT_get_questions 函數應用到 df 的每一行，並將結果存儲在名為 questions 的新列中。接著，我們在每個 questions 列的開頭加上 "1."。最後，我們印出 df 中第一行的 questions 列的值。

We first use the apply function to apply the chatGPT_get_questions function to each row of df and store the result in a new column called questions. Then, we add "1." to the beginning of each questions column. Finally, we print the value of the questions column in the first row of df.

In [None]:
# Apply the 'chatGPT_get_questions' function to each row of 'df' and store the result in a new column called 'questions'
df['questions'] = df.apply(chatGPT_get_questions, axis=1)

# Add "1." to the beginning of each 'questions' column
df['questions'] = "1." + df.questions

# Print the value of the 'questions' column in the first row of 'df'
print(df[['questions']].values[0][0])

1.這個服務項目是針對哪個機構的計畫申請案？
2. 中研院在什麼目的下進行全院計畫重整？
3. 「研究計畫研議小組」的任務是什麼？
4. 計畫申請案的階段有哪些？每個階段需要提交哪些相關資料？
5. 審查階段的過程是什麼？


我們在這裡分別使用 head () 和 tail () 函數來查看 df 的前五行和後五行資料。

Here, we use the head() and tail() functions to view the first five rows and last five rows of df, respectively.

In [None]:
# Display the first five rows of 'df'
df.head()

# Display the last five rows of 'df'
df.tail()

Unnamed: 0,category,title,context,questions
0,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,1.這個服務項目是針對哪個機構的計畫申請案？\n2. 中研院在什麼目的下進行全院計畫重整？\...
1,學術處計畫申請案,學術處計畫申請案,自110 年起重新規劃中研院研究人員可向院方申請的競爭型學術研究計畫經費之類型，依計畫性質與...,1.中研院研究人員從哪一年開始可以向院方申請競爭型學術研究計畫經費？\n\n2. 這個學術處...
2,學術處計畫申請案,第一、二類型計畫,中研院研究人員可主動向院方申請的競爭型學術研究計畫經費之類型，為第一、二類型計畫：1)前瞻計...,1.什麼是第一、二類型計畫？\n2. 中研院的研究人員可以向誰申請第一、二類型計畫的經費？\...
3,學術處計畫申請案-第一、二類型計畫,前瞻計畫,中研院前瞻計畫旨在延攬、拔擢研究成果優異並深具發展潛力的年輕學者，以進行具國際競爭力之前瞻性...,1.中研院前瞻計畫的目的是什麼？ \n2. 哪些人可以擔任前瞻計畫的被推薦人？ \n3. 進...
4,學術處計畫申請案-第一、二類型計畫,深耕計畫,中研院深耕計畫旨在拔擢並長期培育中研院傑出且具潛能之研究人員，使其長期致力於知識領域重要課題...,1.深耕計畫的目標是什麼？ \n2. 誰可以擔任深耕計畫的計畫主持人？ \n3. 深耕計畫是...


我們導入 re（正則表達式）模組。然後，創建一個新的空 DataFrame，命名為 df2，包含四個列：'category'、'title'、'context' 和 'question'。接著，我們遍歷 df 中的每一行，將每一行的 'questions' 列拆分成多個問題。對於每個問題，我們移除問題序號（例如 "1."），並創建一個新的 DataFrame（new_df）包含當前問題及其相應的 'category'、'title' 和 'context'。最後，我們將 new_df 添加到 df2 中，並更新問題序號 i。

We import the re (regular expression) module. Then, we create a new empty DataFrame called df2, containing four columns: 'category', 'title', 'context', and 'question'. Next, we iterate through each row in df, splitting the 'questions' column in each row into multiple questions. For each question, we remove the question number (e.g., "1.") and create a new DataFrame (new_df) containing the current question and its corresponding 'category', 'title', and 'context'. Finally, we add new_df to df2 and update the question number i.

In [None]:
import re

# Create a new empty DataFrame called 'df2' with four columns
df2 = pd.DataFrame(columns=['category', 'title', 'context', 'question'])

# Iterate through each row in 'df'
for index, row in df.iterrows():
    # Split the 'questions' column in each row into multiple questions
    questions = row['questions'].split("\n")
    i = 1
    for q in questions:
        if len(q) != 0:
            # Remove the question number (e.g., "1.") and strip leading whitespace
            q = re.sub("\d.", "", q, count=1).lstrip()
            
            # Create a new DataFrame containing the current question and its corresponding 'category', 'title', and 'context'
            new_df = pd.DataFrame(data={'category': [row['category']], 'title': [row['title']], 'context': [row['context']], 'question': [q]})
            
            # Add 'new_df' to 'df2'
            df2 = pd.concat([df2, new_df], axis=0, ignore_index=True)
            
            # Update the question number
            i = i + 1

在這裡，我們顯示整個 df2 DataFrame。根據之前的程式碼，df2 包含從原始 df DataFrame 生成的處理過的問題，每個問題與相應的 'category'、'title' 和 'context' 存儲在單獨的行中。

Here, we display the entire df2 DataFrame. Based on the previous code, df2 contains the processed questions generated from the original df DataFrame, with each question and its corresponding 'category', 'title', and 'context' stored in separate rows.

In [None]:
# Display the entire 'df2' DataFrame
df2

Unnamed: 0,category,title,context,question
0,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,這個服務項目是針對哪個機構的計畫申請案？
1,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,中研院在什麼目的下進行全院計畫重整？
2,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,「研究計畫研議小組」的任務是什麼？
3,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,計畫申請案的階段有哪些？每個階段需要提交哪些相關資料？
4,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,審查階段的過程是什麼？


## Create answers based on the context

我們在這裡定義了一個名為 chatGPT_get_answers 的函數，它接收一個名為 row 的參數。函數中，我們嘗試建立一個問題 q，根據文字說明來回答問題。然後，我們使用 GPT-3.5 Turbo 模型向 OpenAI 請求回答。如果一切正常，我們將返回去除左右空格後的答案內容。如果遇到錯誤，則返回空字符串。

We define a function called chatGPT_get_answers, which takes a parameter called row. In the function, we try to create a question q based on the text description to answer the question. Then, we request an answer from OpenAI using the GPT-3.5 Turbo model. If everything goes well, we return the answer content with leading and trailing whitespaces removed. If there is an error, we return an empty string.

In [None]:
def chatGPT_get_answers(row):
    try:
        # Create a question based on the text description to answer the question
        q = "請根據下列的文字說明來回答問題\n\n文字說明： {"+row.context+"}\n\n問題：\n{"+row.question+"}\n\n答案："
        
        # Request an answer from OpenAI using the GPT-3.5 Turbo model
        rsp = openai.ChatCompletion.create(
            model="gpt-3.5-turbo-0301",
            messages=[
                {"role": "system", "content": "中研院"},
                {"role": "user", "content": q}
            ]
        )
        
        # Return the answer content with leading and trailing whitespaces removed
        return rsp.get("choices")[0]["message"]["content"].lstrip().rstrip()
    except:
        # Return an empty string if there is an error
        return ""

在下面這段程式碼中，我們首先使用 apply 函數將 chatGPT_get_answers 函數應用到 df2 的每一行，並將結果存儲在名為 answer 的新列中。接著，我們移除 answer 列中的左右空格。然後，我們從 df2 中移除空值，重新設置索引，刪除索引列。最後，我們印出 df2 中第一行的 answer 列的值。

In the following code snippet, we first use the apply function to apply the chatGPT_get_answers function to each row of df2 and store the result in a new column called answer. Then, we remove leading and trailing whitespaces from the answer column. Next, we remove null values from df2, reset the index, and drop the index column. Finally, we print the value of the answer column in the first row of df2.

In [None]:
# Apply the 'chatGPT_get_answers' function to each row of 'df2' and store the result in a new column called 'answer'
df2['answer'] = df2.apply(chatGPT_get_answers, axis=1)

# Remove leading and trailing whitespaces from the 'answer' column
df2['answer'] = df2.answer

# Remove null values from 'df2', reset the index, and drop the index column
df2 = df2.dropna().reset_index().drop('index', axis=1)

# Print the value of the 'answer' column in the first row of 'df2'
print(df2[['answer']].values[0][0])

這個服務項目是針對中研院的計畫申請案。


## Save Q/A to a CSV file

將 df2 DataFrame 寫入名為 faq_name 的 CSV 文件中，不包含索引列。

This line of code writes the df2 DataFrame to a CSV file named faq_name, without including the index column.

In [None]:
# Write the 'df2' DataFrame to a CSV file named 'faq_name', without including the index column
df2.to_csv(faq_name, index=False)

# Generate FAQ Pages

## Read QA csv file

在這段程式碼中，我們首先使用 read_csv 函數讀取名為 faq_name 的 CSV 文件，並將其存儲在一個名為 df 的 DataFrame 中。接著，我們印出 df 中的行數。然後，我們使用 dropna 函數移除 df 中的空行。最後，我們印出 df 的前五行。

In this code snippet, we first use the read_csv function to read the CSV file named faq_name and store it in a DataFrame called df. Then, we print the number of rows in df. Next, we use the dropna function to remove empty rows from df. Finally, we print the first five rows of df.

In [None]:
# Read the CSV file named 'faq_name' and store it in a DataFrame called 'df'
df = pd.read_csv(faq_name)

# Print the number of rows in 'df'
print("Before removing empty rows: " + str(len(df.index)))

# Remove empty rows from 'df'
df.dropna(inplace=True)

# Print the number of rows in 'df' after removing empty rows
print("After removing empty rows: " + str(len(df.index)))

# Print the first five rows of 'df'
df.head()

Before removing empty rows: 80
After removing empty rows: 80


Unnamed: 0,category,title,context,question,answer
0,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,這個服務項目是針對哪個機構的計畫申請案？,這個服務項目是針對中研院的計畫申請案。
1,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,中研院在什麼目的下進行全院計畫重整？,中研院在推展未來研究工作，達成三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...
2,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,「研究計畫研議小組」的任務是什麼？,「研究計畫研議小組」的任務是重新規劃中研院競爭型學術研究計畫類型，期盼建立制度化機制，落實經...
3,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,計畫申請案的階段有哪些？每個階段需要提交哪些相關資料？,計畫申請案的階段分為三個，分別是申請、審查和執行。在申請階段，需要提交計畫申請案，內容包括研...
4,學術處計畫申請案,學術處計畫申請案,為推展未來研究工作，達成中研院三大目標「成就全球頂尖研究、善盡社會關鍵責任、延攬培育卓越人才...,審查階段的過程是什麼？,審查階段的過程包括初審、複審和決審，計畫將接受學者專家和委員會的審查。


## Convert to HTML files

在這段程式碼中，我們首先使用 iterrows 函數遍歷 df 中的每一行，如果類別不在 FAQ 中，則添加一個新的類別。接著，我們將每個問題和答案添加到相應的類別中。然後，我們使用 HTML 和 CSS 創建一個基本的網頁模板，將 FAQ 呈現為摺疊式的結構，並將其寫入名為 faq_name.html 的文件中。

In this code snippet, we first use the iterrows function to iterate through each row of df. If the category is not in FAQ, we add a new category. Then, we add each question and answer to the corresponding category. Next, we use HTML and CSS to create a basic webpage template that presents the FAQ as a collapsible structure and write it to a file named faq_name.html.

In [None]:
FAQ = {}
for index, row in df.iterrows():
  if row.category not in FAQ:
    FAQ[row.category] = {}
  FAQ[row.category]["["+row.title+"] " +row.question] = row.answer

html = '<html><head>'
html += '<meta charset="utf-8"><script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.2.1/jquery.min.js"></script>'
html += '<link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css">'
html += '<link rel="stylesheet" href="FAQ.css">'
html += '<script src="https://stackpath.bootstrapcdn.com/bootstrap/4.0.0/js/bootstrap.bundle.min.js"></script>'
html += '</head><body>'

html += '<div class="container">'
html += '<center><h1>' + HTML_title + '</h1><p></center>'

html += '<div class="accordion_one"><div id="accordion">'
num = 1
for category in FAQ:
  html += '<div class="card">'
  if num==1:
    html += '<div class="card-header" id="heading-'+str(num)+'"><h5 class="mb-0"><button class="btn btn-link" data-toggle="collapse" data-target="#collapse-'+str(num)+'" aria-expanded="true" aria-controls="collapse-'+str(num)+'">'
  else:
    html += '<div class="card-header" id="heading-'+str(num)+'"><h5 class="mb-0"><button class="btn btn-link collapsed" data-toggle="collapse" data-target="#collapse-'+str(num)+'" aria-expanded="false" aria-controls="collapse-'+str(num)+'">'
  html += "<h2>" + category + "</h2>"
  html += '</button></h5>'
  html += '</div>'
  if num==1:
    html += '<div id="collapse-'+str(num)+'" class="collapse show" aria-labelledby="heading-'+str(num)+'" data-parent="#accordion">'
  else:
    html += '<div id="collapse-'+str(num)+'" class="collapse" aria-labelledby="heading-'+str(num)+'" data-parent="#accordion">'   
  html += '<div class="card-body">'

  html += '<div class="panel-group" id="accordionFourLeft">'
  for question in FAQ[category]:
    html += '<div class="panel panel-default"><div class="panel-heading"><h4 class="panel-title"><a data-toggle="collapse" data-parent="#accordion_oneLeft" href="#collapseFiveLeft-'+str(num)+'" aria-expanded="false" class="collapsed">'
    html += question
    html += '</a></h4></div><div id="collapseFiveLeft-'+str(num)+'" class="panel-collapse collapse" aria-expanded="false" role="tablist" style="height: 0px;"><div class="panel-body"><div class="text-accordion"><p>'
    html += FAQ[category][question]
    html += '</p></div></div></div></div>'
    num = num + 1
  html += '</div>'

  html += '</div></div></div>'
  #html += '</div>'
html += '</div></div>'
html += '</div>'
html += '</body></html>'
print(html)
with open(faq_name + '.html', 'w') as writefile:
    writefile.write(html)
    writefile.close()

<html><head><meta charset="utf-8"><script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.2.1/jquery.min.js"></script><link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css"><link rel="stylesheet" href="FAQ.css"><script src="https://stackpath.bootstrapcdn.com/bootstrap/4.0.0/js/bootstrap.bundle.min.js"></script></head><body><div class="container"><center><h1>中央研究院 學術處計畫申請FAQ</h1><p></center><div class="accordion_one"><div id="accordion"><div class="card"><div class="card-header" id="heading-1"><h5 class="mb-0"><button class="btn btn-link" data-toggle="collapse" data-target="#collapse-1" aria-expanded="true" aria-controls="collapse-1"><h2>學術處計畫申請案</h2></button></h5></div><div id="collapse-1" class="collapse show" aria-labelledby="heading-1" data-parent="#accordion"><div class="card-body"><div class="panel-group" id="accordionFourLeft"><div class="panel panel-default"><div class="panel-heading"><h4 class="panel-title"><a data-toggle="colla

# Reference

- [Creating a synthetic Q&A dataset](https://github.com/openai/openai-cookbook/blob/main/examples/fine-tuned_qa/olympics-2-create-qa.ipynb)
