### Simple Setup

In [1]:
import google.generativeai as genai # use gemini
from dotenv import load_dotenv  # environment variable
import os

# ADD gemini api key
gemini = os.getenv('GEMINI_API_KEY')

In [2]:
!gcloud auth application-default login \
    --client-id-file=client_secret.json \
    --scopes="https://www.googleapis.com/auth/cloud-platform,https://www.googleapis.com/auth/generative-language.retriever,https://www.googleapis.com/auth/cloud-platform,https://www.googleapis.com/auth/generative-language.tuning"

^C


In [3]:
print('Available base models:', [m.name for m in genai.list_models()])

Available base models: ['models/chat-bison-001', 'models/text-bison-001', 'models/embedding-gecko-001', 'models/gemini-1.0-pro-latest', 'models/gemini-1.0-pro', 'models/gemini-pro', 'models/gemini-1.0-pro-001', 'models/gemini-1.0-pro-vision-latest', 'models/gemini-pro-vision', 'models/gemini-1.5-pro-latest', 'models/gemini-1.5-pro-001', 'models/gemini-1.5-pro', 'models/gemini-1.5-pro-exp-0801', 'models/gemini-1.5-flash-latest', 'models/gemini-1.5-flash-001', 'models/gemini-1.5-flash', 'models/gemini-1.5-flash-001-tuning', 'models/embedding-001', 'models/text-embedding-004', 'models/aqa']


### Test Prompt engineering

In [4]:
# Access your API key as an environment variable.
genai.configure(api_key=gemini)
# Choose a model that's appropriate for your use case.
model = genai.GenerativeModel('gemini-1.5-flash')

prompt = """I need assistance in analyzing text for scam detection. 
    The response should include a structured analysis report which was divided into 6 parts: 
    giving a brief summary for given input text, indicating the likelihood of a scam 
    ,denoting which type of scam it is and analyzing the reason by point 
    ,giving some preventional advise and last give a simple conclusion.
    Please ensure that the response follows the specified structure for ease of parsing and integration with the application.
    You need to reply in traditional chinese in default.
    input text: 一名73歲陳姓老先生透過網路交友，並用Line聯繫認識一名乾女兒，其身分是在葉門的戰地女軍官Seo Garden。乾女兒稱有一筆美金500萬元的資金，想要匯給陳姓老先生，但陳男必須先到超商購買遊戲點數，始可以收到該筆資金。"""

response = model.generate_content(prompt)

print(response.text)

## 詐騙分析報告

**1. 摘要:**

一名73歲陳姓老先生透過網路交友認識一名自稱在葉門的戰地女軍官 Seo Garden 的「乾女兒」，並使用 Line 聯繫。該名「乾女兒」聲稱擁有一筆 500 萬美元的資金，想匯給陳先生，但要求陳先生先到超商購買遊戲點數才能收到資金。

**2. 詐騙可能性:**

極高

**3. 詐騙類型:**

愛情詐騙 / 假冒軍人詐騙 / 投資詐騙

**4. 分析理由:**

* **愛情詐騙:** 詐騙者以虛假身分（戰地女軍官）與被害人建立感情關係，博取信任。
* **假冒軍人詐騙:**  詐騙者以軍人身分作為掩護，製造緊迫感，並以此要求被害人進行資金操作。
* **投資詐騙:** 詐騙者以高額報酬為誘餌，要求被害人進行虛假投資，藉此騙取財物。

**5. 防範措施:**

* **保持警惕:** 網路上認識的人，尤其是自稱在國外或特殊職業的人，應格外小心。
* **不輕易相信陌生人:** 勿輕易將個人資訊透露給陌生人，更不要隨意匯款給對方。
* **核實對方身分:** 可以透過網路搜尋或其他管道，核實對方的真實身分。
* **勿輕信高額報酬:** 凡是宣稱高額報酬或快速致富的投資方案，都應提高警覺。
* **可向相關單位諮詢:**  若對網路交友或投資有疑慮，可向警政單位或相關機構諮詢。

**6. 結論:**

此案例典型詐騙手法，詐騙者利用被害人對愛情、信任和利益的渴望，以虛假身份和高額報酬為餌，誘使被害人進行資金操作，最終騙取財物。請務必提高警覺，避免落入詐騙陷阱。



Update-0823 for sending audio directly to `Gemini`

In [8]:
import pathlib
# Initialize a Gemini model appropriate for your use case.
model = genai.GenerativeModel(model_name="gemini-1.5-flash")

# Create the prompt.
prompt = "Generate a transcript of the speech."

# Pass the prompt and the audio file to Gemini.
audio_file = "./audio/audio_Uabc7eb7cd965db3d0c8780c30227899e.wav"
response = model.generate_content([
    prompt,
    {
        "mime_type": "audio/wav",
        "data": pathlib.Path(audio_file).read_bytes()
    }
])

# Print the transcript.
print(response.text)

The government's position has not changed. 



對於英文語音很準，但中文這邊怪怪的??  
已知雜音會影響  
但是大部分是準的 我認為可以繼續用

In [11]:
import pathlib
# Initialize a Gemini model appropriate for your use case.
model = genai.GenerativeModel(model_name="gemini-1.5-flash")

# Create the prompt.
prompt = "Generate a transcript of the speech."

# Pass the prompt and the audio file to Gemini.
audio_file = "./audio/output (1).wav"
response = model.generate_content([
    prompt,
    {
        "mime_type": "audio/wav",
        "data": pathlib.Path(audio_file).read_bytes()
    }
])

# Print the transcript.
print(response.text)

当你走在迷迷的森林中 你可以听到树叶轻轻地摇曳着 伴随著微风 的吹拂 哔 


### test speech recognition

In [None]:
import speech_recognition as sr
from pydub import AudioSegment
import os
path = './LA_E_1000989.flac'

#轉檔
AudioSegment.converter = './ffmpeg/ffmpeg/bin/ffmpeg.exe'
sound = AudioSegment.from_file_using_temporary_files(path)
path = os.path.splitext(path)[0]+'.wav'
sound.export(path, format="wav")

#辨識
r = sr.Recognizer()
with sr.AudioFile(path) as source:
    audio = r.record(source)
text = r.recognize_google(audio)
print(text)

* Try finetune  
ref: https://github.com/pj8912/gemini-summarization-fine-tuning/blob/main/fine-tune.ipynb


gRPC 是一種高效、跨平台的開源遠程過程調用（RPC）框架，由 Google 開發。它使得客戶端應用可以直接調用位於不同服務器上的服務方法，就像調用本地對象一樣，而無需考慮網絡細節。

**gRPC 的關鍵特性**
1. 高性能：gRPC 基於 HTTP/2 協議，支持多路復用和雙向流，並使用 Protocol Buffers（Protobuf）作為其接口定義語言和數據序列化格式，這使得它比傳統的 HTTP/REST 更高效。

2. 多語言支持：gRPC 支持多種編程語言，包括 C++, Java, Python, Go, Ruby, C#, Node.js 等。這使得開發者可以在不同平台和語言環境中無縫集成 gRPC。

3. 雙向流式通信：gRPC 支持雙向流式通信，客戶端和服務器可以在同一個連接上同時發送和接收消息，這對於實時應用非常有用。

4. 自動生成代碼：gRPC 提供工具可以自動從 Protobuf 文件生成客戶端和服務器的代碼，大大減少了開發工作量並降低了出錯的風險。

5. 強類型接口：通過 Protobuf 定義的服務接口是強類型的，這樣可以在編譯時就發現潛在的錯誤，提高代碼的健壯性。

In [7]:
genai.configure(api_key=gemini ,transport='grpc')

* 讀取數據  
google sheet轉成csv會跑檔，於是改用excel

In [None]:
!pip install openpyxl



In [9]:
import pandas as pd
# 需要有相依套件 openpyxl
df = pd.read_excel('Gemini_finetune_dataset.xlsx')
df.head()   # check the first 5 rows

Unnamed: 0,Input,Excepted Output,來源,類別,Unnamed: 4
0,【國泰金融】提醒您已獲10-300萬新台幣借款資格。每一萬塊月利息只需60塊。月繳無壓力！無...,詐騙分析報告\n一、 摘要\n該訊息宣稱國泰金融提供高額低息貸款，無需任何手續費，並強調快速...,hackmd,詐騙,
1,【 永豐信貸 】提醒您已獲10-300萬新台幣借款資格。每一萬塊月利息只需30塊。月繳無壓力...,詐騙分析報告\n\n一、 內容摘要\n這是一則來自「永豐信貸」的訊息，宣稱用戶已獲得10萬至...,hackmd,詐騙,
2,【衛生福利部】您符合條件可提領兩萬元防疫津貼，疫情期間線上申請，複製鏈接到瀏覽器https:...,詐騙分析報告\n一、 文本摘要：\n\n此訊息聲稱來自衛生福利部，並告知您符合資格可以領取兩...,hackmd,詐騙,
3,hi 我是元大綜合證券投信的陳佳慧 電話聯絡過您多次 有急事找你麻煩加我一下賴ID ：C66...,詐騙分析報告\n一、 簡要摘要：\n\n這是一封可疑的聲稱來自元大綜合證券投信的簡訊，要求收...,hackmd,詐騙,
4,快递已邮寄请您及时查收.http://nasyg.xyz,詐騙分析報告\n一、 簡要摘要：\n\n這是一封以簡體字傳送的可疑郵件，內容為告知快遞到了並...,hackmd,詐騙,


In [10]:
training_data = []
for index, row in df.iterrows():
    training_data.append(
                        {'text_input': str(row['Input']), 
                          'output': str(row['Excepted Output'])}
                          )
    
print(training_data[0])
print(training_data[1])

{'text_input': '【國泰金融】提醒您已獲10-300萬新台幣借款資格。每一萬塊月利息只需60塊。月繳無壓力！無需照會，無需保人，沒有手續費。當天辦理當天入賬！20年網絡口碑第一貸款公司。添加信貸專員LINE： dy88672免費咨詢改善財務問題', 'output': '詐騙分析報告\n一、 摘要\n該訊息宣稱國泰金融提供高額低息貸款，無需任何手續費，並強調快速撥款。但內容充滿誇大不實之處，且要求加LINE進行諮詢，極具詐騙嫌疑。\n\n二、 詐騙可能性：極高\n三、 詐騙類型：假冒金融機構詐騙\n四、 分析原因：\n誇大不實的貸款條件： 宣稱高額貸款、低利息、無需手續費，且當天撥款，此類條件過於優渥，現實中幾乎不可能。\n要求加LINE私下洽談： 正式金融機構不會透過LINE等私人管道進行貸款諮詢或辦理相關手續。\n無任何官方資訊佐證： 訊息中未提供任何官方網站、客服電話等可供查證的資訊。\n強調多年口碑： 詐騙集團常利用「多年口碑」等詞語營造可信度，但實際上並無佐證。\n五、 防範建議：\n不輕信來路不明訊息： 對於網路上或手機收到的貸款訊息，務必提高警覺，不要輕易相信。\n透過官方管道查詢： 如有貸款需求，應透過金融機構的官方網站或客服電話進行查詢。\n不提供個人資料給陌生人： 不要將個人身份證字號、銀行帳戶等敏感資訊提供給陌生人。\n不點擊不明連結或掃描QR code： 這些連結或QR code可能帶有惡意程式，竊取您的個人資訊。\n六、 結論\n該訊息具有明顯的詐騙特徵，民眾應提高警覺，切勿受騙。若收到類似訊息，建議直接刪除，並向相關單位通報。\n\n提醒： 正式金融機構不會透過LINE、微信等私人管道進行貸款諮詢或辦理相關手續。如需辦理貸款，請務必親臨銀行分行或透過官方網站查詢。'}
{'text_input': '【 永豐信貸 】提醒您已獲10-300萬新台幣借款資格。每一萬塊月利息只需30塊。月繳無壓力！無需照會，無需保人，沒有手續費。當天辦理當天入賬！20年網絡口碑第一貸款公司。添加信貸專員免費咨詢改善財務問題LINE：zsd3829', 'output': '詐騙分析報告\n\n一、 內容摘要\n這是一則來自「永豐信貸」的訊息，宣稱用戶已獲得10萬至300萬新台幣的借款資格，並強調低利息、無需照會、無需保人等優勢，鼓勵用戶添加LIN

To discover model that can create finetuning model

In [11]:
base_model = [
    m for m in genai.list_models()
    if "createTunedModel" in m.supported_generation_methods]

print('Available base models:', [m.name for m in base_model])

Available base models: ['models/gemini-1.0-pro-001', 'models/gemini-1.5-flash-001-tuning']


* 先處理憑證問題，不然不能finetune

In [None]:
!pip install --upgrade -q google-api-python-client google-auth-httplib2 google-auth-oauthlib
!pip install google-generativeai



Start to finetuning

In [13]:
name = 'Connected with Linebot v1'

In [None]:
operation = genai.create_tuned_model(
    source_model=base_model[0].name,    # select the supported model   
    training_data=training_data, 
    id=name,    # your model name
    epoch_count=50,
    batch_size=20,
    learning_rate=0.01
)