# 3webアプリ作成

目次：https://docs.google.com/document/d/1eDw9PK5Ft0vImu81e7oERB_q-dZvxbFe8bGetZBgEEg/edit

## 3.3 応用実装

#### OpenAIのSTTモデルであるwhisperを使ったアプリ

>アプリの概要

<img src="pic/img052.png">



>動作を構成してる部品の紹介（APIやライブラリ）
API
- openAIのchatGPT
    - 目的：AIのモデルを使う。
    - 参考：https://platform.openai.com/docs/api-reference/introduction?lang=python

ライブラリ
- streamlit
    - 目的：chatGPTにリクエストをするためのUIを表示するためのフロントエンドを生成する
- openai
    - 目的：openAIのchatGPTを活用するためのライブラリ
- audio_recorder_streamlit
    - 目的：Streamlitアプリケーション内でオーディオの録音を可能にするためのライブラリ
- wave
    - 目的：WAV形式のオーディオファイルを操作するためのPython標準ライブラリ


>ライブラリのインストール

ライブラリ
- streamlit
    - pip install streamlit
- openai
    - pip install openai
- audio_recorder_streamlit
    - pip install audio_recorder_streamlit


>ライブラリの公式ドキュメントの見方や使い方を説明

- API
    - openAIのchatGPTを活用するためのapi_keyの取得
        - openAIのapi_keyが必要なので、登録してapi_keyを取得しましょう。
        - 参考：https://openai.com/


ライブラリ

- streamlit
    - インストール方法はget startページで確認
    - 参考：https://docs.streamlit.io/library/get-started/installation
    - st.titleなどはコンポーネントページから確認出来る
    - 参考：https://streamlit.io/components
- openai
    - 今回はSTTのモデルであるwhisper使って文字お越しを行います。
    - client.audio.transcriptions.createを使ってAIにリクエストします。
    - 参考：https://platform.openai.com/docs/guides/speech-to-text/quickstart





>それぞれの機能をjupyterで動く最小限を作る

以下がjuptyterにて動く最低限のアプリの流れです。

1. 作るアプリの全体のコードを把握
1. それぞれ機能を解説
    1. chatGPTの仕様
    1. chatGPTの使い方
    1. バージョンやAPIキーの設定方法の補足

1.全体のコード

使うアプリの全体像は下記のようになります。  
これはweb上では動きませんが、手元では動作するアプリです。

※このアプリの動作にはAPIキーが必要です。  
openAIに登録して、取得したAPIキーの文字列を必ずos.environ["OPENAI_API_KEY"]に代入してください。

以下のコードの動作の流れ
1. 拡張機能であるライブラリをインポート
1. openAIのGPTにアクセスするためのAPIキーを設定
1. 音声を録音するための関数を用意
    1. audio_recorder 関数を使って音声を録音し、その結果を返します。  
    ＊引数として、録音のパラメーター（energy_threshold、pause_threshold、sample_rate）と録音の開始時に表示されるテキスト (text) を指定しています。
1. 録音結果を取得して、処理を行う
    1. 録音が成功したかどうかを判定します  
    　ー録音が成功した場合（contents が None でない場合）  
    　    st.audio(contents) を使って録音された音声を表示し、同時にそのデータを WAV ファイルに保存   
    　ー録音が失敗した場合  
    　    ユーザーに対して録音手順の案内を提供し、プログラムを停止します。  
1. GPTにリクエスト  
    1. それぞれの変数に、モデル（"whisper-1"）,録音結果（audio_file）を代入します


>（演習）streamlitに実装しましょう！(今回は応用編なのでいきなり実装です！)

この演習では必ず実行ファイルにコーディングしてください。

※streamlit run ファイル名で実行する時は必ず実行ファイル（.py）で実行してください。

In [None]:
from audio_recorder_streamlit import audio_recorder
# import speech_recognition as sr
import wave
import streamlit as st


from openai import OpenAI
import os

# ローカルの場合
os.environ["OPENAI_API_KEY"] = "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"

# streamlit cloudに登録する場合はこちらを使用
#os.environ["OPENAI_API_KEY"] = st.secrets.api.key

client = OpenAI()


def recorder():
    contents = audio_recorder(
        energy_threshold = (1000000000,0.0000000002), 
        pause_threshold=0.1, 
        sample_rate = 48_000,
        text="Clickして録音開始　→　"
    )
    return contents

contents = recorder()
if contents == None:
    st.info('①　アイコンボタンを押して回答録音　(アイコンが赤色で録音中)。  \n②　もう一度押して回答終了　(再度アイコンが黒色になれば完了)')
    st.error('録音完了後は10秒程度お待ちください。')
    st.stop()
else:


    wave_data = st.audio(contents)
    print(type(contents)) #　bytesデータ

    with wave.open("audio.wav", "wb") as audio_file:
        audio_file.setnchannels(2)
        audio_file.setsampwidth(2)
        audio_file.setframerate(48000)
        audio_file.writeframes(contents)

    # r = sr.Recognizer()
    # with sr.AudioFile("audio.wav") as source:
    #     audio_data = r.record(source)
    #     recognized_text = r.recognize_google(audio_data, language="ja-JP")


   

    audio_file= open("./audio.wav", "rb")
    transcription = client.audio.transcriptions.create(
    model="whisper-1", 
    file=audio_file,
    )
    recognized_text = transcription.text
        
    st.write(recognized_text)