# 3webアプリ作成

目次：https://docs.google.com/document/d/1eDw9PK5Ft0vImu81e7oERB_q-dZvxbFe8bGetZBgEEg/edit

## 3.3 応用実装

#### ③STTアプリ

>アプリの概要

<img src="pic/img041.png">

>動作を構成してる部品の紹介（APIやライブラリ）
API
- SpeechRecognizer
    - 目的：googleが提供しているフリーで音声認識を活用したライブラリを使って、マイクまたは音声ファイルから音声認識をします。
    - 参考：https://github.com/Uberi/speech_recognition

ライブラリ
- streamlit
    - 目的：音声認識をするためのUIを表示するためのフロントエンドを生成する
- SpeechRecognition
    - 目的：音声認識をするために使う
- pyaudio
    - 目的：SpeechRecognitionがマイク入力するために活用される

>ライブラリのインストール

ライブラリ
- windowsの方(2015年以前のintelCPU搭載macの方)
    - streamlit
        - pip install streamlit
    - SpeechRecognition
        - pip install SpeechRecognition
    - pyaudio
        - pip install pyaudio
- macの方（M1チップなどのappleシリコンの方）
    - streamlit
        - pip install streamlit
    - SpeechRecognition
        - conda install -c conda-forge speechrecognition
    - pyaudio
        - conda install -c anaconda pyaudio
    - portaudio
        - conda install -c anaconda portaudio
    - libflac
        - conda install -c conda-forge libflac

>ライブラリの公式ドキュメントの見方や使い方を説明

ライブラリ

- streamlit
    - インストール方法はget startページで確認
    - 参考：https://docs.streamlit.io/library/get-started/installation
    - st.titleなどはコンポーネントページから確認出来る
    - 参考：https://streamlit.io/components
- SpeechRecognition
    - r.recognize_google(オーディオファイル)で音声認識を開始する
    - 参考：https://www.kkaneko.jp/ai/win/speechrecog.html

>それぞれの機能をjupyterで動く最小限を作る

以下がjuptyterにて動く最低限のアプリの流れです。

1. 作るアプリの全体のコードを把握
1. それぞれ機能を解説
    1. ファイルからの音声認識
    1. マイクからの音声認識
    1. 音声認識失敗した時の対策として、try構文を使う

1.全体のコード

使うアプリの全体像は下記のようになります。  
これはweb上では動きませんが、手元では動作するアプリです。

以下のコードの動作の流れ
1. 拡張機能であるライブラリをインポート
1. 2つの方法の音声認識を関数として用意
    1. 音声ファイルから音声認識
    1. マイクから音声認識
1. 音声認識実行
    1. sample.wavを指定して、これを用意した関数である音声ファイルから音声認識で文字起こし
    1. マイクを使用して、用意した関数であるマイクから音声認識で文字起こし


In [2]:
import streamlit as st # フロントエンドを扱うstreamlitの機能をインポート
import speech_recognition as sr # 音声認識の機能をインポート


# 音声ファイルと音声認識の言語を引数に音声認識をする
def file_speech_to_text(audio_file):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする
def mic_speech_to_text():

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

print("文字起こしアプリ") # タイトル

file_upload = "sample.wav"

print("音声認識結果:") # 案内表示
result_text = file_speech_to_text(file_upload) # アップロードされたファイルと選択した言語を元に音声認識開始
print(result_text) # メソッドから返ってきた値を表示
print(file_upload) # アップロードした音声をきける形で表示


result_text = mic_speech_to_text() # 選択した言語を元に音声認識開始
print("音声認識結果:") # 案内表示に変更
print(result_text) # メソッドから返ってきた値を表示

文字起こしアプリ
音声認識結果:
音声認識のテスト
sample.wav
音声認識結果:
音声認識に失敗しました


2.それぞれ機能を解説

2.1ファイルからの音声認識

音声認識をリクエストする前準備として、音声ファイルの解析準備をします。

ファイルからの音声認識は音声ファイルであるsample.wavをsr.AudioFileで開き、変数sourceに代入します。

sr.Recognizer().record(source)でそのファイルをレコードします。  
コードは以下のようになります。

In [10]:
# 音声ファイルを読み込み
 # sr.Recognizer().record(開いた音声ファイル)で認識準備

with sr.AudioFile("sample.wav") as source:
    audio = sr.Recognizer().record(source)

次に用意した音声ファイルを  
sr.Recognizer().recognize_google(用意した音声ファイル, language=ここに言語指定)  
で音声認識ができます。

言語指定は日本語だとjaになります。

In [11]:
sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入

'音声認識のテスト'

音声認識のコードをまとめる

In [2]:
# 音声ファイルを読み込み

 # sr.Recognizer().record(開いた音声ファイル)で認識準備

# 読み込んだファイルで音声認識開始
with sr.AudioFile("sample.wav") as source:
    audio = sr.Recognizer().record(source)

sr.Recognizer().recognize_google(audio, language="ja")


手元で動くアプリはこの機能を関数として呼び出せるようにしてあります。

2.2マイクからの音声認識

音声認識をリクエストする前準備として、マイクの音声の解析準備をします。

ファイルからの音声認識と違い、sr.Microphone()そのものを変数sourceに代入します。

audio = sr.Recognizer().listen(source)でそのファイルをレコードします。  
コードは以下のようになります。

In [3]:
# マイク入力を音声ファイルとして読み込み

 # sr.Recognizer().listen(マイク入力)で認識準備

with sr.Microphone() as source:
    audio = sr.Recognizer().listen(source)

次に用意した音声情報を  
sr.Recognizer().recognize_google(用意した音声ファイル, language=ここに言語指定)  
で音声認識します。

言語指定は日本語だとjaになります。  

In [4]:
# マイクで入力された音声を音声認識開始

 #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入

sr.Recognizer().recognize_google(audio, language="ja")

もしマイク入力が検知されない場合は、pythonが別のオーディオを監視している可能性があるので、pythonが検知しているオーディオデバイスの一覧を確認して、オーディオデバイスを指定しましょう。

In [None]:
# sr.Microphoneが認識しているデバイスをすべて書き出し
for index, name in enumerate(sr.Microphone.list_microphone_names()):
    print("Microphone with name \"{1}\" found for `Microphone(device_index={0})`".format(index, name))

In [None]:
i = 0 # 指定したいデバイスのindex番号

with sr.Microphone(device_index=i) as source:
    audio = sr.Recognizer().listen(source)
sr.Recognizer().recognize_google(audio, language="ja")

音声認識のコードをまとめる

In [5]:
# マイク入力を音声ファイルとして読み込み

 # sr.Recognizer().listen(マイク入力)で認識準備

# マイクで入力された音声を音声認識開始

#  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入

with sr.Microphone() as source:
    audio = sr.Recognizer().listen(source)

sr.Recognizer().recognize_google(audio, language="ja")

手元で動くアプリはこの機能を関数として呼び出せるようにしてあります。

2.3音声認識失敗した時の対策として、try構文を使う

音声が入力されていないなど、音声認識できない場合は、  
認識無しではなく、エラーとしてコード実行が止まってしまします。

何も音声を入力しなかった場合のエラーが以下のようになります。

In [6]:
# マイク入力を音声ファイルとして読み込み

 # sr.Recognizer().listen(マイク入力)で認識準備

# マイクで入力された音声を音声認識開始

 #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入


with sr.Microphone() as source:
    audio = sr.Recognizer().listen(source) 

try:
    text = sr.Recognizer().recognize_google(audio, language="ja")
except:
    text = "音声認識に失敗しました"

そうならないためにtry構文でエラーを条件にコード実行を変更します。

try構文はifと同じようにコーディングします。  
ifのは、ifとelseでしたが、tryはtryとexceptを使います。

コードは以下のようになります。  
同じように実行してもエラーにならなくなりました。

In [7]:
# マイク入力を音声ファイルとして読み込み

 # sr.Recognizer().listen(マイク入力)で認識準備


    # マイクで入力された音声を音声認識開始
    #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入


以上がアプリの動作部分です。

>streamlitに実装する場合の使う機能

今はユーザーがブラウザ上で選択したりなど、想定していませんが、  
選択肢の表示などのコンポーネントを紹介します。

※streamlitはjupyterでは動作せず、実行ファイルでのみ動作します

タイトルは  
st.title("ここにタイトル")

ただの表示は  
st.write("ここに表示したい文字")

ただし、再読み込みしない限り、この表示された文字は変更されません。

変数を監視して表示させる方法は以下のようになります。
1. 表示させる場所を確保する
1. その空間に.writeで書き込みをする

例として、変数testを使います。

In [None]:
test = st.empty()
test.write("ここに書き込みたい事")

選択肢は  st.selectbox("ここに表示したい項目名",ここに配列のデータ)  
でできます。

開いたオーディオファイルは   
st.audio(ここに開いたオーディオファイル)  
でブラウザ上に表示可能です。

ボタン機能は  
st.button("ここに表示したい文字")  
でできます。

この生成されたボタンは押されていない状態でFalse、押された瞬間にTrueになります。

ファイルアップロードする機能は  
st.file_uploader("ここに表示したい文字",type=ここに許可する拡張子の配列)  
でできます。

以上の機能を使ってwebアプリにしていきます。

>（演習）streamlitに実装しましょう！

手元で動いたアプリをstreamlitで動くようにします。  
この演習では必ず実行ファイルにコーディングしてください。

※streamlit run ファイル名で実行する時は必ず実行ファイルで実行してください。

実装の流れ
1. 固定である音声ファイルをアップロードされた音声ファイルに変更
    1. アップローダー設置
    1. アップロードされたら音声認識が実行されるようにする
    1. マイク側もボタンが押されたら音声認識のコードが実行されるようにする
1. 音声認識の言語指定を変更できるようにする
    1. 言語候補を変数へ
    1. セレクトボックスで選択できるようにする
    1. 関数の引数に加える
1. ターミナルに出力していた文字などをブラウザに出力

以下の手元で動いたコードをstreamlitで動くようにします。

In [None]:
# フロントエンドを扱うstreamlitの機能をインポート
# 音声認識の機能をインポート

import streamlit as st
import speech_recognition as sr

# 音声ファイルと音声認識の言語を引数に音声認識をする


    # 音声ファイルを読み込み
    
         # sr.Recognizer().record(開いた音声ファイル)で認識準備

 #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入

 # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする


def file_speech_to_text(audio_file):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す


    # マイク入力を音声ファイルとして読み込み
# sr.Recognizer().listen(マイク入力)で認識準備

#  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入

# 認識した文字を返す

# タイトル

def mic_speech_to_text():

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

file_upload = "sample.wav"

print("音声認識結果:") # 案内表示
result_text = file_speech_to_text(file_upload) # アップロードされたファイルと選択した言語を元に音声認識開始
print(result_text) # メソッドから返ってきた値を表示
print(file_upload) # アップロードした音声をきける形で表示


result_text = mic_speech_to_text() # 選択した言語を元に音声認識開始
print("音声認識結果:") # 案内表示に変更
print(result_text) # メソッドから返ってきた値を表示

1.固定である音声ファイルをアップロードされた音声ファイルに変更

1.1アップローダー設置

読み込みが固定だったsample.wavをアップローダーからの音声ファイルに変更します。

ファイルアップロードする機能は  
st.file_uploader("ここに表示したい文字",type=ここに許可する拡張子の配列)  
でできます。

この音声認識ライブラリはwav形式しか対応していないので、許可する拡張子の配列をwavだけにします。

In [None]:
# アップローダーを設定し、wavファイルだけ許可する設定にする
file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"])

これで、アップロードされたファイルがfile_uploadに代入されます。

1.2アップロードされたら音声認識が実行されるようにする

手元で動くコードは、無条件にファイルの音声認識をするコードを実行してしまうので、  
これをif文を使ってアップロードされた時だけ、音声認識をするコードを実行するようにします。

st.file_uploaderはなにもアップロードされていない場合、なにも存在しないNoneという値になるので、  
file_upload != Noneという条件を使います。

if文を使った条件は以下のようになります。

In [None]:
file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"]) # アップローダーを設定し、wavファイルだけ許可する設定にする

# ファイルアップロードされた場合、file_uploadがNoneではなくなる
if (file_upload !=None):
    print("ここに音声認識をするコード")

1.3マイク側もボタンが押されたら音声認識のコードが実行されるようにする

手元で動くコードは、無条件にマイク入力の音声認識をするコードを実行してしまうので、  
こちらもif文を使ってボタンが押された時だけ、音声認識をするコードを実行するようにします。

if文は条件で実行されます。
1. 変数がTrue
1. Trueになる条件　例：1 = 1

ボタンは押された時にTrueになる事を利用して、条件に組み込みます。

ボタン機能はst.button("ここに表示したい文字")なので以下のようなコードになります。

In [None]:
# ボタンが押された場合、Trueになって実行される

if st.button("音声認識開始"):
    print("ここに音声認識をするコード")

アップローダーと実行条件を手元のコードに反映させると以下のようになります。

In [None]:
import streamlit as st # フロントエンドを扱うstreamlitの機能をインポート
import speech_recognition as sr # 音声認識の機能をインポート


# 音声ファイルと音声認識の言語を引数に音声認識をする
def file_speech_to_text(audio_file):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする
def mic_speech_to_text():

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

print("文字起こしアプリ") # タイトル

file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"]) # アップローダーを設定し、wavファイルだけ許可する設定にする

# ファイルアップロードされた場合、file_uploadがNoneではなくなる
if (file_upload !=None):
    print("音声認識結果:") # 案内表示
    result_text = file_speech_to_text(file_upload) # アップロードされたファイルと選択した言語を元に音声認識開始
    print(result_text) # メソッドから返ってきた値を表示
    print(file_upload) # アップロードした音声をきける形で表示

# ボタンが押されたら実行される
if st.button("音声認識開始"):
    result_text = mic_speech_to_text() # 選択した言語を元に音声認識開始
    print("音声認識結果:") # 案内表示に変更
    print(result_text) # メソッドから返ってきた値を表示

2.音声認識の言語指定を変更できるようにする

音声認識が日本語である"ja"で固定なので、これをセレクトボックスで選択し、反映できるようにします。

2.1言語候補を変数へ

"ja"を変数にします。

変数set_language_listに言語コードの辞書型配列を作ります。  
ここでは日本語と英語にしておきます。

英語の言語コードはen-USです。

In [15]:
# 言語選択と、APIが認識する言語の変換リストを作成
set_language_list = {
    "日本語" :"ja",
    "英語" :"en-US",
}

セレクトボックスで日本語または英語を選択し、set_language_listで言語コードに変換することで、  
音声認識に必要な言語コードを変数化します。

日本語文字は.keys()で取得できるので、これを活用します。

In [16]:
set_language_list.keys()

dict_keys(['日本語', '英語'])

2.2セレクトボックスで選択できるようにする

この２つの選択肢をセレクトボックスに適応します。

セレクトボックスは  st.selectbox("ここに表示したい項目名",ここに配列のデータ)でできます。  
この選ばれた選択肢をset_languageに代入します。

In [None]:
set_language = st.selectbox("音声認識する言語を選んでください。",set_language_list.keys())

これによって、ユーザーに見える選択肢は、set_languageである['日本語', '英語']から取得し、 
コード実行側では、 set_language_list[set_language]とすることで、言語コードを指定します。

まとめると以下のようなコードになります。

In [None]:
import streamlit as st # フロントエンドを扱うstreamlitの機能をインポート
import speech_recognition as sr # 音声認識の機能をインポート


# 言語選択と、APIが認識する言語の変換リストを作成
set_language_list = {
    "日本語" :"ja",
    "英語" :"en-US",
}

# デフォルトの言語を設定
set_language = "日本語"


# 音声ファイルと音声認識の言語を引数に音声認識をする
def file_speech_to_text(audio_file):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする
def mic_speech_to_text():

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language="ja") #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

print("文字起こしアプリ") # 

set_language = st.selectbox("音声認識する言語を選んでください。",set_language_list.keys()) # 音声認識に使う言語を選択肢として表示

file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"]) # アップローダーを設定し、wavファイルだけ許可する設定にする

# ファイルアップロードされた場合、file_uploadがNoneではなくなる
if (file_upload !=None):
    print("音声認識結果:") # 案内表示
    result_text = file_speech_to_text(file_upload) # アップロードされたファイルと選択した言語を元に音声認識開始
    print(result_text) # メソッドから返ってきた値を表示
    print(file_upload) # アップロードした音声をきける形で表示

# ボタンが押されたら実行される
if st.button("音声認識開始"):
    result_text = mic_speech_to_text() # 選択した言語を元に音声認識開始
    print("音声認識結果:") # 案内表示に変更
    print(result_text) # メソッドから返ってきた値を表示

2.3関数の引数に加える

上記のまとめたコードでは、関数に変数である言語コードが反映されません。

それぞれの関数に言語を引数に持つようにします。
- file_speech_to_text(file_upload)
- mic_speech_to_text()

さらに関数の中の"ja"も言語コードの変数にします。

言語はset_language  
言語コードはset_language_list[set_language]  
で指定できるため以下のようになります。

それぞれの関数に言語を引数に持つようにします。
- file_speech_to_text(file_upload,set_language)
- mic_speech_to_text(set_language)

関数の中の"ja"はset_language_list[set_language]に変更

In [None]:
import streamlit as st # フロントエンドを扱うstreamlitの機能をインポート
import speech_recognition as sr # 音声認識の機能をインポート


# 言語選択と、APIが認識する言語の変換リストを作成
set_language_list = {
    "日本語" :"ja",
    "英語" :"en-US",
}

# デフォルトの言語を設定
set_language = "日本語"


# 音声ファイルと音声認識の言語を引数に音声認識をする
def file_speech_to_text(audio_file):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language=set_language_list[set_language]) #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする
def mic_speech_to_text():

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language=set_language_list[set_language]) #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

print("文字起こしアプリ") # 

set_language = st.selectbox("音声認識する言語を選んでください。",set_language_list.keys()) # 音声認識に使う言語を選択肢として表示

file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"]) # アップローダーを設定し、wavファイルだけ許可する設定にする

# ファイルアップロードされた場合、file_uploadがNoneではなくなる
if (file_upload !=None):
    print("音声認識結果:") # 案内表示
    result_text = file_speech_to_text(file_upload,set_language) # アップロードされたファイルと選択した言語を元に音声認識開始
    print(result_text) # メソッドから返ってきた値を表示
    print(file_upload) # アップロードした音声をきける形で表示

# ボタンが押されたら実行される
if st.button("音声認識開始"):
    result_text = mic_speech_to_text(set_language) # 選択した言語を元に音声認識開始
    print("音声認識結果:") # 案内表示に変更
    print(result_text) # メソッドから返ってきた値を表示

3.ターミナルに出力していた文字などをブラウザに出力

最後にprintでターミナルで出力していた  
タイトルや文字や音声を以下の４つのコードを使ってブラウザに出力します。

- st.title
- st.write
- st.empty()
- st.audio

In [None]:
import streamlit as st # フロントエンドを扱うstreamlitの機能をインポート
import speech_recognition as sr # 音声認識の機能をインポート

# 言語選択と、APIが認識する言語の変換リストを作成
set_language_list = {
    "日本語" :"ja",
    "英語" :"en-US",
}

# デフォルトの言語を設定
set_language = "日本語"


# 音声ファイルと音声認識の言語を引数に音声認識をする
def file_speech_to_text(audio_file,set_language):

    # 音声ファイルを読み込み
    with sr.AudioFile(audio_file) as source:
        audio = sr.Recognizer().record(source) # sr.Recognizer().record(開いた音声ファイル)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language=set_language_list[set_language]) #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

# 音声認識の言語を引数に音声認識をする
def mic_speech_to_text(set_language):

    # マイク入力を音声ファイルとして読み込み
    with sr.Microphone() as source:
        audio = sr.Recognizer().listen(source) # sr.Recognizer().listen(マイク入力)で認識準備

    try:
        text = sr.Recognizer().recognize_google(audio, language=set_language_list[set_language]) #  sr.Recognizer().recognize_google(音声データ,言語)で音声認識して、textに代入
    except:
        text = "音声認識に失敗しました"
    return text # 認識した文字を返す

st.title("文字起こしアプリ") # タイトル
st.write("音声認識する言語を選んでください。") # 案内を表示
set_language = st.selectbox("音声認識する言語を選んでください。",set_language_list.keys()) # 音声認識に使う言語を選択肢として表示
current_language_state = st.empty() # 選択肢を表示するための箱を準備
current_language_state.write("選択中の言語:" + set_language) # 選択肢を表示するための箱に選択した言語を表示
file_upload = st.file_uploader("ここに音声認識したファイルをアップロードしてください。",type=["wav"]) # アップローダーを設定し、wavファイルだけ許可する設定にする

# ファイルアップロードされた場合、file_uploadがNoneではなくなる
if (file_upload !=None):
    
    st.write("音声認識結果:") # 案内表示
    result_text = file_speech_to_text(file_upload,set_language) # アップロードされたファイルと選択した言語を元に音声認識開始
    st.write(result_text) # メソッドから返ってきた値を表示
    st.audio(file_upload) # アップロードした音声をきける形で表示


st.write("マイクでの音声認識はこちらのボタンから") # 案内表示

# ボタンが押されたら実行される
if st.button("音声認識開始"):
    state = st.empty() # マイク録音中を示す為の箱を準備
    state.write("音声認識中") # 箱に案内表示書き込み
    result_text = mic_speech_to_text(set_language) # 選択した言語を元に音声認識開始
    state.write("音声認識結果:") # 案内表示に変更
    st.write(result_text) # メソッドから返ってきた値を表示