<a href="https://colab.research.google.com/github/yukinaga/ai_programming_2022/blob/main/04_ai_webapp/03_nlp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 自然言語処理アプリ
Streamlitを使い、文章を解析するアプリを作りましょう。  
spaCyというライブラリを使用します。

## ●ライブラリのインストール
Streamlit、およびアプリの動作の確認に使用する「ngrok」、および自然言語処理のための「spaCy」をインストールします。

In [None]:
!pip install streamlit==1.7.0 --quiet
!pip install pyngrok==4.1.1 --quiet
!pip install spacy[ja]==3.2.1 --quiet
!pip install ginza ja-ginza --quiet

Streamlit、およびngrokをインポートしておきます。  
エラーが発生する場合は、「ランタイム」→「ランタイムを再起動」によりランタイムを再起動し、再びコードセルを上から順に実行しましょう。

In [None]:
import streamlit as st
from pyngrok import ngrok

## ●自然言語処理アプリのコード
自然言語処理アプリのコードを、「app.py」に書き込みます。  
spaCyを使い、テキストの文章ごと分割、名詞の抽出、依存関係の可視化などを行います。

In [None]:
%%writefile app.py
import streamlit as st
import spacy
from spacy import displacy

st.sidebar.title("文章解析アプリ")
st.sidebar.write("SpaCyを使って文章を解析します。")

st.sidebar.write("")

text = st.text_area("解析する文章", "文章を入力してください。")
nlp = spacy.load("ja_ginza")
doc = nlp(text)

method = st.sidebar.radio("解析方法を選択してください。",
                          ("文章ごとに分割", "名詞の抽出", "品詞と依存関係", "依存関係の可視化", "固有表現の抽出"))

if method == "文章ごとに分割":
    for sentence in doc.sents:
        st.caption(sentence)

elif method == "名詞の抽出":
    for noun in doc.noun_chunks:
        st.caption(noun)

elif method == "品詞と依存関係":
    for token in doc:
        st.caption(token.text + " / " + token.pos_ + " / " + token.dep_)

elif method == "依存関係の可視化":
    svg = displacy.render(doc, style="dep")
    st.image(svg)

elif method == "固有表現の抽出":
    html = displacy.render(doc, style="ent")
    st.markdown(html, unsafe_allow_html=True)

## ●Authtokenの設定
ngrokで接続するために必要な「Authtoken」を設定します。  
以下のコードの、  
`!ngrok authtoken YourAuthtoken`  
における  
`YourAuthtoken`の箇所を、自分のAuthtokenに置き換えます。  
Authtokenは、ngrokのサイトに登録すれば取得することができます。  
https://ngrok.com/


In [None]:
!ngrok authtoken YourAuthtoken

## ●アプリの起動と動作確認
streamlitの`run`コマンドでアプリを起動します。


In [None]:
!streamlit run app.py &>/dev/null&  # 「&>/dev/null&」により、出力を非表示にしてバックグランドジョブとして実行

ngrokのプロセスを終了した上で、新たにポートを指定して接続します。  
接続の結果、urlを取得できます。  
ngrokの無料プランでは同時に1つのプロセスしか動かせないので、エラーが発生した場合は「ランタイム」→「セッションの管理」で不要なGoogle Colabのセッションを修了しましょう。  

In [None]:
ngrok.kill()  # プロセスの修了
url = ngrok.connect(port="8501")  # 接続

リンクのURLをコピーし、ブラウザのURL欄に貼り付けて「http」を「https」に変更の上、ページを表示してください。  
アプリの画面が表示されることを確認しましょう。  

In [None]:
print(url)