In [None]:
# Licensed under the Apache License, Version 2.0 (the "License"); you may
# not use this file except in compliance with the License. You may obtain
# a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
# WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
# License for the specific language governing permissions and limitations
# under the License.

# Lab1: Language Translator 翻訳

https://www.ibm.com/watson/jp-ja/developercloud/language-translator.html

Watson Language Translatorサービスは、過去数十年にわたるIBMの研究の成果である統計的機械翻訳技術とニューラル・ネットワークを利用して、会話・ニュース記事・特許文書といったドメインに最適化した翻訳機能を提供します。 Language Translatorサービスは、翻訳対象のテキストの言語を自動的に識別し、お客様のユース・ケースに適した翻訳モデルによって翻訳を行うことができます。また、お客様独自のカスタム辞書を登録してご利用いただくことや、機械学習によりお客様の固有のユース・ケースに合わせたカスタム翻訳モデルを作成してお使いいただくことも可能です。

API Doc: https://cloud.ibm.com/apidocs/language-translator?code=python

## 1. サービスの作成
[ハンズオン資料](https://speakerdeck.com/kyokonishito/watson-studio-watson-api-hands-on)に従い、IBM CloudのWeb画面から`Language Translator`サービスを作成してください。

## 2. 資格情報取得
[ハンズオン資料](https://speakerdeck.com/kyokonishito/watson-studio-watson-api-hands-on)に従い、　作成した`Language Translator`の資格情報であるAPI KEY(API鍵)とURLを下のセルの変数にセットして実行してください。

In [None]:
API_KEY='XXXXXXXXXXXXXX'
API_URL='XXXXXXXXXXXXXX'

## 3.  最新の Watson Developer Cloud, パッケージの導入
Watson APIのpython SDKであるWatson Developer Cloudパッケージを導入します。

参考: https://cloud.ibm.com/apidocs/language-translator?code=python

下のセルを実行してください。

In [None]:
!pip install --upgrade "ibm-watson>=3.0.3"


## 4. API呼び出し
### 4.1 インスタンス作成

参考: https://cloud.ibm.com/apidocs/language-translator?code=python#authentication

versionは特に指定がなければhttps://cloud.ibm.com/apidocs/language-translator?code=python#versioning　を参照して最新のものを記入。2019年6月5日現在の最新version`2018-05-01`を記入済み。

下のセルを実行してください。

In [None]:
from ibm_watson import LanguageTranslatorV3

language_translator = LanguageTranslatorV3(
    version='2018-05-01',
    iam_apikey=API_KEY,
    url=API_URL
)

### 4.2 翻訳 translate
参考: https://cloud.ibm.com/apidocs/language-translator?code=python#translate

- 英語に翻訳できる言語、英語から翻訳できるは21言語
- 通常ある言語から英語以外の言語に翻訳したい場合は、一旦英訳し他の言語に翻訳する

下記のsource_textに翻訳したい文章を入れてください。サンプルのままでよければそのままでもよいです。

model_idは以下を参照:
https://cloud.ibm.com/docs/services/language-translator?topic=language-translator-translation-models&locale=en

下のセルを実行してください。

In [None]:
source_text = 'こんにちは。もう梅雨ですね。アジサイが美しい季節です。'
MODEL_ID='ja-en'

import json

translation = language_translator.translate(
    text=source_text,
    model_id=MODEL_ID).get_result()
print(json.dumps(translation, indent=2, ensure_ascii=False))

### 4.3 言語判定 identify
参考: https://cloud.ibm.com/apidocs/language-translator?code=python#identify-language

言語判定したいUTF-8のテキストデータをAPIに渡すと言語判定結果を返します。
62言語の判定が可能です。
62言語の一覧　https://console.bluemix.net/docs/services/language-translator/identifiable-languages.html?locale=en#identifiable-languages

下記のsource_textに言語判定したい文章を入れてください。サンプルのままでよければそのままでもよいです。

下のセルを実行してください。

In [None]:
source_text = 'こんにちは。もう梅雨ですね。アジサイが美しい季節です。'

language = language_translator.identify(
   source_text).get_result()
print(json.dumps(language, indent=2))

### 4.4 Uploadしたファイルを読み込んで翻訳

Language Translatorサービスとは直接関係ありませんが、後のハンズオンで自分のファイルを使う場合のためのWatson Studio Notebookでファイルの取り扱いの練習をします。

Watson Studio　Notebookでファイルを扱うためには、Watson Studio　Notebookの作業領域にファイルをコピーする必要があります。

**A:** Web上に公開されているファイルなど、　http, https, ftpで取得可能なファイルはwgetコマンドでNotebookの作業領域に直接ダウンロードします。

**B:** 自分のPC上のファイルは、Watson Studioの機能で一旦Object Strageにuploadし、Notebookの作業領域にコピーして 使用します。


### A:  wgetコマンドで取得
下記のコードはwgetでNotebookの作業領域に直接ダウンロードするサンプルです。

先頭に `!`をつけるとOSのコマンドが実行できます。
`wget <url> -O <ファイル名>`　でファイル取得ができます。

下のセルを実行してください。

In [None]:
#ファイルの確認(確認用)
!ls -la
#wgetでダウンロード
!wget https://raw.githubusercontent.com/kyokonishito/python_watson/master/data/sample.txt  -O sample_wget.txt
#ファイルの確認(確認用)
!ls -la
#内容の表示(確認用)
!cat sample_wget.txt

### B: ローカルのファイルをObject Strageにuploadし、Notebookの作業領域にコピー
#### B-1: ローカルのファイルのObject Strageへのupload
1.  [sample.txt](https://raw.githubusercontent.com/kyokonishito/python_watson/master/data/sample.txt) をダウンロードしPCに保存します。 リンクを右クリックし、「リンク先を別名で保存」をしてください。
 
2. Watson StudioのNotebook上、右上の`0100`というアイコンをクリックし、Fileアップロードの画面を出します。`Drop your file here or browse your files to add a new file` と書いてある場所に、2.1で作成したファイルをドロップし、Watson Studio上のProjectにアップロードします。<br />
![](https://github.com/kyokonishito/python_watson/raw/master/notebooks/images/upload.png)

<br />
<br />

3. ロードが終わったらFilesをクリックしてファイルがあることを確認し、最後に✖️をクリックしてFile画面を閉じる<br />
![](https://github.com/kyokonishito/python_watson/raw/master/notebooks/images/upload_comp.png)
 
#### B-2: StreamingBody object作成
1. **下のセルを選択して、空の行にカーソルを置いてください。** 

2. 右上の`0100`アイコンをクリックし、アップロードしたsample.txtファイルの下にある `Insert to code`の下にある`Insert StreamingBody object`をクリックしてください。

3. ファイルを読み込むストリーム`streaming_body_2`をセットするコードが挿入されます。

4.  4箇所ある`streaming_body_2`は　全て`streaming_body_1`に変更します。(後のコードで使用するため)

5.  編集が終わったらセルを実行します。

<p><span style="color: teal">
# Your data file was loaded into a botocore.response.StreamingBody object.<br/>
# Please read the documentation of ibm_boto3 and pandas to learn more about your possibilities to load the data.<br/>
# ibm_boto3 documentation: https://ibm.github.io/ibm-cos-sdk-python/<br/>
# pandas documentation: http://pandas.pydata.org/<br/></span>
<strong>streaming_body_2</strong> = client_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx.get_object(Bucket='wordcloud-donotdelete-pr-wyztdevipqhfkt', Key='sample.txt')['Body']</p>
<p><span style="color: teal">
 # add missing __iter__ method, so pandas accepts body as file-like object</span>
if not hasattr(<strong>streaming_body_2</strong>, "__iter__"): <strong>streaming_body_2</strong>.__iter__ = types.MethodType( __iter__, <strong>streaming_body_2</strong> ) 
</p>


## <span style="color: red">この下に入力 </span>

In [None]:
# この行の下にカーソルを置いて、Insert StreamingBody objectをクリック


#### B-3 StreamingBody objectを使ってファイルのコピー
下記`filename`にファイル名をセットし、セルを実行してください。

In [None]:
import io

filename = 'sample_icos.txt'
file=io.BytesIO(streaming_body_1.read())   ## Getting a File represented as a BytesIO Object
with open(filename,'wb') as out:                    ## Open  filename as bytes
    out.write(file.read())                                   ## Read bytes into file

#### B-4 (オプション)確認

コピーできたかの確認するには、下のセルを実行してください。


In [None]:
! ls -la
! cat sample_icos.txt

では早速読み込んだファイルを翻訳してみましょう!

下のセルを実行してください。

In [None]:
#filenameにファイル名をセット。
filename = 'sample_icos.txt'
#filename = 'sample_wget.txt'

MODEL_ID='ja-en'
with open(filename, "r") as rfp:
    lines = rfp.readlines()
    translation = language_translator.translate(
    text=lines,
    model_id=MODEL_ID).get_result()
    print(json.dumps(translation, indent=2, ensure_ascii=False))

せっかくたくさん英訳したので、オマケで中国語に翻訳してみます。
(通常ある言語から英語以外の言語に翻訳したい場合は、一旦英訳し他の言語に翻訳する必要があります)

下のセルを実行してください。

In [None]:
lines =[]
for data in translation['translations']:
    str=data['translation']
    lines.append(str)

MODEL_ID = 'en-zh'
translation2 = language_translator.translate(
    text=lines,
    model_id=MODEL_ID).get_result()
print(json.dumps(translation2, indent=2, ensure_ascii=False))

### 4.5 カスタム翻訳モデル
拡張およびプレミアムプランで作成可能なため、今回のハンズオンでは実施しません。

Language Translatorは事前学習済みのAPIですが、業務固有の単語などについて追加学習を行い　、専用の「カスタム翻訳モデル」が作成可能です。

参照：　https://cloud.ibm.com/docs/services/language-translator?topic=language-translator-customizing#customizing

API　Doc:　https://cloud.ibm.com/apidocs/language-translator?code=python#create-model

# NEXT
[完了の処理を行って](https://github.com/kyokonishito/python_watson#LabComptele)、[Lab2](https://github.com/kyokonishito/python_watson#HandsOn)に進んでください。