# day 2

---

## 1. SageMaker Studio Lab の使い方

> 引用元: ''Getting Started with Amazon SageMaker Studio Lab''

### 1.1 SageMaker Studio Lab とは

SageMaker Studio Lab は、15GBの永続的なストレージとCPUまたはGPUランタイムにアクセスできるノートブック開発環境です。プロジェクトに関するすべてのもの(ノートブック、ソースコードファイル、データセット、クローンした Git リポジトリ、Conda 環境、JupyterLab 拡張機能など)は自動的に保存されるので、プロジェクトを起動するたびに、中断した場所から再開することができます。SageMaker Studio LabはオープンソースのJupyterLab をベースにしているため、プロジェクトでオープンソースのJupyter拡張機能を利用することができます。

### 1.1 Python コードを実行する

このドキュメントは、[Jupyter notebook](https://jupyter.org/)です。ノートブックでは、ライブコード、数式、Markdown、画像、視覚化、その他のコンテンツを1つのドキュメントにまとめ、他の人と共有することができます。

以下のPythonコードを実行するには、セルをクリックして選択し、キーボードで`Shift-Enter`を入力するか、ドキュメントの上部にあるノートブックツールバーの再生ボタンをクリックします。

In [1]:
a = 10
b = 20
c = a + b
print(a, b, c)

10 20 30


Pythonについて詳しく知りたい方は、[Python早見表](https://chokkan.github.io/python/)などが参考になります。

### 1.2 基本操作

ノートブックの作成、ソースコードファイルの作成、ターミナルへのアクセス

SageMaker Studio Lab では、ノートブックの作成、ソースコードファイルの作成、内蔵ターミナルへのアクセスが可能です。左パネルのファイルブラウザの上部にある「+」ボタンをクリックしてLauncherを開くことで行えます:

![ランチャーボタン](images/launcher_button.png)

作成したノートブック、ファイル、データセットはすべて永続的なプロジェクトディレクトリに保存され、プロジェクトを開くと利用できるようになります。ヘルプを入手したり、ドキュメントにアクセスするには、ページ上部のメニューバーにある **Help** メニューをクリックします。

ランチャーには、さまざまな環境でノートブックを起動したり、ソースコードファイルを作成したり、ターミナルにアクセスしたりするためのカードが用意されています:

![Launcher Cards](images/launcher_cards.png)

### 1.2 Python パッケージをインストールするには

Pythonのパッケージは、他のプログラムから再利用できるようにPythonのコードをまとめたファイルです. Pythonのパッケージをインストールする最も簡単な方法は、ノートブックのコードセルで次のいずれかのマジックコマンドを使用することです:

`%conda install <package>`

`%pip install <package>`

これらのコマンドは、常にノートブックで使用されている環境にパッケージをインストールし、インストールしたパッケージは、永続的なプロジェクトディレクトリに保存されます。注意: `!pip` or `!conda` を使うことはお勧めしません。複数の環境がある場合、これらのコマンドは予期せぬ動作をすることがあるためです。(Jypyter notebookでは`%`で始まるコマンドを「マジックコマンド」と呼びます)

以下は、このノートブックで使用する環境に **NumPy** と呼ばれるパッケージをインストールする方法を示す例です:

In [2]:
%conda install numpy

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.10.3
  latest version: 23.5.0

Please update conda by running

    $ conda update -n base conda



## Package Plan ##

  environment location: /home/studio-lab-user/.conda/envs/gssm2023

  added / updated specs:
    - numpy


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2023.5.7   |       hbcca054_0         145 KB  conda-forge
    certifi-2023.5.7           |     pyhd8ed1ab_0         149 KB  conda-forge
    ------------------------------------------------------------
                                           Total:         294 KB

The following packages will be UPDATED:

  ca-certificates    pkgs/main::ca-certificates-2023.01.10~ --> conda-forge::ca-certificates-2023.5.7-hbcca054_0

The following packages will be SUPERSEDED by a higher-priority channel:

  certif

これで **NumPy** が使えるようになりました:

In [3]:
import numpy as np
np.random.rand(10)

array([0.83870571, 0.35177248, 0.32760409, 0.80470298, 0.31102567,
       0.91204229, 0.75892251, 0.75008716, 0.56089786, 0.86074976])

### (参考) SageMaker Studio Lab のサンプルノートブック

#### Python早見表

[Python早見表](https://chokkan.github.io/python/)は、東京工業大学の岡崎直観先生が作成された Python の入門教材です。プログラムと実行例をカタログ的に提示しながら、Pythonの言語仕様やライブラリを紹介しています。Pythonの基礎を素早く習得したり、ライブラリやオブジェクトの使い方を確認することができます。教材にある以下のボタンをクリクすることで、SageMaker上にノートブックを開くことができます。

![Open In SageMaker Studio Lab](https://studiolab.sagemaker.aws/studiolab.svg)

---

## 2. 環境構築

### 2.1 MeCab のインストール (目安:約3分)

In [9]:
!bash ../scripts/install_mecab.sh > install_mecab.log 2>&1
!tail -n 1 install_mecab.log

Successfully installed mecab-python-0.996


`Successfully installed mecab-python-0.996` と表示されれば、インストール成功です。

### 2.2 CaboCha のインストール (目安:約5分)

In [10]:
!bash ../scripts/install_cabocha.sh > install_cabocha.log 2>&1
!tail -n 1 install_cabocha.log

Successfully installed cabocha-python-0.69


`Successfully installed cabocha-python-0.69` と表示されれば、インストール成功です。

### 2.3 Kernel のリスタート

ページ上部のメニューバーにある **Kernel** メニューをクリックし、プルダウンメニューから [**Restart Kernel ...**] を選択してください。

<img src="images/restart_kernel.png" width="60%">

---

## 3. 形態素解析

### 3.1 MeCab を使う

#### (1) そのまま出力してみる

In [1]:
import MeCab

tagger = MeCab.Tagger("-r ../tools/usr/local/etc/mecabrc")
print(tagger.parse("今日はいい天気です"))

今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気	名詞,一般,*,*,*,*,天気,テンキ,テンキ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS



#### (2) 扱いやすいように Pandas の DataFrame に格納する

In [2]:
import pandas as pd

node = tagger.parseToNode("今日はいい天気です")
features = []
while node:
    features.append(node.feature.split(','))
    node = node.next

columns = [
    "品詞",
    "品詞細分類1",
    "品詞細分類2",
    "品詞細分類3",
    "活用型",
    "活用形",
    "基本形",
    "読み",
    "発音",
]
pd.DataFrame(features, columns=columns)

Unnamed: 0,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,基本形,読み,発音
0,BOS/EOS,*,*,*,*,*,*,*,*
1,名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
2,助詞,係助詞,*,*,*,*,は,ハ,ワ
3,形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
4,名詞,一般,*,*,*,*,天気,テンキ,テンキ
5,助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
6,BOS/EOS,*,*,*,*,*,*,*,*


---

## 4. 係り受け解析

### 4.1 CaboCha を使う

#### (1) そのまま出力してみる

In [3]:
import CaboCha

cp = CaboCha.Parser("-r ../tools/usr/local/etc/cabocharc")
tree = cp.parse("今日はいい天気です")
print(tree.toString(CaboCha.FORMAT_LATTICE))

* 0 2D 0/1 -1.041733
今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
* 1 2D 0/0 -1.041733
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
* 2 -1D 0/1 0.000000
天気	名詞,一般,*,*,*,*,天気,テンキ,テンキ
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS



#### (2) ツリー形式で出力する

In [4]:
print(cp.parseToString("今日はいい天気です"))

  今日は---D
      いい-D
    天気です
EOS



#### (3) 係り受けペアを出力する

In [5]:
# 構文木(tree)からチャンクを取り出す
def get_chunks(tree):
    chunks = {}
    key = 0
    for i in range(tree.size()):
        tok = tree.token(i)
        if tok.chunk:
            chunks[key] = tok.chunk
            key += 1
    return chunks


# チャンク(chunk)から表層形を取り出す
def get_surface(chunk):
    surface = ""
    beg = chunk.token_pos
    end = chunk.token_pos + chunk.token_size
    for i in range(beg, end):
        token = tree.token(i)
        surface += token.surface
    return surface

In [6]:
chunks = get_chunks(tree)

for from_chunk in chunks.values():
    if from_chunk.link < 0:
        continue
    to_chunk = chunks[from_chunk.link]

    from_surface = get_surface(from_chunk)
    to_surface = get_surface(to_chunk)

    print(from_surface, '->', to_surface)

今日は -> 天気です
いい -> 天気です
