# 1. はじめよう！

## 準備

1. Janome をインストール
2. Graphviz と日本語フォント（IPA フォント）をインストール

In [0]:
!pip install janome
!janome --version

In [0]:
!apt-get -qq -y install graphviz
!apt-get -qq -y install fonts-ipafont-gothic

## Janome CLI (Command Line Interface) を使いこなそう

付属の CLI で，対話的に形態素解析を実行できます。

In [0]:
!janome

指定できるオプションの一覧は -h オプションで確認できます。

In [0]:
!janome -h

パイプ (|) を使ってワンライナーでも書けます。

In [0]:
!echo "テキストマイニングを始めよう！" | janome 

-g オプションを指定すると，ラティスグラフを描画できます。デフォルトでは `lattice.gv.png` に保存されます。

In [0]:
!echo "銀河鉄道" | janome -g
from IPython.display import Image,display_png
display_png(Image('lattice.gv.png', width=1200))

In [0]:
!echo "ご飯論法" | janome -g
from IPython.display import Image,display_png
display_png(Image('lattice.gv.png', width=1200))

### 形態素解析が失敗する例

なぜ失敗するのか，ラティスグラフも観察してみましょう。

In [0]:
!echo "外国人参政権" | janome -g
from IPython.display import Image,display_png
display_png(Image('lattice.gv.png', width=1200))

In [0]:
!echo "美ら海図画コンクール" | janome -g
from IPython.display import Image,display_png
display_png(Image('lattice.gv.png', width=1200))

## Janome API (Application Programming Interface) を使いこなそう

### 参考

- Janome ドキュメント : https://mocobeta.github.io/janome/
- API リファレンス : http://mocobeta.github.io/janome/api/
- プログラム例 : https://github.com/mocobeta/janome/tree/master/examples

### Hello Janome!



In [0]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize('今日も１日がんばるぞい'):
  print(token)

### ハンズオン課題 1-1

'今日も１日がんばるぞい' を形態素解析して，表層形 (surface form) のみを取り出してください。

ヒント: ドキュメント・API リファレンスを参照するか，または `Token` クラスのプロパティは `dir` でも確認できます。

解答例は[こちら](https://colab.research.google.com/drive/1x5yJgIIhuGzBdanz9tBZZ63eNroZkbIT?authuser=2#scrollTo=9o_Ay9JeiK5Y) 


In [0]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
## write your code ##

### ハンズオン課題 1-2

'今日も１日がんばった' を形態素解析して，基本形 (base form) のみを取り出してください。

解答例は[こちら](https://colab.research.google.com/drive/1x5yJgIIhuGzBdanz9tBZZ63eNroZkbIT?authuser=2#scrollTo=KSVmoNaqj4du)

In [0]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
## write your code ##

## ユーザー定義辞書を使いこなそう

ユーザー定義辞書には MeCab IPA フォーマットと簡略フォーマット (simpledic) があります。ここでは簡略フォーマット辞書の作成方法について説明します。

https://mocobeta.github.io/janome/#v0-2-7

### ハンズオン課題 1-3


ユーザー定義辞書を使って，"美ら海図画コンクール" が正しく形態素解析されるようにしてください。

※ 美ら海 / 図画 / コンクール　となるようにする。

解答例は[こちら](https://colab.research.google.com/drive/1x5yJgIIhuGzBdanz9tBZZ63eNroZkbIT?authuser=2#scrollTo=bPCgH9vrmVP8)

In [0]:
# ユーザー辞書ファイル udic.csv (ファイル名は任意) を作る
## write your code ##

In [0]:
# API から動作確認
# udic_enc オプションはファイルの文字コードに合わせること (Windows の場合は sjis にする)
from janome.tokenizer import Tokenizer

# ユーザー辞書を指定して Tokenizer を作る
t = ## write your code ##
for token in t.tokenize('美ら海図画コンクール'):
  print(token.base_form)

In [0]:
# CLI から動作確認
# ワンライナーコマンドで書いてみましょう
# ヒント: janome コマンドに指定するオプションは janome -h で確認できる
# ラティスグラフも見てみましょう

## write your code ##
from IPython.display import Image,display_png
display_png(Image('lattice.gv.png', width=1200))