# Using Mecab

This file shows a simple example of how to use MeCab on Japanese text.

In [1]:
import MeCab

txt = "今日はいい天気だ。"

## Format 1: Splitting text into tokens (aka 分かち書き)

In [2]:
wakati = MeCab.Tagger("-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd")
print(wakati.parse(txt).split())

['今日', 'は', 'いい', '天気', 'だ', '。']


## Format 2: Parsing Mecab format

In [3]:
mecab = MeCab.Tagger()
print(mecab.parse(txt))

今日	名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
天気	名詞,一般,*,*,*,*,天気,テンキ,テンキ
だ	助動詞,*,*,*,特殊・ダ,基本形,だ,ダ,ダ
。	記号,句点,*,*,*,*,。,。,。
EOS



## Format 3: Parsing Chasen format

In [4]:
chasen = MeCab.Tagger("-Ochasen")
print(chasen.parse(txt))

今日	キョウ	今日	名詞-副詞可能		
は	ハ	は	助詞-係助詞		
いい	イイ	いい	形容詞-自立	形容詞・イイ	基本形
天気	テンキ	天気	名詞-一般		
だ	ダ	だ	助動詞	特殊・ダ	基本形
。	。	。	記号-句点		
EOS



## Format 4: Displaying morphological data in detail (How to read and parts of speech)

In [5]:
chasen = MeCab.Tagger('-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
node = chasen.parseToNode(txt)

while node:
    feature = node.feature.split(',')
    print('語彙 (Term):'+node.surface)
    print('品詞 (Part of Speech):'+feature[0])
    print('品詞細分類1 (Part of Speech Subclassification 1):'+feature[1])
    print('品詞細分類2:'+feature[2])
    print('品詞細分類3:'+feature[3])
    print('活用型 (Utilization):'+feature[4])
    print('活用系 (Conjugation):'+feature[5])
    print('レンマ (Lemma):'+feature[6])
    if len(feature) >= 8:
        print('読み (How to Read):'+feature[7])
        print('発音 (Pronunciation):'+feature[8])
    print('')
    node = node.next

語彙 (Term):
品詞 (Part of Speech):BOS/EOS
品詞細分類1 (Part of Speech Subclassification 1):*
品詞細分類2:*
品詞細分類3:*
活用型 (Utilization):*
活用系 (Conjugation):*
レンマ (Lemma):*
読み (How to Read):*
発音 (Pronunciation):*

語彙 (Term):今日
品詞 (Part of Speech):名詞
品詞細分類1 (Part of Speech Subclassification 1):副詞可能
品詞細分類2:*
品詞細分類3:*
活用型 (Utilization):*
活用系 (Conjugation):*
レンマ (Lemma):今日
読み (How to Read):キョウ
発音 (Pronunciation):キョー

語彙 (Term):は
品詞 (Part of Speech):助詞
品詞細分類1 (Part of Speech Subclassification 1):係助詞
品詞細分類2:*
品詞細分類3:*
活用型 (Utilization):*
活用系 (Conjugation):*
レンマ (Lemma):は
読み (How to Read):ハ
発音 (Pronunciation):ワ

語彙 (Term):いい
品詞 (Part of Speech):形容詞
品詞細分類1 (Part of Speech Subclassification 1):自立
品詞細分類2:*
品詞細分類3:*
活用型 (Utilization):形容詞・イイ
活用系 (Conjugation):基本形
レンマ (Lemma):いい
読み (How to Read):イイ
発音 (Pronunciation):イイ

語彙 (Term):天気
品詞 (Part of Speech):名詞
品詞細分類1 (Part of Speech Subclassification 1):一般
品詞細分類2:*
品詞細分類3:*
活用型 (Utilization):*
活用系 (Conjugation):*
レンマ (Lemma):天気
読み (How to Read):テンキ
発音 (Pronunciation):

## Changing Text into Katakana カタカナ変換

In [7]:
tagger = MeCab.Tagger('-Oyomi')
print(tagger.parse(txt))

キョウハイイテンキダ。

