# 形態素解析

## [MeCabの環境構築]

### Windowsの場合
* 1.Mecabのインストール    
    * http://oita.oika.me/2018/05/03/python3-mecab-on-windows/
* 2.mecab-python-windowsのインストール    
```
pip install mecab-python-windows
```
        
        

### Mac, Linuxの場合
#### 1.swigのインストール
* Macの場合
    * brew install swig
* Ubuntuの場合
    * sudo apt-get install swig
    

#### 2. MeCabのインストール
* MeCabの公式サイト  
    http://taku910.github.io/mecab/#install  
* インストール方法  
    mecab-0.996.tar.gzをダウンロードし、端末にて以下を実行する。
    
    ```    
    tar zxfv mecab-0.996.tar.gz
    cd mecab-0.996
    ./configure 
    make
    make check
    sudo make install
    ```

    次に、辞書のインストール。mecab-ipadic-2.7.0-20070801.tar.gzをダウンロードし、端末にて以下を実行する。
    
    ```
    tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
    cd mecab-ipadic-2.7.0-20070801
    ./configure --with-charset=utf8
    make
    sudo make install
    ```

#### 3. mecab-python3のインストール
```
pip install -U mecab-python3==0.996.2
```


In [1]:
import MeCab
# ここでエラーが出るようであれば、MeCab環境が正しく構築できていない

## 形態素解析
日本語の文章を形態素解析する

In [2]:
mec = MeCab.Tagger ()
print("表層形\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音")
print(mec.parse("すもももももももものうちは誰が考えたんだろうか"))


表層形	品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
誰	名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ
が	助詞,格助詞,一般,*,*,*,が,ガ,ガ
考え	動詞,自立,*,*,一段,連用形,考える,カンガエ,カンガエ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
ん	名詞,非自立,一般,*,*,*,ん,ン,ン
だろ	助動詞,*,*,*,特殊・ダ,未然形,だ,ダロ,ダロ
う	助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
か	助詞,副助詞／並立助詞／終助詞,*,*,*,*,か,カ,カ
EOS



In [3]:
mec = MeCab.Tagger ("-Ochasen")
print("表層形\t読み\t原型\t品詞(-品詞細分類1)(-品詞細分類2)(-品詞細分類3) \t活用形\t活用型")
print(mec.parse("すもももももももものうちは誰が考えたんだろうか"))


表層形	読み	原型	品詞(-品詞細分類1)(-品詞細分類2)(-品詞細分類3) 	活用形	活用型
すもも	スモモ	すもも	名詞-一般		
も	モ	も	助詞-係助詞		
もも	モモ	もも	名詞-一般		
も	モ	も	助詞-係助詞		
もも	モモ	もも	名詞-一般		
の	ノ	の	助詞-連体化		
うち	ウチ	うち	名詞-非自立-副詞可能		
は	ハ	は	助詞-係助詞		
誰	ダレ	誰	名詞-代名詞-一般		
が	ガ	が	助詞-格助詞-一般		
考え	カンガエ	考える	動詞-自立	一段	連用形
た	タ	た	助動詞	特殊・タ	基本形
ん	ン	ん	名詞-非自立-一般		
だろ	ダロ	だ	助動詞	特殊・ダ	未然形
う	ウ	う	助動詞	不変化型	基本形
か	カ	か	助詞-副助詞／並立助詞／終助詞		
EOS



## 分かち書き
日本語を分かち書きし、リストに格納することも可能

In [4]:
text = 'すいかももももまるいくだもの。'
mec = MeCab.Tagger ("-Owakati")        
result = mec.parse(text)
print(result)
print(result.split())

すいか も もも も まるい くだもの 。 

['すいか', 'も', 'もも', 'も', 'まるい', 'くだもの', '。']


### [演習]
* 好きな文章を形態素解析してみよう
* 好きな文章を分かち書きしてリストに格納してみよう