# 自然言語処理で遊んでみる

## 形態素解析

まずはfugashiというMeCabのラッパーを使い、形態素解析をしましょう。

In [1]:
from fugashi import Tagger
tagger = Tagger()

In [2]:
doc = tagger("今日はイベントの日です。")
doc

[今日, は, イベント, の, 日, です, 。]

In [3]:
doc[0]

今日

In [4]:
doc[0].feature

UnidicFeatures26(pos1='名詞', pos2='普通名詞', pos3='副詞可能', pos4='*', cType='*', cForm='*', lForm='キョウ', lemma='今日', orth='今日', pron='キョー', orthBase='今日', pronBase='キョー', goshu='和', iType='*', iForm='*', fType='*', fForm='*', kana='キョウ', kanaBase='キョウ', form='キョウ', formBase='キョウ', iConType='*', fConType='*', aType='1', aConType='C3', aModeType='*')

In [5]:
doc[0].feature.kana

'キョウ'

In [6]:
doc[0].feature.pos1

'名詞'

In [7]:
for token in tagger("私はShodoを作ります"):
    print(token.surface, token.feature.kana, token.feature.pos1, token.feature.pos2)

私 ワタクシ 代名詞 *
は ハ 助詞 係助詞
Shodo None 名詞 普通名詞
を ヲ 助詞 格助詞
作り ツクリ 動詞 一般
ます マス 助動詞 *


## N-gram

N-gramがどういうものか体験してみましょう。

In [8]:
import itertools
def ngrams(xs, n=2):
    """ N-gramにしてくれる関数
    
    本来はnltkというライブラリーの実装（nltk.util.ngrams）を使います。
    """
    ts = itertools.tee(xs, n)
    for i, t in enumerate(ts[1:]):
        for _ in range(i + 1):
            next(t, None)
    return zip(*ts)

In [9]:
list(ngrams([0, 1, 2, 3, 4], n=2))

[(0, 1), (1, 2), (2, 3), (3, 4)]

In [10]:
for a, b in ngrams(tagger("これは以外な結果でした")):
    print(a.surface, b.surface)

これ は
は 以外
以外 な
な 結果
結果 でし
でし た


## コーパス

コーパスから学習に使う文章を表示してみます。

(引用元︰Wikipedia Dowsloads https://dumps.wikimedia.org/ より CC BY-SA)

In [11]:
with open("./corpus.txt") as f:
    print("".join(f.readlines(200)))

『ウンベルトD』(Umberto D.)は、1952年のイタリアの映画。
監督はヴィットリオ・デ・シーカ。
脚本はチェーザレ・ザバッティーニ。
音楽はアレッサンドロ・チコニーニ。
デ・シーカは、この作品を自身の父親に捧げた(父の名前は「ウンベルト」である)。出演している俳優のほとんどが素人である。
主演のカルロ・バッティスティはフィレンツェ大学の言語学教授だった。
わずかな年金の引き上げを求める高齢男性の街頭デモを警察が分散させる。

