# 第6章: 英語テキストの処理
英語のテキスト（nlp.txt）に対して，以下の処理を実行せよ．

## 50. 文区切り
(. or ; or : or ? or !) → 空白文字 → 英大文字というパターンを文の区切りと見なし，入力された文書を1行1文の形式で出力せよ．

In [131]:
import re

def nlp_reader():
    with open('nlp.txt') as f:
        buf = ''
        for line in f:
            line = line.rstrip()
            while True:
                m = re.search(r"(?:\.|;|:|\?|!)\s+(?=[A-Z])", line)
                if m is None:
                    break
                else:
                    buf += line[:m.end(0)]
                    yield buf
                    buf = ''
                    line = line[m.end(0):]
            if len(line) > 0:
                yield line
    raise StopIteration

# 最初の10行のみ
for i, line in enumerate(nlp_reader()):
    if i >= 10:
        break
    print(line)

Natural language processing
From Wikipedia, the free encyclopedia
Natural language processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. 
As such, NLP is related to the area of humani-computer interaction. 
Many challenges in NLP involve natural language understanding, that is, enabling computers to derive meaning from human or natural language input, and others involve natural language generation.
History
The history of NLP generally starts in the 1950s, although work can be found from earlier periods. 
In 1950, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence.
The Georgetown experiment in 1954 involved fully automatic translation of more than sixty Russian sentences into English. 
The authors claimed that within three or five years, machine translation would b

## 51. 単語の切り出し
空白を単語の区切りとみなし，50の出力を入力として受け取り，1行1単語の形式で出力せよ．ただし，文の終端では空行を出力せよ．

In [229]:
def word_generator():
    for i, line in enumerate(nlp_reader()):
        words = line.rstrip().split(' ')
        for word in words:
            yield word.rstrip('.,;:?!')
        yield '\n'
    raise StopIteration

# 最初の15個のみ
for i, word in enumerate(word_generator()):
    if i >= 15:
        break
    print(word)
    

Natural
language
processing


From
Wikipedia
the
free
encyclopedia


Natural
language
processing
(NLP)
is


## 52. ステミング
51の出力を入力として受け取り，Porterのステミングアルゴリズムを適用し，単語と語幹をタブ区切り形式で出力せよ． Pythonでは，Porterのステミングアルゴリズムの実装としてstemmingモジュールを利用するとよい．

In [235]:
from nltk import stem

def stem_generator():
    stemmer = stem.PorterStemmer()
    for word in word_generator():
        if word == '\n':
            yield word
        else:
            stem_word = stemmer.stem(word)
            yield '{}\t{}'.format(word, stem_word)
    raise StopIteration

# 最初の10個を表示
for i, line in enumerate(stem_generator()):
    if i > 10:
        break
    print(line)

Natural	Natur
language	languag
processing	process


From	From
Wikipedia	Wikipedia
the	the
free	free
encyclopedia	encyclopedia


Natural	Natur


## 53. Tokenization
Stanford Core NLPを用い，入力テキストの解析結果をXML形式で得よ．また，このXMLファイルを読み込み，入力テキストを1行1単語の形式で出力せよ．

pass

## 54. 品詞タグ付け
Stanford Core NLPの解析結果XMLを読み込み，単語，レンマ，品詞をタブ区切り形式で出力せよ．

## 55. 固有表現抽出
入力文中の人名をすべて抜き出せ．

## 56. 共参照解析
Stanford Core NLPの共参照解析の結果に基づき，文中の参照表現（mention）を代表参照表現（representative mention）に置換せよ．ただし，置換するときは，「代表参照表現（参照表現）」のように，元の参照表現が分かるように配慮せよ．

## 57. 係り受け解析
Stanford Core NLPの係り受け解析の結果（collapsed-dependencies）を有向グラフとして可視化せよ．可視化には，係り受け木をDOT言語に変換し，Graphvizを用いるとよい．また，Pythonから有向グラフを直接的に可視化するには，pydotを使うとよい．

## 58. タプルの抽出
Stanford Core NLPの係り受け解析の結果（collapsed-dependencies）に基づき，「主語 述語 目的語」の組をタブ区切り形式で出力せよ．ただし，主語，述語，目的語の定義は以下を参考にせよ．

* 述語: nsubj関係とdobj関係の子（dependant）を持つ単語
* 主語: 述語からnsubj関係にある子（dependent）
* 目的語: 述語からdobj関係にある子（dependent）

## 59. S式の解析
Stanford Core NLPの句構造解析の結果（S式）を読み込み，文中のすべての名詞句（NP）を表示せよ．入れ子になっている名詞句もすべて表示すること．