# 言語処理100本ノック

http://www.cl.ecei.tohoku.ac.jp/nlp100/

## 進め方

プログラミングの問題を進める前に、決めておいたほうが良いハイパーパラメータが2つあります。

1. 目的
2. 戦略
3. 言語

### 目的

何のためにこの問題を解くのか、という事です。

大抵は「勉強のため」でしょうけれど、もう少し具体的に。

* ある言語(例えばPython)の基本を習得したい
* ある言語(例えばJulia)のライブラリ・モジュールの知識を広げたい
* 言語に依存しないプログラミング・アルゴリズムを理解したい

目的によって、取るべき戦略が異なります。

### 戦略

例えば‐

Pythonの基本を習得したいのであれば、ラッピングされた高度なライブラリ・モジュールを使うのではなく、処理を基本的な文法と関数のみで素朴に書き下し他方が良いかもしれません。

実用的なライブラリ・モジュールの知識を得たいのであれば、問題にあったライブラリを探して使ってみましょう。

アルゴリズムのイディオムを知りたいのであれば、ソート処理なんかも自分で実装してみるのも手です。

別のアプローチとして、ある程度プログラミングに習熟しているならばコードゴルフに挑戦するのも楽しいかもしれません。

### コードゴルフ

コードゴルフというのはWikipediaによると

> 与えられたアルゴリズムを、可能な限りもっとも短いソースコードで記述することを競う

とあります。つまり、出来るだけ短いコードで問題を解く、という事です。

※ちなみに、超上級者になると「バイナリゴルフ」というのをやったりするみたいです。つまりCなどで書いたコードをコンパイルして出来たバイナリを直接修正したりして、実行ファイルサイズを極限まで減らす、というのをやるのです。

コードゴルフもバイナリゴルフも僕には無理です。

### 言語

言語処理100本ノックのサイト運営者はPythonを意識しているらしいですが、機能が貧弱な言語(Brainfackとか)だとかなりつらいです。

Python、Ruby、PHP、Perlあたりならば特別苦労は無いでしょう。

1つ気をつけたほうが良いのは、問題の中には日本語の文章をデータとして扱うものが多いので、マルチバイトの扱いが下手な言語だと要らぬ苦労が増えます。

### 蛇足

言語処理100本ノックとは少し方向性が違いますがプロジェクト・オイラー(Project Euler)も、プログラミングの問題集としては有名です。

https://projecteuler.net/

こちらは数学的な問題ばかりです。例えば素数判別とか素因数分解とか。

### 蛇足その2

プログラミングに関する格言を幾つかご紹介。

Keep It Simple, Stupid! - Kelly Johnson

KISSの原則、と言われていて有名。出来るだけ機能を分解して1つの単純な処理だけ実行するパーツ(関数)を組み合わせて複雑な処理を実装するというような意味。

Computers are good at following instructions,　but not at reading your mind. - Donald Knuth

機械は命令に忠実に動くのであって、プログラマが思ったように動くのではない、という事。つまりプログラムがうまく動かないのはプログラマの所為。

Make it work. Make it right. Make it fast. - KentBeck

まず、特殊な前提が必要であれ何であれ動くものを作り、次にそれを正しく(特殊な前提など無しに)動くように修正し、最後に実行速度が速くなるようにする、という指針。

## Ch02 UNIXコマンドの基礎

hightemp.txtは，日本の最高気温の記録を「都道府県」「地点」「℃」「日」のタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，hightemp.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

In [1]:
!which wget

/bin/wget


In [2]:
#!wget http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt


--2018-03-05 09:49:39--  http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt
Resolving www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)... 130.34.192.83
Connecting to www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)|130.34.192.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 813 [text/plain]
Saving to: ‘hightemp.txt.1’


2018-03-05 09:49:39 (35.2 MB/s) - ‘hightemp.txt.1’ saved [813/813]



In [2]:
# 10. 行数のカウント
# 行数をカウントせよ．確認にはwcコマンドを用いよ．
file10 = './hightemp.txt'

# まずUNIXコマンドで確認
!wc -l $file10

lines = sum(1 for l in open(file10,'r'))
print(lines)

24 ./hightemp.txt
24


In [3]:
# 11. タブをスペースに置換
# タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

# まずUNIXコマンドで確認
!tr '\t' ' ' <$file10
!echo "---"
with open(file10,'r') as fd:
    for line in fd:
        print("%s" % line.replace('\t',' ').rstrip())

# with節を使うと、fcloseしないでよいので便利

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02
---
高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉

In [4]:
# 12. 1列目をcol1.txtに，2列目をcol2.txtに保存
# 各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．
#  確認にはcutコマンドを用いよ．

col1 = './col1.txt'
col2 = './col2.txt'

with open(file10, 'r') as fd, open(col1, 'w') as fd1, open(col2, 'w') as fd2:
    for line in fd:
        cells = line.split('\t')
        fd1.write(cells[0] + "\n")
        fd2.write(cells[1] + "\n")

# チェックサムでファイルの同一性を確認
!md5sum $col1
!cut -f1 <$file10 | md5sum
!echo '---'
!md5sum $col2
!cut -f2 <$file10 | md5sum

faf7550a4562addefc6d23be7e042224  ./col1.txt
faf7550a4562addefc6d23be7e042224  -
---
6fb8d62378642e995b186d72e33c16f3  ./col2.txt
6fb8d62378642e995b186d72e33c16f3  -


In [5]:
# 13. col1.txtとcol2.txtをマージ
# 12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．
# 確認にはpasteコマンドを用いよ．

file13 = './file13'

fd = open(file13, 'w')
fd1 = open(col1, 'r')
fd2 = open(col2, 'r')

# with説でopenするファイルはカンマ区切りで複数指定可能
with open(file13, 'w') as fd, open(col1) as fd1, open(col2) as fd2:
    for i, j in zip(fd1, fd2):
        fd.write(i.rstrip() + "\t" + j.rstrip() + "\n")

!md5sum $file13
!paste $col1 $col2 | md5sum

4b2e63e9ec75115cdeb2af83bc6db36b  ./file13
4b2e63e9ec75115cdeb2af83bc6db36b  -


In [6]:
# 14. 先頭からN行を出力
# 自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．
# 確認にはheadコマンドを用いよ．

# jupyterだとコマンドライン引数とか面倒なのでやらない
# pythonでコマンドライン引数を処理するには
# import sys
# sys.argv[]を参照してやればよいだけ

# haedの機能のみを実装する

N = 10
# N = sys.argv[1]
file14 = file10
# file14 = sys.argv[2]

with open(file14, 'r') as fd:
    for i in range(N):
        print(fd.readline().rstrip())

!echo ---
!head $file14

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16
---
高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16


In [32]:
# 15. 末尾のN行を出力
# 自然数Nをコマンドライン引数などの手段で受け取り，
# 入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．
from collections import deque

N = 10
# N = sys.argv[1]
file15 = file10
# file15 = sys.argv[2]

q = deque([None]*N) # N個の要素を持つキューを作る。初期値は全部None

with open(file15) as fd:
    for line in fd:
        q.popleft() # キューを左シフト。
        q.append(line.strip()) # キューの右端に読んだ1行を追加

for i in q: # キューの内容を順に表示
    print(i)

!echo ---
!tail $file14

愛媛県	宇和島	40.2	1927-07-22
山形県	酒田	40.1	1978-08-03
岐阜県	美濃	40	2007-08-16
群馬県	前橋	40	2001-07-24
千葉県	茂原	39.9	2013-08-11
埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02
---
愛媛県	宇和島	40.2	1927-07-22
山形県	酒田	40.1	1978-08-03
岐阜県	美濃	40	2007-08-16
群馬県	前橋	40	2001-07-24
千葉県	茂原	39.9	2013-08-11
埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


In [75]:
# 16. ファイルをN分割する
# 自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．
# 同様の処理をsplitコマンドで実現せよ．
from math import floor

file16 = file10
N = 5
i = 0 
lines = sum(1 for l in open(file16,'r'))

div = int((lines - (lines % N)) / (N-1)) # 1ファイルあたりの行数

with open(file16) as fd:
    for i in range(0,N):
        with open("%s.%d" % (file16, i), 'w') as fdw:
            for j in range(div):
                fdw.write(fd.readline())
            
    

In [79]:
# 17. １列目の文字列の異なり
# 1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはsort, uniqコマンドを用いよ．

file17 = file10
first = []

with open(file17) as fd:
    for line in fd:
        list = line.split("\t")
        first.append(list[0])

print(set(first))

!cut -f1 $file17 | sort | uniq

{'和歌山県', '愛知県', '埼玉県', '山形県', '高知県', '大阪府', '静岡県', '愛媛県', '山梨県', '岐阜県', '群馬県', '千葉県'}
千葉県
和歌山県
埼玉県
大阪府
山形県
山梨県
岐阜県
愛媛県
愛知県
群馬県
静岡県
高知県


In [86]:
# 18. 各行を3コラム目の数値の降順にソート
# 各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．
# 確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

file18 = file10

li = []

with open(file18) as fd:
    for line in fd:
       li.append(line.split("\t"))

display(sorted(li, key=lambda x:x[2],reverse=True))

!sort -nr -k 3 $file18

[['高知県', '江川崎', '41', '2013-08-12\n'],
 ['埼玉県', '熊谷', '40.9', '2007-08-16\n'],
 ['岐阜県', '多治見', '40.9', '2007-08-16\n'],
 ['山形県', '山形', '40.8', '1933-07-25\n'],
 ['山梨県', '甲府', '40.7', '2013-08-10\n'],
 ['和歌山県', 'かつらぎ', '40.6', '1994-08-08\n'],
 ['静岡県', '天竜', '40.6', '1994-08-04\n'],
 ['山梨県', '勝沼', '40.5', '2013-08-10\n'],
 ['埼玉県', '越谷', '40.4', '2007-08-16\n'],
 ['群馬県', '館林', '40.3', '2007-08-16\n'],
 ['群馬県', '上里見', '40.3', '1998-07-04\n'],
 ['愛知県', '愛西', '40.3', '1994-08-05\n'],
 ['千葉県', '牛久', '40.2', '2004-07-20\n'],
 ['静岡県', '佐久間', '40.2', '2001-07-24\n'],
 ['愛媛県', '宇和島', '40.2', '1927-07-22\n'],
 ['山形県', '酒田', '40.1', '1978-08-03\n'],
 ['岐阜県', '美濃', '40', '2007-08-16\n'],
 ['群馬県', '前橋', '40', '2001-07-24\n'],
 ['千葉県', '茂原', '39.9', '2013-08-11\n'],
 ['埼玉県', '鳩山', '39.9', '1997-07-05\n'],
 ['大阪府', '豊中', '39.9', '1994-08-08\n'],
 ['山梨県', '大月', '39.9', '1990-07-19\n'],
 ['山形県', '鶴岡', '39.9', '1978-08-03\n'],
 ['愛知県', '名古屋', '39.9', '1942-08-02\n']]

高知県	江川崎	41	2013-08-12
岐阜県	多治見	40.9	2007-08-16
埼玉県	熊谷	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
静岡県	天竜	40.6	1994-08-04
和歌山県	かつらぎ	40.6	1994-08-08
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16
群馬県	上里見	40.3	1998-07-04
愛知県	愛西	40.3	1994-08-05
静岡県	佐久間	40.2	2001-07-24
愛媛県	宇和島	40.2	1927-07-22
千葉県	牛久	40.2	2004-07-20
山形県	酒田	40.1	1978-08-03
群馬県	前橋	40	2001-07-24
岐阜県	美濃	40	2007-08-16
愛知県	名古屋	39.9	1942-08-02
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
大阪府	豊中	39.9	1994-08-08
埼玉県	鳩山	39.9	1997-07-05
千葉県	茂原	39.9	2013-08-11


In [107]:
# 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる
# 各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．
# 確認にはcut, uniq, sortコマンドを用いよ．

file19 = file10
words = []
dic = {}

with open(file19) as fd:
    for line in fd:
        words.append(line.split("\t")[0])

for i in words:
    dic.update({i: words.count(i)})
    
print(sorted(dic.items(),key=lambda x:x[1], reverse=True))

!cut -f1 $file19 | sort | uniq -c | sort -nr

[('群馬県', 3), ('埼玉県', 3), ('山形県', 3), ('山梨県', 3), ('愛知県', 2), ('岐阜県', 2), ('千葉県', 2), ('静岡県', 2), ('和歌山県', 1), ('高知県', 1), ('大阪府', 1), ('愛媛県', 1)]
      3 群馬県
      3 山梨県
      3 山形県
      3 埼玉県
      2 静岡県
      2 愛知県
      2 岐阜県
      2 千葉県
      1 高知県
      1 愛媛県
      1 大阪府
      1 和歌山県
