# 第2章: UNIXコマンドの基礎
[hightemp.txt](http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt)は，日本の最高気温の記録を「都道府県」「地点」「℃」「日」のタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，hightemp.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

In [1]:
!curl -O http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   813  100   813    0     0   1364      0 --:--:-- --:--:-- --:--:--  1364


## 10. 行数のカウント
行数をカウントせよ．確認にはwcコマンドを用いよ．

In [1]:
%%file q10.py
import sys

print(sum(1 for l in sys.stdin))

Overwriting q10.py


In [2]:
!python q10.py < hightemp.txt

24


In [3]:
!wc -l hightemp.txt

24 hightemp.txt


## 11. タブをスペースに置換
タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

In [4]:
%%file q11.py
import sys

for line in sys.stdin:
    print(line.expandtabs(1), end='')

Overwriting q11.py


In [5]:
!python q11.py < hightemp.txt | head

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16


In [6]:
!tr '\t' ' ' < hightemp.txt | head

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16


## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存
各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

In [7]:
%%file q12.py
import sys

with open('col1.txt', 'w') as col1,\
     open('col2.txt', 'w') as col2:
    for line in sys.stdin:
        cols = line.split('\t')
        col1.write(cols[0] + '\n')
        col2.write(cols[1] + '\n')

Overwriting q12.py


In [8]:
!python q12.py < hightemp.txt

In [9]:
!head -n5 col2.txt

江川崎
熊谷
多治見
山形
甲府


In [10]:
!cut -f1 hightemp.txt > col1_cut.txt && cut -f2 hightemp.txt > col2_cut.txt

In [11]:
!head -n5 col2_cut.txt

江川崎
熊谷
多治見
山形
甲府


## 13. col1.txtとcol2.txtをマージ
12で作った col1.txt と col2.txt を結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認には paste コマンドを用いよ．

In [12]:
%%file q13.py

with open('col1.txt') as col1,\
     open('col2.txt') as col2:
    for c1, c2 in zip(col1, col2):
        print('{}\t{}'.format(c1.rstrip('\n'), c2), end='')

Overwriting q13.py


In [13]:
!python q13.py | head -n5

高知県	江川崎
埼玉県	熊谷
岐阜県	多治見
山形県	山形
山梨県	甲府


In [14]:
!paste col1.txt col2.txt | head -n5

高知県	江川崎
埼玉県	熊谷
岐阜県	多治見
山形県	山形
山梨県	甲府


## 14. 先頭からN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．

In [15]:
%%file q14.py
import argparse
import sys

def arg_lines():
    parser = argparse.ArgumentParser()
    parser.add_argument('-n', '--lines', default='1', type=int)
    args = parser.parse_args()
    return args.lines

def head(N):
    for i, line in enumerate(sys.stdin):
        if i < N:
            print(line, end='')

if __name__ == '__main__':
    head(arg_lines())

Overwriting q14.py


In [16]:
!python q14.py -n5 < hightemp.txt

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10


In [17]:
!head hightemp.txt -n5

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10


## 15. 末尾のN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

In [18]:
%%file q15.py
from collections import deque
import sys

from q14 import arg_lines

def tail(N):
    buf = deque(sys.stdin, N)
    for line in buf:
        print(line, end='')

if __name__ == '__main__':
    tail(arg_lines())

Overwriting q15.py


In [19]:
!python q15.py -n5 < hightemp.txt

埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


In [20]:
!tail -n5 hightemp.txt

埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


## 16. ファイルをN分割する
自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

In [1]:
%%file q16.py
import argparse
import sys

def main():
    parser = argparse.ArgumentParser(
        description='Output pieces of FILE to FILE1, FILE2, ...;')
    parser.add_argument('file')
    parser.add_argument('-n', '--number', type=int,
                        help='split FILE into n pieces')
    args = parser.parse_args()
    file_split(args.file, args.number)

def file_split(filename, N):
    with open(filename) as fi:
        n_lines = sum(1 for line in fi)
        fi.seek(0)
        widths = ((n_lines + i) // N for i in range(N))
        file_n = 0
        width = next(widths)
        fo = open(filename+str(file_n), 'w')
        for line in fi:
            fo.write(line)
            width -= 1
            if width == 0:
                fo.close()
                try:
                    width = next(widths)
                except StopIteration:
                    break
                else:
                    file_n += 1
                    fo = open(filename+str(file_n), 'w')

if __name__ == '__main__':
    main()

Overwriting q16.py


In [2]:
!python q16.py hightemp.txt -n5

In [3]:
!wc -l hightemp.txt*

  24 hightemp.txt
   4 hightemp.txt0
   5 hightemp.txt1
   5 hightemp.txt2
   5 hightemp.txt3
   5 hightemp.txt4
  48 total


In [24]:
!split -n l/5 -d hightemp.txt

In [25]:
!wc -l x0*

  5 x00
  5 x01
  5 x02
  5 x03
  4 x04
 24 total


## 17. １列目の文字列の異なり
1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはsort, uniqコマンドを用いよ．

In [26]:
%%file q17.py
import sys

col1 = {line.split()[0] for line in sys.stdin}
for elem in col1:
    print(elem)

Overwriting q17.py


In [27]:
!python q17.py < hightemp.txt

埼玉県
群馬県
千葉県
愛媛県
岐阜県
山梨県
愛知県
和歌山県
大阪府
山形県
高知県
静岡県


In [28]:
!cut -f1 hightemp.txt | sort | uniq

千葉県
埼玉県
大阪府
山形県
山梨県
岐阜県
愛媛県
愛知県
群馬県
静岡県
高知県
和歌山県


## 18. 各行を3コラム目の数値の降順にソート
各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

In [4]:
%%file q18.py
import sys

sorted_list = sorted(sys.stdin, key=lambda x: float(x.split('\t')[2]),
                     reverse=True)
for elem in sorted_list:
    print(elem, end='')


Overwriting q18.py


In [5]:
!python q18.py < hightemp.txt | head

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16


In [31]:
!sort -k3 -nr hightemp.txt | head

高知県	江川崎	41	2013-08-12
岐阜県	多治見	40.9	2007-08-16
埼玉県	熊谷	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	上里見	40.3	1998-07-04


## 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる
各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ．

In [32]:
%%file q19.py
from collections import Counter
import sys

col1_freq = Counter(line.split()[0] for line in sys.stdin)
for elem, num in col1_freq.most_common():
    print(num, elem)

Overwriting q19.py


In [33]:
!python q19.py < hightemp.txt

3 群馬県
3 埼玉県
3 山形県
3 山梨県
2 千葉県
2 静岡県
2 岐阜県
2 愛知県
1 高知県
1 愛媛県
1 大阪府
1 和歌山県


In [34]:
!cut -f 1 hightemp.txt | sort | uniq -c | sort -nr

      3 群馬県
      3 山梨県
      3 山形県
      3 埼玉県
      2 静岡県
      2 愛知県
      2 岐阜県
      2 千葉県
      1 和歌山県
      1 高知県
      1 愛媛県
      1 大阪府
