# 第2章: UNIXコマンドの基礎
研究やデータ分析において便利なUNIXツールを体験します．これらの再実装を通じて，プログラミング能力を高めつつ，既存のツールのエコシステムを体感します．

- head, tail, cut, paste, split, sort, uniq, sed, tr, expand

[hightemp.txt](http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt)は，日本の最高気温の記録を「都道府県」「地点」「℃」「日」のタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，hightemp.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

In [97]:
import re
import requests
import csv

In [98]:
r = requests.get(r'http://www.cl.ecei.tohoku.ac.jp/nlp100/data/hightemp.txt')

In [99]:
with open('hightemp.txt', 'wb') as f:
    f.write(r.content)

In [100]:
!head -n 5 hightemp.txt

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10


## 10. 行数のカウント
行数をカウントせよ．確認にはwcコマンドを用いよ．

In [101]:
with open('hightemp.txt') as f:
    print(len(f.readlines()))

24


In [102]:
!wc -l hightemp.txt

      24 hightemp.txt


## 11. タブをスペースに置換
タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

In [103]:
with open('hightemp.txt') as f:
    print(f.read().replace('\t', ' '))

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02



In [104]:
!sed "s/	/ /g" hightemp.txt

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02


In [105]:
!tr "	" " " < hightemp.txt

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02


In [106]:
!man expand


EXPAND(1)                 BSD General Commands Manual                EXPAND(1)

NNAAMMEE
     eexxppaanndd, uunneexxppaanndd -- expand tabs to spaces, and vice versa

SSYYNNOOPPSSIISS
     eexxppaanndd [--tt _t_a_b_1,_t_a_b_2,_._._.,_t_a_b_n] [_f_i_l_e _._._.]
     uunneexxppaanndd [--aa | --tt _t_a_b_1,_t_a_b_2,_._._.,_t_a_b_n] [_f_i_l_e _._._.]

DDEESSCCRRIIPPTTIIOONN
     The eexxppaanndd utility processes the named files or the standard input writ-
     ing the standard output with tabs changed into blanks.  Backspace charac-
     ters are preserved into the output and decrement the column count for tab
     calculations.  The eexxppaanndd utility is useful for pre-processing character
     files (before sorting, looking at specific columns, etc.) that contain
     tabs.

     The uunneexxppaanndd utility puts tabs back into the data from the s

In [107]:
!expand -t 1 hightemp.txt

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02


## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存
各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

In [108]:
with open('hightemp.txt') as f:
    reader = csv.reader(f, delimiter='\t')
    
    col12 = [line[:2] for line in reader]
col12[:5]

[['高知県', '江川崎'], ['埼玉県', '熊谷'], ['岐阜県', '多治見'], ['山形県', '山形'], ['山梨県', '甲府']]

In [109]:
with open('col1.txt', 'w') as f:
    f.write('\n'.join(row[0] for row in col12))

with open('col2.txt', 'w') as f:
    f.write('\n'.join(row[1] for row in col12))

In [110]:
!cut -f 1 hightemp.txt | diff col1.txt -

24c24
< 愛知県
\ No newline at end of file
---
> 愛知県


In [111]:
!cut -f 2 hightemp.txt | diff col2.txt -

24c24
< 名古屋
\ No newline at end of file
---
> 名古屋


## 13. col1.txtとcol2.txtをマージ
12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ．

In [114]:
with open('col1.txt') as f1, open('col2.txt') as f2, open('out_col12.txt', 'w') as f12:
    for c1, c2 in zip(f1, f2):
        print(c1.strip(), c2.strip(), sep='\t', file=f12)

In [115]:
!head out_col12.txt

高知県	江川崎
埼玉県	熊谷
岐阜県	多治見
山形県	山形
山梨県	甲府
和歌山県	かつらぎ
静岡県	天竜
山梨県	勝沼
埼玉県	越谷
群馬県	館林


In [116]:
!paste col1.txt col2.txt | diff out_col12.txt -

## 14. 先頭からN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．

chapter2_14.pyを作成した。

In [117]:
!cat chapter2_14.py

# -*- coding: utf-8 -*-

import sys

def main():
    n = int(sys.argv[1])

    for i, line in enumerate(sys.stdin):
        if i >= n:
            continue
        
        print(line, end='')


if __name__ == "__main__":
    main()


In [118]:
!python chapter2_14.py 5 < hightemp.txt

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10


In [119]:
!head -n 5 hightemp.txt

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10


## 15. 末尾のN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

chapter2_15.pyを作成した。

In [120]:
!cat chapter2_15.py

# -*- coding: utf-8 -*-

import sys

def main():
    n = int(sys.argv[1])
    buf = []

    for line in sys.stdin:
        buf.append(line)
        if len(buf) > n:
            del buf[0]
    
    for line in buf:
        print(line, end='')

if __name__ == "__main__":
    main()


In [121]:
!python chapter2_15.py 5 < hightemp.txt

埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


In [122]:
!tail -n 5 hightemp.txt

埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


## 16. ファイルをN分割する
自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

In [123]:
!cat chapter2_16.py

# -*- coding: utf-8 -*-

import sys
import itertools
import math

def main():
    n = int(sys.argv[1])
    lines = sys.stdin.readlines()
    len_chunk = math.ceil(len(lines) / n)
    chunks = [lines[i * len_chunk:(i+1) * len_chunk] for i in range(n)]

    for i in range(len(chunks)):
        with open(f'out_chapter2_16_{i}.txt', 'w') as f:
            f.write(''.join(chunks[i]))

if __name__ == "__main__":
    main()


In [124]:
!python chapter2_16.py 3 < hightemp.txt

In [125]:
!split -l 10 hightemp.txt out_chapter2_16_

In [126]:
ls

README.md              col1.txt               out_chapter2_16_aa
chapter2_14.py         col2.txt               out_chapter2_16_ab
chapter2_15.py         hightemp.txt           out_chapter2_16_ac
chapter2_16.py         out_chapter2_16_0.txt  out_col12.txt
chapter_1.ipynb        out_chapter2_16_1.txt
chapter_2.ipynb        out_chapter2_16_2.txt


In [127]:
!cat out_chapter2_16_0.txt

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10


In [128]:
!cat out_chapter2_16_aa

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16


問題は

> N分割せよ

であるが、`split -l`は「x行ごとに分割する」コマンドだった。

このため出力に差分が出たが、大筋には変わりないので次に進むことにする。

## 17. １列目の文字列の異なり
1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはsort, uniqコマンドを用いよ．

In [129]:
with open('col1.txt') as f:
    lines = f.readlines()

In [130]:
set(line.strip() for line in lines)

{'千葉県',
 '和歌山県',
 '埼玉県',
 '大阪府',
 '山形県',
 '山梨県',
 '岐阜県',
 '愛媛県',
 '愛知県',
 '群馬県',
 '静岡県',
 '高知県'}

In [131]:
!cat col1.txt | sort | uniq

千葉県
埼玉県
大阪府
山形県
山梨県
岐阜県
愛媛県
愛知県
群馬県
静岡県
高知県
和歌山県


## 18. 各行を3コラム目の数値の降順にソート
各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

In [132]:
with open('hightemp.txt') as f:
    reader = csv.reader(f, delimiter='\t')
    lines = list(reader)

lines.sort(key=lambda line: float(line[2]), reverse=True)
for i in lines:
    print('\t'.join(i))

高知県	江川崎	41	2013-08-12
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	館林	40.3	2007-08-16
群馬県	上里見	40.3	1998-07-04
愛知県	愛西	40.3	1994-08-05
千葉県	牛久	40.2	2004-07-20
静岡県	佐久間	40.2	2001-07-24
愛媛県	宇和島	40.2	1927-07-22
山形県	酒田	40.1	1978-08-03
岐阜県	美濃	40	2007-08-16
群馬県	前橋	40	2001-07-24
千葉県	茂原	39.9	2013-08-11
埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03
愛知県	名古屋	39.9	1942-08-02


In [133]:
!cat hightemp.txt | sort -n -t "	" -k 3 -r

高知県	江川崎	41	2013-08-12
岐阜県	多治見	40.9	2007-08-16
埼玉県	熊谷	40.9	2007-08-16
山形県	山形	40.8	1933-07-25
山梨県	甲府	40.7	2013-08-10
和歌山県	かつらぎ	40.6	1994-08-08
静岡県	天竜	40.6	1994-08-04
山梨県	勝沼	40.5	2013-08-10
埼玉県	越谷	40.4	2007-08-16
群馬県	上里見	40.3	1998-07-04
群馬県	館林	40.3	2007-08-16
愛知県	愛西	40.3	1994-08-05
静岡県	佐久間	40.2	2001-07-24
愛媛県	宇和島	40.2	1927-07-22
千葉県	牛久	40.2	2004-07-20
山形県	酒田	40.1	1978-08-03
岐阜県	美濃	40	2007-08-16
群馬県	前橋	40	2001-07-24
愛知県	名古屋	39.9	1942-08-02
千葉県	茂原	39.9	2013-08-11
埼玉県	鳩山	39.9	1997-07-05
大阪府	豊中	39.9	1994-08-08
山梨県	大月	39.9	1990-07-19
山形県	鶴岡	39.9	1978-08-03


## 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる
各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ．

In [134]:
with open('col1.txt') as f:
    lines = [i.strip() for i in f]

freqs = [(line, lines.count(line)) for line in set(lines)]
freqs.sort(key=lambda x: x[1], reverse=True)
for line, count in freqs:
    print(line, count)

山梨県 3
山形県 3
群馬県 3
埼玉県 3
千葉県 2
岐阜県 2
愛知県 2
静岡県 2
大阪府 1
高知県 1
和歌山県 1
愛媛県 1


In [135]:
!cut -f 1 hightemp.txt | sort | uniq -c | sort -k 1 -r

   3 群馬県
   3 山梨県
   3 山形県
   3 埼玉県
   2 静岡県
   2 愛知県
   2 岐阜県
   2 千葉県
   1 和歌山県
   1 高知県
   1 愛媛県
   1 大阪府
