# 第2章: UNIXコマンド

https://nlp100.github.io/ja/ch02.html

[popular-names.txt](./data/popular-names.txt)は，アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，popular-names.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

## 10. 行数のカウント

行数をカウントせよ．確認にはwcコマンドを用いよ．

### 解答

In [1]:
def wc_l(path):
    with open(path) as f:
        return len(f.readlines())

print(wc_l("data/ch2/popular-names.txt"))

2780


### 確認

In [2]:
!cat data/ch2/popular-names.txt | wc -l

    2780


## 11. タブをスペースに置換

タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

### 解答

In [3]:
def tab_to_space(path):
    res = []
    with open(path) as f:
        for line in f:
           res.append(line.replace("\t", " ")) 
    return "".join(res)

print("\n".join(tab_to_space("data/ch2/popular-names.txt").split("\n")[:5]))

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880


### 確認1

In [4]:
!sed 's/\t/ /g' data/ch2/popular-names.txt | head -n 5

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabe h	F	1939	1880
Minnie	F	1746	1880
sed: stdout: Broken pipe


### 確認2

In [5]:
!cat data/ch2/popular-names.txt | tr "\t" " " | head -n 5

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880


### 確認3

In [6]:
!expand -t 1 data/ch2/popular-names.txt | head -n 5

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880


## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存

各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

### 解答

In [7]:
def cut_and_save(num, src, dst):
    lines = []
    with open(src) as f:
        for l in f:
            lines.append(l.split("\t")[num - 1])
    with open(dst, mode="w") as f:
        f.write("\n".join(lines))

cut_and_save(1, "data/ch2/popular-names.txt", "data/ch2/col1.txt")
with open("data/ch2/col1.txt") as f:
    print("".join(f.readlines()[:5]).rstrip())

cut_and_save(2, "data/ch2/popular-names.txt", "data/ch2/col2.txt")
with open("data/ch2/col2.txt") as f:
    print("".join(f.readlines()[:5]).rstrip())

Mary
Anna
Emma
Elizabeth
Minnie
F
F
F
F
F


### 確認

In [8]:
!cat data/ch2/popular-names.txt | cut -f 1 > data/ch2/col1.txt
!head -n 5 data/ch2/col1.txt

Mary
Anna
Emma
Elizabeth
Minnie


In [9]:
!cat data/ch2/popular-names.txt | cut -f 2 > data/ch2/col2.txt
!head -n 5 data/ch2/col2.txt

F
F
F
F
F


## 13. col1.txtとcol2.txtをマージ

12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ．

### 解答

In [10]:
import numpy as np

def merge_files(srcs, dst):
    fmap = {}
    for file in srcs:
        with open(file) as f:
            fmap[file] = [s.rstrip() for s in f.readlines()]

    cols = np.array(list(fmap.values()))

    with open(dst, mode="w") as f:
        for line in cols.T:
            f.write("\t".join(line))
            f.write("\n")

merge_files(["data/ch2/col1.txt", "data/ch2/col2.txt"], "data/ch2/col1-2.txt")
with open("data/ch2/col1-2.txt") as f:
    print("".join(f.readlines()[:5]).rstrip())

Mary	F
Anna	F
Emma	F
Elizabeth	F
Minnie	F


### 確認

In [11]:
!paste data/ch2/col1.txt data/ch2/col2.txt > data/ch2/col1-2.txt
!head -n 5 data/ch2/col1-2.txt

Mary	F
Anna	F
Emma	F
Elizabeth	F
Minnie	F


## 14. 先頭からN行を出力

自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．

### 解答

In [12]:
def head_n(file, num):
    with open(file) as f:
        while num > 0:
            print(f.readline().rstrip())
            num -= 1

head_n("data/ch2/popular-names.txt", 5)

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880


### 確認

In [13]:
!head -n 5 data/ch2/popular-names.txt

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880


## 15. 末尾のN行を出力

自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

### 解答

In [14]:
def tail_n(file, num):
    with open(file) as f:
        lines = [s.rstrip() for s in f.readlines()]
        print("\n".join(lines[-num:]))

tail_n("data/ch2/popular-names.txt", 5)

Benjamin	M	13381	2018
Elijah	M	12886	2018
Lucas	M	12585	2018
Mason	M	12435	2018
Logan	M	12352	2018


### 確認

In [15]:
!tail -n 5 data/ch2/popular-names.txt

Benjamin	M	13381	2018
Elijah	M	12886	2018
Lucas	M	12585	2018
Mason	M	12435	2018
Logan	M	12352	2018


## 16. ファイルをN分割する

自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

### 解答

In [34]:
import numpy as np

def split_n(file, dst_dir, num):
    with open(file) as f:
        lines = np.array([s.rstrip() for s in f.readlines()])
    index = 0
    for file in np.array_split(lines, num):
        with open(dst_dir + str(index) + ".txt", mode="w") as f:
            for line in file:
                f.write(line + "\n")
        index += 1

split_n("data/ch2/popular-names.txt", "data/ch2/", 5)

### 確認

In [46]:
!split -l $[ $(wc -l data/ch2/popular-names.txt | xargs | cut -d" " -f1) / 5 ] data/ch2/popular-names.txt data/ch2/
!fc data/ch2/0.txt data/ch2/aa