# 第2章: UNIXコマンド

[popular-names.txt](/data/popular-names.txt)は、アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである。以下の処理を行うプログラムを作成し、[popular-names.txt](/data/popular-names.txt)を入力ファイルとして実行せよ。さらに、同様の処理をUNIXコマンドでも実行し、プログラムの実行結果を確認せよ。

## 10. 行数のカウント
ファイルの行数をカウントせよ。確認にはwcコマンドを用いよ。

In [3]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
    print(len(lines))

2780


In [4]:
#unix
!wc -l ../data/ch02/popular-names.txt

2780 ../data/ch02/popular-names.txt


## 11. 先頭からN行を出力
ファイルの先頭N行だけを表示せよ。例えば、N=10として先頭10行を表示せよ。確認にはheadコマンドを用いよ。

In [5]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = [line.strip() for line in f]
    for line in lines[:10]:
        print(line)

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880
Margaret	F	1578	1880
Ida	F	1472	1880
Alice	F	1414	1880
Bertha	F	1320	1880
Sarah	F	1288	1880


In [6]:
#unix
!head -n 10 ../data/ch02/popular-names.txt

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880
Margaret	F	1578	1880
Ida	F	1472	1880
Alice	F	1414	1880
Bertha	F	1320	1880
Sarah	F	1288	1880


## 12. 末尾のN行を出力
ファイルの末尾N行だけを表示せよ。例えば、N=10として末尾10行を表示せよ。確認にはtailコマンドを用いよ。

In [7]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = [line.strip() for line in f]
    for line in lines[-10::]:
        print(line)

Liam	M	19837	2018
Noah	M	18267	2018
William	M	14516	2018
James	M	13525	2018
Oliver	M	13389	2018
Benjamin	M	13381	2018
Elijah	M	12886	2018
Lucas	M	12585	2018
Mason	M	12435	2018
Logan	M	12352	2018


In [8]:
#unix
!tail -n 10 ../data/ch02/popular-names.txt

Liam	M	19837	2018
Noah	M	18267	2018
William	M	14516	2018
James	M	13525	2018
Oliver	M	13389	2018
Benjamin	M	13381	2018
Elijah	M	12886	2018
Lucas	M	12585	2018
Mason	M	12435	2018
Logan	M	12352	2018


## 13. タブをスペースに置換
ファイルの先頭10行に対して、タブ1文字につきスペース1文字に置換して出力せよ。確認にはsedコマンド、trコマンド、もしくはexpandコマンドなどを用いよ。

In [9]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = [line.strip() for line in f]
    for line in lines[:10]:
        print(line.replace("\t", " "))

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880


In [10]:
#unix
!head -n 10 ../data/ch02/popular-names.txt | tr '\t' ' '

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880


## 14. 1列目を出力
ファイルの先頭10行に対して、各行の1列目だけを抜き出して表示せよ。確認にはcutコマンドなどを用いよ。

In [11]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = [line.strip().split("\t")[0] for line in f]
    for line in lines[:10]:
        print(line)

Mary
Anna
Emma
Elizabeth
Minnie
Margaret
Ida
Alice
Bertha
Sarah


In [12]:
#unix
!head -n 10 ../data/ch02/popular-names.txt | cut -f 1

Mary
Anna
Emma
Elizabeth
Minnie
Margaret
Ida
Alice
Bertha
Sarah


## 15. ファイルをN分割する
ファイルを行単位でN分割し、別のファイルに格納せよ。例えば、N=10としてファイルを10分割せよ。同様の処理をsplitコマンドで実現せよ。

In [None]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    n = 10
    lines = f.readlines()
    l = len(lines)
    splits = [0]+[l // n * i + l % n if l % n < i else l // n * i + i for i in range(1, n+1)]
    for i in range(n):
        with open(f"../outputs/ch02/result15-{i+1}-python.txt", "w") as fw:
            for j in range(splits[i], splits[i+1]):
                fw.write(lines[j])
    

In [14]:
#unix
!split -l 278 ../data/ch02/popular-names.txt ../outputs/ch02/result15- --additional-suffix=-unix.txt

## 16. ランダムに各行を並び替える
ファイルを行単位でランダムに並び替えよ（注意: 各行の内容は変更せずに並び替えよ）。同様の処理をshufコマンドで実現せよ。

In [2]:
#python
import random
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
    idx = list(range(len(lines)))
    random.shuffle(idx)
    with open("../outputs/ch02/result16-python.txt", "w") as fw:
        for i in idx:
            fw.write(lines[i])

In [3]:
#unix
!shuf ../data/ch02/popular-names.txt > ../outputs/ch02/result16-unix.txt

## 17. １列目の文字列の異なり
1列目の文字列の異なり（文字列の種類）を求めよ。確認にはcut, sort, uniqコマンドを用いよ。

In [6]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    names = [line.strip().split("\t")[0] for line in f]
    with open("../outputs/ch02/result17-python.txt", "w") as fw:
        for name in set(names):
            fw.write(name+"\n")

In [7]:
#unix
!cut -f 1 ../data/ch02/popular-names.txt | sort | uniq > ../outputs/ch02/result17-unix.txt

## 18. 各行の1列目の文字列の出現頻度を求め、出現頻度の高い順に並べる
1列目の文字列の出現頻度を求め、出現頻度と名前を出現頻度の多い順に並べて表示せよ。確認にはcut, uniq, sortコマンドを用いよ。

In [8]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    names = [line.strip().split("\t")[0] for line in f]
    sort_names = []
    for name in set(names):
        sort_names.append((names.count(name), name))
    sort_names = sorted(sort_names, reverse=True)
    with open("../outputs/ch02/result18-python.txt", "w") as fw:
        for cnt, name in sort_names:
            fw.write(f"{cnt} {name}\n")

In [9]:
#unix
!cut -f 1 ../data/ch02/popular-names.txt | sort | uniq -c | sort -r > ../outputs/ch02/result18-unix.txt

## 19. 3列目の数値の降順に各行を並び替える
3列目の数値の逆順でファイルの各行を整列せよ（注意: 各行の内容は変更せずに並び替えよ）。同様の処理をsortコマンドで実現せよ。

In [10]:
#python
with open("../data/ch02/popular-names.txt", "r", encoding="utf-8") as f:
    lines = [line.strip().split("\t") for line in f]
    lines = sorted(lines, key=lambda x: x[2], reverse=True)
    with open("../outputs/ch02/result19-python.txt", "w") as fw:
        for line in lines:
            fw.write("\t".join(line)+"\n")

In [11]:
#unix
!sort -r -k3,3 ../data/ch02/popular-names.txt > ../outputs/ch02/result19-unix.txt