# 第2章: UNIXコマンド

問題URL：https://nlp100.github.io/ja/ch02.html

> [popular-names.txt](https://nlp100.github.io/data/popular-names.txt)は，アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，popular-names.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．


本ノートブックではPythonを使って実装していく

In [None]:
import os

In [None]:
# データを保存するディレクトリの作成
DATADIR = "data"
CURRENTDIR = "/workspace/notebook"
CHAPDIR = os.path.join(DATADIR, "chapter2")

try:
    os.mkdir(CHAPDIR)
except:
    print("作成済み等の理由でディレクトリが作成されませんでした")

In [None]:
# 利用するファイルの準備
!wget -P $CURRENTDIR/$CHAPDIR "https://nlp100.github.io/data/popular-names.txt"

In [None]:
# 本章で利用するファイルパスの指定
in_fpath = os.path.join(CHAPDIR,"popular-names.txt")

## 10. 行数のカウント  

> 行数をカウントせよ．確認にはwcコマンドを用いよ．

In [None]:
with open(in_fpath, "r", encoding="utf8")as f:
    print(len(f.readlines()))

## 11. タブをスペースに置換
> タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

In [None]:
with open(in_fpath, "r", encoding="utf8")as f:
    doc = f.read()
    doc = doc.replace("\t", " ")
    print(doc.split("\n")[0])
    print("\t" in doc)

## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存
> 各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．  確認にはcutコマンドを用いよ．

In [None]:
out_fpath1 = os.path.join(CHAPDIR, "col1.txt")
out_fpath2 = os.path.join(CHAPDIR, "col2.txt")

with open(in_fpath, "r", encoding="utf8")as fr:
    col1_vals = []
    col2_vals = []  
    for line in fr.readlines():
        line_vals = line.rstrip("\n").split("\t")
        col1_vals.append(line_vals[0])
        col2_vals.append(line_vals[1])
    
with open(out_fpath1, "w", encoding="utf8") as fw:
    fw.write("\n".join(col1_vals))
with open(out_fpath2, "w", encoding="utf8") as fw:
    fw.write("\n".join(col2_vals))

## 13. col1.txtとcol2.txtをマージ
> 12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ．


In [None]:
out_fpath = os.path.join(CHAPDIR, "col12_merge.txt")

with open(out_fpath1, "r", encoding="utf8")as fr:
    col1_vals = [line.rstrip("\n") for line in fr.readlines()]
with open(out_fpath2, "r", encoding="utf8")as fr:
    col2_vals = [line.rstrip("\n") for line in fr.readlines()]

with open(out_fpath, "w", encoding="utf8")as fw:
    fw.write("\n".join([f"{col1_val}\t{col2_val}" for col1_val, col2_val in zip(col1_vals, col2_vals)]))

## 14. 先頭からN行を出力
>自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ． 確認にはheadコマンドを用いよ．

In [None]:
def output_head(N):
    with open(in_fpath, "r", encoding="utf8")as f:
        lines = f.readlines()
        print(lines[:N])

        
output_head(2)

## 15. 末尾のN行を出力
> 自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

In [None]:
def output_tail(N):
    with open(in_fpath, "r", encoding="utf8")as f:
        lines = f.readlines()
        print(lines[-N:])


output_tail(5)

## 16. ファイルをN分割する 

> 自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．  同様の処理をsplitコマンドで実現せよ．

In [None]:
def split_file(N):
    # 分割した文書を保存するリスト
    with open(in_fpath, "r", encoding="utf8")as f:
        all_lines = f.readlines()
    # 一塊の行数
    for i_chunk in range(N):
        yield all_lines[i_chunk * len(all_lines) // N:(i_chunk + 1) * len(all_lines) // N]

    
result = list(split_file(12))
[len(lines) for lines in result]

## 17. １列目の文字列の異なり
>1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはcut, sort, uniqコマンドを用いよ．

In [None]:
with open(in_fpath, "r", encoding="utf8")as fr:
    col1_vals = []
    for line in fr.readlines():
        line_vals = line.rstrip("\n").split("\t")
        col1_vals.append(line_vals[0])

len(set(col1_vals))

## 18. 各行を3コラム目の数値の降順にソート
> 各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

In [None]:
with open(in_fpath, "r", encoding="utf8")as fr:
    records = []
    for line in fr.readlines():
        record_vals = line.rstrip("\n").split("\t")
        record_vals[2] = int(record_vals[2])
        record_vals[3] = int(record_vals[3])
        records.append(record_vals)
        
sorted(records, key=lambda x: x[2], reverse=True)

## 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる
> 各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．  確認にはcut, uniq, sortコマンドを用いよ．

In [None]:
from collections import Counter
with open(in_fpath, "r", encoding="utf8")as fr:
    col1_vals = [line.split("\t")[0] for line in fr.readlines()]
    
word_counts = Counter(col1_vals)
sorted(word_counts.items(), key=lambda x:x[1], reverse=True)