# 第2章: UNIXコマンド
https://nlp100.github.io/ja/ch02.html

[popular-names.txt](https://nlp100.github.io/data/popular-names.txt)は，アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである．以下の処理を行うプログラムを作成し，popular-names.txtを入力ファイルとして実行せよ．さらに，同様の処理をUNIXコマンドでも実行し，プログラムの実行結果を確認せよ．

In [51]:
import pandas as pd
text_file_path = '../dataset/popular-names.txt'

## 10. 行数のカウント
行数をカウントせよ．確認にはwcコマンドを用いよ

In [52]:
df = pd.read_table(text_file_path, header=None)
print(len(df))

!wc -l {text_file_path}

2780
2780 ../dataset/popular-names.txt


## 11. タブをスペースに置換
タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ．

In [223]:
with open(text_file_path, 'r') as f:
    text_data = f.read()
text_data = text_data.replace('\t', ' ')
print('\n'.join(text_data.split('\n')[:10]))

!sed -ne 's/\t/ /g; 1,10p' {text_file_path}

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880
Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880


## 12. 1列目をcol1.txtに，2列目をcol2.txtに保存
各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ．

In [57]:
df.to_csv('col1.txt', columns=[0], header=None, index=None)
df.to_csv('col2.txt', columns=[1], header=None, index=None)

!cut -f 1 {text_file_path} > col1.txt
!cut -f 2 {text_file_path} > col2.txt

## 13. col1.txtとcol2.txtをマージ
12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ．



In [195]:
col1 = pd.read_table('col1.txt', header=None)
col2 = pd.read_table('col2.txt', header=None)
col12 = pd.concat([col1, col2], axis=1)
col12.to_csv('col12.txt', sep='\t', header=None, index=None)

!paste col1.txt col2.txt | head -n 10

Mary	F
Anna	F
Emma	F
Elizabeth	F
Minnie	F
Margaret	F
Ida	F
Alice	F
Bertha	F
Sarah	F


## 14. 先頭からN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．

In [74]:
N = int(input())
df.head(N)

!head -n {N} {text_file_path}

Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880


## 15. 末尾のN行を出力
自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ．

In [78]:
N = int(input())
df.tail(N)

!tail -n {N} {text_file_path}

Benjamin	M	13381	2018
Elijah	M	12886	2018
Lucas	M	12585	2018
Mason	M	12435	2018
Logan	M	12352	2018


## 16. ファイルをN分割する
自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ．

In [111]:
N = 5 # int(input())
for group, df_sub in df.groupby(df.index // (len(df)/N)):
    df_sub.to_csv(f'div-{int(group):02}', sep='\t', header=None, index=None)

# 正確には同じ処理ではない
!split -n l/{N} -d {text_file_path} div-

## 17. １列目の文字列の異なり
1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはcut, sort, uniqコマンドを用いよ．

In [179]:
print(sorted(df[0].unique())[:10])

!cut -f 1 {text_file_path} | sort | uniq | head -n 10

['Abigail', 'Aiden', 'Alexander', 'Alexis', 'Alice', 'Amanda', 'Amelia', 'Amy', 'Andrew', 'Angela']
Abigail
Aiden
Alexander
Alexis
Alice
Amanda
Amelia
Amy
Andrew
Angela


## 18. 各行を3コラム目の数値の降順にソート
各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）．

In [180]:
df.sort_values(2, ascending=False)

!sort -k3nr {text_file_path} | head -n 10

Linda	F	99689	1947
Linda	F	96211	1948
James	M	94757	1947
Michael	M	92704	1957
Robert	M	91640	1947
Linda	F	91016	1949
Michael	M	90656	1956
Michael	M	90517	1958
James	M	88584	1948
Michael	M	88528	1954


## 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる
各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ．

In [182]:
print(df[0].value_counts()[:10])

!cut -f 1 {text_file_path} | sort | uniq -c | sort -nr | head -n 10

James        118
William      111
Robert       108
John         108
Mary          92
Charles       75
Michael       74
Elizabeth     73
Joseph        70
Margaret      60
Name: 0, dtype: int64
    118 James
    111 William
    108 Robert
    108 John
     92 Mary
     75 Charles
     74 Michael
     73 Elizabeth
     70 Joseph
     60 Margaret
