# 第2章: [UNIXコマンド](https://nlp100.github.io/ja/ch02.html)

[脇田の回答例](https://colab.research.google.com/drive/1_Mlcisax9vVjFEAay6Kg-J0C-v_u757x?usp=sharing)

In [26]:
import os, os.path

if not os.path.exists('popular-names.txt'):
    os.system('wget https://nlp100.github.io/data/popular-names.txt')

## 00. 行数のカウント

テキストファイルを読み込み行の配列を作る練習。

- テキストファイルを読み込むときは

    ~~~
    with open('ファイル名.txt') as f:
        ファイルハンドル f を使って、読み込む。
        with open(...) を使うと、with を抜けるときに自動的にファイルを close してくれるので便利
    ~~~

- テキストファイルを読み込み、行ごとの配列を作るとには [`f.readlines()` メソッド](https://docs.python.org/3/library/io.html?highlight=readlines#io.IOBase.readlines)を使う。

- UNIX コマンドで同等のことは `!wc -l popular-names.txt` で確認できる。

## 01. タブをスペースに置換

- 文字列の置換には [`str.replace(...)`メソッド](https://docs.python.org/3/library/stdtypes.html?highlight=replace#str.replace)が使える。

- UNIX コマンドとの対比で確認するためには以下のいずれかを試みるとよい。

    - `tr "\t" " " popular-names.txt`

    - `!sed -e 's/\t/ /g' popular-names.txt`

In [23]:
# UNIX での確認方法の例

!echo "元の形式"
!head popular-names.txt

!echo "\ntrで処理した場合"
!head popular-names.txt | tr "\t" " "

!echo "\nsedで処理した場合"
!head popular-names.txt | sed -e 's/\t/ /g'

!echo "\nexpandで処理した場合"
!head popular-names.txt | expand -t 1

元の形式
Mary	F	7065	1880
Anna	F	2604	1880
Emma	F	2003	1880
Elizabeth	F	1939	1880
Minnie	F	1746	1880
Margaret	F	1578	1880
Ida	F	1472	1880
Alice	F	1414	1880
Bertha	F	1320	1880
Sarah	F	1288	1880

trで処理した場合
Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880

sedで処理した場合
Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880

expandで処理した場合
Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880


## 02. 1列目をcol1.txtに，2列目をcol2.txtに保存

`col1.txt` には

~~~
Mary
Anna
Emma
...
~~~

`col2.txt` には

~~~
F
F
F
~~~

と出力して欲しいということ。

- テキストファイルへの書き込みには `with open(ファイル名, 'w') as w:` 構文を用いる。複数のファイルに書き込みたい場合でもひとつの `with` 文で処理できる。

    ~~~
    with open('readme.txt') as r, open('writeme.txt', 'w') as w:
        r から読み込み、w に書き込む処理を記述する。
    ~~~
    
- `w.write(文字列)` により、出力ファイルハンドル `w` に文字列を出力できる。この関数は `print` 関数と異なり勝手に改行を挿入することはない。

In [24]:
# UNIX での確認の方法の例

!echo "第１列の抽出"
!head popular-names.txt | cut -f 1

!echo "\n第１列の抽出"
!head popular-names.txt | cut -f 2

第１列の抽出
Mary
Anna
Emma
Elizabeth
Minnie
Margaret
Ida
Alice
Bertha
Sarah

第１列の抽出
F
F
F
F
F
F
F
F
F
F


## 03. col1.txtとcol2.txtをマージ

UNIX コマンドを用いた確認には以下を実行する。
~~~
!paste col1a.txt col2a.txt > out3b.txt
~~~

## 04. 先頭からN行を出力

ノートブックのユーザに数値の入力を促すには [`input(...)` 関数](https://docs.python.org/3/library/functions.html?highlight=input#input)を用いる。この関数は文字列を返すので、数値データが欲しい場合は、適宜、型変換をする。以下では `int(...)`関数 を用いる。

~~~
N = int(input('先頭から何行？ '))
~~~

UNIX コマンドを用いた確認には以下を実行する。

~~~
!head -n 5 popular-names.txt
~~~

## 05. 末尾のN行を出力

UNIX コマンドを用いた確認には以下を実行する。

~~~
!tail -n 5 popular-names.txt
~~~

## 06. ファイルをN分割する

UNIX コマンドを用いてファイルを3分割するには以下を実行する。

~~~
!split -a 1 -l 928 popular-names.txt popular-names-
~~~

このコマンドの実行により `popular-names-a`, `popular-names-b`, `popular-names-c` が生成される。拡張子の `.txt` をつけたかったが、その方法は提供されていないようだ。

`split` コマンドの各オプションの意味は詳しくは `man split` で調べるように

- `-l 928` は 928 行ごとに分割することを指示している。ここで 928 は (popular-names.txt の行数 + 3) / 3 から得た

- `-a 1` は生成するファイルの名前の接尾辞の文字数が1文字でよいことを指示している。

- 末尾の `popular-names-` は生成されるファイルの前置辞を指定している。

In [53]:
!wc -l popular-names.txt
!split -a 1 -l 928 popular-names.txt popular-names-
!wc -l popular-names-*

    2780 popular-names.txt
     928 popular-names-a
     928 popular-names-b
     924 popular-names-c
    2780 total


## 07. １列目の文字列の異なり


In [79]:
!echo "cut -f 1: 第１列を取り出す"
!cut -f 1 popular-names.txt | head -n 5

!echo "\nsort: （辞書式順に）整列する"
!cut -f 1 popular-names.txt | sort | head -n 5

!echo "\nuniq -c: 連続して一致する行をひとまとめにする"
!cut -f 1 popular-names.txt | sort | uniq | head -n 20

cut -f 1: 第１列を取り出す
Mary
Anna
Emma
Elizabeth
Minnie

sort: （辞書式順に）整列する
Abigail
Abigail
Abigail
Abigail
Abigail

uniq -c: 連続して一致する行をひとまとめにする
Abigail
Aiden
Alexander
Alexis
Alice
Amanda
Amelia
Amy
Andrew
Angela
Anna
Annie
Anthony
Ashley
Austin
Ava
Barbara
Benjamin
Bertha
Bessie


## 08. 各行を3コラム目の数値の降順にソート


with open('popular-names.txt') as f, open('out8a.txt', 'w') as w:
    lines = f.readlines()
    w.write(''.join(sorted(lines, key=lambda line: int(line.split('\t')[3]))))

以下の出力が整列していることを確認すれば ok
!cut -f 4 out8a.txt | uniq

In [80]:
!sort -k 3 popular-names.txt | head

Charlotte	F	10115	2014
Harper	F	10295	2015
Madison	F	10320	2014
Evelyn	F	10376	2018
Helen	F	10479	1910
Harper	F	10582	2018
William	M	10593	1911
Madison	F	10596	2013
Abigail	F	10607	2017
Mia	F	10639	2010
sort: Broken pipe


## 09. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

In [81]:
!echo "cut -f 1: 第１列を取り出す"
!cut -f 1 popular-names.txt | head -n 5

!echo "\nsort: （辞書式順に）整列する"
!cut -f 1 popular-names.txt | sort | head -n 5

!echo "\nuniq -c: 連続して一致する行をひとまとめにして勘定する"
!cut -f 1 popular-names.txt | sort | uniq -c | head -n 5

!echo "\nsort -d -r: 十進数の大きさの逆順に整列"
!cut -f 1 popular-names.txt | sort | uniq -c | sort -d -r | head -n 5

cut -f 1: 第１列を取り出す
Mary
Anna
Emma
Elizabeth
Minnie

sort: （辞書式順に）整列する
Abigail
Abigail
Abigail
Abigail
Abigail

uniq -c: 連続して一致する行をひとまとめにして勘定する
  17 Abigail
   3 Aiden
   8 Alexander
   8 Alexis
  10 Alice

sort -d -r: 十進数の大きさの逆順に整列
 118 James
 111 William
 108 Robert
 108 John
  92 Mary
