## Chapter02 UNIXコマンド

#### 10. Line Count

In [1]:
#%%writefile knock10.py
import pandas as pd

df = pd.read_table('popular-names.txt', header=None) #対象のtxtにはヘッダ情報がないことに注意
print(len(df))


with open('popular-names.txt','r') as f:
    count = 0
    for line in f:
        count += 1
    print(count)

2780
2780


In [40]:
#%%writefile knock10.sh
!wc -l popular-names.txt 

#lオプションにより行数のみ表示している
#プログラムとコマンドで行数が1違う理由がわからなかった

2779 popular-names.txt


#### wcコマンド(Word Count)
指定したテキストファイルの「行数、単語数、バイト数」が表示される。複数ファイルを指定した場合(ファイル名をワイルドカード「*」とした場合)、各ファイルの結果と合計が表示される。

使い方

「wc テキストファイル名」

オプション
- -l 行数のみ表示
- -w 単語数のみ表示
- -c バイト数のみ表示

#### 11. Replace tabs into spaces

In [162]:
%%writefile knock11.py
import pandas as pd
df = pd.read_table('popular-names.txt', sep='\t', header = None)#sepは区切り文字
df.to_csv('replaced-py.txt', sep = ' ', header=False, index=False)

In [2]:
with open('popular-names.txt','r') as f:
    for line in f:
        print(line.strip().replace("\t", " "))

Mary F 7065 1880
Anna F 2604 1880
Emma F 2003 1880
Elizabeth F 1939 1880
Minnie F 1746 1880
Margaret F 1578 1880
Ida F 1472 1880
Alice F 1414 1880
Bertha F 1320 1880
Sarah F 1288 1880
John M 9655 1880
William M 9532 1880
James M 5927 1880
Charles M 5348 1880
George M 5126 1880
Frank M 3242 1880
Joseph M 2632 1880
Thomas M 2534 1880
Henry M 2444 1880
Robert M 2415 1880
Mary F 6919 1881
Anna F 2698 1881
Emma F 2034 1881
Elizabeth F 1852 1881
Margaret F 1658 1881
Minnie F 1653 1881
Ida F 1439 1881
Annie F 1326 1881
Bertha F 1324 1881
Alice F 1308 1881
John M 8769 1881
William M 8524 1881
James M 5441 1881
George M 4664 1881
Charles M 4636 1881
Frank M 2834 1881
Joseph M 2456 1881
Henry M 2339 1881
Thomas M 2282 1881
Edward M 2177 1881
Mary F 8148 1882
Anna F 3143 1882
Emma F 2303 1882
Elizabeth F 2186 1882
Minnie F 2004 1882
Margaret F 1821 1882
Ida F 1673 1882
Alice F 1542 1882
Bertha F 1508 1882
Annie F 1492 1882
John M 9557 1882
William M 9298 1882
James M 5892 1882
George M 5193 1882


In [4]:
%%writefile knock11.sh
!sed 's/\t/ /g' popular-names.txt > replaced-sed.txt

#スクリプトコマンド : 's/置換前/置換後/g' gはglobalを表し、全行に渡って置換する
#/はデリミタ(区切り文字)

Overwriting knock11.sh


In [11]:
!cat popular-names.txt | tr '\t' ' ' > ./replaced-tr.txt

#catでファイルを表示し、その標準出力をパイプにより渡してtrコマンドにより置換する

In [8]:
!expand popular-names.txt

Mary    F       7065    1880
Anna    F       2604    1880
Emma    F       2003    1880
Elizabeth       F       1939    1880
Minnie  F       1746    1880
Margaret        F       1578    1880
Ida     F       1472    1880
Alice   F       1414    1880
Bertha  F       1320    1880
Sarah   F       1288    1880
John    M       9655    1880
William M       9532    1880
James   M       5927    1880
Charles M       5348    1880
George  M       5126    1880
Frank   M       3242    1880
Joseph  M       2632    1880
Thomas  M       2534    1880
Henry   M       2444    1880
Robert  M       2415    1880
Mary    F       6919    1881
Anna    F       2698    1881
Emma    F       2034    1881
Elizabeth       F       1852    1881
Margaret        F       1658    1881
Minnie  F       1653    1881
Ida     F       1439    1881
Annie   F       1326    1881
Bertha  F       1324    1881
Alice   F       1308    1881
John    M       8769    1881
William M       8524    1881
James   M       5441    1881
George  M  

##### sedコマンド (Stream EDitor)
- 「sed スクリプトコマンド ファイル名」で指定したファイルをコマンドにしたがって処理し、標準出力する
- ファイル名を省略した場合標準入力から処理する。

参考 : https://qiita.com/takech9203/items/b96eff5773ce9d9cc9b3

参考2(各オプションについて) : https://atmarkit.itmedia.co.jp/ait/articles/1610/17/news015.html#:~:text=%E3%80%8Csed%E3%80%8D%E3%81%AF%E3%80%8CStream%20EDitor,%E3%81%AE%E3%81%8C%E4%B8%80%E8%88%AC%E7%9A%84%E3%81%A7%E3%81%99%E3%80%82


#### trコマンド (translate)
- 文字の置換を行うコマンド

#### expandコマンド





#### 12. 

In [9]:
%%writefile knock12.py
import pandas as pd

df = pd.read_table('popular-names.txt', header=None)
col1 = df.iloc[:,0]
col2 = df.iloc[:,1]

col1.to_csv('col1.txt',index=False, header=False)
col2.to_csv('col2.txt',index=False, header=False)

Writing knock12.py


##### cutコマンド
ファイルを読み込み、行から指定した部分だけ取り出すコマンド。

「cut オプション [ファイル]」

In [10]:
%%writefile knock12.sh
!cut -f 1 popular-names.txt > col1.txt
!cut -f 2 popular-names.txt > col2.txt

#「-f」オプションにより切り出すフィールドを指定

Writing knock12.sh


#### 13. col1.txtとcol2.txtをマージ

In [14]:
#%%writefile knock13.py
import pandas as pd

df = pd.read_table('popular-names.txt', header=None)
col1 = df.iloc[:,0]
col2 = df.iloc[:,1]

new_df = col1 + '\t' + col2
new_df.to_csv('merged_columns-py.txt', header=None, index=None)

##### pasteコマンド

複数のファイルを行単位で出力するコマンド。

paste -d 結合文字 元ファイル1 元ファイル2 ... 元ファイルn

-d...delimiterオプション

In [12]:
#%%writefile knock13.sh
!paste -d "\t" col1.txt col2.txt > merged_colmuns-sh.txt

Writing knock13.sh


#### 14. 先頭からN行出力

In [16]:
%%writefile knock14.py
import pandas as pd

df = pd.read_table('popular-names.txt', header=None)

N = int(input())#N=3

#下記のうちどれでも良い
print(df[:N])
#print(df.head(N))
#print(df.iloc[:N])  #先頭からN行目まで指定している

Writing knock14.py


##### headオプション
参考 : https://eng-entrance.com/linux-command-head

In [17]:
%%writefile knock14.sh
!head -n 3 popular-names.txt

#-n オプションにより表示する行数を指定

Writing knock14.sh


#### 15.末尾のN行を出力

In [18]:
%%writefile knock15.py
import pandas as pd

df = pd.read_table('popular-names.txt', header=None)

N = int(input())#N=3
#print(df.tail(N))
#print(df[-N:])
print(df.iloc[-N:])#末尾N行から終端まで指定している

Writing knock15.py


In [19]:
#%%writefile knock15.sh
!tail -n 3 popular-names.txt

Writing knock15.sh


#### 16. ファイルをN分割

In [20]:
%%writefile knock16.py
import pandas as pd

df = pd.read_table('popular-names.txt',sep = '\t', header=None)

N = int(input())#N=3
step = int(len(df)/N)

for n in range(N):
    pass
    df_dvided = df.iloc[n * step :(n + 1) * step]
    df_dvided.to_csv('divided_colmuns' + str(n+1) + '.txt',sep = '\t', header = None, index = False)
    

Writing knock16.py


bashでやるとうまくいかない?↓

分割はされるものの、ファイル内部がおかしい。

In [21]:
%%writefile knock16.sh
!split -n 3 -d popular-names.txt splited_columns

#-n 分割数
#-d...分割後ファイル名の添字を数字にする

Writing knock16.sh


#### 17. 1列目の文字の異なり

ユニーク値...重複しない値のこと

In [26]:
#%%writefile knock17.py
import pandas as pd

df = pd.read_table('popular-names.txt',sep = '\t', header=None)

uniq_set = df[0].unique()
uniq_set.sort()
print(uniq_set)
print(len(uniq_set))

['Abigail' 'Aiden' 'Alexander' 'Alexis' 'Alice' 'Amanda' 'Amelia' 'Amy'
 'Andrew' 'Angela' 'Anna' 'Annie' 'Anthony' 'Ashley' 'Austin' 'Ava'
 'Barbara' 'Benjamin' 'Bertha' 'Bessie' 'Betty' 'Brandon' 'Brian'
 'Brittany' 'Carol' 'Carolyn' 'Charles' 'Charlotte' 'Chloe' 'Christopher'
 'Clara' 'Crystal' 'Cynthia' 'Daniel' 'David' 'Deborah' 'Debra' 'Donald'
 'Donna' 'Doris' 'Dorothy' 'Edward' 'Elijah' 'Elizabeth' 'Emily' 'Emma'
 'Ethan' 'Ethel' 'Evelyn' 'Florence' 'Frances' 'Frank' 'Gary' 'George'
 'Hannah' 'Harper' 'Harry' 'Heather' 'Helen' 'Henry' 'Ida' 'Isabella'
 'Jacob' 'James' 'Jason' 'Jayden' 'Jeffrey' 'Jennifer' 'Jessica' 'Joan'
 'John' 'Joseph' 'Joshua' 'Judith' 'Julie' 'Justin' 'Karen' 'Kathleen'
 'Kelly' 'Kimberly' 'Larry' 'Laura' 'Lauren' 'Liam' 'Lillian' 'Linda'
 'Lisa' 'Logan' 'Lori' 'Lucas' 'Madison' 'Margaret' 'Marie' 'Mark' 'Mary'
 'Mason' 'Matthew' 'Megan' 'Melissa' 'Mia' 'Michael' 'Michelle' 'Mildred'
 'Minnie' 'Nancy' 'Nicholas' 'Nicole' 'Noah' 'Oliver' 'Olivia' 'Pamela'
 

- cut
- sort
- uniq 重複行を削除する 

In [25]:
%%writefile knock17.sh
!cut -f 1 popular-names.txt | sort | uniq > res17.txt

Writing knock17.sh


#### 18. 各行を3コラム目の数値の降順にソート

In [27]:
%%writefile knock18.py
import pandas as pd

df = pd.read_table('popular-names.txt',sep = '\t', header=None)
df = df.sort_values(2, ascending=False)
df.to_csv('sorted-table.txt', sep = '\t', index = False, header=None)
print(df.head(10))

Writing knock18.py


##### sortコマンド

- kコマンド : 場所と並べ替え種別を指定する（「-k 2」なら2列目、「-k 2n」なら2列目を数値として並べ替える。複数指定する場合は「-k」オプションを複数回指定する）

In [28]:
%%writefile knock18.sh
!sort -k 3nr popular-names.txt > sorted-table-sh.txt

Writing knock18.sh


#### 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

In [29]:
%%writefile knock19.py
import pandas as pd

frequency_appear = []
df = pd.read_table('popular-names.txt',sep = '\t', header=None)
frequency_appear = df[0].value_counts()
output_df = pd.DataFrame(frequency_appear)
output_df.to_csv('output-freq_appear.txt',sep = '\t', header=None)
output_df.head()

Writing knock19.py


In [30]:
%%writefile knock19.sh
!cut -f 1 popular-names.txt | sort | uniq -c | sort -nr > res19.txt

#uniqコマンドにより重複した行を削除、cオプションにより重複した行数も表示する

Writing knock19.sh
