### Preparation

In [1]:
import subprocess
import sys, os
import glob
import numpy as np
from collections import Counter
def system(command, **option):
    proc = subprocess.Popen(command, shell=True,
                           stdout=subprocess.PIPE,
                           **option)
    return proc.communicate()[0].decode('utf-8')

def cat(filepath):
    return system(f'cat {filepath}')

def remove_newline(s):
    return s[:-1] if s[-1] is '\n' else s

def isequal(s1, s2):
    s1 = remove_newline(s1)
    s2 = remove_newline(s2)
    return s1 == s2

### Load 'hightemp.txt'

In [2]:
hightemp = []
with open('hightemp.txt') as f:
    hightemp = np.loadtxt(f, dtype=object)

### 10. 行数のカウント

In [3]:
length = len(hightemp)
print('correct:{}'.format(length))
system(f'wc -l hightemp.txt')

correct:24


'      24 hightemp.txt\n'

### 11. タブをスペースに置換


In [4]:
correct = '\n'.join([' '.join(s) for s in hightemp])
print(correct)

高知県 江川崎 41 2013-08-12
埼玉県 熊谷 40.9 2007-08-16
岐阜県 多治見 40.9 2007-08-16
山形県 山形 40.8 1933-07-25
山梨県 甲府 40.7 2013-08-10
和歌山県 かつらぎ 40.6 1994-08-08
静岡県 天竜 40.6 1994-08-04
山梨県 勝沼 40.5 2013-08-10
埼玉県 越谷 40.4 2007-08-16
群馬県 館林 40.3 2007-08-16
群馬県 上里見 40.3 1998-07-04
愛知県 愛西 40.3 1994-08-05
千葉県 牛久 40.2 2004-07-20
静岡県 佐久間 40.2 2001-07-24
愛媛県 宇和島 40.2 1927-07-22
山形県 酒田 40.1 1978-08-03
岐阜県 美濃 40 2007-08-16
群馬県 前橋 40 2001-07-24
千葉県 茂原 39.9 2013-08-11
埼玉県 鳩山 39.9 1997-07-05
大阪府 豊中 39.9 1994-08-08
山梨県 大月 39.9 1990-07-19
山形県 鶴岡 39.9 1978-08-03
愛知県 名古屋 39.9 1942-08-02


In [5]:
isequal(correct, system(f'sed s/"\t"/" "/g hightemp.txt'))

True

### 12. 1列目をcol.txtに，2列目をcol2.txtに保存

In [6]:
system(f'cut -f 1 -d "\t" hightemp.txt > col.txt')
isequal('\n'.join(hightemp[:, 0]), cat('col.txt'))

True

In [7]:
system(f'cut -f 2 -d "\t" hightemp.txt > col2.txt')
isequal('\n'.join(hightemp[:, 1]), cat('col2.txt'))

True

### 13. col1.txtとcol2.txtをマージ

In [8]:
correct = []
with open('col.txt') as f1, open('col2.txt') as f2:
    for s1, s2 in zip(f1, f2):
        correct.append('{}\t{}'.format(remove_newline(s1), s2))
correct = ''.join(correct)
isequal(system(f'paste col.txt col2.txt'), correct)

True

### 14. 先頭からN行を出力

In [9]:
N = int(input())
file_name = 'hightemp.txt'
correct = hightemp[:N]
correct = '\n'.join(['\t'.join(s) for s in correct])
isequal(system('head -n {} {}'.format(N, file_name)), correct)

 5


True

### 15. 末尾のN行を出力

In [10]:
N = int(input())
file_name = 'hightemp.txt'
correct = hightemp[len(hightemp)-N:]
correct = '\n'.join(['\t'.join(s) for s in correct])
isequal(system('tail -n {} {}'.format(N, file_name)), correct)

 12


True

### 16. ファイルをN分割する

In [11]:
N = int(input())
file_name = 'hightemp.txt'
out_name = '16/Split16_{}'.format(N)
system('split -l {} -a 1 {} {}'.format(N, file_name, out_name))

files = glob.glob('16/*')
files.sort()
isCorrect = True
for i, file in enumerate(files):
    correct = '\n'.join(['\t'.join(s) for s in hightemp[i*N:(i+1)*N]])
    isCorrect = isCorrect & isequal(cat(file), correct)
print(isCorrect)

 5


True


### 17. １列目の文字列の異なり

In [12]:
set(system('cut -f1 hightemp.txt | sort | uniq').split()) == set(hightemp[:,0])

True

### 18. 各行を3コラム目の数値の降順にソート

In [13]:
correct = hightemp[np.argsort(hightemp[:, 2])]
correct = '\n'.join(['\t'.join(s) for s in correct])
ans = system(f'sort -k3 -t "\t" hightemp.txt')
print(ans)
print(correct)

愛知県	名古屋	39.9	1942-08-02
山形県	鶴岡	39.9	1978-08-03
山梨県	大月	39.9	1990-07-19
大阪府	豊中	39.9	1994-08-08
埼玉県	鳩山	39.9	1997-07-05
千葉県	茂原	39.9	2013-08-11
群馬県	前橋	40	2001-07-24
岐阜県	美濃	40	2007-08-16
山形県	酒田	40.1	1978-08-03
愛媛県	宇和島	40.2	1927-07-22
静岡県	佐久間	40.2	2001-07-24
千葉県	牛久	40.2	2004-07-20
愛知県	愛西	40.3	1994-08-05
群馬県	上里見	40.3	1998-07-04
群馬県	館林	40.3	2007-08-16
埼玉県	越谷	40.4	2007-08-16
山梨県	勝沼	40.5	2013-08-10
静岡県	天竜	40.6	1994-08-04
和歌山県	かつらぎ	40.6	1994-08-08
山梨県	甲府	40.7	2013-08-10
山形県	山形	40.8	1933-07-25
埼玉県	熊谷	40.9	2007-08-16
岐阜県	多治見	40.9	2007-08-16
高知県	江川崎	41	2013-08-12

愛知県	名古屋	39.9	1942-08-02
山梨県	大月	39.9	1990-07-19
大阪府	豊中	39.9	1994-08-08
埼玉県	鳩山	39.9	1997-07-05
千葉県	茂原	39.9	2013-08-11
山形県	鶴岡	39.9	1978-08-03
群馬県	前橋	40	2001-07-24
岐阜県	美濃	40	2007-08-16
山形県	酒田	40.1	1978-08-03
愛媛県	宇和島	40.2	1927-07-22
静岡県	佐久間	40.2	2001-07-24
千葉県	牛久	40.2	2004-07-20
愛知県	愛西	40.3	1994-08-05
群馬県	館林	40.3	2007-08-16
群馬県	上里見	40.3	1998-07-04
埼玉県	越谷	40.4	2007-08-16
山梨県	勝沼	40.5	2013-08-10
静岡県	天竜	40.6	1994-08-04
和歌山県	かつらぎ	40.6	1994-08-08
山梨県	

### 19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

In [14]:
print('answer')
print(system(f'cut -f 1 -d "\t" hightemp.txt | sort | uniq -c | sort -r'))
counter = Counter(hightemp[:, 0])
correct = np.array(list(counter.items()))
index = np.argsort(np.array(list(counter.values())))[::-1]
correct = '\n'.join(['\t'.join([str(count), pref]) for (pref, count) in correct[index]])
print('correct')
print(correct)

answer
   3 群馬県
   3 山梨県
   3 山形県
   3 埼玉県
   2 静岡県
   2 愛知県
   2 岐阜県
   2 千葉県
   1 和歌山県
   1 高知県
   1 愛媛県
   1 大阪府

correct
3	群馬県
3	山梨県
3	山形県
3	埼玉県
2	千葉県
2	愛知県
2	静岡県
2	岐阜県
1	大阪府
1	愛媛県
1	和歌山県
1	高知県
