# 第2章: UNIXコマンドの基礎
- とは言えUNIXマシンが無いのでコマンドの確認はしません(白目)


## 10 行数のカウント
- hightemp.txtの行数をカウントする

In [65]:
def count_lines1(file):
    """
    >>> count_lines1('hightemp.txt')
    24
    """
    with open(file, 'r', encoding='utf-8') as f:
        print(len(f.readlines()))


count_lines1('hightemp.txt')

24


In [29]:
def count_lines2(file):
    """
    >>> count_lines2('hightemp.txt')
    24
    """
    count = 0
    with open(file, 'r', encoding=('utf-8')) as f:
        for _ in f:
            count += 1
    return count


count_lines2('hightemp.txt')

24

### open
- `f = open(path)`で取り込んだ場合は、必ず`f.close()`を叩く
- `with open(path) as f:`で取り込んだ場合は、その中の処理が終わったら自動で`close`してくれる


- `mode='r'`…読み込み用でオープン
- `mode='w'`…書き込み用でオープン。新規or上書き
- `mode='x'`…新規作成専用で書き込み用オープン
- `mode='a'`…末尾に追記モードでオープン。存在しなければ新規作成


- `s = f.read()`…開いたファイル全体を文字列として取り込む
- `l = f.readlines()`…行ごとに分割したリストとして取り込む
- `l = f.readline()`…頭から1行ずつ順番に取り込む


- `f.write(s)`…`f`に`s`を書き込む
- `f.writelines(l)`…`f`にリスト`l`の各要素を結合した文字列を書き込む


- 挿入の手順
    1. `l = f.readlines()`で読み込む
    1. `l.insert(行数, '挿入文字列')`でリストに書き込む
    1. `f.writelines(l)`でリストの内容をファイルに書き込む


### try, except
- `try:`
    - 何かしらの処理
- `except` 何かしらの処理で起こりうるエラー名:
    - エラーが発生した時の処理


### osモジュール
- `import os`
- `path = os.path.exists(path)`…指定ファイルの有無を確認

## 11 タブをスペースに置換
- タブ1文字につきスペース1文字に置換せよ

In [42]:
def tab_space(path):
    """
    tabをスペースに置換する
    """
    with open(path, 'r', encoding='utf-8') as f_read:
        with open('./nlp11.txt', 'w', encoding='utf-8') as f_write:
            for line in f_read:
                f_write.write(line.replace('\t', ' '))


path = './hightemp.txt'
with open('./hightemp.txt', 'r', encoding='utf-8') as f:
    print(f.readlines(), end='\n\n')

tab_space('./hightemp.txt')

with open('./nlp11.txt', 'r', encoding='utf-8') as f:
    print(f.readlines())

['高知県\t江川崎\t41\t2013-08-12\n', '埼玉県\t熊谷\t40.9\t2007-08-16\n', '岐阜県\t多治見\t40.9\t2007-08-16\n', '山形県\t山形\t40.8\t1933-07-25\n', '山梨県\t甲府\t40.7\t2013-08-10\n', '和歌山県\tかつらぎ\t40.6\t1994-08-08\n', '静岡県\t天竜\t40.6\t1994-08-04\n', '山梨県\t勝沼\t40.5\t2013-08-10\n', '埼玉県\t越谷\t40.4\t2007-08-16\n', '群馬県\t館林\t40.3\t2007-08-16\n', '群馬県\t上里見\t40.3\t1998-07-04\n', '愛知県\t愛西\t40.3\t1994-08-05\n', '千葉県\t牛久\t40.2\t2004-07-20\n', '静岡県\t佐久間\t40.2\t2001-07-24\n', '愛媛県\t宇和島\t40.2\t1927-07-22\n', '山形県\t酒田\t40.1\t1978-08-03\n', '岐阜県\t美濃\t40\t2007-08-16\n', '群馬県\t前橋\t40\t2001-07-24\n', '千葉県\t茂原\t39.9\t2013-08-11\n', '埼玉県\t鳩山\t39.9\t1997-07-05\n', '大阪府\t豊中\t39.9\t1994-08-08\n', '山梨県\t大月\t39.9\t1990-07-19\n', '山形県\t鶴岡\t39.9\t1978-08-03\n', '愛知県\t名古屋\t39.9\t1942-08-02\n']

['高知県 江川崎 41 2013-08-12\n', '埼玉県 熊谷 40.9 2007-08-16\n', '岐阜県 多治見 40.9 2007-08-16\n', '山形県 山形 40.8 1933-07-25\n', '山梨県 甲府 40.7 2013-08-10\n', '和歌山県 かつらぎ 40.6 1994-08-08\n', '静岡県 天竜 40.6 1994-08-04\n', '山梨県 勝沼 40.5 2013-08-10\n', '埼玉県 越谷 40.4 2007-08-16

## 12 1列目をcol1.txtに,2列目をcol2.txtに保存
- 各行の1列目だけを抜き出したものをcol1.txtに,2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ

In [72]:
def col(path='./hightemp.txt'):
    with open(path, 'r', encoding='utf-8') as f:
                size = count_lines2(path)    # 行数を取得
                data = [[] for i in range(size)]    # 行数分の2次元配列

                i = 0
                for l in f:
                    data[i] += list(l.split('\t'))
                    i += 1

    with open('./col1.txt', 'w', encoding='utf-8') as col1:
        with open('./col2.txt', 'w', encoding='utf-8') as col2:
            for i in range(size):
                col1.write(data[i][0])
                col1.write('\n')
                col2.write(data[i][1])
                col2.write('\n')


col()
with open('./col1.txt', 'r', encoding='utf-8') as col1:
    with open('./col2.txt', 'r', encoding='utf-8') as col2:
        print(col1.read())
        print(col2.read())

高知県
埼玉県
岐阜県
山形県
山梨県
和歌山県
静岡県
山梨県
埼玉県
群馬県
群馬県
愛知県
千葉県
静岡県
愛媛県
山形県
岐阜県
群馬県
千葉県
埼玉県
大阪府
山梨県
山形県
愛知県

江川崎
熊谷
多治見
山形
甲府
かつらぎ
天竜
勝沼
越谷
館林
上里見
愛西
牛久
佐久間
宇和島
酒田
美濃
前橋
茂原
鳩山
豊中
大月
鶴岡
名古屋



## 13 col1.txtとcol2.txtをマージ
- 12で作ったcol1.txtとcol2.txtを結合し,元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ.

In [115]:
def merge1 (col1_path='./col1.txt', col2_path='./col2.txt'):
    with open(col1_path, 'r', encoding='utf-8') as col1:
        data1 = col1.readlines()
    with open(col2_path, 'r', encoding='utf-8') as col2:
        data2 = col2.readlines()

    s = []
    for i in range(min(len(data1), len(data2))):
        s += data1[i].strip()
        s += '\t'
        s += data2[i]

    with open('./col.txt', 'w', encoding='utf-8') as col_w:
        col_w.writelines(s)
    
    with open('./col.txt', 'r', encoding='utf-8') as col_r:
        s = col_r.readlines()
        print(s)


merge1()

['高知県\t江川崎\n', '埼玉県\t熊谷\n', '岐阜県\t多治見\n', '山形県\t山形\n', '山梨県\t甲府\n', '和歌山県\tかつらぎ\n', '静岡県\t天竜\n', '山梨県\t勝沼\n', '埼玉県\t越谷\n', '群馬県\t館林\n', '群馬県\t上里見\n', '愛知県\t愛西\n', '千葉県\t牛久\n', '静岡県\t佐久間\n', '愛媛県\t宇和島\n', '山形県\t酒田\n', '岐阜県\t美濃\n', '群馬県\t前橋\n', '千葉県\t茂原\n', '埼玉県\t鳩山\n', '大阪府\t豊中\n', '山梨県\t大月\n', '山形県\t鶴岡\n', '愛知県\t名古屋\n']


### strip
- `String.strip('chars')`で、`String`から`chars`を削除できる
- 引数が無い場合は、空白文字(タブとか改行とかも含む)を削除してくれる

In [120]:
def merge2 (col1_path='./col1.txt', col2_path='./col2.txt'):
    with open(col1_path, 'r', encoding='utf-8') as col1:
        data1 = list(l.strip() for l in col1)
    with open(col2_path, 'r', encoding='utf-8') as col2:
        data2 = list(l.strip() for l in col2)

    with open('./col_f.txt', 'w', encoding='utf-8') as col_w:
        for s1, s2 in zip(data1, data2):
            col_w.write('{}\t{}\n'.format(s1, s2))

    with open('./col_f.txt', 'r', encoding='utf-8') as col_r:
        print(col_r.readlines())


merge2()

['高知県\t江川崎\n', '埼玉県\t熊谷\n', '岐阜県\t多治見\n', '山形県\t山形\n', '山梨県\t甲府\n', '和歌山県\tかつらぎ\n', '静岡県\t天竜\n', '山梨県\t勝沼\n', '埼玉県\t越谷\n', '群馬県\t館林\n', '群馬県\t上里見\n', '愛知県\t愛西\n', '千葉県\t牛久\n', '静岡県\t佐久間\n', '愛媛県\t宇和島\n', '山形県\t酒田\n', '岐阜県\t美濃\n', '群馬県\t前橋\n', '千葉県\t茂原\n', '埼玉県\t鳩山\n', '大阪府\t豊中\n', '山梨県\t大月\n', '山形県\t鶴岡\n', '愛知県\t名古屋\n']


### リスト内包表記

In [130]:
nums1 = []
for i in range(3):
    nums1.append(i)
print(nums1)

nums2 = [i for i in range(3)]
print(nums2)

[0, 1, 2]
[0, 1, 2]


### zip
- 3個以上でもいける

In [126]:
a = ['A', 'B', 'C']
b = [1, 2, 3]
print(list(zip(a, b)))

for c, n in zip(a, b):
    print(c, n)

[('A', 1), ('B', 2), ('C', 3)]
A 1
B 2
C 3
