**06**

キーワード：辞書・文字列操作・ファイル操作

# Exercise

## 課題：Unigram

* https://en.wikipedia.org/wiki/N-gram
* ファイルを読み込み、文字の出現頻度を調べるプログラムを書きなさい
* ファイル名は input で与えるものとする

### 入出力例

* [files/hello.txt](files/hello.txt)

```
File Path: files/hello.txt
e: 2
r: 2
G: 1
o: 5
,: 2
H: 1
y: 1
d: 3
 : 2
l: 4
w: 2
!: 2
b: 1
```

# Lecture

## 辞書

In [13]:
symbol_to_name = {'H': 'Hydrogen', 'He': 'Helium', 'Li': 'Lithium', 'Be': 'Beryllium', 'B': 'Borium'}
print(type(symbol_to_name))
print(symbol_to_name)
print(symbol_to_name['H'])
print(symbol_to_name['B'])

<class 'dict'>
{'B': 'Borium', 'Be': 'Beryllium', 'Li': 'Lithium', 'He': 'Helium', 'H': 'Hydrogen'}
Hydrogen
Borium


* Python には辞書 (dictionary, `dict`) 型が用意されている
    * 他の言語では連想配列 (associative array) と呼ばれることも多い
* 辞書には**キー (key)** と**値 (value)** が格納されている
    * 上の例では `'H'` がキー、`'Hydrogen'` が値である
    * `name_for_sym['H']` のようにキーを指定すると値を取得できる

In [14]:
print(symbol_to_name['X'])

KeyError: 'X'

* 存在しないキーを指定するとエラー (`KeyError`) になる

In [16]:
print('H' in symbol_to_name)
print('X' in symbol_to_name)

True
False


* キーが存在するかどうかは `in` 演算子で判定できる

In [56]:
symbol_to_name = {'H': 'Hydrogen', 'He': 'Helium', 'Li': 'Lithium', 'Be': 'Beryllium', 'B': 'Borium'}
print(symbol_to_name)
symbol_to_name['C'] = 'Carbon'
print(symbol_to_name)
symbol_to_name['B'] = 'Boron'
print(symbol_to_name)

{'He': 'Helium', 'Li': 'Lithium', 'B': 'Borium', 'H': 'Hydrogen', 'Be': 'Beryllium'}
{'Be': 'Beryllium', 'C': 'Carbon', 'H': 'Hydrogen', 'B': 'Borium', 'He': 'Helium', 'Li': 'Lithium'}
{'Be': 'Beryllium', 'C': 'Carbon', 'H': 'Hydrogen', 'B': 'Boron', 'He': 'Helium', 'Li': 'Lithium'}


* 代入することによって辞書に値を書き込むことができる
* キーが既に存在している場合は値は上書きされる

### 辞書の列挙

In [60]:
print(symbol_to_name.items())
for (symbol, name) in symbol_to_name.items():
    print(symbol.ljust(2) + ' : ' + name)

dict_items([('Be', 'Beryllium'), ('C', 'Carbon'), ('H', 'Hydrogen'), ('B', 'Boron'), ('He', 'Helium'), ('Li', 'Lithium')])
Be : Beryllium
C  : Carbon
H  : Hydrogen
B  : Boron
He : Helium
Li : Lithium


* `items` で辞書の内容を列挙できる
* 列挙の順序は不定であることに注意

In [65]:
print(sorted(symbol_to_name.keys()))
print(sorted(symbol_to_name.values()))

['B', 'Be', 'C', 'H', 'He', 'Li']
['Beryllium', 'Boron', 'Carbon', 'Helium', 'Hydrogen', 'Lithium']


* キーは `keys`、値は `values` で列挙できる

### 例：素因数分解

In [1]:
n = int(input('n = '))
factor_table = {}
m = 2

# 被除数 n が除数 m 以上である限りループする
while n >= m:
    if n % m == 0:
        # n が m で割り切れたら辞書に記録する
        if m in factor_table:
            factor_table[m] += 1
        else:
            factor_table[m] = 1
        n /= m
    else:
        # 割り切れなければ除数を大きくする
        m += 1
        
print(factor_table)

n = 360
{2: 3, 3: 2, 5: 1}


* https://en.wikipedia.org/wiki/Prime_factor
* 底 (base) をキー、冪指数 (exponent) を値とした辞書を作っている
* キーが存在しない状態で `+=` するとエラーになるため、`if` による場合分けが必要

## 文字列操作

### 文字列のスライス

In [111]:
s = 'earth'
print(s)
print(s[0])
print(s[1:4])
t = s[-1] + s[:-1]
print(t)

earth
e
art
heart


* 文字列に対してもリストに似た操作を行うことができる
    * 文字列に添字を付けたものもまた文字列となることに注意
* 文字列に対して破壊的操作を行うことはできない

### 存在判定

In [112]:
s = 'earth'
print('ear' in s)
print('eye' in s)
print('art' in s)

True
False
True


* `in` 演算子で文字列に部分文字列が含まれるかどうかを調べることができる

### 検索

In [109]:
print(s.find('ear'))
print(s.find('eye'))
print(s.find('art'))

0
-1
1


* `find` メソッドで文字列のどの位置に部分文字列が含まれるかを調べることができる
    * 存在しない場合 `-1` が返る

### 置換

In [110]:
print(s.replace('ea', 'bi'))

birth


* `replace` メソッドで文字列の置換を行うことができる

### 特殊な文字

In [11]:
print('a\nb')
print('a\\nb')
print('\'')

a
b
a\nb
"


* `'\n'` は改行 (LF) を表す
    * バックスラッシュ (`\`) でこのような特殊な文字を表せる
    * `'\r'` は改行 (CR) を表す
    * `'\t'` はタブを表する
    * `'\''` で `'` を表す
    * `'\\'` でバックスラッシュ自体を表せる

In [9]:
print(r'a\nb')
print(r'a\\nb')

a\nb
a\\nb


* バックスラッシュをそのまま保持したい場合は**文字列リテラル**（`'...'`）の前に `r` を付ける

### 文字列の列挙

In [179]:
s = 'string'
for c in s:
    print(c)

s
t
r
i
n
g


* 文字列を `for` ... `in` で列挙すると文字が 1 文字ずつ得られる

### `enumerate` 

In [181]:
s = 'string'
for (i, c) in enumerate(s):
    print('s[{0}] == \'{1}\''.format(i, c))

s[0] == "s"
s[1] == "t"
s[2] == "r"
s[3] == "i"
s[4] == "n"
s[5] == "g"


* `enumerate` を使うと今何ループ目かを簡単に知ることができる

In [87]:
s = 'string'
for (i, c) in enumerate(s[2:], 2):
    print('s[{0}] == \'{1}\''.format(i, c))

s[2] == "r"
s[3] == "i"
s[4] == "n"
s[5] == "g"


* 第 2 引数でカウントの開始をずらすことができる

## ファイル操作

### ファイルの読み込み

In [2]:
file = open('files/hello.txt')
s = file.read()
print(s)
file.close()

Hello, world!
Goodbye, world!



* [files/hello.txt](files/hello.txt)
* open 関数でファイルを開くことができる
    * open はファイルオブジェクトを返す
* ファイルオブジェクトは `close` メソッドで閉じる必要がある

### ファイルを自動で閉じる

In [38]:
with open('files/hello.txt') as file:
    s = file.read()
    print(s)

Hello, world!
Goodbye, world!



* `with` 文を使うとファイルはブロックの終わりで自動で `close` される
* こちらを使ったほうがよい

### ファイルを 1 行ずつ読み込む

In [41]:
with open('files/hello.txt') as file:
    for line in file:
        print(line)

Hello, world!

Goodbye, world!



* ファイルオブジェクトを `for in` で列挙すると 1 行ごとに読み込むことができる
* ただし、`line` に含まれている改行と `print` の改行が 2 重に出力され、空行が空いてしまう

In [44]:
with open('files/hello.txt') as file:
    for line in file:
        print(line, end='')

Hello, world!
Goodbye, world!


* `print` の `end` パラメータ引数に空文字列を渡す

In [43]:
with open('files/hello.txt') as file:
    for line in file:
        print(line.rstrip('\n'))

Hello, world!
Goodbye, world!


* 文字列の `rstrip` メソッドで末尾の改行を削除する
    * 引数には削除する文字を指定する

### 文字コードの指定

In [175]:
with open('files/sushi.txt') as file:
    for line in file:
        print(line.rstrip())

UnicodeDecodeError: 'ascii' codec can't decode byte 0xf0 in position 0: ordinal not in range(128)

* 非 ASCII 文字を含むファイル ([files/sushi.txt](files/sushi.txt)) を開こうとするとエラーが出る

In [177]:
with open('files/sushi.txt', encoding='utf-8') as file:
    for line in file:
        print(line.rstrip())

🍣 寿司


* `encoding=` で適切なエンコーディングを指定する

### ファイルの書き込み

In [178]:
s = None
with open('files/hello.txt') as file:
    s = file.read()
s = s.upper()
with open('files/hello_2.txt', 'w') as file:
    file.write(s)
    file.write('- END -')
with open('files/hello_2.txt') as file:
    print(file.read(), end='')

HELLO, WORLD!
GOODBYE, WORLD!
- END -

* `open` 関数の第 2 引数に `'w'` を渡すことでファイルへの書き込みを行えるようになる
* ファイルオブジェクトの `write` メソッドで文字列を書き込める