# 辞書
リストは、複数のデータを並べて集めたものであると同時に、番号と値を結びつける関数とみなすこともできます。

In [None]:
a = [3,1,4,1,5,9]
print(a[1])
print(a[3])

値には文字列やリストなど、どんなデータタイプでも選べますが、番号のほうは非負の整数でなければなりません。

辞書(dictionary)を使うと、番号に文字列を使うこともできます。

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
name = input("Name?")
print(a[name])

辞書はデータベースとも言えます。上の場合、"Matsumoto"をキー、"vitroid@gmail.com"を値と呼びます。辞書を使えば、電話帳が簡単に作れます。

上のプログラムでは、存在しない名前を入力するとエラーになってしまうので、辞書にその名前のキーがあるがどうかをin演算子を使って調べます。

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
while True:
    name = input("Name?")
    if name == "":
        print("Bye.")
        break
    if name in a:
        print(a[name])
    else:
        print("Sorry, the name '{0}' is not found in the directory.".format(name))
        email = input("Input his/her email address:")
        a[name] = email


辞書を配列の代わりに使う場合もあります。特に、ほとんどの要素が0であるようなリストは、辞書にしたほうが格段にメモリの無駄がなくなり、処理も速くなります。

### リストで書いた例

In [None]:
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = [0 for i in range(10000000)]    #すべての要素が0の、一千万個のリスト。100MB程度のメモリが必要
a[0] = 1                            #2つだけ要素を1にする。
a[9999999] = 1

for i in range(10000000):           #値が1の要素をさがす。一千万回のループ
    if a[i] == 1:
        print(i)

print(time.time()-now," sec")

### 辞書で書いた例

In [None]:
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = dict()
a[-9999999] = 1                     #2つだけ要素を1にする。
a[9999999.9] = 1
for i in a:                         #aのキーについて繰り返す。
    print(i)

print(time.time()-now," sec")

辞書のキーは負の整数でも実数でも構いません。使わない要素は0を入れておく必要もないので、メモリも処理も最小限ですみます。
### 行列を計算する
別の例として、行列の足し算を考えます。Pythonで行列を表現する一番直感的な方法は、2次元リストを使うことです。3x3の行列の足し算は、次のように書けます。

In [None]:
a = [[1,0,0],[0,1,0],[0,0,1]]
#print(a[1][1])
b = [[1,2,3],[4,5,6],[7,8,9]]
c = [[0 for i in range(3)] for j in range(3)]   #all zero
print(c)
for i in range(3):
    for j in range(3):
        c[i][j] = a[i][j] + b[i][j]
print(c)

あるいは、リスト内のfor文を直接使って

In [None]:
a = [[1,0,0],[0,1,0],[0,0,1]]
b = [[1,2,3],[4,5,6],[7,8,9]]
c = [[a[j][i]+b[j][i] for i in range(3)] for j in range(3)]   #all zero
print(c)

ところで、行列が非常に大きく、そのほとんどが0であるような行列(疎行列、sparce matrix)同士の和を計算する場合には、ほとんどの計算が0+0=0の自明な計算となります。非0の要素だけ計算するようにすれば、計算量は劇的に減るでしょう。

そこで、辞書を使って表現します。

In [None]:
a = {(3,100):2, (50,50):4}   #非0要素の位置のタプルをキーとする辞書
#a =dict()                  #同じ意味
#a[(3,100)] = 2
#a[(50,50)] = 4
print(a[(3,100)],a[(50,50)])

和の計算をするときには、それぞれの行列の非0要素だけを計算します。

In [None]:
b = {(52,52):100, (50,50):-4}
c = dict()

for key in a:                    #aのキーについて
    if key in b:                 #bにも存在するなら
        sum = a[key] + b[key]
        if sum != 0:
            c[key] = sum
    else:                        #aのみに存在するなら
        c[key] = a[key]

for key in b:                    #bのキーについて
    if not key in a:                 #bのみに存在するなら
        c[key] = b[key]

print(c)

うまく動くことが確認できたら、将来また再利用しやすいように、関数にまとめておきます。

In [None]:
def sparse_matrix_sum(a,b):
    c = dict()
    for key in a:                    #aのキーについて
        if key in b:                 #bにも存在するなら
            sum = a[key] + b[key]
            if sum != 0:
                c[key] = sum
        else:                        #aのみに存在するなら
            c[key] = a[key]

    for key in b:                    #bのキーについて
        if not key in a:                 #bのみに存在するなら
            c[key] = b[key]
    return c
    
x = {(3,100):2, (50,50):4}   #非0要素の位置のタプルをキーとする辞書
y = {(52,52):100, (50,50):-4}

print(sparse_matrix_sum(x,y))

### 辞書の要素の順序
リストと違い、辞書の要素は順序が決まっていません。

In [None]:
a = dict()
values = [9,3,1,5,4,3,10,-5,-3,6]
for v in values:
    a[v] = 1
print(a)

In [None]:
for key in a:
    print(key, a[key])

数値の小さい順に表示したいなら、ソートします。

In [None]:
for key in sorted(a):
    print(key, a[key])

辞書のキーには実数でも文字列で何でも使えると書きましたが、実は制約があります。キーは定数でなければなりません。リストは変数(あとから中身をさしかえられる)なので辞書のキーには使えませんが、タプルは定数なので、辞書のキーに使えます。

In [None]:
a = dict()
a[(2,3)] = 5
a[(1,2,3)] = 6
#a[[2,3]] = 5     #キーが変数なのでエラー
#a[(1,2,3,[4,5])]= 6   #タプルの中にリストが入っていてもエラー
print(a)

## 辞書の使用例
「雨ニモマケズ」に含まれる文字の種類と個数を数えてみます。

In [None]:
file = open("雨ニモマケズ.txt", encoding="UTF8")
lettercount = dict()
for line in file:
    #letters = list(line)             #文字列をリストとみなす
    for letter in line:
        #すでに辞書にある文字なら
        if letter in lettercount:
            lettercount[letter] += 1
        #辞書にない文字なら初期化する
        else:
            lettercount[letter] = 1
for letter in sorted(lettercount, key=lettercount.get):
    print(letter,lettercount[letter])

関数をつかって、もっとシンプルに書けます。

In [None]:
def count_members(s):
    count = dict()
    for c in s:
        if c in count:
            count[c] += 1
        else:
            count[c] = 1
    return count

file = open("雨ニモマケズ.txt", encoding="UTF8")
concat = "".join(file)        #全文を1つの文字列につなぐ。
lettercount = count_members(concat)
for letter in sorted(lettercount):
    print(letter,lettercount[letter])

連続する2文字の出現頻度を数えます。行末の"ズ"、"ニモ"、"アレ"、"ッテ"などが多いことがわかりました。こういった解析で、文章の作者を推測するプロファイリングができるかもしれません。

In [None]:
file = open("雨ニモマケズ.txt", encoding="UTF8")
lettercount = dict()
for line in file:
    #letters = list(line)             #文字列をリストとみなす
    for i in range(len(line)-1):
        #2文字のタプルを作る
        two = line[i:i+2]
        #すでに辞書にある文字なら
        if two in lettercount:
            lettercount[two] += 1
        #辞書にない文字なら初期化する
        else:
            lettercount[two] = 1
for two in sorted(lettercount, key=lettercount.get):
    print(two,lettercount[two])

要素と要素のつながりを辞書で表すことができます。

In [None]:
link = dict()
link["A"] = "B"
link["B"] = "C"
link["C"] = "A"

つながりをたどっていくには、次のようにします。

In [None]:
print(link[link[link["A"]]])

## 練習問題
### 問題1
データ列をファイルから読みこんで、そのヒストグラムを作るケースを考えてみます。

ヒストグラムを作るには、数値を等間隔の区画(ビンと呼びます)に分類して、それぞれのビンに入るデータの個数を数えます。リストでこれを実装することもできますが、その場合、最も数値が小さい値のビンの番号が0以上になるようにするためには、あらかじめ最も小さいデータ値がいくつかを知るために、通常はデータを2回読みこむ必要があります。

In [None]:
bins = [0 for i in range(100)]
binwidth = 0.02

n = 0
file = open("data5.txt")
for line in file:
    value = float(line)
    bin   = int(value / binwidth)    #正とは限らない
    bins[bin] += 1                   #binが負だとエラー!
    n         += 1
    
for i in range(len(bins)):
    print((i+0.5)*binwidth, bins[i]/binwidth/n)


bin番号が負にならないように、あらかじめ大きな数値を足すこともできなくはありませんが、あくまで特定のデータで問題が起こらないだけで、根本的な解決にはなりません。

次の例では、一旦すべてのデータを読みこんで、最小値を捜してから、それにあわせてbin番号をずらしています。

In [None]:
binwidth = 0.02
values = []

minv =  1e99              #最大値と最小値の初期値
maxv = -1e99              #ありえない巨大な値を設定しておく

file = open("data5.txt")
for line in file:
    value = float(line)
    values.append(value)  #全部一旦そのまま読みこむ
    if maxv < value:      #最大値と最小値をついでに求めておく。
        maxv= value
    if value < minv:
        minv = value

#そのままビンにわりふった時の、最大と最小のbin番号。
binmin = int(minv / binwidth)
binmax = int(maxv / binwidth)
numbin = binmax - binmin + 1

bins = [0 for i in range(numbin)]
for value in values:
    bin   = int(value / binwidth) - binmin
    bins[bin] += 1

for i in range(len(bins)):
    print((i+binmin+0.5)*binwidth, bins[i]/binwidth/len(values))

この方法の難点は、どんな大きなデータでも一旦すべてメモリ(リスト)に読みこむ必要があることです。

そこで、リストの代わりに辞書を使ってみましょう。辞書の引数には負の整数を入れることもできます。

### 問題2
百人一首のリストを読みこんで、決まり字(冒頭の数文字で、それを読めば、つづきが一意的に決まるようなもの)を見付けだすプログラムを書いてみよう。

例えば「むらさめの つゆもまだひぬ まきのはに」のように、「む」からはじまる歌は1つしかないので、「む」を聞いただけで、あとの句が特定できるので、この句の決まり字は「む」である。

1. 100句のよみがなをfile "百人一首.txt" から読みこんで、100要素のリストを作る。
1. まず、冒頭の文字何文字を検討するかを決める。とりあえず、1文字を検討することとし、それをnとする。
1. 空の辞書を作る。辞書のキーには決まり字、値にはその決まり字ではじまる句の個数を入れることにする。
1. それぞれの句について、
    1. 最初のn文字をとりだす。これをheadとする。
    1. 辞書のkeyの中に、headがあれば、それに1を加える。なければ、1を入れる。
1. すべての辞書のキーについて
    1. 値が1であればキーを表示する。

### 問題3
英文sample.txtを読みこみ、その中に出現する単語を抽出して、頻度の高い順に表示するプログラムを書いてみよう。

出現頻度順の単語帳を持っていると、英語に限らず、外国語を勉強する時に非常に効率がよくなる。あなたがこれから読む予定の論文から、まずは単語を全部抽出し、頻度の高い順に並べて、上から順に見ていって、上位の知らない単語をさきに辞書で調べておけば、論文を読みながら辞書を引く必要はほとんどなくなる。

単語と単語の切れ目には","、"."などの文字が使われる。いろんな区切り文字は一旦ぜんぶ空白におきかえてからsplit()関数で分割する。(もっとスマートにやりたいなら正規表現を勉強する→http://www.diveintopython3.net/regular-expressions.html)

In [None]:
a="This sentence contains commas, semicolons; and periods."
a = a.replace(';', ' ')
a = a.replace('.', ' ')
a = a.replace(',', ' ')
a = a.replace(':', ' ')
a = a.replace('"', ' ')
a = a.replace("'", ' ')
print(a)
print(a.split())

あとはでてきた単語を辞書wordcountに入れて、上の例とおなじように回数を数える。

キー(単語)の順でソートするなら、上のほうでもでてきた通り、

In [None]:
for key in sorted(wordcount):

でいいのだが、出現頻度順でソートする場合には、値でソートしなければいけない。その場合は、次のような書き方を使う。

In [None]:
for key in sorted(wordcount, key=wordcount.get):

英語のNative Speakerにボイスレコーダーをくっつけ、日常に使っている英語のすべてを一週間まるまる録音してから、使ったフレーズを出現頻度順に並べ、上から順番に丸暗記すれば、誰でもNative Speakerの言い回しができるようになると思っている。誰か、外国人向けの促成日本語教材を作ってみてはどうだろう。頻繁に「Majika」とか「Sugee」とか「Yabai」とか言う外国人が促成される気はするが。

### 問題4
上では、疎行列の和を計算する関数sparse_matrix_sum()をつくったが、同じように疎行列の積を計算する関数を作ってほしい。

疎行列でない場合の、行列の積は次のようなプログラムとなる。すこしわかりにくいが、計算手順は人間が手で計算するのと同じである。

In [None]:
a = [[1,0,0],[0,1,0],[0,0,1]]
b = [[1,2,3],[4,5,6],[7,8,9]]
#行列aの、i行j列要素はa[i][j]。
c = [[0 for i in range(3)] for j in range(3)]   #all zero

for i in range(3):
    for j in range(3):
        for k in range(3):
            c[i][j] += a[i][k] * b[k][j]
print(c)