<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2020m0/2%20Advanced/021%E8%BE%9E%E6%9B%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 辞書
リストは、複数のデータを並べて集めたものであると同時に、番号と値を結びつける関数とみなすこともできます。

In [0]:
a = [3,1,4,1,5,9]
print(a[1])
print(a[3])

値には文字列やリストなど、どんなデータタイプでも選べますが、番号のほうは非負の整数でなければなりません。

辞書(dictionary)を使うと、番号に文字列を使うこともできます。

In [0]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
name = input("Name?")
print(a[name])

辞書のキー( [...]の中身 )には実数でも文字列で何でも使えると書きましたが、実は制約があります。キーは定数でなければなりません。リストは変数(あとから中身をさしかえられる)なので辞書のキーには使えませんが、タプルは定数なので、辞書のキーに使えます。

In [0]:
a = dict()
a["四"] = "four" #キーは"四"、値は"four"
a[2,3] = 5       # a[(2,3)]と同じ意味
a[1,2,3] = 6
print(a)

In [0]:
a[[2,3]] = 5     #キーが変数なのでエラー

辞書はデータベースとも言えます。上の場合、"Matsumoto"をキー、"vitroid@gmail.com"を値と呼びます。辞書を使えば、電話帳が簡単に作れます。

上のプログラムでは、存在しない名前を入力するとエラーになってしまうので、辞書にその名前のキーがあるがどうかをin演算子を使って調べます。

In [0]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
while True:
    name = input("Name?")
    if name == "":
        print("Bye.")
        break
    if name in a:
        print(a[name])
    else:
        print("Sorry, the name '{0}' is not found in the directory.".format(name))
        email = input("Input his/her email address:")
        a[name] = email


辞書を配列の代わりに使う場合もあります。特に、ほとんどの要素が0であるようなリストは、辞書にしたほうが格段にメモリの無駄がなくなり、処理も速くなります。

### リストで書いた例

In [0]:
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = [0 for i in range(10000000)]    #すべての要素が0の、一千万個のリスト。100MB程度のメモリが必要
a[0] = 1                            #2つだけ要素を1にする。
a[9999999] = 1

for i in range(10000000):           #値が1の要素をさがす。一千万回のループ
    if a[i] == 1:
        print(i)

print(time.time()-now," sec")

### 辞書で書いた例

In [0]:
#@title
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = dict()
a[-9999999] = 1                     #2つだけ要素を1にする。
a[9999999.9] = 1
for i in a:                         #aのキーについて繰り返す。
    print(i)

print(time.time()-now," sec")

辞書のキーは負の整数でも実数でも構いません。使わない要素は0を入れておく必要もないので、メモリも処理も最小限ですみます。

## 辞書の使用例
「雨ニモマケズ」に含まれる文字の種類と個数を数えてみます。原文を青空文庫からもってきて、

In [0]:
import urllib  as u1
url = "https://" + u1.parse.quote("raw.githubusercontent.com/vitroid/PythonTutorials/2020m0/2 Advanced/amenimo.txt")
print(url)
import requests as req
雨にも = req.get(url).text #, encoding='utf-8').text
print(雨にも)


In [0]:
lettercount = dict()
for letter in 雨にも:
    #すでに辞書にある文字なら
    if letter in lettercount:
        lettercount[letter] += 1
    #辞書にない文字なら初期化する
    else:
        lettercount[letter] = 1
for letter in sorted(lettercount, key=lettercount.get):
    print(letter,lettercount[letter])

関数をつかって、もっとシンプルに書けます。

In [0]:
def count_members(s):
    count = dict()
    for c in s:
        if c in count:
            count[c] += 1
        else:
            count[c] = 1
    return count

lettercount = count_members(雨にも)
for letter in sorted(lettercount, key=lambda x:lettercount[x]):
    print(letter,lettercount[letter])

連続する2文字の出現頻度を数えます。行末の"ズ"、"ニモ"、"アレ"、"ッテ"などが多いことがわかりました。こういった解析で、文章の作者を推測するプロファイリングができるかもしれません。

In [0]:
lettercount = dict()
for i in range(len(雨にも)-1):
    #2文字のタプルを作る
    two = 雨にもまけず[i:i+2]
    #すでに辞書にある文字なら
    if two in lettercount:
        lettercount[two] += 1
    #辞書にない文字なら初期化する
    else:
        lettercount[two] = 1
for two in sorted(lettercount, key=lettercount.get):
    print(two,lettercount[two])

要素と要素のつながりを辞書で表すことができます。

In [0]:
link = dict()
link["A"] = "B"
link["B"] = "C"
link["C"] = "A"

つながりをたどっていくには、次のようにします。

In [0]:
print(link[link[link["A"]]])

## 宿題
どちらかを選んでプログラムを作成して下さい。

### 問題1
百人一首のリストを読みこんで、決まり字(冒頭の数文字で、それを読めば、つづきが一意的に決まるようなもの)を見付けだすプログラムを書いてみよう。

例えば「むらさめの つゆもまだひぬ まきのはに」のように、「む」からはじまる歌は1つしかないので、「む」を聞いただけで、あとの句が特定できるので、この句の決まり字は「む」である。

1. 100句のよみがなをfile "百人一首.txt" から読みこんで、100要素のリストを作る。ここでは、`readlines()`関数を使うことで、行ごとに分割されたリストが自動的にできあがる。

In [0]:
# Google Colabを使い、URL指定でファイルを読みこむ。
import urllib  as u1
url = "https://" + u1.parse.quote("raw.githubusercontent.com/vitroid/PythonTutorials/2020m0/2 Advanced/百人一首.txt")
import requests as req
lines = req.get(url).text.splitlines() #, encoding='utf-8').text
# linesは100個の歌が入ったリスト。
print(lines)
print(len(lines))

2. まず、冒頭の文字何文字を検討するかを決める。とりあえず、1文字を検討することとし、それをnとする。

In [0]:
n=1

3. 空の辞書を作る。辞書のキーには決まり字、値にはその決まり字ではじまる句の個数を入れることにする。
1. それぞれの句について、
    1. 最初のn文字をとりだす。これをheadとする。
    1. 辞書のkeyの中に、headがあれば、それに1を加える。なければ、1を入れる。
1. すべての辞書のキーについて
    1. 値が1であればキーを表示する。

### 問題2
英文sample.txtを読みこみ、その中に出現する単語を抽出して、頻度の高い順に表示するプログラムを書いてみよう。

長い文章をファイルから読みこむのは、`readlines()`で読みこんで`join()`で一文につないでしまう。

In [0]:
a = "".join(open("sample.txt").readlines())
a

出現頻度順の単語帳を持っていると、英語に限らず、外国語を勉強する時に非常に効率がよくなる。あなたがこれから読む予定の論文から、まずは単語を全部抽出し、頻度の高い順に並べて、上から順に見ていって、上位の知らない単語をさきに辞書で調べておけば、論文を読みながら辞書を引く必要はほとんどなくなる。

単語と単語の切れ目には","、"."などの文字が使われる。いろんな区切り文字は一旦ぜんぶ空白におきかえてからsplit()関数で分割する。(もっとスマートにやりたいなら正規表現を勉強する→http://www.diveintopython3.net/regular-expressions.html)

In [0]:
# 例
#a="This sentence contains commas, semicolons; and periods.\n"
a = a.replace(';', ' ')
a = a.replace('.', ' ')
a = a.replace(',', ' ')
a = a.replace(':', ' ')
a = a.replace('"', ' ')
a = a.replace("'", ' ')
print(a)
words = a.split()
print(words)

あとはでてきた単語を辞書wordcountに入れて、上の例とおなじように回数を数える。

キー(単語)の順でソートするなら、上のほうでもでてきた通り、

In [0]:
for key in sorted(wordcount):

でいいのだが、出現頻度順でソートする場合には、値でソートしなければいけない。その場合は、次のような書き方を使う。

In [0]:
for key in sorted(wordcount, key=wordcount.get):

英語のNative Speakerにボイスレコーダーをくっつけ、日常に使っている英語のすべてを一週間まるまる録音してから、使ったフレーズを出現頻度順に並べ、上から順番に丸暗記すれば、誰でもNative Speakerの言い回しができるようになると思っている。誰か、外国人向けの促成日本語教材を作ってみてはどうだろう。頻繁に「Majika」とか「Sugee」とか「Yabai」とか言う外国人が促成される気はするが。