<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/021%E8%BE%9E%E6%9B%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 辞書
リストは、複数のデータを並べて集めたものであると同時に、番号と値を結びつける関数とみなすこともできます。

In [None]:
a = [3,1,4,1,5,9]
print(a[1])
print(a[3])

値には文字列やリストなど、どんなデータタイプでも選べますが、番号のほうは非負の整数でなければなりません。

辞書(dictionary)を使うと、番号に文字列を使うこともできます。

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
name = input("Name?")
print(a[name])

辞書のキー( [...]の中身 )には実数でも文字列で何でも使えると書きましたが、実は制約があります。キーは定数でなければなりません。リストは変数(あとから中身をさしかえられる)なので辞書のキーには使えませんが、タプルは定数なので、辞書のキーに使えます。

In [None]:
a = dict()
a["四"] = "four" #キーは"四"、値は"four"
a[2,3] = 5       # a[(2,3)]と同じ意味
a[1,2,3] = 6
print(a)

In [None]:
a[[2,3]] = 5     #キーが変数なのでエラー

辞書はデータベースとも言えます。上の場合、"Matsumoto"をキー、"vitroid@gmail.com"を値と呼びます。辞書を使えば、電話帳が簡単に作れます。

上のプログラムでは、存在しない名前を入力するとエラーになってしまうので、辞書にその名前のキーがあるがどうかをin演算子を使って調べます。

> Pythonでは、inはいくつかの意味で使われるので、すこしまぎらわしい語です。ここのように、if文の中にあらわれるinは、文字通り、集合体(集合、文字列、リストなど)のなかにその要素が含まれているかを判別する演算子として使われています。一方、for文では、inは繰り返しを行う集合体を指定するもので、演算子ではありません。英語のinの多義性がそのままプログラム言語に反映されてしまっている、あまり好ましくない例です。

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
while True:
    name = input("Name?")
    if name == "":
        print("Bye.")
        break
    if name in a:
        print(a[name])
    else:
        print("Sorry, the name '{0}' is not found in the directory.".format(name))
        email = input("Input his/her email address:")
        a[name] = email


(実用性を考えると、新たに登録されたメールアドレスはどこかに保存しておきたいところですね。ColabはCloud上で動いているので、保存先をうまく考える必要があります。)

## 初期値を準備する方法

あらかじめ、辞書にいろんな情報を入れておきたい場合はいくつもの書き方があります。ここでは、大文字と小文字を対応させる辞書を作ってみます。

### 1. 単純な書き方

In [1]:
D = dict()
D["A"] = "a"
D["B"] = "b"
# ...

D

{'A': 'a', 'B': 'b'}

### 2. `{...}`を使う書き方

In [2]:
D = {"A": "a", "B": "b"}
D

{'A': 'a', 'B': 'b'}

### 2つのリストを融合する方法

In [6]:
caps = ["A", "B"]
small = ["a", "b"]
# zip()は2つのリストをくっつける。
for c, s in zip(caps, small):
    print(c,s)


A a
B b


In [7]:
D = dict(zip(caps, small))
D

{'A': 'a', 'B': 'b'}

In [9]:
# 文字列を文字の羅列とみなすことで、こんな書き方もできます。
D = dict(zip("ABCDEFG", "abcdefg"))
D

{'A': 'a', 'B': 'b', 'C': 'c', 'D': 'd', 'E': 'e', 'F': 'f', 'G': 'g'}

### 2つの辞書を融合する方法

In [8]:
A = {"A": "a"}
B = {"B": "b"}
D = A | B
D

{'A': 'a', 'B': 'b'}

辞書を配列の代わりに使う場合もあります。特に、ほとんどの要素が0であるようなリストは、辞書にしたほうが格段にメモリの無駄がなくなり、処理も速くなります。

### リストで書いた例

In [None]:
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = [0 for i in range(10000000)]    #すべての要素が0の、一千万個のリスト。100MB程度のメモリが必要
a[0] = 1                            #2つだけ要素を1にする。
a[9999999] = 1

for i in range(10000000):           #値が1の要素をさがす。一千万回のループ
    if a[i] == 1:
        print(i)

print(time.time()-now," sec")

### 辞書で書いた例

In [None]:
#@title
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = dict()
a[-9999999] = 1                     #2つだけ要素を1にする。
a[9999999.9] = 1
for i in a:                         #aのキーについて繰り返す。
    print(i)

print(time.time()-now," sec")

辞書のキーは負の整数でも実数でも構いません。使わない要素は0を入れておく必要もないので、メモリも処理も最小限ですみます。

## 練習問題

1. アルファベットの大文字をキー、小文字を値とする新しい辞書を作り、`D`とする。
1. アルファベットの小文字をキー、小文字を値とする新しい辞書を作り、`E`とする。
2. `D` と`E`を融合して`F`とする。
3. 辞書`F`を使い、大文字と小文字がいりまじった文字列`HelloWorld`をすべて小文字に書きかえる。
4. 大文字と小文字がいりまじった文字列をすべて小文字に書きかえる関数`lower`を作る。

## 辞書の使用例
「雨ニモマケズ」に含まれる文字の種類と個数を数えてみます。原文を以下のURLに置いてあります。これをネットからもってきます。
`https://raw.githubusercontent.com/vitroid/PythonTutorials/master/2 Advanced/amenimo.txt`

In [None]:
import requests as req
url = "https://raw.githubusercontent.com/vitroid/PythonTutorials/master/2 Advanced/amenimo.txt"
雨にも = req.get(url).text #, encoding='utf-8').text
print(雨にも)


最初のforループで、1文字ずつ処理します。

In [None]:
# 空の辞書を準備する。
lettercount = dict()

# letterには、`雨にも`の内容が1文字ずつ入る。
for letter in 雨にも:
    #すでに辞書にある文字なら
    if letter in lettercount:
        lettercount[letter] += 1
    #辞書にない文字なら初期化する
    else:
        lettercount[letter] = 1
for letter in sorted(lettercount, key=lettercount.get):
    print(letter,lettercount[letter])

再利用できるように、関数([解説](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/026関数.ipynb)) をつくってしまいます。

In [None]:
def count_members(s):
    # 空の辞書を準備する。
    count = dict()
    # cには、sの内容が1文字ずつ入る。
    for c in s:
        if c in count:
            count[c] += 1
        else:
            count[c] = 1
    # 辞書を、関数の値として返す。
    return count

lettercount = count_members(雨にも)
for letter in sorted(lettercount, key=lambda x:lettercount[x]):
    print(letter,lettercount[letter])

連続する2文字の出現頻度を数えます。

せっかく作った`count_members()`を再利用したいので、先に文章を2文字ずつに分けます。リストの一部をとりだす記法と、リスト内包記法を組みあわせました。

In [None]:
two = [雨にも[i:i+2] for i in range(len(雨にも)-1)]
print(two)

In [None]:
lettercount = count_members(two)
for letter in sorted(lettercount, key=lambda x:lettercount[x]):
    print(letter,lettercount[letter])

行末の"ズ"、"ニモ"、"アレ"、"ッテ"などが多いことがわかりました。こういった解析で、文章の作者を推測するプロファイリングができるかもしれません。



英文sample.txtを読みこみ、その中に出現する単語を抽出して、頻度の高い順に表示するプログラムを書いてみよう。


In [None]:
url = "https://raw.githubusercontent.com/vitroid/PythonTutorials/master/2 Advanced/sample.txt"
a = req.get(url).text #, encoding='utf-8').text
a

出現頻度順の単語帳を持っていると、英語に限らず、外国語を勉強する時に非常に効率がよくなる。あなたがこれから読む予定の論文から、まずは単語を全部抽出し、頻度の高い順に並べて、上から順に見ていって、上位の知らない単語をさきに辞書で調べておけば、論文を読みながら辞書を引く必要はほとんどなくなる。

単語と単語の切れ目には","、"."などの文字が使われる。いろんな区切り文字は一旦ぜんぶ空白におきかえてからsplit()関数で分割する。(もっとスマートにやりたいなら正規表現を勉強する→http://www.diveintopython3.net/regular-expressions.html)

In [None]:
# 例
#a="This sentence contains commas, semicolons; and periods.\n"
a = a.replace(';', ' ')
a = a.replace('.', ' ')
a = a.replace(',', ' ')
a = a.replace(':', ' ')
a = a.replace('"', ' ')
a = a.replace("'", ' ')
print(a)


In [None]:
words = a.split()
words

あとはでてきた単語の頻度を数える。

(頻度順で表示する部分は、自分で加筆して下さい。)

In [None]:
count_members(words)

英語のNative Speakerにボイスレコーダーをくっつけ、日常に使っている英語のすべてを一週間まるまる録音してから、使ったフレーズを出現頻度順に並べ、上から順番に丸暗記すれば、誰でもNative Speakerの言い回しができるようになると思っている。誰か、外国人向けの促成日本語教材を作ってみてはどうだろう。頻繁に「Majika」とか「Sugee」とか「Yabai」とか言う外国人が促成される気はするが。

要素と要素のつながりを辞書で表すことができます。

In [None]:
link = dict()
link["A"] = "B"
link["B"] = "C"
link["C"] = "A"

つながりをたどっていくには、次のようにします。

In [None]:
print(link[link[link["A"]]])

辞書の中に、リストを入れることもできます。以下の例では、文章中にでてくる文字を辞書のキーとし、値にはその次の文字のリストを入れます。さっきつくった、twoを再利用します。


In [None]:
two


twoの1文字目をkey、2文字目を値とするような辞書を作ります。

In [None]:
next = dict()

for first, second in two:
    if first not in next:
        # 辞書のkeyがない時は作る。
        next[first] = [second]
    else:
        # keyがある時は、値を増やす。
        next[first].append(second)

print(next)

ある文字の次に、どんな文字がどんな頻度で出現するか、という統計情報とみることもできます。これを使い、確率的に次の文字を選んでみます。リストのなかから要素を1つランダムに選ぶ`choice()`関数を利用します。

In [None]:
from random import choice
first = 'ニ'
candid = next[first]
print(candid)
nextletter = choice(candid)
nextletter

これをぐるぐる回してみます。日本語っぽいのに日本語でない文章が生じます。

In [None]:
sentence = ""
# 最初の文字は与える。
word = 'ニ'
for i in range(300):
    sentence += word
    # candidには、次に来る可能性のある文字のリストが入る。
    candid = next[word]
    # そのなかから、1つ選ぶ。
    # candidには同じ文字が重複して含まれているので、そのような文字は選ばれる確率が高くなる。
    word = choice(candid)
print(sentence)

こういう、直前の文字の情報だけで、次の文字の出現確率を決めるやり方を、**マルコフ連鎖**といいます。(モンテカルロシミュレーションは典型的なマルコフ連鎖です)

2文字を辞書のキーにし、3文字目を辞書の値に選ぶと、より日本語らしい文章になります。辞書のキーを増やせばふやすほど、本物の日本語そっくりの文章が生じるようになりますが、Pythonが日本語を理解しているわけではないので、そうしてできる文章も支離滅裂なものになります。

## 課題



### 課題1

百人一首のリストを読みこんで、決まり字(冒頭の数文字で、それを読めば、つづきが一意的に決まるようなもの)を見付けだすプログラムを書いてみよう。

例えば「むらさめの つゆもまだひぬ まきのはに」のように、「む」からはじまる歌は1つしかないので、「む」を聞いただけで、あとの句が特定できるので、この句の決まり字は「む」である。

1. 100句のよみがなをfile "百人一首.txt" から読みこんで、100要素のリストを作る。ここでは、`splitlines()`関数を使うことで、行ごとに分割されたリストにする。

In [None]:
url = "https://raw.githubusercontent.com/vitroid/PythonTutorials/master/2 Advanced/百人一首.txt"
text = req.get(url).text #, encoding='utf-8').text
lines = text.splitlines()
# linesは100個の歌が入ったリスト。
print(lines)
print(len(lines))

2. まず、冒頭の文字何文字を検討するかを決める。とりあえず、1文字を検討することとし、それをnとする。

In [None]:
n=1

3. 空の辞書を作る。辞書のキーには決まり字、値にはその決まり字ではじまる句の個数を入れることにする。
1. それぞれの句について、
    1. 最初のn文字をとりだす。これをheadとする。
    1. 辞書のkeyの中に、headがあれば、それに1を加える。なければ、1を入れる。
1. すべての辞書のキーについて
    1. 値が1であればキーを表示する。

## 課題2

2文字をキーとするマルコフ連鎖プログラムにより、より宮澤賢治っぽい文章を作るプログラムを書く。

## 課題3

日本語っぽい文章を作る方法を応用して、英語っぽいけど英語ではない文章を作ってみて下さい。