<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/021%E8%BE%9E%E6%9B%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 辞書 / Dictionary (a.k.a hash)

リストは、複数のデータを並べて集めたものであると同時に、番号と値を結びつける関数とみなすこともできます。

A list can be viewed as a collection of multiple data arranged side by side as well as a function that associates a number with a value.

In [None]:
a = [3,1,4,1,5,9]
print(a[1]) # 1
print(a[3]) # 1

値には文字列やリストなど、どんなデータタイプでも選べますが、番号のほうは非負の整数でなければなりません。

これに対し、辞書(dictionary)を使うと、番号に文字列を使うこともできます。

The value can be any data type, such as a string or list, but the index must be a non-negative integer.

In contrast, using a dictionary, you can also use a string for the index.

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
name = input("Name?")
print(a[name])

辞書のキー( `[...]`の中身 )には実数でも文字列で何でも使えると書きましたが、実は制約があります。キーは定数でなければなりません。リストは変数(あとから中身をさしかえられる)なので辞書のキーには使えませんが、タプルは定数なので、辞書のキーに使えます。

The dictionary keys ( content in the bracket ) can be any type of contant data such as a real number or a string. A list cannot be used as dictionary keys because they are not constant (whose contents can be added later). Tuples can be used as dictionary keys because they are constants.

In [None]:
a = dict()
a["四"] = "four" # the key is "四" and the value is "four"
a[2,3] = 5       # same as a[(2,3)]; the key is a tuple
a[1,2,3] = 6
print(a)

In [None]:
a[[2,3]] = 5     # Causes an error because the disctionary key is non-constant.

辞書はデータベースとも言えます。上の場合、"Matsumoto"をキー、"vitroid@gmail.com"を値と呼びます。辞書を使えば、電話帳が簡単に作れます。

上のプログラムでは、存在しない名前を入力するとエラーになってしまうので、辞書にその名前のキーがあるがどうかをin演算子を使って調べます。

> Pythonでは、`in`はいくつかの意味で使われるので、すこしまぎらわしい語です。ここのように、`if`文の中にあらわれる`in`は、文字通り、集合体(集合、文字列、リストなど)のなかにその要素が含まれているかを判別する演算子として使われています。一方、`for`文では、inは繰り返しを行う集合体を指定するもので、演算子ではありません。英語の`in`の多義性がそのままプログラム言語に反映されてしまっている、あまり好ましくない例です。

A dictionary is also a database. In the above case, "Matsumoto" is called the key and "vitroid@gmail.com" is called the value. Using dictionaries, it is easy to create a phone book.

In the above program, we use the `in` operator to check if there is a key for the name in the dictionary, because entering a name that does not exist will result in an error.

> In Python, `in` can be used in several ways, so it can be a bit confusing. As shown here, `in` is used in an `if` statement as an operator to determine whether an element is contained in a set (a set, string, list, etc.). In a `for` statement, on the other hand, in specifies an aggregate to be repeated and is not an operator. This is an unfavorable example of the polysemy of the English word "in" that is directly reflected in the programming language.

In [None]:
a = dict()
a["Matsumoto"] = "vitroid@gmail.com"
a["Tanaka"]    = "htanakaa@okayama-u.ac.jp"
while True:
    name = input("Name?")
    if name == "":
        print("Bye.")
        break
    if name in a:
        print(a[name])
    else:
        print("Sorry, the name '{0}' is not found in the directory.".format(name))
        email = input("Input his/her email address:")
        a[name] = email


## 初期値を準備する方法 / Initialize a dict

あらかじめ、辞書にいろんな情報を入れておきたい場合はいくつもの書き方があります。ここでは、大文字と小文字を対応させる辞書を作ってみます。

There are a number of ways to prepare a dictionary if you want to include various information in advance. Here, we will try to create a dictionary that maps uppercase and lowercase letters.

### 1. 単純な書き方 / The simplest

In [None]:
D = dict()
D["A"] = "a"
D["B"] = "b"
# ...

D

### 2. `{...}`を使う書き方 / using the curly brackets

In [None]:
D = {"A": "a", "B": "b"}
D

### 3. dict()を使う / using dict()


In [None]:
D = dict(A="a", B="b")
D

### 4. 2つのリストを融合する方法 / Combining two lists

In [None]:
caps = ["A", "B"]
small = ["a", "b"]
# zip()は2つのリストをくっつける。
for c, s in zip(caps, small):
    print(c,s)


In [None]:
D = dict(zip(caps, small))
D

In [None]:
# 文字列を文字の羅列とみなすことで、こんな書き方もできます。
D = dict(zip("ABCDEFG", "abcdefg"))
D

### 5. 2つの辞書を融合する方法 / Combining two dicts

In [None]:
A = {"A": "a"}
B = {"B": "b"}
D = A | B
D

### Exercise

いずれかの書き方で、すべてのアルファベットの大文字と小文字を対応させる辞書を作って下さい。

Use either systax to create a dictionary that maps all uppercase and lowercase letters of the alphabet.

辞書を配列の代わりに使う場合もあります。特に、ほとんどの要素が0であるようなリストは、辞書にしたほうが格段にメモリの無駄がなくなり、処理も速くなります。

Dictionaries may be used in place of arrays (lists). In particular, for sparse arrays where most of the elements are zeros, it is much less memory-wasting and faster to use a dictionary.

### リストで書いた例 / using a list

In [None]:
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。 time() returns the current time in seconds.

a = [0 for i in range(10000000)]    #すべての要素が0の、一千万個のリスト。100MB程度のメモリが必要 A huge list constsing of 10 million items.
a[0] = 1                            #2つだけ要素を1にする。 Set a single item to be one.
a[9999999] = 1

for i in range(10000000):           #値が1の要素をさがす。一千万回のループ Find the element by iteration.
    if a[i] == 1:
        print(i)

print(time.time()-now," sec")

### 辞書で書いた例 / using a dict

In [None]:
#@title
import time
now = time.time()                   #time.time()関数は現在時刻を秒単位の実数で返す。

a = dict()
a[-9999999] = 1                     #2つだけ要素を1にする。 Set values of some items to be one.
a[9999999.9] = 1
for i in a:                         #aのキーについて繰り返す。 Finding the element is trivial.
    print(i)

print(time.time()-now," sec")

辞書のキーは負の整数でも実数でも構いません。使わない要素は0を入れておく必要もないので、メモリも処理も最小限ですみます。

Keys in the dictionary can be negative integers or real numbers. There is no need to keep unused elements with zeros, so memory and processing are minimal.

## 練習問題 / Exercise

1. アルファベットの大文字をキー、小文字を値とする新しい辞書を作り、`D`とする。
1. アルファベットの小文字をキー、小文字を値とする新しい辞書を作り、`E`とする。
2. `D` と`E`を融合して`F`とする。
3. 辞書`F`を使い、大文字と小文字がいりまじった文字列`HelloWorld`をすべて小文字に書きかえる。


* 

1. create a new dictionary `D` with uppercase alphabet as key and lowercase alphabet as value.
2. Create a new dictionary `E` whose keys and values are both lower case letters.
3. Merge `D` and `E` into a new dict `F`.
4. Using the dictionary `F`, rewrite the mixed-case string `HelloWorld` in all lowercase.


## 辞書の使用例 / Examples
「ロミオとジュリエット」に含まれる文字の種類と個数を数えてみます。原文はProject Gutenbergの以下のURLにあります。
`https://www.gutenberg.org/ebooks/1513.txt.utf-8`

In [None]:
import requests as req
url = "https://www.gutenberg.org/ebooks/1513.txt.utf-8"
RJ = req.get(url).text #, encoding='utf-8').text
print(RJ)


最初のforループで、1文字ずつ処理します。

In [None]:
# 空の辞書を準備する。 Empty dict()
lettercount = dict()

# letterには、RJの文字が1文字ずつ入る。 for every letter in the string RJ
for letter in RJ:
    if letter not in lettercount:
        #辞書にない文字なら初期化する initialize an item if it is not in the dict
        lettercount[letter] = 0
    # count up
    lettercount[letter] += 1

# and print
for letter in lettercount:
    print(letter,lettercount[letter])

再利用できるように、関数([解説](https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/026関数.ipynb))`count_members`をつくってしまいます。

Define a function in order to reuse the procedure.

In [None]:
def count_members(s):
    """
    count number of occurrence of each item in a collection of data s.
    """
    # 空の辞書を準備する。
    count = dict()
    # cには、sの内容が1文字ずつ入る。
    for c in s:
        if c not in count:
            count[c] = 0
        count[c] += 1
    # 辞書を、関数の値として返す。
    return count

lettercount = count_members(RJ)
for letter in lettercount:
    print(letter,lettercount[letter])

文字ではなく単語単位で数えます。 

せっかく作った`count_members()`を再利用したいので、まず、記号を除去します。

Let us count words instead of letters.

To reuse the function, we first remove the symbols and numbers from the text.

In [None]:
RJ2 = ""
for letter in RJ:
    if letter in "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz ":
        RJ2 += letter
    else:
        RJ2 += " "

RJ2


そして空白で分割します。

And divide it at the spaces.

In [None]:
words = RJ2.split()
words

数えさせます。

Count.

In [None]:
wordcount = count_members(words)
for word in wordcount:
    print(word,wordcount[word])

わかりにくいので、出現頻度でソートします。

Sort it by occurrence frequency.

In [None]:
for word in sorted(wordcount, key=wordcount.get):
    print(word,wordcount[word])

現代では見かけないthou, thee, thyを除けば、知らない語はほとんどありません。また、"Project" "Gutenberg"がかなり多数みつかったことから、本文以外の文章が紛れこんでいることがわかります。本格的に分析するためには、本文だけを抽出する必要がありそうです。

Except for thou, thee, and thy, which are not found in modern texts, there are few unfamiliar words. The fact that "Project" and "Gutenberg" were found in large numbers indicates that there are sentences other than the main text mixed in. For a finer analysis, it may be necessary to extract only the main body text.


英語のNative Speakerにボイスレコーダーをくっつけ、日常に使っている英語のすべてを一週間まるまる録音してから、使ったフレーズを出現頻度順に並べ、上から順番に丸暗記すれば、誰でもNative Speakerの言い回しができるようになると思っている。誰か、外国人向けの促成日本語教材を作ってみてはどうだろう。頻繁に「Majika」とか「Sugee」とか「Yabai」とか言う外国人が促成される気はするが。

I believe that if we attach a voice recorder to an English native speaker and record all of his/her daily English for an entire week, then list the phrases used in order of frequency of occurrence and memorize them from the top to the bottom, anyone will be able to speak the native speaker's way of speaking. How about someone make a prompt Japanese teaching material for foreigners? I have a feeling that it would prompt foreigners to say "Majika", "Sugee", or "Yabai" frequently.

辞書を使い、語と語のつながりを分析してみましょう。

Let us analyze the word-to-word connections.

上の例では、記号を除去しましたが、ここでは省略し、`RJ`を分割して`words`にします。

In the example above, we removed the symbol, but here we omit the process and split the `RJ` into `words`.

In [None]:
words = RJ.split()
words

これを加工し、最初の語と、それに続く語のペアにします。

We processed it to make pairs of the first word and the word following it.

In [None]:
# first: words 
first = words
# second: words (except the first word)
second = words[1:]

print(first)
print(second)

ある語の次にどんな語が来るかを、辞書を使って集計します。辞書`nextwords`のキーは最初の語、値は最初の語に続く語を集めたリストとします。

A dictionary is used to count what words come after a word. The key of the dictionary `nextwords` is the first word and the value is a list of words following the first word.

In [None]:
nextwords = dict()

for word in first:
    nextwords[word] = []



`zip`は、2つのリストを同時に扱うのに便利です。以下に使用例を示します。

`zip` is useful for iterating two listings at the same time. Here is an example.


In [None]:
for w1, w2 in zip(first, second):
    print(w1,w2)


次にくる語を、どんどんnextwordsに書きくわえます。

The next word is added to the `nextwords` in order.


In [None]:
for w1, w2 in zip(first, second):
    # nextwords[w1]の内容は空のリスト。それにw2を書き加える。 Content of nextwords[w1] is an empty list. w2 is appended to it.
    nextwords[w1].append(w2)

# theのつぎに来る語は? WHat is the word candidates next to "the"?
nextwords["the"]

ある語の次に、どんな語がどんな頻度で出現するか、という統計情報とみることもできます。これを使い、確率的に次の語を選んでみます。リストのなかから要素を1つランダムに選ぶ`choice()`関数を利用します。

It can also be regarded as statistical information about how often a certain word appears next to another word. Using this information, we try to select the next word probabilistically. We use the `choice()` function to randomly select one element from the list.

In [None]:
from random import choice
first = 'the'
candid = nextwords[first]
print(candid)
nextletter = choice(candid)
nextletter

これをぐるぐる回してみます。意味不明な英文のような文章ができます。

Let's iterate it. You will get a sentence that looks like an unintelligible English sentence.

In [None]:
sentence = ""
# 最初の文字は与える。 The sentence begins at "The".
word = 'The'
for i in range(300):
    sentence += word + " "
    # candidには、次に来る可能性のある文字のリストが入る。
    candid = nextwords[word]
    # そのなかから、1つ選ぶ。
    # candidには同じ文字が重複して含まれているので、そのような文字は選ばれる確率が高くなる。
    word = choice(candid)
print(sentence)

こういう、直前の語の情報だけで、次の語の出現確率を決めるやり方を、**マルコフ連鎖**といいます。(モンテカルロシミュレーションは典型的なマルコフ連鎖です)

This method of determining the probability of the occurrence of the next word based solely on the information of the previous word is called a **Markov chain**. (A Monte Carlo simulation is a typical Markov chain.)


## 課題 Practice

2語を辞書のキーにし、3語目を辞書の値に選ぶと、よりもっともらしい文章になります。つまり、`nextwords[w1, w2]`のように、`netxowrds`のキーを連続する2語とし、その次にくる語を蒐集し、それを使って文章を合成します。

Choosing two words as the dictionary key and the third word as the dictionary value makes the sentence more plausible. In other words, as in `nextwords[w1, w2]`, the key of `netxowrds` is two consecutive words, the next word is collected, and the sentence is composed using it.

1. `first`, `second`に加えて`third`を準備しておきます。 Prepare `third` in addition to `first` and `second`.
```python
third = words[2:]
```
2. `nextwords`に語の連鎖を書き加える時には、`w1, w2`をキーとし、`w3`をリストに付けたします。 When adding a chain of words to `nextwords`, use `w1, w2` as keys and append `w3` to the list.
```python
for w1, w2, w3 in zip(first, second, third):
    # nextwords[w1,w2]の内容は空のリスト。それにw3を書き加える。 Content of nextwords[w1,w2] is an empty list. w3 is appended to it.
    nextwords[w1,w2].append(w3)
```

ここまでの説明ででてきたプログラムのパーツと組みあわせて、プログラムを完成させて下さい。

Complete the program by combining it with the parts of the program described up to this point. 