In [1]:
import random
random.seed(5)
my_array = [random.randint(0, 100) for i in range(15)]
my_array

[79, 32, 94, 45, 88, 94, 83, 67, 3, 59, 99, 31, 83, 6, 20]

In [2]:
32 in my_array

True

In [3]:
50 in my_array

False

In [4]:
my_array.index(32)

1

In [5]:
my_array.index(50)

ValueError: 50 is not in list

In [6]:
def linear_search(array, target):
    for v in array:
        if target == v:
            return True
    return False

In [7]:
linear_search(my_array, 32)

True

In [8]:
linear_search(my_array, 50)

False

In [9]:
import bisect
my_array.sort()
bisect.bisect(my_array, 40)

5

In [10]:
bisect.bisect(my_array, 32)


5

In [11]:
bisect.bisect_right(my_array, 32)

5

In [12]:
bisect.bisect_left(my_array, 32)

4

In [13]:
test_array = [1, 2, 2, 2, 3, 4]
bisect.bisect_left(test_array, 2)

1

In [14]:
bisect.bisect_right(test_array, 2)

4

https://github.com/python/cpython/blob/master/Lib/bisect.py

In [15]:
class Node:

    def __init__(self, value):
        self.value = value
        self.left = None
        self.right = None

    def __str__(self):
        # Nodeクラスのインスタンスを文字列表現にする
        left = f'[{self.left.value}]' if self.left else '[]'
        right = f'[{self.right.value}]' if self.right else '[]'
        return f'{left} <- {self.value} -> {right}'


class BinarySearchTree:

    def __init__(self):
        self.nodes = []

    def add_node(self, value):
        node = Node(value)
        if self.nodes:
            # 自分の親ノードを探す
            parent, direction = self.find_parent(value)
            if direction == 'left':
                parent.left = node
            else:
                parent.right = node
        # この木のノードとして格納
        self.nodes.append(node)
    
    def find_parent(self, value):
        node = self.nodes[0]
        # nodeがNoneになるまでループを回す
        while node:
            p = node  # 戻り値の候補（親かもしれない）としてとっておく。
            if p.value == value:
                raise ValueError('すでにある値と同じ値を格納することはできません。')
            if p.value > value:
                direction = 'left'
                node = p.left
            else:
                direction = 'right'
                node = p.right
        return p, direction

In [16]:
btree = BinarySearchTree()
for v in [10, 20, 12, 4, 3, 9, 30]:
    btree.add_node(v)

# 1つ1つのノードを文字列にする
for node in btree.nodes:
    print(node)

[4] <- 10 -> [20]
[12] <- 20 -> [30]
[] <- 12 -> []
[3] <- 4 -> [9]
[] <- 3 -> []
[] <- 9 -> []
[] <- 30 -> []


In [17]:
btree = BinarySearchTree()
for v in sorted([10, 20, 12, 4, 3, 9, 30]):
    btree.add_node(v)

for node in btree.nodes:
    print(node)

[] <- 3 -> [4]
[] <- 4 -> [9]
[] <- 9 -> [10]
[] <- 10 -> [12]
[] <- 12 -> [20]
[] <- 20 -> [30]
[] <- 30 -> []


In [18]:
import heapq

def heap_sort(array):
    heap = []
    for v in array:
        heapq.heappush(heap, v)
    return [heapq.heappop(heap) for i in range(len(heap))]

In [19]:
my_array = [random.randint(0,100) for i in range(15)]
my_array

[14, 47, 60, 31, 48, 69, 13, 73, 31, 1, 93, 27, 52, 35, 23]

In [20]:
heap_sort(my_array)

[1, 13, 14, 23, 27, 31, 31, 35, 47, 48, 52, 60, 69, 73, 93]

In [21]:
# 空の辞書型をつくる
my_dic = {}

# キー：文字列「taro」、値：整数の10
my_dic['taro'] = 10

# キー：整数の2、値：リスト
my_dic[2] = [1, 2, 3]

In [22]:
my_dic['taro'] = 30
my_dic[2].append(25)
my_dic

{'taro': 30, 2: [1, 2, 3, 25]}

In [23]:
my_dic[[1, 2, 3]] = 'my list'

TypeError: unhashable type: 'list'

In [24]:
hash('taro')

4052057174978533987

In [25]:
# エラーになる
hash([1, 2, 3])

TypeError: unhashable type: 'list'

In [26]:
a = 'abc'
hash(a) == hash('abc')

True

In [27]:
hash(123) - hash(123.1)

-230584300921356288

In [28]:
divmod(301, 100)

(3, 1)

In [29]:
divmod(-999, 100)

(-10, 1)

In [30]:
class HashTable:

    def __init__(self, table_size=100):
        # テーブルのサイズを引数で変更できるようにしてある
        self.data = [[] for i in range(table_size)]
        self.n = table_size

    def get_hash(self, v):
        # オブジェクトのハッシュ値を計算する
        return hash(v) % self.n
        
    def search(self, key):
        # keyを使って値を探す
        i = self.get_hash(key)
        for j, v in enumerate(self.data[i]):
            if v[0] == key:
                return (i, j)
        return (i, -1)

    def set(self, key, value):
        # データを格納するべき場所を探す
        i, j = self.search(key)
        if j != -1 :
            # すでにある値を書き換える
            self.data[i][j][1] = value
        else:
            # 新たなデータとして付け加える
            self.data[i].append([key, value])
        
    def get(self, key):
        i, j = self.search(key)
        if j != -1:
            return self.data[i][j][1]
        # キーが見付からない場合はエラーを返す
        raise KeyError(f'{key} was not found in this HashTable!')

In [31]:
my_hash_table = HashTable()
my_hash_table.set('taro', 10)
my_hash_table.get('taro')

10

# 練習問題解答

## 5.1

randomモジュールのsampleは、重複がないサンプリングをしてくれるので、ランダムに10個の整数を生成するには、10種類以上の整数を用意してこの関数を使えば良い。

In [32]:
vals = random.sample(range(20), 10)

btree = BinarySearchTree()
for v in vals:
    btree.add_node(v)
    
for node in btree.nodes:
    print(node)

[5] <- 12 -> [14]
[2] <- 5 -> []
[0] <- 2 -> [4]
[3] <- 4 -> []
[] <- 14 -> [17]
[15] <- 17 -> [19]
[] <- 15 -> []
[] <- 0 -> []
[] <- 19 -> []
[] <- 3 -> []


この出力を頼りに、手書きで木構造を再現すると木への理解が深まるだろう。

random.sampleを用いずに10個の異なる整数が格納されたリストを作るには、次のようなコードを書くことができる。

In [33]:
res = set()

while len(res) < 10:
    res.add(random.randint(0, 19))

list(res)

[0, 4, 5, 6, 9, 10, 11, 12, 13, 17]

## 5.2

`5．1`のvalsをそのまま利用しよう。

In [34]:
import heapq

heapq.heapify(vals)
vals

[0, 3, 2, 4, 12, 17, 15, 5, 19, 14]

ヒープは完全二分木になっていて、要素を順に並べていけば木構造を再現できる。手書きで再現してみると良いだろう。計算でも確認できる。$i=2$として計算してみよう。

In [35]:
i = 2
vals[i] <= vals[2*i + 1] and vals[i] <= vals[2*i + 2]

True

heapqモジュールに関するさらに詳しい内容は、公式ドキュメントが参考になる。

https://docs.python.org/3/library/heapq.html

## 5.3

公式ドキュメントやWebの情報が参考になるだろう。また、1と1.0を使った実行例からも、これらの違いを推測できるかもしれない。

In [36]:
id(1)

4304853376

In [37]:
id(1.0)

4548879632

In [38]:
hash(1.0)

1

In [39]:
hash(1)

1

hash関数は、数値として同じ値は同じハッシュ値を返す。これはhashがその計算の根拠を、オブジェクトとして等しいかどうかに置いているためだ。一方、idはメモリ空間のどこにそのオブジェクトがあるかを、計算の根拠にしている。1と1.0は整数と小数で本来別のオブジェクトなので、メモリ空間では別の場所に保持されている。このため、idの戻り値は全く異なったものとなる。

## 5.4

サイズが100のハッシュテーブルを作り、ランダムに整数のキーを生成して、値として同じ文字列を格納する操作を300回繰り返す。キーは、0〜2000の整数から選ぶことにする。

In [40]:
my_hash_table = HashTable(table_size=100)

for i in range(300):
    my_hash_table.set(random.randint(0, 2000), 'test')

data属性を表示すれば、ハッシュテーブルの中身がわかる。

In [41]:
my_hash_table.data

[[[1200, 'test'], [300, 'test'], [400, 'test']],
 [[1601, 'test'], [601, 'test'], [1201, 'test']],
 [[402, 'test']],
 [[503, 'test'],
  [1903, 'test'],
  [303, 'test'],
  [603, 'test'],
  [1203, 'test'],
  [903, 'test']],
 [[1404, 'test'], [304, 'test'], [704, 'test'], [1304, 'test']],
 [[705, 'test'], [605, 'test'], [305, 'test']],
 [[6, 'test'], [406, 'test']],
 [[1207, 'test'], [1307, 'test'], [1007, 'test'], [707, 'test']],
 [],
 [[1609, 'test'], [1409, 'test']],
 [[1010, 'test'], [1410, 'test'], [1710, 'test']],
 [[1411, 'test'], [1511, 'test']],
 [[512, 'test'], [712, 'test']],
 [[1613, 'test'], [513, 'test'], [1713, 'test']],
 [[114, 'test'], [1414, 'test']],
 [],
 [[116, 'test'],
  [1116, 'test'],
  [1516, 'test'],
  [1216, 'test'],
  [716, 'test'],
  [1416, 'test']],
 [[617, 'test'], [1717, 'test'], [1917, 'test']],
 [[18, 'test'], [218, 'test']],
 [[1919, 'test'], [1319, 'test'], [619, 'test']],
 [[1220, 'test'], [120, 'test'], [1120, 'test'], [1920, 'test']],
 [[221, 'test']

キーが違っても同じハッシュ値が生成される衝突が頻繁に起きている。それぞれの要素の長さを調べてみよう。このような時は、collectionsのCounterが便利だ。

In [42]:
import collections

collections.Counter([len(v) for v in my_hash_table.data])

Counter({3: 22, 1: 15, 6: 5, 4: 20, 2: 28, 0: 3, 5: 7})

ハッシュテーブルではハッシュ値の衝突が起きると、その後に線形探索をしなければならない。できるだけハッシュ値が衝突しない方が良いが、これはテーブルのサイズと格納するデータの種類に依存する。