<a href="https://colab.research.google.com/github/Sakuya649/book/blob/main/Python%E3%81%A7%E5%AD%A6%E3%81%B6%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0%E3%81%A8%E3%83%87%E3%83%BC%E3%82%BF%E6%A7%8B%E9%80%A0/chap05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

リストの中からデータを探す

in list　を使用する

list.index(value)

→valueのデータがあるインデックスを返す（データがなければValueError）

In [None]:
import random
random.seed(8)
test_list = [random.randint(0, 100) for i in range(10)]
print(test_list)

#inを使ったデータ探索
print(10 in test_list)
print(100 in test_list)

#indexの検索
print(test_list.index(10))


[29, 47, 48, 16, 24, 90, 5, 10, 17, 31]
True
False
7


線形探索の実装

入力配列の長さがnの時，計算量はO(n)

In [None]:
def linear_search(target, data_list):
  for data in data_list:
    if data == target:
      return True
  return False

print(linear_search(10, test_list))
print(linear_search(100, test_list))

True
False


二分探索

配列の真ん中の要素と検索対象の要素が大きいかを比較していく．
ソート済みの配列に対してデータを検索する際に使う．はやい，べんり．

1ステップごとに検索に必要な長さが半分になるため，計算量はO(logn)

In [None]:
import bisect
random.seed(8)
test_list2 = [random.randint(0, 100) for i in range(10)]
test_list2.sort()
print(test_list2)

#bisect.bisectは引数の数値を挿入すべき場所（挿入してもソートされた配列が乱れない場所）を返す
print(bisect.bisect(test_list2, 18))

#bisect.bisectの2種類の関数
#同じデータがある時，その挿入点を右側として返すか，左側として返すかの違い
test_list3 = [1, 2, 2, 2, 3]
print(test_list3)
print(bisect.bisect_left(test_list3, 2))
print(bisect.bisect_right(test_list3, 2))


[5, 10, 16, 17, 24, 29, 31, 47, 48, 90]
4
[1, 2, 2, 2, 3]
1
4


木構造

ノード(node)と枝(branch)からなるデータ構造．最も上のノードは根(root)といい，親のノードを持たない．
逆に子ノードを持たないものは葉(leaf)という．

根からあるノードまでの枝の数を深さ(depth)，根から最も遠い葉までの枝の数を高さ(height)という．

子ノードの数が2個までの木構造を二分木，中でも葉までの距離が全て等しいものを完全二分木という．

In [None]:
#二分探索木
class Node:
  def __init__(self, value):
    self.value = value
    self.left = None
    self.right = None
  
  def __str__(self):
    #Nodeクラスのインスタンスを文字列表現にする
    left = f'[{self.left.value}]' if self.left else '[]'
    right = f'[{self.right.value}]' if self.right else '[]'
    return f'{left} <- {self.value} -> {right}'

class BinarySearchTree:
  def __init__(self):
    self.nodes = []
  
  def add_node(self, value):
    node = Node(value)
    if self.nodes:
      #自分の親ノードを探す
      parent, direction = self.find_parent(value)
      if direction == 'left':
        parent.left = node
      else:
        parent.right = node
    #この木のノードとして格納
    self.nodes.append(node)

  def find_parent(self, value):
    node = self.nodes[0]
    #nodeがNoneになるまでループ
    while node:
      p = node #戻り値の候補としてとっておく
      if p.value == value:
        raise ValueError('すでにあるノードと同じ値を格納することはできません')
      if p.value > value:
        direction = 'left'
        node = p.left
      else:
        direction = 'right'
        node = p.right
    return p, direction

In [None]:
btree = BinarySearchTree()
for v in [10, 20, 12, 4, 3, 9, 30]:
  btree.add_node(v)

for node in btree.nodes:
  print(node)

print("--------------")

btree.add_node(13)
btree.add_node(29)
btree.add_node(100)

for node in btree.nodes:
  print(node)

[4] <- 10 -> [20]
[12] <- 20 -> [30]
[] <- 12 -> []
[3] <- 4 -> [9]
[] <- 3 -> []
[] <- 9 -> []
[] <- 30 -> []
--------------
[4] <- 10 -> [20]
[12] <- 20 -> [30]
[] <- 12 -> [13]
[3] <- 4 -> [9]
[] <- 3 -> []
[] <- 9 -> []
[29] <- 30 -> [100]
[] <- 13 -> []
[] <- 29 -> []
[] <- 100 -> []


ヒープ構造

データの最小値・最大値を知りたい時に便利なデータ構造．

ヒープは完全二分木で表現される．
木の高さをhとした時，ノード数は2^(h+1)-1にならない時は左から順に葉が並ぶ．

ヒープの更新

ヒープは完全二分木であるため，頂点の数をnとすると深さはlog(n)となる．
大小関係の矛盾を解決するためのステップは根から葉に到達するまでで良いため，計算量はO(logn)．

入力サイズをnとした場合のヒープソートの計算量は，ヒープの作成にO(n)，各ステップでヒープの更新があり，その計算量はO(logn)．要素がn個あるのでn(nlogn)．


ヒープソート



In [None]:
import heapq

def heap_sort(array):
  heap = []
  for v in array:
    heapq.heappush(heap, v)
  return [heapq.heappop(heap) for i in range((len(heap)))]


In [None]:
test_array4 = [random.randint(0, 100) for i in range(10)]
print(test_array4)

print(heap_sort(test_array4))

[49, 79, 48, 13, 84, 7, 43, 30, 88, 11]
[7, 11, 13, 30, 43, 48, 49, 79, 84, 88]


ハッシュを使った探索とハッシュテーブルの構造

ハッシュテーブル：データの探索を高速に行うためのデータ構造

データのハッシュ値を計算しその値に応じた場所にデータを格納する

→計算量はデータのサイズによらずO(1)

In [5]:
#ハッシュテーブル
class HashTable:
  def __init__(self, table_size=100):
    #テーブルのサイズを変数で変更できる
    self.data = [[] for i in range(table_size)]
    self.n = table_size

  def get_hash(self, v):
    #オブジェクトのハッシュ値を計算する
    return hash(v) % self.n
  
  def search(self, key):
    #keyを使用して値を探す
    i = self.get_hash(key)
    for j, v in enumerate(self.data[i]):
      if v[0] == key:
        return (i, j)
    return (i, -1)
  
  def set(self, key, value):
    #データを格納する場所を探す
    i, j = self.search(key)
    if j != -1:
      self.dta[i][j][1] = value
    else:
      self.data[i].append([key, value])
  
  def get(self, key):
    i, j = self.search(key)
    if j != -1:
      return self.data[i][j][1]
    return KeyError(f'{key} was not fount in this HashTable!')

In [7]:
test_hash_table = HashTable()
test_hash_table.set("taro", 10)
print(test_hash_table.get("taro"))

10
