# アルゴリズムとデータ構造

# 第一章 アルゴリズム

## アルゴリズムとは  
問題を解くための方法や手順の事。  
生活のなかの身近なところに存在する。

## 様々なアルゴリズム

### 二分探索法
数字の並びに対して真ん中で半分に絞り、それを１つの値になるまで繰り返す探索手法

### 線形探索法
順番に１つずつ調べていく手法。非効率！！

### 深さ優先探索
無数の選択肢を決め打ちして試す方法、行き詰まったら一歩戻って再度やり直す。  
例：将棋ゲーム、
  →13章:トポロジカルソートの実現に使用されている。
  →05章:探索結果をメモすることで、動的計画法になる。
  
### 幅優先探索
出発点から近いところから順番に探索する手法。
例:迷路の最短ルート検索

### マッチング  
２つのカテゴリ間のつながりについて考える。
例：インターネット広告配信、レコメンドシステム、マッチングアプリ
  →16章:詳細説明

## アルゴリズムを学ぶ意義
問題が解かなくても、問題解決するための手順がわかるようになり、問題解決の幅を広げられる。

## 問題 2分探査法

### 1.1の解答

In [15]:
import numpy as np

In [16]:
def binary_search(data, value):
    left = 0                       # 探索する範囲の左端を設定
    right = len(data) - 1          # 探索する範囲の右端を設定
    while left <= right:
        mid = (left + right) // 2  # 探索する範囲の中央を計算
        print(data[mid])
        
        if data[mid] == value:  # 中央の値と一致した場合は位置を返す
            return data[mid]
        elif data[mid] < value: # 中央の値より大きい場合は探索範囲の左を変える
            left = mid + 1
        else:                   # 中央の値より小さい場合は探索範囲の右を変える
            right = mid - 1
    return -1                   # 見つからなかった場合

data  = np.arange(20,36)
x = binary_search(data, 28)
print(f"Aさんの年齢は、{x}歳です")

27
31
29
28
Aさんの年齢は、28歳です


### 1.2の解答

In [17]:
data  = np.arange(0,100)
x = binary_search(data, 99)
print(f"Aさんの年齢は、{x}歳です")

49
74
87
93
96
98
99
Aさんの年齢は、99歳です


６回では解は導き出せないが、７回目で解を導ける。

### 1.3の解答

In [18]:
#試行結果のみ

a = 27
b = 35

ans =a*b
ans

945

# 第二章 計算量とオーダー記法

## オーダー記法の考え方

- 一重のfor文をO(N)と記載し、Nに比例して計算時間が掛かる。  
- 二重のfor文となると$O(N^2)$に比例する。  
- 定数倍や低次の項を無視する。


## 計算量の使い方

- 計算実行時間の制限
- 解きたい問題のサイズ

上記二点からどの程度の計算量を達成すれば良いかが逆算出来る。　

**1秒間で処理できる計算ステップ回数の目安 : $10^9 = 1,000,000,000$回程度**

指数時間（$O/N!,2^N$)は、非常に時間が掛かり、$NlogNやN√N$である多項式時間は短時間でできる。

# 第三章 設計技法 全探索

## 全探索とは、
解きたい問題に対して、全ての可能性を試す方法


## 3.3 線形探索法

１つ１つの要素を順に調べて行く探索法


In [25]:
# 線形探索法--------------------------------------------

def linear_search(data, value):
    count = 0
    id = []

    for i in data:
        count +=1
        if i == value:
            id.append(count)
    return id
#------------------------------------------------------

data  = np.random.randint(1,100,100)
print(data)
value = np.random.randint(1,100,1)
print(value)

ans = linear_search(data, value)
ans

[15 35 98 48  6 20 33 19 95 74 70 72 60 96 56 60 52 18 11 22 86 96 98 35
 36 94 42 80 55 73 65 74 68 25 43 99 32 72 45 39 50 95 32 77 40 54 86 27
 62 94 54 60 88 99  7 92  1 99 50 81 77 94 10 62 53 76 72 30 17 57 32 96
  4 74 57 86 81 93  6 65 57 18  9 87 21 36 34 93 71 30 54 24 60 68 49 33
 47 66 83 30]
[28]


[]

## 3.4 ペアの全探索

In [26]:
N = 3
K =  np.random.randint(0,10,1)
a = np.random.randint(0,10,N)
b = np.random.randint(0,10,N)
print(f"Kの値は{K}です")
print(a)
print(b)

Kの値は[7]です
[7 2 6]
[3 6 1]


In [27]:
id = []
min = 1000
count = 0
count_id = 0

for i in a:
    for j in b:
        x = i+j
        if x >= K:
            count += 1
            id.append([i,j])
            if min > x:
                min = x
                count_id = count
            
print(id)
print(min)
print(count_id)

[[7, 3], [7, 6], [7, 1], [2, 6], [6, 3], [6, 6], [6, 1]]
7
7


## 3.5 組み合わせの全探索

ビット演算が出てくるので分かりづらい。

ビット演算の参考ページ  
https://qiita.com/Ingward/items/43acda931c8a62c70d2f#:~:text=%3C%3C%EF%BC%88%E5%B7%A6%E3%83%93%E3%83%83%E3%83%88%E3%82%B7%E3%83%95%E3%83%88%EF%BC%89

In [28]:
a = np.random.randint(0,10,5)
k = 10

print(f"aの値は{len(a)}です")
print(a)

aの値は5です
[6 5 9 8 5]


In [29]:
#判定用の変数
cnt = 0

#全探索
for i in range(1<<len(a)):
    l = []
    for j in range(len(a)):
        if (i>>j & 1) == 1:
            l.append(a[j])
    if sum(l) == k:
        cnt += 1
print('Yes' if cnt>=1 else 'No')

Yes


## 問題

### 3.1

In [30]:
def found(data, v):
    found_id = []
    for i in range(len(data)):
        if data[i] == v:
            found_id.append(i)
    print(found_id)
    return np.array(([found_id])).max()
#     if fuound_id == :
#         return NO
#     else:
#         return np.array(([found_id])).max()
            
data = np.random.randint(20,36,100)
v = 28
print(data)
found(data, v)

[20 20 26 24 33 32 26 32 31 22 25 31 31 28 29 35 20 22 29 34 32 34 28 20
 31 28 32 28 29 35 33 22 20 31 21 35 24 21 24 35 25 22 20 26 35 22 25 29
 27 27 29 35 34 26 30 29 21 25 35 34 24 30 22 21 31 28 22 22 22 29 22 31
 20 21 30 24 23 20 32 33 33 22 21 33 24 20 31 33 35 30 25 25 27 31 21 33
 23 20 28 20]
[13, 22, 25, 27, 65, 98]


98

### 3.2の解答

In [31]:
def count(data, v):
    count = 0
    for i in range(len(data)):
        if data[i] == v:
            count += 1
    return count

data = np.random.randint(0,10,20)
v = 4

print("data:", data)
print("v:",v)
print(f"{v}のカウント数は、{count(data, v)}です。")

data: [7 9 3 1 5 9 8 6 6 3 9 1 5 4 2 9 6 1 4 1]
v: 4
4のカウント数は、2です。


### 3.3の解答

In [32]:
def search(data):
    box = []
    for i in data:
        if i >= 2:
            box.append(i)
    box = np.sort(np.array([box]),axis=1)[::-1]
    print(box)
    return box[:,1]

data = np.random.randint(0,10,10)
search(data)

[[2 3 6 6 7 7 9 9]]


array([3])

### 3.4の解答

In [33]:
def search(data):
    max = 0
    a = 1
    b = 0
    ans = abs(data[a] - data[b])
    if max < ans:
        max == ans
    return max

data = np.random.randint(0,10,10)
print("dataの値は:", data)
search(data)

dataの値は: [0 8 2 3 1 1 9 7 7 3]


0

# 第四章 再帰と分割統治法

## 再帰とは
自分自身を呼び出す事（再帰呼び出し）、その関数を再帰関数と言う。

## 4.1 再帰関数のテンプレート式

In [34]:
def recursive_function(n):
    if n < 1:
        print("Trueの場合、nの値は：",n)
        return n
        
    
    print("Falseの場合、nの値は：",n)
    return n + recursive_function(n-1)

rf = recursive_function(5)
rf

Falseの場合、nの値は： 5
Falseの場合、nの値は： 4
Falseの場合、nの値は： 3
Falseの場合、nの値は： 2
Falseの場合、nの値は： 1
Trueの場合、nの値は： 0


15

## 4.2 ユークリッドの互除法
２つの整数m,nの最大公約数（GCD(m,n))を求めるアルゴリズム。

**最大公約数の性質**  
mをnで割った時の余りをrとすると、  
$GCD(m, n) = GCD(n, r)$  
が成立する。

In [35]:
def gcd(m, n):
    if n == 0:
        return m
    return gcd(n, m % n)

gcd(51, 15)

3

## 4.3 フィボナッチ数列
フィボナッチ数列とは、「1番目と2番目の数値は 1であり、3番目以降の数値は直前の2数の和である数列」のことです。

In [41]:
# %%timeit
def fibonacci(n):
#     print(n)
    if n <= 2:
#         print("a:", n)
        return 1
    else:
#         print("b:", n)
        return fibonacci(n - 2) + fibonacci(n - 1)
    
fibonacci(4)

3

## 4.4 メモ化による計算量を減らす記法 = 動的計画法

同じ引数に対する答えをメモ化し、２度目の再帰呼び出しを行わずにメモかした値を直接返す手法。  
キャッシュとも呼ばれ、大幅な高速化が達成できます。

In [42]:
%%timeit
def func(n):
    # フィボナッチ数列をリストに保存していく、これにより繰り返しの計算を省ける！
    fibonacci = [1,1]
    # forループを回す
    for i in range(2,n):
        
        # リストfibonacciの最後尾に直前2つの項の和を追加
        fibonacci.append(fibonacci[i-2]+fibonacci[i-1])
   
    #returnでリストfibonacciの最後尾の値を返す
    return fibonacci[n-1]
   
func(10)

695 ns ± 7.25 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


## 4.5 再帰関数を用いる全探索  
3.5章でビット演算を用いたアルゴリズムで設計した部分和問題を再帰関数で解く。  


###  注意事項
Pythonでは再帰回数の上限が設定されています。（初期設定1000回)  
そのため、競技プログラミングにおいては再帰関数の上限を十分大きい値に設定し直す必要があります。  
（AtCoderでは上限回数を超えると「Runtime Error」になります）

In [43]:
# pythonの再帰上限設定
import sys
sys.setrecursionlimit(4100000)

In [44]:
# input
i = 4
w = 14
a = [3,2,6,5]

# 再帰関数 ------------------------------
def func(i, w, a):
    if i == 0:
        if w == 0:
            return True
        else:
            return False
        
    #a[i - 1]を選ばない場合
    if func(i - 1, w, a):
        return True
    
    #a[i - 1]を選ぶ場合
    if func(i - 1, w - a[i - 1], a):
        return True
    
    return False
# -------------------------------------

ans = func(i,w,a)
ans

True

## 分割統治法  
与えられた問題をいくつかの部分問題に分解し、各部分問題を再帰的に解き、  
それらの解を組み合わせて元の問題の解を構成するアルゴリズムのこと。

## 問題

### 4.1解答 トリボナッチ数列の再帰式

In [46]:
# %%timeit
n = 4

def tribonacci(n):
    if n == 2:
        return 1
    elif n <= 1:
        return 0
    else:
        return tribonacci(n-3)+tribonacci(n-2)+tribonacci(n-1)
    
tribonacci(n)

2

### 4.2解答 問4.1の式にメモ化を行う。

In [49]:
# %%timeit
def tribonacci(signature, n):
#     print(f"tri({n}) を呼び出しました。")
    if n <= 3:
        return signature[:3]
    else:
        result = tribonacci(signature, n-1)
        ans = result + [sum(result[-3:])]
#         print(f"{n}項目:{ans}")
        return ans
    
x = tribonacci([0,0,1], 4)
sum(x[-3:])

2

# 第五章 動的計画法

### 動的計画法とは  
与えられた問題全体を一連の部分問題に上手に分解し、各部分問題に対する解をメモ化しながら、  
小さな部分問題からより大きな部分問題へと順に解を求めて行く手法。  

解決できる問題の幅が広いので取得が難しいが、一連の部分問題への分解の仕方だけで言うと、  
パターンは限られるので、そこを習得することが重要です。

## 5.2   グラフの問題として捉える

###   グラフとは、  
対象物の関係性を「丸」と「矢印」で表したものをグラフといい、丸を点、矢印を辺と言う。　　

**例：frog問題**  
- AからFまでの丸太を移動する >> 頂点0から点5までの移動。
- カエルの移動コストの総和   >> 辿った各辺の重みの総和

**以降の手順**

1. 一度に求めるのは難しいので、頂点１までの最小コストを考える。  
2. 頂点２までの最小コストを考える。  

以降も同じ。  
ポイントは最小のコストとなる物だけを考える。

In [50]:
# %%timeit
def flog(n):
    h = (2,9,4,5,1,6,10) #各点の重み
    w = np.zeros(len(h))

    for i in range(1,n+1):
        # 頂点1への最小コストを考える。
        if i == 1:
            w[i] = abs(h[i] - h[i - 1])
        # 頂点２への最小コストを考える
        else:
            w[i] = np.min([w[i - 1] + abs(h[i] - h[i - 1]), w[i - 2] + abs(h[i] - h[i - 2])])
        
    return w

flog(6)

array([0., 7., 2., 3., 5., 4., 8.])

### 部分構造最適性  
元問題の最適性を考えるときに、小さな部分問題についても最適性が要求される構造。  

上記のような構造を利用して各部分問題に対して最適化する手法を**動的計画法**という。

## 動的計画法の諸概念

- **緩和**:用意する配列に大きな値(inf)を入れておき、小さくして行くイメージ。**成立には点の値が確定していることが必要。**  
- **遷移形式**:先程のコードは貰う配列形式（現在地からマイナスの処理)、逆にプラスするのを配る配列形式と呼ぶ。

In [52]:
# %%timeit
# 緩和の使用例

# dpの最小値を変更する関数
def chmin(a,b):
    if a > b:
        return b
    else:
        return a

def flog_get(n):
    h = (2,9,4,5,1,6,10) # 各点の重み
    f_inf = float('inf') # 無限大の値
    dp = [f_inf] * (10**5+10) # DP テーブルを初期化　(最小化問題なので INF に初期化)
    dp[0] = 0 # 初期条件

    # 足場 i-1 から足場 i へ移動する。コストは|h[i]−h[i-1]|
    # 足場 i-2 から足場 i へと移動する コストは |h[i]−h[i-2]|
    for i in range(1, n):
        dp[i] = chmin(dp[i], dp[i - 1] + abs(h[i] - h[i-1]))
        # 一番目の足場では一つ前しか存在しない
        if i > 1:
            dp[i] = chmin(dp[i], dp[i - 2] + abs(h[i] - h[i -2]))
    return dp[:n]

flog_get(7)

[0, 7, 2, 3, 5, 4, 8]

In [53]:
# %%timeit
# 配るDPの使用例

# dpの最小値を変更する関数
def chmin(a,b):
    if a > b:
        return b
    else:
        return a

def flog_dist(n):
    h = (2,9,4,5,1,6,10) # 各点の重み
    f_inf = float('inf') # 無限大の値
    dp = [f_inf] * (10**5+10) # DP テーブルを初期化　(最小化問題なので INF に初期化)
    dp[0] = 0 # 初期条件

    # 足場 i から足場 i+1 へ移動する。コストは|h[i]−h[i+1]|
    # 足場 i から足場 i+2 へと移動する コストは |h[i]−h[i+2]|
    for i in range(n-1):
        dp[i + 1] = chmin(dp[i + 1], dp[i] + abs(h[i] - h[i + 1]))
        # n-2の時は2つ先はない
        if i < n-2:
            dp[i + 2] = chmin(dp[i + 2], dp[i] + abs(h[i] - h[i + 2]))
    return dp[:n]

flog_dist(7)

[0, 7, 2, 3, 5, 4, 8]

In [54]:
# %%timeit
n = 6
h = (2,9,4,5,1,6,10) # 各点の重み
# 無限大の値
f_inf = float('inf')
# メモ用のDP テーブルを初期化　(最小化問題なので INF に初期化)
dp = [f_inf] * (10**5+10)
# dpの最小値を変更する関数
def chmin(a, b):
    if a > b:
        return b
    else:
        return a
# メモ化再帰の関数
def rec(i):
    # DPの値が更新されている場合はその値を返す
    if dp[i] <  f_inf:
        return dp[i]
    
    # 再帰の終了条件。足場0のコストは0
    if i == 0:
        return 0
    
    # i-1, i-2　を再帰
    res = f_inf
    # i-1 から来た場合
    res = chmin(res, rec(i-1) + abs(h[i] - h[i-1]))
    # i-2 から来た場合
    if i > 1:
        res = chmin(res, rec(i-2) + abs(h[i] - h[i-2]))
    
    # 結果をメモする
    dp[i] = res
    return res
ans = rec(n-1)
ans

4

## 5.4 ナップサック問題
N地点まで移動する際に、各地点で荷物を拾う可否を決め、荷物のトータル価値を求める問題。  
但し重さがｗを超えないようにする。

### 考え方
- i番目の品物を選ぶ： 選んだ後(i+1,w)なので、つまり選ぶ前は（i,w - weight[i])  
- i番目の品物を選ばない: (i+1,w),(w[i],w)

In [55]:
# %%timeit
import numpy as np

# 入力ーーーーーーーーーーーーーーーーーーーーーー
# N,W = map(int,input().split()) # N =目的点までの距離 W =詰める荷物の量
# w = [] # その点の重み
# v = [] # その点の価値

# for i in range(N):
# 　　# mapは引数１を引数２に適用させる。つまり入力された文字列を空白で区切った整数値にする。
#     x,y = map(int,input().split())
#     w.append(x)
#     v.append(y)   
#ーーーーーーーーーーーーーーーーーーーーーーーーー  

# サンプル---------------
w = [2,1,3,2,1,5]
v = [3,2,6,1,3,85]

N = 6
W = 13
#----------------------

# dp = [[0]*(W+1) for j in range(N+1)]          # DPテーブルの作成(for分バージョン)
dp = np.zeros((N+1)*(W+1)).reshape((N+1),(W+1)) # DPテーブルの作成(numpyバージョン)

for i in range(N):
    for j in range(W+1):
        if j < w[i]: # 選ばない時
            dp[i+1][j] = dp[i][j]
        else: # 選ぶ時
            dp[i+1][j] = max(dp[i][j],dp[i][j-w[i]]+v[i])

print(dp[N][W])
print(dp)

99.0
[[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
 [ 0.  0.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.  3.]
 [ 0.  2.  3.  5.  5.  5.  5.  5.  5.  5.  5.  5.  5.  5.]
 [ 0.  2.  3.  6.  8.  9. 11. 11. 11. 11. 11. 11. 11. 11.]
 [ 0.  2.  3.  6.  8.  9. 11. 11. 12. 12. 12. 12. 12. 12.]
 [ 0.  3.  5.  6.  9. 11. 12. 14. 14. 15. 15. 15. 15. 15.]
 [ 0.  3.  5.  6.  9. 85. 88. 90. 91. 94. 96. 97. 99. 99.]]


## 5.5 編集距離  
２つの文字列の類似度を測る問題

### 編集距離を求める動的計画法  
dp[i][j] ← Sの最初のi文字文とTの最初のj文字文との間の編集距離 

### 考え方
- 変更操作: chmin(dp[i][j], dp[i-1][j-1])
- 削除操作: chmin(dp[i][j], dp[i-1][j]+1)
- 挿入操作: chmin(dp[i][j], dp[i][j-1]+1)

## 5.8 編集距離を動的計画法で求める問題

In [120]:
def levenshtein(s1, s2):
    n, m = len(s1), len(s2)

    dp = [[0] * (m + 1) for _ in range(n + 1)]

    for i in range(n + 1):
        dp[i][0] = i

    for j in range(m + 1):
        dp[0][j] = j

    for i in range(1, n + 1):
        for j in range(1, m + 1):
            cost = 0 if s1[i - 1] == s2[j - 1] else 1
            dp[i][j] = np.min([(dp[i - 1][j] + 1),          # insertion
                               (dp[i][j - 1] + 1),          # deletion
                               (dp[i - 1][j - 1] + cost)])  # replacement

    return dp[n][m]

In [121]:
s = "longistic"
t = "algorithm"

levenshtein(s, t)

7

# 第六章 設計技法（４）二分探索法

## 6.1 二分探査法

In [None]:
%%timeit
def binary_search(data, value):
    left = 0            # 探索する範囲の左端を設定
    right = len(data) - 1            # 探索する範囲の右端を設定
    while left <= right:
        mid = (left + right) // 2            # 探索する範囲の中央を計算
        if data[mid] == value:
            # 中央の値と一致した場合は位置を返す
            return mid
        elif data[mid] < value:
            # 中央の値より大きい場合は探索範囲の左を変える
            left = mid + 1
        else:
            # 中央の値より小さい場合は探索範囲の右を変える
            right = mid - 1
    return -1            # 見つからなかった場合

data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
binary_search(data, 90)

In [None]:
from bisect import bisect_left, bisect_right
 
arr = [1,3,5,5,5,6,7] # 昇順にソートされている必要がある
l = bisect_left(arr, 5)  # 5が入るべき境目のうち最も左側の境目を返す
r = bisect_right(arr, 5) # 5が入るべき境目のうち最も右側の境目を返す
print(l,r) # "2 5" が出力される

In [None]:
%%timeit
def binary_search(data, value):
    l = bisect_left(data,value)
    return l
data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
binary_search(data, 90)