Повертаючись до розмов про __проблеми__ та __алгоритми__, ми можемо згадати наш приклад для проблеми __пошуку__. Для правильного аналізу задачі ми маємо оцінювати:

* найгіршу складність вирішення __проблеми теоретично__ та __певним алгоритмом__
* найкращу теоретично можливу складність вирішення __проблеми теоретично__ та __певним алгоритмом__
* середній випадок вирішення проблеми __певним алгоритмом__

In [None]:
lst = [i for i in range(10)]

In [None]:
def linear_search(arr, target):
    """Best case O(1)
       Worst case O(n)
       Average O(n)"""
    for index, element in enumerate(arr):
        if element == target:
            return index
    return None


In [None]:
def binary_search(arr, target):
    """Best case O(1)
       Worst case O(log(n))
       Average O(log(n))"""
    left = 0
    right = len(arr) - 1
    while left <= right:
        mid = (left + right) // 2
        if arr[mid] == target:
            return mid
        elif arr[mid] < target:
            left = mid + 1
        else:
            right = mid - 1
    return None


Насправді, треба зазначити, що ці два алгоритми вирішують трошки різні проблеми. Лінійний пошук працює навіть з __невідсортованими__ списками. Тоді як бінарний пошук працює тільки коли масив __відсортований__. Також бінарний пошук чутливий до ситуацій, коли ви шукаєте величину, що знаходиться на краю колекції. Лінійний пошук чутливий до ситуацій, коли величина в кінці колекції.

Подробно можна почитати [тут](https://www.freecodecamp.org/news/search-algorithms-linear-and-binary-search-explained/). Окремо зверніть увагу на order agnostic binary search. Сортування все ще важливо; але ми можемо не переживати за його __порядок__

Задача пошуку ми навряд уже покращимо. Але ми можемо вирішити схожу задачу: нехай нам треба не повернути __індекс входження__, а перевірити сам __факт наявності__ елементу в колекції. 

Спойлер: ми можемо це зробити за (майже) О(1) часу.

In [None]:
st = {i for i in range(10)}
# до речі, якою буде складність створення цієї множини? 
# Якою буде складність перетворення множини зі списку та назад?

In [None]:
def linear_search_modified(arr, target):
    """Best case O(1)
       Worst case O(n)
       Average O(n)"""
    for index, element in enumerate(arr):
        if element == target:
            return True
    return False


def binary_search_modified(arr, target):
    """Best case O(1)
       Worst case O(log(n))
       Average O(log(n))"""
    left = 0
    right = len(arr) - 1
    while left <= right:
        mid = (left + right) // 2
        if arr[mid] == target:
            return True
        elif arr[mid] < target:
            left = mid + 1
        else:
            right = mid - 1
    return False


In [None]:
from random import randint

In [None]:
#Протестуйте як для 20, так і для 200000 і вище

NUMS = 2000000

lst = list(range(NUMS))
st = set(range(NUMS))

In [None]:
%%timeit

linear_search_modified(lst, randint(0, NUMS))

In [None]:
%%timeit

binary_search_modified(lst, randint(0, NUMS))

In [None]:
%%timeit

randint(0, NUMS) in st

In [None]:
import random

from time import time
from functools import partial
from typing import Callable, Union, List, Iterable

RANGE_BOUND_MAX = 700
TESTS_NUM = 5000

def function_timer(function: Callable):
    start_time = time()
    function()
    return time() - start_time

range_bounds = [i for i in range(10, RANGE_BOUND_MAX)]

def time_algs_by_mean(func: Callable[Iterable[int], int], 
                      test_num: int, 
                      range_bounds: int, 
                      type_constr: type = list) -> List[float]:
    algorith_times = list()
    for range_bound in range_bounds:
        arr = type_constr(i for i in range(range_bound))
        times_for_n: List[float] = [function_timer(
        partial(func,
                arr = arr, 
                target = random.randint(0, range_bound))
        ) for _ in range(test_num)]
        mean_running_time = sum(times_for_n)/len(times_for_n)
        algorith_times.append(mean_running_time)
    return algorith_times

linear_times: List[float] = time_algs_by_mean(linear_search_modified, TESTS_NUM, range_bounds)

binary_times: List[float] = time_algs_by_mean(binary_search_modified, TESTS_NUM, range_bounds)

set_times: List[float] = time_algs_by_mean(lambda arr, target: target in arr, TESTS_NUM, range_bounds, set)

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.plot(range_bounds, linear_times)
plt.plot(range_bounds, binary_times)
plt.plot(range_bounds, set_times)

In [None]:
plt.plot(range_bounds, binary_times)
plt.plot(range_bounds, set_times)

За рахунок чого це відбувається? Все тому що set в Python працює на основі структури даних, що носить назву [hash table](https://iq.opengenus.org/time-complexity-of-hash-table/). Грубо кажучи, це виглядає таким чином: