## Builtin lists. Arrays. NumPy arrays.

Ми вже говорили про списки як вбудовані структури даних у Python. Але важливо, як вони влаштовані "під капотом".
List імплементовано як так званий "динамічний масив" ([dynamic array](https://www.geeksforgeeks.org/how-do-dynamic-arrays-work/)).

Масиви зазвичай мають __константну__ складність для операцій доступу до елементу по індексу та вставки останнього елементу.

В Python також існує вбудований модуль array, котрий дозволяє створювати масиви для значень одного типу (тільки якщо це вбудований тип). [Деталі](https://docs.python.org/3/library/array.html) 

Також ви можете скористатися модулем NumPy, котрий має тип NumPy.array. Він має фіксоване значення, але в деяких ситуаціях забезпечує кращий перфоманс (перш за все коли можна скористатись вбудованими NumPy типами та коли потрібна [векторизація обчислень](https://towardsdatascience.com/how-to-speedup-data-processing-with-numpy-vectorization-12acac71cfca))

In [1]:
import random
import sys

SIZE = 100000

INDEX = random.randint(0, SIZE-1)

In [2]:
%%timeit

l = list(range(SIZE))

1.3 ms ± 90.7 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [3]:
l = list(range(SIZE))

In [4]:
%%timeit

l[random.randint(0, SIZE-1)]

828 ns ± 57.8 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [5]:
sys.getsizeof(l)

800056

In [6]:
import array

In [7]:
%%timeit

a = array.array("i", range(SIZE))

5.62 ms ± 309 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
a = array.array("i", range(SIZE))

In [9]:
%%timeit

a[random.randint(0, SIZE-1)]

752 ns ± 37.3 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [10]:
sys.getsizeof(a)

408344

In [11]:
import numpy as np

In [12]:
%%timeit

n = np.array(range(SIZE))

7.94 ms ± 678 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [13]:
n = np.array(range(SIZE))

In [14]:
%%timeit

n[random.randint(0, SIZE-1)]

813 ns ± 65.7 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [15]:
sys.getsizeof(n)

800112

In [54]:
sys.getsizeof(np.array([np.int64(x) for x in range(SIZE)]))

800112

In [55]:
sys.getsizeof(np.array([np.int32(x) for x in range(SIZE)]))

400112

## Linked Lists

Зв'язаний список - це лінійна структура даних, де кожен елемент зберігає посилання на наступний, попередній або ще якийсь інший елемент. Порядок у зв'язаному списку задається не індексом (як у вбудованих списках у Python), а посиланням на наступний елемент.

Приклад імплементації взято [звідси](https://runestone.academy/ns/books/published/pythonds/BasicDS/ImplementinganUnorderedListLinkedLists.html), модифіковано для очевидного пришвидшення знаходження розміру списку.

Головна ідея подібної імплементації це розділення відповідальності. Клас ноди імплементує функціонал контейнера (зберігає дані, котрі ми в неї покладемо).

Клас списку реалізує основні операції з нодами (пошук, додавання, видалення тощо). В простих випадках можна обійтись без класу списку, він потрібен перш за все для збереження типових операцій.

In [39]:
class Node:
    """Class which represents single node of linked list"""
    def __init__(self, initdata):
        self.data = initdata
        self.next = None

    def get_data(self):
        return self.data

    def get_next(self):
        return self.next

    def set_data(self,newdata):
        self.data = newdata

    def set_next(self,newnext):
        self.next = newnext

In [40]:
class UnorderedList:
    """Class which represents unordered linked list"""

    def __init__(self):
        self.head = None
        self.size = 0

    def is_empty(self):
        return self.head == None

    def add(self, item):
        """Time complexity: O(1)"""
        temp = Node(item)
        temp.set_next(self.head)
        self.head = temp
        self.size += 1

    def search(self,item):
        """Time complexity: O(n)"""
        current = self.head
        found = False
        while current != None and not found:
            if current.get_data() == item:
                found = True
            else:
                current = current.get_next()
        return found

    def remove(self, item):
        """Time complexity: O(n)"""
        current = self.head
        previous = None
        found = False
        while not found:
            if current.get_data() == item:
                found = True
                self.size -= 1
            else:
                previous = current
                current = current.get_next()
        if previous == None:
            self.head = current.get_next()
        else:
            previous.set_next(current.get_next())

In [41]:
mylist = UnorderedList()

In [42]:
mylist.add(31)
print(mylist.head.get_data())
mylist.add(77)
print(mylist.head.get_data())
mylist.add(17)
print(mylist.head.get_data())
mylist.add(93)
print(mylist.head.get_data())
mylist.add(26)
print(mylist.head.get_data())
mylist.add(54)

31
77
17
93
26


In [43]:
print(mylist.size)
print(mylist.search(93))
print(mylist.search(100))

6
True
False


In [44]:
mylist.add(100)
print(mylist.search(100))
print(mylist.size)

True
7


In [45]:
mylist.remove(54)
print(mylist.size)
mylist.remove(93)
print(mylist.size)
mylist.remove(31)
print(mylist.size)
print(mylist.search(93))

6
5
4
False


Також окрім single linked list ви можете будувати double linked lists і multilinked list. Схема імплементації симетрична: клас ноди реалізує зв'язки та контейнер, клас списку реалізує основні операції над нодами.

In [46]:
class DoubleLinkedNode:
    def __init__(self, initdata=None):
        self.data = initdata
        self.prev = None
        self.next = None
      
    def get_data(self):
        return self.data

    def get_next(self):
        return self.next
    
    def get_prev(self):
        return self.prev

    def set_data(self, newdata):
        self.data = newdata

    def set_next(self, newnext):
        self.next = newnext
        
    def set_prev(self, newprev):
        self.prev = newprev

In [64]:
class DoubleLinkedList:
    def __init__(self):
        self.head = None
    
    def append(self, data):
        new_node = Node(data)
        if self.head is None:
            self.head = new_node
        else:
            current = self.head
            while current.next:
                current = current.next
            current.next = new_node
            new_node.prev = current
    
    def prepend(self, data):
        new_node = Node(data)
        if self.head is None:
            self.head = new_node
        else:
            self.head.prev = new_node
            new_node.next = self.head
            self.head = new_node
            
    def delete(self, key):
        current = self.head
        while current:
            if current.data == key and current == self.head:
                if not current.next:
                    current = None
                    self.head = None
                    return
                else:
                    nxt = current.next
                    current.next = None
                    nxt.prev = None
                    current = None
                    self.head = nxt
                    return
            elif current.data == key:
                if current.next:
                    nxt = current.next
                    prev = current.prev
                    prev.next = nxt
                    nxt.prev = prev
                    current.next = None
                    current.prev = None
                    current = None
                    return
                else:
                    prev = current.prev
                    prev.next = None
                    current.prev = None
                    current = None
                    return
            current = current.next
            
    def print_list(self):
        current = self.head
        while current:
            print(current.data)
            current = current.next

In [67]:
dllist = DoubleLinkedList()

dllist.append(1)
dllist.append(2)
dllist.append(3)
dllist.append(4)
dllist.prepend(0)

In [68]:
dllist.print_list()

0
1
2
3
4


In [69]:
dllist.delete(1)
dllist.print_list()

0
2
3
4


В Python зв'язні списки використовуються в основному як база для об'єктно орієнтований імплементації інших структур даних (дерево як найперший приклад).

Але, в інших мовах програмування зв'язні списки мають велике значення. Перш за все через те, що він дозволяє з'єднувати між собою далекі області пам'яті (завдяки ідеї, що одна нода посилається на наступну). 

Комміти в git структуровані саме як однозв'язний список. Також, як однозв'язний список може бути структурована історія браузеру або послідовність команд, котрі можна відмінити в застосунку



Асимптотична складність основних операцій для linked list:

* Обхід списку - **O(n)**
* Пошук у списку - **O(n)**
* Random access (aka доступ за індексом) - **O(index)**, **O(n)** in worst case
* Вставка елементу - сама операція робиться за **O(1)**, але якщо ми робимо вставку не на початку списку, це займає O(n) в найгіршому випадку
* Видалення елементу - аналогічно вставці, **O(1)** само по собі, але включає в себе traversing (обхід). Тобто, скоріше О(n)

Для порівняння, асимптотична складність вбудованих списків у Python:

* Обхід списку - **O(n)**
* Пошук у списку - **O(log(n))** в середньому якщо відсортований, **O(n)** в середньому якщо не відсортовано
* Random access (aka доступ за індексом) - **O(1)**
* Вставка елементу - **O(n)** якщо не в кінець списку, бо тоді треба буде зсунути всі інші елементи
* Видалення елементу - аналогічно вставці, **O(n)**

In [None]:
Також треба враховувати, що зв'язані списки зазвичай споживають більше пам'яті і, на додачу, вона аллокована в різних областях RAM

Загалом, я б рекомендував у 90% випадків надавати перевагу звичайним спискам у Python. Звісно, існують виключення ([гарний приклад на Quora](https://www.quora.com/What-is-the-purpose-of-using-a-linked-list-in-Python)). Вибір структури даних це часто trade-off. 

[Гарне відео на тему вибору структури даних](https://youtu.be/34ky600VTN0).