# Глвав 2. Структуры данных, используемые в алгоритмах

 ## СТРУКТУРЫ ДАННЫХ В PYTHON

* Список (List). Упорядоченная изменяемая последовательность элементов.
* Кортеж (Tuple). Упорядоченная неизменяемая последовательность элементов.
* Множество (Set). Неупорядоченная последовательность элементов.
* Словарь (Dictionary). Неупорядоченная последовательность пар «ключ — значение».
* DataFrame. Двумерная структура для хранения двумерных данных.

### Список

In [2]:
a_list = ['John', 33, 'Toronto', True]

print(a_list)

['John', 33, 'Toronto', True]


* ___Индексация списка___

In [4]:
bin_colors = ['Red', 'Green', 'Blue', 'Yellow']

print(bin_colors[1])

Green


* ___Срез списка___

In [7]:
bin_colors = ['Red', 'Green', 'Blue', 'Yellow']

print(bin_colors[0:2])
print(bin_colors[:2])

print(bin_colors[2:])

['Red', 'Green']
['Red', 'Green']
['Blue', 'Yellow']


* ___Отрицательная индексация___

In [11]:
bin_colors = ['Red', 'Green', 'Blue', 'Yellow']

print(bin_colors[-1])
print(bin_colors[:-1])
print(bin_colors[:-2])
print(bin_colors[-2:-1])

Yellow
['Red', 'Green', 'Blue']
['Red', 'Green']
['Blue']


* ___Вложенность___

In [17]:
a = [1, 2, [100, 200, 300], 6]

print(a[1])
print(a[2])
print(a[2][1])
print(max(a[2]))

2
[100, 200, 300]
200
300


* ___Итерация___

In [21]:
bin_colors = ['Red', 'Green', 'Blue', 'Yellow']

for color in bin_colors:
    print(f"{color} Square")

Red Square
Green Square
Blue Square
Yellow Square


### Лямбда-функции

* ___Фильтрация данных___

In [66]:
arr = [-5, 200, 300, -10, 10, 1000]

print(list(filter(lambda x: x > 100, arr)))

[200, 300, 1000]


* ___Преобразование данных___

In [65]:
arr = [11, 22, 33, 44,55]

print(list(map(lambda x: x ** 2, arr)))

[121, 484, 1089, 1936, 3025]


* ___Агрегирование данных___

In [72]:
from functools import reduce

arr = [100, 122, 33, 4, 5, 6]

def do_sum(x1, x2):
    return x1 + x2

x = reduce(do_sum, arr)

print(x)
print(sum(arr))

270
270


### Функция range

In [78]:
x = range(6)

print(*x)

0 1 2 3 4 5


In [81]:
odd_numbers = range(3, 29, 2)

print(*odd_numbers)

3 5 7 9 11 13 15 17 19 21 23 25 27


### Кортеж

In [83]:
bin_colors=('Red','Green','Blue','Yellow')

print(bin_colors[1])

print(bin_colors[2:])
print(bin_colors[:-1])


Green
('Blue', 'Yellow')
('Red', 'Green', 'Blue')


In [85]:
a = (1, 2, (100,200,300), 6)

print(a[1])
print(a[2])
print(a[2][1])
print(max(a[2]))

2
(100, 200, 300)
200
300


### Словарь

In [99]:
bin_colors = {
    'manual_colors': 'Yellow',
    'approved_color': 'Green',
    'refused_coor': 'Red'
}

print(bin_colors)

{'manual_colors': 'Yellow', 'approved_color': 'Green', 'refused_coor': 'Red'}


In [100]:
print(bin_colors.get('approved_color'))
print(bin_colors['approved_color'])

Green
Green


In [102]:
bin_colors['approved_color'] = 'Purple'

print(bin_colors)

{'manual_colors': 'Yellow', 'approved_color': 'Purple', 'refused_coor': 'Red'}


### Множество

In [104]:
green = {'grass', 'leaves'}

print(green)    

{'leaves', 'grass'}


In [106]:
green = {'grass', 'leaves', 'leaves'}

print(green)

{'leaves', 'grass'}


Рассмотрим операции над множествами. Для этого возьмем два множества:
* множество с именем yellow, в котором содержатся вещи желтого цвета;
* множество с именем red, в котором содержатся вещи красного цвета.

Обратите внимание, что некоторые вещи содержатся в обоих множествах. Эти два множества и их взаимосвязь можно представить с помощью диаграммы Венна (рис. 2.3).

 ![image.png](attachment:image.png)
 
 _Рис. 2.3 (dandelions — одуванчики, leaves — листья, fire hydrant — пожарный кран,
rose — роза, blood — кровь)_

In [1]:
yellow = {'dendelions', 'fire hydrant', 'leaves'}
red = {'fire hydrant', 'leaves', 'rose', 'blood'}

print(yellow | red)  # union
print(yellow.union(red))
print(yellow & red)  # intersection
print(yellow.intersection(red))

{'rose', 'blood', 'leaves', 'dendelions', 'fire hydrant'}
{'rose', 'blood', 'leaves', 'dendelions', 'fire hydrant'}
{'fire hydrant', 'leaves'}
{'fire hydrant', 'leaves'}


### DataFrame

![image-2.png](attachment:image-2.png)

In [47]:
import pandas as pd

df = pd.DataFrame([
    ['1', 'Fares', 32, True],
    ['2', 'Elena', 23, False],
    ['3', 'Steven', 40, True],
])
df.columns = ['id', 'name', 'age', 'decision']

df

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
1,2,Elena,23,False
2,3,Steven,40,True


### Терминология DataFrame

Ознакомимся с терминологией, необходимой для работы с DataFrame:
* _Ось_. В документации pandas один столбец или строка DataFrame называется осью (axis).
* _Метка_. DataFrame позволяет отмечать как столбцы, так и строки так называемой меткой (label).

### Создание подмножества DataFrame

По сути, существуют два основных способа создания подмножества DataFrame (пусть это будет подмножество с именем myDF):

* выбор столбца;
* выбор строки.

Рассмотрим их по очереди.

#### Выбор столбца

In [48]:
df

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
1,2,Elena,23,False
2,3,Steven,40,True


In [50]:
df[['name', 'age']]

Unnamed: 0,name,age
0,Fares,32
1,Elena,23
2,Steven,40


In [51]:
df.iloc[:, 3]

0     True
1    False
2     True
Name: decision, dtype: bool

#### Выбор строки

Каждая строка DataFrame соответствует точке данных в пространстве задачи. Чтобы создать подмножество из имеющихся элементов данных, необходимо выбрать строки. Существуют два метода создания подмножества:

* указать расположение строк;
* задать критерии фильтра.

In [52]:
df

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
1,2,Elena,23,False
2,3,Steven,40,True


In [53]:
df.iloc[1:3, :]

Unnamed: 0,id,name,age,decision
1,2,Elena,23,False
2,3,Steven,40,True


 Чтобы создать подмножество с помощью фильтра‚ мы должны указать критерии выбора в одном или нескольких столбцах. Это происходит следующим образом:

In [54]:
df

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
1,2,Elena,23,False
2,3,Steven,40,True


In [55]:
df[df.age > 30]

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
2,3,Steven,40,True


In [57]:
df[(df.age < 35) & (df.decision == True)]

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True


 ### Матрица
 
 _Матрица_ — это двумерная структура данных с фиксированным количеством столбцов и строк.

In [65]:
import numpy as np

my_matrix = np.array([
    [11, 12, 13],
    [21, 22, 23],
    [31, 32, 33]])

type(my_matrix)

numpy.ndarray

In [67]:
my_matrix

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

In [69]:
my_matrix.transpose()

array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])

## АБСТРАКТНЫЕ ТИПЫ ДАННЫХ

### Вектор

_Вектор_ — это одномерная структура для хранения данных‚ одна из самых популярных в Python. В Python имеются два способа создания векторов.

* Использование списка Python. Самый простой способ создания вектора — применить список Python следующим образом:

In [70]:
my_vector = [22, 33, 44, 55]

print(my_vector)
print(type(my_vector))

[22, 33, 44, 55]
<class 'list'>


* Использование массива numpy. Еще один популярный способ создания вектора — применение массивов NumPy, как показано ниже:

In [72]:
my_vector = np.array([22, 33, 44, 55])

print(my_vector)
print(type(my_vector))

[22 33 44 55]
<class 'numpy.ndarray'>


### Стек

_Стек_ — это линейная структура данных для хранения одномерного списка. Элементы в стеке могут обрабатываться по принципу LIFO (Last-In, First-Out: _«последним пришел — первым ушел»_) либо по принципу FILO (First-In, Last-Out: _«первым пришел — последним ушел»_. Порядок добавления и удаления элементов определяет характер стека. Новые элементы могут добавляться и удаляться только с одного конца списка.

Ниже приведены операции со стеками:

* _isEmpty_. Возвращает true, если стек пуст;
* _push_. Добавляет новый элемент;
* _pop_. Возвращает элемент, добавленный последним, и удаляет его.

![image.png](attachment:image.png)

In [91]:
class Stack:
    def __init__(self):
        self.items = []
    
    def is_empty(self):
        return self.items == []
    
    def push(self, item):
        return self.items.append(item)
    
    def pop(self):
        return self.items.pop()
    
    def peek(self):
        return self.items[len(self.items) - 1]
    
    def size(self):
        return len(self.items)
    
    def display(self):
        return self.items

In [92]:
stack = Stack()

stack.push('Red')
stack.push('Green')
stack.push('Blue')
stack.push('Yellow')

In [93]:
stack.peek()

'Yellow'

In [94]:
stack.pop()

'Yellow'

In [95]:
stack.is_empty()

False

In [96]:
stack.display()

['Red', 'Green', 'Blue']

### Очередь

Как и стек, _очередь_ хранит n элементов в одномерной структуре. Элементы добавляются и удаляются по принципу FIFO (First-In, First-Out: _«первым пришел — первым ушел»_). Каждая очередь имеет начало и конец. Когда элементы удаляются из начала, операция называется удалением из очереди — __dequeue__. Когда элементы добавляются в конец, операция называется постановкой в очередь — __enqueue__.

![image.png](attachment:image.png)

In [168]:
class Queue:
    def __init__(self):
        self.items = []
    
    def is_empty(self):
        return self.items == []
    
#     def enqueue(self, item):
#         if self.size() < 4:
#             return self.items.insert(0, item)
#         message = f"Dont insert {item}! Queue is full..."
#         return message
    
    def enqueue(self, item):
        return self.items.insert(0, item)
    
    def dequeue(self):
        return self.items.pop()
    
    def size(self):
        return len(self.items)
    
    def display(self):
        return self.items

# Using Queue Class

In [179]:
queue = Queue()

queue.enqueue('Red')
queue.enqueue('Green')
queue.enqueue('Blue')
queue.enqueue('Yellow')

In [180]:
queue.size()

4

In [181]:
queue.display()

['Yellow', 'Blue', 'Green', 'Red']

In [182]:
queue.dequeue()

'Red'

In [183]:
queue.display()

['Yellow', 'Blue', 'Green']

In [184]:
queue.dequeue()

'Green'

In [185]:
queue.display()

['Yellow', 'Blue']

In [186]:
queue.enqueue('Cyan')

In [187]:
queue.size()

3

In [188]:
queue.display()

['Cyan', 'Yellow', 'Blue']

### Дерево

_Дерево_ — иерархическая структура данных, что делает ее особенно полезной при разработке алгоритмов. Мы используем деревья везде, где требуются иерархические отношения между элементами данных.

Давайте подробнее рассмотрим эту интересную и важную структуру.

Каждое дерево имеет конечный набор узлов, так что в нем есть начальный элемент данных, называемый корнем (root), и набор узлов, соединенных между собой ветвями (branches).

#### Терминология

Рассмотрим некоторые термины, связанные с древовидной структурой данных (табл. 2.7).

![image.png](attachment:image.png)

#### Типы деревьев

* _Двоичное дерево_ (binary tree). Если степень дерева равна двум, оно называется двоичным. Например, дерево, показанное на следующей диаграмме, является двоичным, поскольку имеет степень 2 (рис. 2.8).

![image.png](attachment:image.png)