### <code class="lang-markdown">СТРУКТУРЫ ДАННЫХ В PYTHON</code>

* Структуры данных используются для хранения и управления сложными данными
* Структуры данных в Python - это контейнеры, позволяющие эффективно управлять данными, огранизовывать и осуществлять поиск
* Контейнеры организованы в коллекции (группы элементов данных, которые требуется хранить и обрабатывать совместно)


<code class="lang-markdown">ПЯТЬ СТРУКТУР ДАННЫХ ДЛЯ ХРАНЕНИЯ КОЛЛЕКЦИЙ</code>


| <!-- -->      | <!-- -->        | <!-- -->      |
|:-------------:|:---------------:|:-------------:|
| List | Список | Упорядоченная изменяемая последовательность элементов (элементы данных в списке могут быть разных типов)|
| Tuple | Кортеж | Упорядоченная неизменяемая последовательность элементов|
| Set | Множество |Неупорядоченная последовательность элементов|
| Dictionary | Словарь | Неупорядоченная последовательность пар «ключ — значение»|
| DataFrame| |  Двумерная структура для хранения двумерных данных|



## List (список)

In [2]:
# List 
# одномерная изменяемая структура данных (внутр. этапы алгоритма)
aList = ['Anya', 'Irma', 20, True]
print(aList)

['Anya', 'Irma', 20, True]


In [8]:
# Индексация списка 
colors = ['Red', 'Green', 'Blue', 'Yellow']
print(colors[3], 'and', colors[0])

Yellow and Red


In [13]:
# Срез списка
colors = ['Red', 'Green', 'Blue', 'Yellow']
print(colors[0:2], colors[2:], sep= '\n', end = '\n\n')
print(colors[:-1]) #отрицательная индексация 

['Red', 'Green']
['Blue', 'Yellow']

['Red', 'Green', 'Blue']


In [17]:
#Вложенность
a = [1, 2, [2, 4, 567, -45, 67.4], ['anya', 2023, False]]
print( max(a[2]), a[2][4], a[3][-3], sep = "\n" )

567
67.4
anya


In [23]:
#Итерация
colors = ['Red', 'Green', 'Blue', 'Yellow']
for i in colors:
    print( i + ' lable')

Red lable
Green lable
Blue lable
Yellow lable


### Лямбда-функции (анонимные функции) для работы со списками

Применение:
* Фильтрация данных
* Преобразование данных
* Агрегирование данных

### filter(lambda())

In [1]:
a = [-5, 200, 300, -10, 10, 1000]
list(filter(lambda i: i < 100, a))

[-5, -10, 10]

### map(lambda())

In [38]:
#Преобразование данных
a = [-5, 200, 300, -10, 10, 1000]
new_a = list(map(lambda i: i*2, a))
print(a, new_a, sep = "\n")


[-5, 200, 300, -10, 10, 1000]
[-10, 400, 600, -20, 20, 2000]


### reduce()

рекурсивно применяет функцию к паре значений для каждого аргумента

In [40]:
# Агрегирование данных 

from functools import reduce
def doSum(x1, x2):
    return x1+x2
x = reduce(doSum, [100, 122, 33, 4, 5, 6])
x

# doSum() критерий агрегирования 
# functools функция агрегирования 


270

### range()
автоматическое добавление последовательностей чисел в список

In [2]:
a = range(0, 6, 1)
list(filter(lambda i: i < 6, a))

[0, 1, 2, 3, 4, 5]

## Tuple (кортеж)

* Неизменяемая структура данных
* Полезны для работы с итеративными и рекурсивными алгоритмами

In [16]:
c = ('Red','Green','Blue','Yellow', 345, (100, 200, 300), (1, 'a', True))
print(max(c[5]), c[6][2], sep = '\n' )


300
True


P.S.  Использование неизменяемых структур данных вместо изменяемых(например, кортежи вместо списков) улучшает производительность (в особенности это касается
обработки больших данных: неизменяемые структуры работают значительно быстрее, чем изменяемые )

### Dictionary (словарь)

Хранение данных в виде пар «ключ — значение» особенно полезно при работес распределенными алгоритмами

In [23]:
girls = {
    'Anya': 'Akhmyatzanova', #ключ: значение 
    'Kesha': 'Vilkova',
    'Alisa': 'Kukvinova'
}
print(girls)

{'Anya': 'Akhmyatzanova', 'Kesha': 'Vilkova', 'Alisa': 'Kukvinova'}


In [24]:
# получить значение, связанное с ключом
#  используя get()
girls.get('Anya')

'Akhmyatzanova'

In [25]:
# используя ключ в качестве индекса
girls['Anya']

'Akhmyatzanova'

In [28]:
# обновить значение, связанное с ключом
girls['Anya'] = 'Ivanova'
print(girls)

{'Anya': 'Ivanova', 'Kesha': 'Vilkova', 'Alisa': 'Kukvinova'}


### Set (множество/ коллекция элементов)


In [29]:
green  = {'grass', 'leaves'} # set
print(green)

{'leaves', 'grass'}


In [38]:
#Операции над множествами
yellow = {'dandelions', 'fire hydrant', 'leaves'}
red = {'fire hydrant', 'blood', 'rose', 'leaves'}
union = yellow|red # объединение
intersection = yellow&red # пересечение
print(union, intersection, sep = '\n')

{'leaves', 'rose', 'dandelions', 'blood', 'fire hydrant'}
{'leaves', 'fire hydrant'}


### DataFrame

Табличная структура данных (доступна в pandas)
Используется для обработки классических структурированных данных

В документации pandas один столбец или строка DataFrame называется осью (axis)


DataFrame позволяет отмечать как столбцы, так и строки так называемой меткой (label)

In [55]:
import pandas as pd
df = pd.DataFrame([ 
     ['1', 'Fares', 32, True],
     ['2', 'Elena', 23, False],
     ['3', 'Steven', 40, True]
     ])
df.columns = ['id', 'name', 'age', 'decision']
df

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True
1,2,Elena,23,False
2,3,Steven,40,True


Создание подмножества DataFrame
1) Выбор столбца

In [45]:
df[['name', 'age']]

Unnamed: 0,name,age
0,Fares,32
1,Elena,23
2,Steven,40


In [56]:
df.iloc[ : , 3] # ":" - все строки, 3й столбец

0     True
1    False
2     True
Name: decision, dtype: bool

2. Выбор строки

In [57]:
# получение подмножества по расположению
df.iloc[1:2, :] 

Unnamed: 0,id,name,age,decision
1,2,Elena,23,False


In [53]:
# получение подмножества с помощью фильтра
df[df.age > 30]

Unnamed: 0,id,name,age,desicion
0,1,Fares,32,True
2,3,Steven,40,True


In [58]:
df[(df.age < 35)&(df.decision==True)]

Unnamed: 0,id,name,age,decision
0,1,Fares,32,True


### Матрица

In [62]:
import numpy as np
matrix = np.array([[11,12,13], [21,22,23], [31,32,33]]) #массив
print(matrix, type(matrix), sep = '\n\n')


[[11 12 13]
 [21 22 23]
 [31 32 33]]

<class 'numpy.ndarray'>


### операции над матрицами
Tранспонирование transpose() 
(строки и столбцы меняются местами)


Транспонирование матрицы может быть полезным для обработки информации и выявления скрытых зависимостей, для оптимизации распределения данных в вычислительных системах


P.S.  матричные операции часто используются при обработке мультимедийных данных

In [65]:
matrix.transpose()

array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])


 <code class="lang-markdown">АБСТРАКТНЫЕ ТИПЫ ДАННЫХ</code>

* абстракция — принцип, используемый для определения
сложных систем с точки зрения их общих базовых функций
* Abstract Data Type (ADT) - универсальная, независимая от реализации структура данных
* ADT - позволяет написать более простой и чистый код алгоритма, не углубляясь в детали разработки

### Вектор
одномерная структура

In [66]:
# cоздание вектора с помощью списка
myVector = [22, 33, 44, 55]
print(myVector, type(myVector), sep = '\n\n')

[22, 33, 44, 55]

<class 'list'>


In [67]:
# создание вектора с помощью массива numpy
myVector = np.array([22,33,44,55])
print(myVector, type(myVector), sep = '\n\n')

[22 33 44 55]

<class 'numpy.ndarray'>


### Стек

* Линейная структура данных для хранения одномерного списка


Элементы в стеке могут обрабатываться по принципу 
* LIFO (LastIn, FirstOut: «последним пришел — первым ушел») 
*  FILO (FirstIn, LastOut: «первым пришел — последним ушел»)


Порядок добавления и удаления элементов определяет характер стека. Новые элементы могут добавляться и удаляться только с одного конца списка


Операции со стеками:
* isEmpty. Возвращает true, если стек пуст;
* push. Добавляет новый элемент;
* pop. Возвращает элемент, добавленный последним, и удаляет его


пример использования: хранение истории web-браузера, выполнение операций Undo при работе с текстом

In [3]:
#создание класса
class Stack:
    def __init__(self):
        self.items = []
    def isEmpty(self):
     return self.items == []
    def push(self, item):
        self.items.append(item)
    def pop(self):
        return self.items.pop()
    def peek(self):
        return self.items[len(self.items)-1]
    def size(self):
        return len(self.items) 

In [4]:
#добавление элементов в стек
stack = Stack()
stack.push('Red')
stack.push('Green')
stack.push('Blue')
stack.push('Yellow')

In [11]:
print('Стек пуст?', stack.isEmpty(), 'Сколько элементов в стеке?', stack.size(), 'Последнее значение стека:', stack.peek(), sep = '\n')

Стек пуст?
False
Сколько элементов в стеке?
4
Последнее значение стека:
Yellow


### Очередь 
* n элементов в одномерной структуре
* Элементы добавляются и удаляются по принципу FIFO (первым пришёл - первым ушел)
* каждая очередь имеет начало и конец
*  удаление из очереди (из начала!) — dequeue
* постановка в очередь (в конец!) — enqueue 


In [12]:
class Queue(object): #реализация очереди
    def __init__(self):
        self.items = []
    def isEmpty(self):
        return self.items == []
    def enqueue(self, item):
        self.items.insert(0,item)
    def dequeue(self):
        return self.items.pop()
    def size(self):
        return len(self.items)

In [13]:
queue = Queue()
queue.enqueue('Red') #постановка в конец очереди
queue.enqueue('Green')
queue.enqueue('Blue')
queue.enqueue('Yellow')
print('Размер очереди: ',queue.size())


Размер очереди:  4


In [14]:
print(queue.dequeue()) #удаление из начала

Red


In [15]:
print(queue.dequeue()) #удаление из начала

Green


| Стек | Очередь |
|:----:|:-------:|
|Мы складываем письма в стопку, и всякий раз, когда мы получае новое письмо, мы кладем его наверх. Когда мы хотим прочитать письма, мы на чинаем с того, которое лежит сверху. Стопка — это то, что мы называем стеком. Обратите внимание, что последнее поступившее письмо находится сверху и будет обработано первым. Взять письмо из верхней части стопки означает выполнить операцию pop. Положить новое письмо сверху — вы полнить операцию push. Если в итоге у нас получится большая стопка‚ а письма продолжат приходить, то есть вероятность, что мы никогда не до беремся до очень важного письма в самом низу. | Мы складываем письма в стопку, но сначала хотим открыть самое старое письмо: каждый раз, когда мы хотим просмотреть одно или несколько писем, мы начинаем с более старых. Это — очередь. Добавление письма в стопку — операция enqueue (постановка в очередь). Удаление письма из стопки — операция dequeue (удаление из очереди) |

### Дерево
Иерархическая структура данных
* Каждое дерево имеет конечный набор узлов
* Начальный элемент данных - корнь (root)
* набор узлов, соединенных между собой ветвями (branches)

| | |
|-|-|
|Корневой узел (Root node)|узел без родителя |
|Уровень узла (Level of a node)|расстояние от корневого узла |
|Узлы-братья (Siblings nodes) |расположены на одном уровне|
|Дочерний и родительский узлы (Child and parent node)|напрямую связаны и уровень одного узла меньше уровня другого узла|
|Степень дерева (Degree of a tree)| максимальная степень составляющих его узлов| 
|Поддерево (Subtree)|часть дерева с выбранным узлом в качестве корневого‚ а все его дочерние элементы — это узлы дерева|
| Концевой узел (Leaf node)| узел в дереве без дочерних элементов |
| Внутренний узел (Internal node)| любой узел, который не является ни корневым, ни концевым; имеются по крайней мере один родительский и один дочерний узлы |

| Типы деревьев | Описание |
|---------------|----------|
|Двоичное дерево (binary tree)|тепень дерева равна двум|
|Полное дерево (full tree)|все узлы имеют одинаковую степень, которая равна степени дерева|
|Идеальное дерево (perfect tree)|особый тип полного дерева, у которого все конечные узлы расположены на одном уровне|

In [17]:
class Tree: #создание дерева
    def __init__(self, cargo, left=None, right=None):
        self.cargo = cargo
        self.left  = left
        self.right = right

    def __str__(self):
        return str(self.cargo)

In [19]:
left = Tree(2) #создание дочерних узлов
right = Tree(3)
# создание родительского узла и связка его с дочерним
tree = Tree(1, left, right) 


In [20]:
#обход дерева 
def total(tree): 
    if tree == None: return 0
    return total(tree.left) + total(tree.right) + tree.cargo