# Глава 2. Сортировка выбором 

Информация в памяти может храниться в виде **массива** или **смежного списка**

### Массивы 

Элементы в **массиве** хранятся упорядочено. У каждого элемента есть свой (известный) индекс. Поэтому навигация по **массиву** происходит быстрее, чем по смежному списку.

Индекс - это позиция элемента в массиве. В пайтоне, как и в большинстве языков программирования нумерация индексов начинается с 0. То есть первый элемент **массива** имеет индекс 0.

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpt
from matplotlib import pyplot as plt
np.seterr(divide = 'ignore', invalid='ignore') 
%matplotlib inline

Ниже приведены примеры времени выполнения основных операций с массивами и списками

In [5]:
t = pd.DataFrame({
    "Массив:": ['O(1)', 'O(n)'],
    "Список": ['O(n)', 'O(1)']
}, index=['Чтение', 'Вставка:'])

print(f'{t}\n\nO(n) - линейное время\nO(1) - постоянное время')

         Массив Список
Чтение     O(1)   O(n)
Вставка:   O(n)   O(1)

O(n) - линейное время
O(1) - постоянное время


### Упражнение 

Допустим, вы строите приложение для управления финансами.

    1. Прожукты
    2. Кино
    3. Велосипедный клуб
    
Ежедневно вы записываете все свои траты. В конце месяца вы анализируете расходы и вычисляете, сколько денег было потрачено. При работе с данными выполняется множество операция вставки и относительноо немного операций чтения. Какую структуру использовать - массив или список?

Лучше использовать список. Потому что, в списке вставка нового элемента происходит быстрее чем в массиве.

Удаление

In [6]:
t2 = pd.DataFrame({
    "Массив": ['O(1)', 'O(n)', 'O(n)'],
    "Список": ['O(n)', 'O(1)', 'O(1)']
}, index=['Чтение:', 'Вставка:', 'Удаление:'])

t2

Unnamed: 0,Массив,Список
Чтение:,O(1),O(n)
Вставка:,O(n),O(1)
Удаление:,O(n),O(1)


Существует два вида доступа: *произвольный* и *последовательный*.
При последовательном доступе элементы читаются по одному, начиная с первого.

**Списки** поддерживают только *последовательны* доступ.

**Массивы** поддерживают *произвольный* доступ. Поэтому они обладают более высокой скоростью чтения.

### Упражнения

1

Допустим, вы пишете приложение для приема заказов от посетителей ресторана. Приложение должно хранить список заказов. Официанты добавляют заказы в список, а повара читают заказы из списка и выполняют их. Заказы образуют очередь: официанты добавляют заказы в конец очереди, а повар берет первый заказ из очереди и начинает готовить.

Какую структуру данных вы бы использовали для реализации этой очереди: массив или связанный список? (Подсказка: связанные списки хорошо подходят для вставки/удаления, а массивы - для произвольного доступа к элементам. Что из этого понадобится в данном случае?)

В данном случае лучше использовать **список**. Потому что нет необходимости использовать *произвольный* доступ к элементам.

2

Проведем мысленный эксперимент. Допустим, Facebook хранит
список имен пользователей. Когда кто-то пытается зайти на сайт Facebook, система пытается найти имя пользователя. Если имя входит в список имен зарегистрированных пользователей, то вход разрешается. Пользователи приходят на Facebook достаточно часто, поэтому поиск по списку имен пользователей будет выполняться часто. Будем считать, что Facebook использует бинарный поиск для поиска в списке. Бинарному поиску необходим произвольный доступ - алгоритм должен мгновенно обратиться к среднему элементу текущей части
списка. Зная это обстоятельство, как бы вы реализовали список пользователей: в виде массива или в виде связанного списка?

В данном случае лучше использовать **массивы**

3

Пользователи также довольно часто создают новые учетные записи на Facebook. Предположим, вы решили использовать массив для хранения списка пользователей. Какими недостатками обладает массив для выполнения вставки? Допустим, вы используете бинарный поиск для нахождения учетных данных. Что произойдет при добавлении новых
пользователей в массив?

Всех остальных пользователей нужно будет двигать в другие ячейки памяти. Такая вставка займет много времени.

## Сортировка выбором 

Допустим, у вас на компьютере записана музыка и для каждого исполнителя хранится счетчик воспроизведений.

In [8]:
chart_list = pd.DataFrame({
    'Счетчик воспроизведения': [156, 141, 35, 94, 88, 61, 111],   
}, index=['Radiohead', 'Kishore Kumar', 'THe black keys', 'Neutral milk hotel', 'Beck', 'The strokes', 'Wilco'])

chart_list

Unnamed: 0,Счетчик воспроизведения
Radiohead,156
Kishore Kumar,141
THe black keys,35
Neutral milk hotel,94
Beck,88
The strokes,61
Wilco,111


Вы хотите отсортировать список по убыванию счетчика воспроизведений, чтобы самые любимые исполнители стояли на первых местах. Как это сделать?

Одно из возможных решений - пройти по списку и найти исполнителя с наибольшим количеством воспроизведений. Этот исполнитель добавляется в новый список.

In [9]:
new_list = pd.DataFrame({
    'Счетчик воспроизведения': [156],   
}, index=['Radiohead'])

new_list

Unnamed: 0,Счетчик воспроизведения
Radiohead,156


Потом то же самое происходит со следующим по количеству воспроизведений исполнителем.

In [10]:
new_list = pd.DataFrame({
    'Счетчик воспроизведения': [156, 141],   
}, index=['Radiohead', 'Kishore Kumar'])

new_list

Unnamed: 0,Счетчик воспроизведения
Radiohead,156
Kishore Kumar,141


Продолжая действовать так, мы получаем отсортированный список.

In [11]:
new_list = pd.DataFrame({
    'Счетчик воспроизведения': [156, 141, 111, 94, 88, 61, 35],   
}, index=['Radiohead', 'Kishore Kumar', 'Wilco', 'Neutral milk hotel', 'Beck', 'The strokes', 'The black keys'])

new_list

Unnamed: 0,Счетчик воспроизведения
Radiohead,156
Kishore Kumar,141
Wilco,111
Neutral milk hotel,94
Beck,88
The strokes,61
The black keys,35


Чтобы найти исполнителя с наибольшим значением счетчика воспроизведения , необходимо проверить каждый элемент в списке. Как вы уже видели, это делается за время О(п). Итак, имеется операция, выполняемая за время О( п ), и ее необходимо выполнить п раз!

Все это требует времени О(n х n), или О(n2).

Пример кода

In [21]:
def find_Smallest(arr):
    smallest = arr[0]
    smallest_index = 0
    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest = arr[i]
            smallest_index = i
    return smallest_index

In [43]:
a = [17, 18, 16, 8, 13, 11, 19, 11]

In [44]:
print(find_Smallest(a))

3


Теперь на основе этой функции можно написать функцию сортировки выбором:

In [45]:
def selectionSort(arr):
    newArr = []
    for i in range(len(arr)):
        smallest = find_Smallest(arr)
        newArr.append(arr.pop(smallest))
    return newArr

In [46]:
print(selectionSort(a))

[8, 11, 11, 13, 16, 17, 18, 19]


## Шпаргалка

    * Память компьютера напоминает ограмный шкаф с ящиками.
    * Если вам потребуется сохранить набор элементов, воспользуйтесь массивом или списком.
    * В массиве все элементы хранятся в памяти рядом друг с другом.
    * В списке элементы распределяются в произвольных местах памяти, при этом в одном элементе хранится адрес следующего элемента.
    * Массивы 