# Семинар 10. Файлы, поиск, сортировка

Сегодня мы поговорим про работу с файлами, поиск и сортировку

# Работа с файлами

Для открытия файлов в python используется встроенная команда open:

In [None]:
f = open('input.txt')

In [None]:
f

<_io.TextIOWrapper name='input.txt' mode='r' encoding='UTF-8'>

Функция open() принимает 2 основных аргумента:
- первый аргумент file - это имя файла, т.е. путь к файлу, который мы хотим открыть, путь может быть как абсолютный, так и относительный, как и в ОС Windows.
- второй аргумент mode - это режим работы с файлом: для чтения, записи, перезаписи и пр.

Обозначение режимов работы с фалом:
- 'r'	открытие на чтение (является значением по умолчанию).
- 'w'	открытие на запись, содержимое файла удаляется, создается новый пустой файл.
- 'x'	открытие на запись, если файла не существует, иначе исключение.
- 'a'	открытие на дозапись, информация добавляется в конец файла.
- 'b'	открытие в двоичном режиме.
- 't'	открытие в текстовом режиме.
- '+'	открытие на чтение и запись.

В python файл представляется идентификатором и вся дальнейшая работа с этим файлом связана с его идентификатором:

In [None]:
f = open('input.txt', 'r')
print(f)

<_io.TextIOWrapper name='input 1.txt' mode='r' encoding='UTF-8'>


# Чтение из файла

Существует 3 основных способа чтения информации из текстового файла:

1. Чтение всей информации целиком с помощью функции read()

In [None]:
f = open('input.txt', 'r')

In [None]:
msg = f.read()
print(msg)

1
2
3
4
5
6
7
8
9
0


2. Чтение информации построчно с помощью цикла for

In [None]:
f = open('input.txt', 'r')
for line in f:
    print(line, end='')

1
2
3
4
5
6
7
8
9
0

В выводе присутствуют все переводы строк, как и в файле. Дополнительные переводы строк обусловлены стандартным поведением функции print().

3. Чтение всех строк одним списком с помощью функции readlines()

In [None]:
f = open('input 1.txt', 'r')
lines = f.readlines()
for i in range(len(lines)):
    print(lines[i],end='')

Hello World!
1
2
3
4
5



Существует также функция readline(), позволяющая считать лишь одну строчку а не все сразу.

# Запись в файл

Первым делом для записи в файл его нужно открыть в режиме записи:

In [None]:
f = open('output.txt', 'w')
print(f)

<_io.TextIOWrapper name='output.txt' mode='w' encoding='UTF-8'>


In [None]:
f.close()

1. Запись в файл с помощью метода write:

In [None]:
f = open('output.txt', 'a')
msg = "\nWrite to file again and again"
f.write(msg)
f.close()

In [None]:
f = open("print_output_example.txt", 'w')

Функции write принимает строковый аргумент - данные для записи, и возвращает число записанных символов.

2. Запись в файл с помощью метода print:

In [None]:
msg = "Write with print"
print(msg, file=f)

После чтения/записи не забывайте закрывать файлы:

In [None]:
f.close()

# With ... as - менеджер контекста

Конструкция with ... as используется для оборачивания блока инструкций.  Гарантирует выполнение завершающих действий (например, закрытие файла) вне зависимости от того, произошло исключение внутри блока кода или нет.
Синтаксис конструкции with ... as:

In [None]:
"with" expression ["as" target] ("," expression ["as" target])* ":"
    suite

Что происходит при выполнении данного блока:

1) Вначале вычисляется **<expression>**, которое должно возвращать объект, поддерживающий протокол и имеющий два метода: __enter__() и __exit__()

2) Выполняется метод __enter__. Если конструкция with включает в себя слово as, то возвращаемое методом __enter__ значение записывается в переменную. Если переменная не указана, возвращаемое значение игнорируется.

3) Вызывается метод __exit__, причём неважно, выполнилось ли suite или произошло исключение. В этот метод передаются параметры исключения, если оно произошло, или  None, если исключения не было.

Если в конструкции with - as было несколько выражений, то это эквивалентно нескольким вложенным конструкциям:

In [None]:
with A() as a, B() as b:
    suite

эквивалентно

In [None]:
with A() as a:
    with B() as b:
        suite

Для чего применяется конструкция with ... as? Для гарантии того, что критические функции выполнятся в любом случае. Самый распространённый пример использования этой конструкции - открытие файлов, такой способ гарантирует закрытие файла в любом случае.

In [None]:
with open('output.txt','w') as f:
    f.write('Write without close')

# Алгоритмы поиска

**Поиск** - задача нахождения определенного элемента (или ближайшего к нему) в массиве.

1) Линейный поиск

При линейном поиске последовательно просматривается каждый элемент массива.

In [None]:
def search(A,key):
    for i in range(len(A)):
        if A[i]==key:
            return True
    else:
        return False


Функция search(A,key) возвращает False только, если искомого элемента key не было обнаружено в списке. Поскольку в худжем случае необходимо просмотреть все элементы, то сложность алгоритма линейного поиска - O(n) - линейная.

In [None]:
A = [4,2,7,3,1,5,6]
search(A,7)

True

**Упражнение**: модифицировать функцию так, чтобы она возвращала индекс искомого элемента в массиве и -1, если вхождения не обнаружено.

2) Бинарный поиск

В случае, если список элементов изначально отсортирован, искомый элемент можно найти и быстрее чем за O(n). Идея бинарного поиска заключается в последовательном делении массива пополам и выборе той половины, в которой находится искомый элемент.

In [None]:
def binary_search(A,key):
    left = -1
    right = len(A)
    while right > left + 1:
        middle = (left + right) // 2
        if A[middle] == key:
            return True
        elif A[middle] < key:
            left = middle
        elif A[middle] > key:
            right = middle
    else:
        return False


Алгоритм останавливается, когда left и right указывают на два соседних элемента. Таким образом, сложность алгоритма бинарного поиска - O(log(n)) - логарифмическая.

In [None]:
A = [1,2,3,4,5,6,7]
binary_search(A,3)

True

**Упражнение**: модифицировать функцию так, чтобы она возвращала индекс искомого элемента в массиве и -1, если вхождения не обнаружено.

# Алгоритмы сортировки

**Сортировка** - задача упорядочивания элементов в массиве.

Как можно сравнивать:

*Вычислительная сложность* (лучший, худший, средний случай); также можно измерить количество перестановок для "in-place" алгоритмов.<br>
*Использование памяти*. В частности, "in-place" алгоритмы работают за O(1) по памяти.<br>
*Рекурсивность* - рекурсивен ли алгоритм или нет; некоторые могут совмещенными (merge sort).<br>
*Стабильность* - сохраняет ли алгоритм порядок записей с одинаковыми ключами.<br>
*Адаптивность* - влияет ли предварительная сортировка на время выполнения.<br>
*Общий метод* - обменные (пузырьком, быстрая), выбором (сортировка кучей), вставками (вставками), слиянием (слиянием), без сравнений (подсчетом), гибридные (timsort), непрактичные и прочее.

1) Сортировка выбором

Сортировка выбором - один из наиболее наивных подходов к сортировке, в нем последовательно ищется наименьший элемент массива и ставится в начало, затем ищется наименьший из оставшихся элементов и ставится на следующее место и т.д.

In [None]:
def selection_sort(A):
    for i in range(len(A)-1):
        min_id = i
        for j in range(i+1,len(A)):
            if A[j] < A[min_id]:
                min_id = j
        A[i], A[min_id] = A[min_id], A[i]
        print(A)
    return A

На каждом шаге поэлементного цикла for линейным поиском решается задача поиска минимального элемента, следовательно, общая сложность алгоритма - O(n^2) - квадратичная.

In [None]:
A = [4,2,7,3,1,5,6]
selection_sort(A)

[1, 2, 7, 3, 4, 5, 6]
[1, 2, 7, 3, 4, 5, 6]
[1, 2, 3, 7, 4, 5, 6]
[1, 2, 3, 4, 7, 5, 6]
[1, 2, 3, 4, 5, 7, 6]
[1, 2, 3, 4, 5, 6, 7]


[1, 2, 3, 4, 5, 6, 7]

2) Сортировка "пузырёк"

Пузырьковая сортировка предполагает последовательное переприсваивание соседних неупорядоченных элементов до тех пор, пока наибольший элемент не окажется в самом конце списка.  

In [None]:
def bubble_sort(A):
    for i in range(len(A)):
        for j in range(len(A)-i-1):
            if A[j] > A[j+1]:
                A[j],A[j+1] = A[j+1],A[j]
        print(A)
    return A

На каждом шаге алгоритма наибольший элемент "всплывает" в конец массива, таким образом, после завершения алгоритма весь массив отсортируется по неубыванию. Сложность алгоритма сортировки пузырьком - O(n^2).

In [None]:
A = [4,2,7,3,1,5,6]
bubble_sort(A)

[2, 4, 3, 1, 5, 6, 7]
[2, 3, 1, 4, 5, 6, 7]
[2, 1, 3, 4, 5, 6, 7]
[1, 2, 3, 4, 5, 6, 7]
[1, 2, 3, 4, 5, 6, 7]
[1, 2, 3, 4, 5, 6, 7]
[1, 2, 3, 4, 5, 6, 7]


[1, 2, 3, 4, 5, 6, 7]

3) Сортировка вставками

Начиная со второго каждый следующий элемент массива вставляется в уже отсортированное начало путем поиска подходящей позиции, а все элементы справа от этой позиции сдвигаются вправо.

In [None]:
def insertion_sort(A):
    for i in range(1,len(A)):
        new = A[i]
        j = i-1
        while j>=0 and A[j] > new:
            A[j+1] = A[j]
            j = j - 1
        else:
            A[j+1] = new
        print(A)
    return A

В лучшем случае, т.е. когда массив изначально упорядочен, сложность алгоритма сортировки вставками линейная - O(n), однако в худшем случе, когда массив изначально отсортирован в обратном порядке, сложность возрастает до квадратичной - O(n^2). Поэтому сортировка вставками эффективна лишь для упорядоченных и почти упорядоченных наборов данных.

In [None]:
A = [4,2,7,3,1,5,6]
insertion_sort(A)

[2, 4, 7, 3, 1, 5, 6]
[2, 4, 7, 3, 1, 5, 6]
[2, 3, 4, 7, 1, 5, 6]
[1, 2, 3, 4, 7, 5, 6]
[1, 2, 3, 4, 5, 7, 6]
[1, 2, 3, 4, 5, 6, 7]


[1, 2, 3, 4, 5, 6, 7]

4) Сортировка слиянием

Сортировка слиянием основана на идее, что два отсортированных списка можно слить в один отсортированный список за линейное время, равное суммарной длине этих списков.

In [None]:
def merge(A,B):
    res = list()
    i,j = 0,0
    while i < len(A) and j < len(B):
        if A[i] < B[j]:
            res.append(A[i])
            i = i + 1
        else:
            res.append(B[j])
            j = j + 1
        print(res)
    res.extend(A[i:])
    res.extend(B[j:])
    return res

Изначально сравниваются два первых элемента списков A и B, меньший из них сразу записывается в ответ, а соответствующий ему индекс сдвигается на следующий элемент. Таким образом, за один проход по списку A и списку B создается новый массив из всех элементов.

In [None]:
A = [1,3,5,7]
B = [2,4,6]
merge(A,B)

[1]
[1, 2]
[1, 2, 3]
[1, 2, 3, 4]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5, 6]


[1, 2, 3, 4, 5, 6, 7]

Перейдем теперь непосредственно к сортировке слиянием.

In [None]:
def merge_sort(A):
    if len(A)==1:
        return A
    else:
        Left = A[:len(A)//2]
        Right = A[len(A)//2:]
        return merge(merge_sort(Left),merge_sort(Right))

Исходный список делится пополам, каждая часть сортируется отдельно этой же рекурсивной функцией, затем результат каждой из сортировок сливается с помощью функции merge().

In [None]:
A = [4,2,7,3,1,5,6]
merge_sort(A)

[2]
[2]
[2, 4]
[1]
[5]
[1]
[1, 3]
[1]
[1, 2]
[1, 2, 3]
[1, 2, 3, 4]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5, 6]


[1, 2, 3, 4, 5, 6, 7]

Аналогично бинарному поиску, количество делений пополам определяется логарифмом от длины массива, но при каждом делении дополнительно выполняется слияние списков, следовательно итоговая сложность алгоритма - O(n*log(n)).

5) Быстрая сортировка (Qsort)

- https://ru.wikipedia.org/wiki/Быстрая_сортировка
- https://habrahabr.ru/sandbox/29775/

Является стандартной встроенной сортировкой в C++.

6) Гибридная сортировка Тима Петерсона (Timsort)

- https://ru.wikipedia.org/wiki/Timsort
- https://habrahabr.ru/company/infopulse/blog/133303/

Является стандартной встроенной сортировкой в python.

# Задачи

C. Ближайшее число

In [None]:
n = int(input())
A = [int(x) for x in input().split()]
key = int(input())
delta = abs(A[0]-key)
res_i = 0
for i in range(1,len(A)):
    if abs(A[i]-key)<delta:
        delta = abs(A[i]-key)
        res_i = i
print(A[res_i])

4
5
4
5


H. Сортировка

In [None]:
n = int(input())
A = [int(x) for x in input().split()]
A.sort()
print(*A)

4
3 2 1 5
1 2 3 5


H. Сортировка (через файлы)

In [None]:
f = open('input.txt','r')
n = int(f.readline().strip())
A = [int(x) for x in f.readline().strip().split()]
f.close()
A.sort()
#print(*A)

f = open('output.txt','w')
res = ' '.join([str(x) for x in A])
f.write(res)
f.close()