# Практическое занятие 7
## Цель: Рассмотреть алгоритмы обработки числовых последовательностей с использованием списков **Python**
## Задачи:
1. Методы списков в **Python**
2. Сортировка вставками
3. Решето Эратосфена
4. Частотный анализ

## Методы списков
Помимо методов `append()` и `count()`, рассмотренных ранее, существуют и другие [методы списков](https://docs.python.org/3/tutorial/datastructures.html).

Например, метод `insert(i, x)` добавляет новый элемент *x* перед элементом с индексом *i* в список: 

In [3]:
a = [1, 2, 3, 4, 5]
print(a)
a.insert(3, 20)
print(a)

[1, 2, 3, 4, 5]
[1, 2, 3, 20, 4, 5]


### Удаление элемента из списка
Удалить элемент с индексом *i* из списка можно несколькими способами.

С помощью инструкции **del**:

In [4]:
print(a)
del a[2]
print(a)

[1, 2, 3, 20, 4, 5]
[1, 2, 20, 4, 5]


С помощью метода `pop(i)`:

In [4]:
print(a)
a.pop(1)
print(a)

[1, 2, 20, 4, 5]
[1, 20, 4, 5]


Если не указать аргумент при вызове метода `pop()`, то будет удален последний элемент:

In [5]:
print(a)
print(a.pop())
print(a)

[1, 20, 4, 5]
5
[1, 20, 4]


Пример выше также демонcтрирует, что метод `pop()` возвращает значение удаленного из списка элемента.

При использовании списков важно помнить, что наименее трудоемкая операция при удалении элемента — это удаление с конца списка. По возможности, лучше использовать именно ее. 

### Добавление нескольких элементов
Добавить несколько элементов в конец списка можно с помощью метода `extend()`, которому в качестве аргумента передается итерируемый объект:

In [6]:
print(a)
a.extend(range(30, 55, 3))
print(a)

[1, 20, 4]
[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54]


Аналогичного результата можно добиться с помощью оператора `+=`:

In [7]:
print(a)
a += range(55, 60)
print(a)

[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54]
[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 56, 57, 58, 59]


Если при присваивании в срез, длина итерируемого объекта больше среза, то список будет увеличен:

In [8]:
print(a)
a[-4:-1] = range(60, 66)
print(a) 

[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 56, 57, 58, 59]
[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 60, 61, 62, 63, 64, 65, 59]


И наоборот, если при присваивании в срез, длина итерируемого объекта меньше среза, то список будет уменьшен:

In [9]:
print(a)
a[-7:] = range(66, 68)
print(a) 

[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 60, 61, 62, 63, 64, 65, 59]
[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 66, 67]


В частности, при помощи присваивания в срез можно удалить часть списка, если присвоить в срез пустую последовательность:

In [10]:
print(a)
a[0:6] = []
print(a) 

[1, 20, 4, 30, 33, 36, 39, 42, 45, 48, 51, 54, 55, 66, 67]
[39, 42, 45, 48, 51, 54, 55, 66, 67]


## Сортировка списков
Ранее мы рассмотрели сортировку списков в **Python** с помощью функций `sort()` и `sorted()` (используют сортировку *TimSort*). На этом занятии мы рассмотрим "ручную" сортировку с помощью алгоритма *сортировки вставками*.

### Сортировка вставками
На каждой итерации алгоритма сортировки вставками выполняется сортировка только первых i элементов списка *a*. Пусть уже первые i − 1 элементов списка *a* отсортированы (то есть срез ``a[:i]`` отсортирован), и мы добавили в конец новый элемент. Этот новый элемент ``a[i]`` нужно передвинуть на правильное место, чтобы снова получить отсортированный массив. Будем просто пытаться обменивать его местами с соседом слева, если этот сосед больше нового элемента.

Например, пусть i = 7 и срез ``a[:i] равен [42, 45, 54, 55, 66, 67]``, а значение ``a[i]`` равно 48. Тогда элемент ``a[i]`` нужно поставить после элемента ``a[1]``, равного 45, а все элементы, которые больше 48, сдвинуть вправо на 1. Получится cрез ``a[:i+1], равный [42, 45, 48, 51, 54, 55, 66, 67]``. Таким образом, при вставке элемента ``a[i]`` в срез ``a[:i]`` так, чтобы в результате получился упорядоченный срез, все элементы, которые больше ``a[i]`` будут двигаться вправо на одну позицию. А в освободившуюся позицию и будет вставлен элемент ``a[i]``.
При этом значение ``a[i]`` нужно сохранить в переменной, т. к. на место элемента ``a[i]``, возможно, будет записан элемент ``a[i–1]``.

Получим следующий алгоритм:

In [12]:
a = [66, 54, 42, 45, 51, 55, 67, 48]
for i in range(1, len(a)): 
    vrem = a[i] # сохраним текущий элемент во временной переменной 
    j = i - 1 
    # определяем элементы большие vrem 
    while j >= 0 and a[j] > vrem: 
        # сдвигаем вправо на 1 
        a[j+1] = a[j] 
        j -= 1 
    # На свободное место записываем vrem 
    a[j+1] = vrem
print(a)

[42, 45, 48, 51, 54, 55, 66, 67]


## Решето Эратосфена
При решении практических задач часто возникает необходимость поиска простых чисел не превосходящих натурального числа N. Проверка всех чисел от 2 до N на простоту с помощью алгоритма, рассмотренного ранее, не является эффективным — ассимптотическая сложность такого подхода равна $O(n*\sqrt{n})$.

Более эффективным является алгоритм, предложенный греческим математиком Эратосфеном Киренским, согласно ему необходимо:
1. Выписать все числа от 2 до N;
2. Начать с n = 2;
3. Вычеркнуть все числа, кратные n: 2n, 3n, и т.д.;
4. Найти следующее невычеркнутой число и присвоить его переменной n;
5. Повторять шаги 3 и 4 до тех пор, пока n < N.

Для N = 10 алгоритм будет выглядеть следующим образом:
1. 2 3 4 5 6 7 8 9 10
2. 2 3 ~~4~~~ 5 ~~6~~ 7 ~~8~~ 9 ~~10~~
3. 2 3 ~~4~~~ 5 ~~6~~ 7 ~~8~~ ~~9~~ ~~10~~
4. Чисел кратных 5 и 7 не осталось и в итоге получим список простых чисел: 2, 3, 5 и 7

Заметим, что при вычеркивании чисел, кратных `3` число `6` оказалось вычеркнутым ранее (оно кратно двум — `3*2`). Этот факт позволяет улучшить алгоритм, начиная вычеркивать числа на шаге *3* не с `2n`, а с $n^2$. При этом получится, что при $n^2 > N$ вычеркивать будет нечего, что мы и увидели для чисел `5` и `7` в примере выше.

С учетом сказанного, алгоритм примет следующий вид:

1. Выписать все числа от 2 до N;
2. Начать с n = 2;
3. Вычеркнуть все числа, кратные n, начиная с  $n^2$;
4. Найти следующее невычеркнутой число и присвоить его переменной n;
5. Повторять шаги 3 и 4 до тех пор, пока $n^2 \leq N$.

Реализация алгоритма на языке **Python** будет выглядеть следующим образом.

Пусть переменная `N` содержит исходное число, а массив `a` — инициирован значениями `True`. Далее для числа `i` его элемент `a[i]` будет содержать значение `False`, если число `i` вычеркнуто.  

In [18]:
N = int(input())
a = [True] * (N + 1) 

 120


Элементы `a[0]` и `a[1]` сразу заполним значением `False`:

In [19]:
a[0] = False
a[1] = False

Строки ниже реализуют шаги со 2 по 5 из приведенного выше алгоритма:

In [20]:
n = 2
while n*n <= N:
    if a[n]:
        i = n*n
        while i <= N:
            a[i] = False
            i += n
    n += 1

Выведем полученную последовательность простых чисел:

In [21]:
for i in range(2, N+1):
    if a[i]:
        print(i, end=' ')

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 101 103 107 109 113 

## Тест простоты числа
### Теорема Вильсона

*Если $p$ — простое число, то число $(p-1)!+1$ делится на $p$.
Обратно: если $(p-1)!+1$ делится на $p$, то $p$ — простое число.*

Заманчиво просто, не так ли?! Однако эта теорема имеет скорее теоретическое значение, поскольку факториал $(p-1)!$ вычислить довольно трудно. Проще вычислить $a^{p-1}$, поэтому элементарные тесты, определяющие, является ли число простым, основаны на теореме Ферма, а не на теореме Вильсона. Например, наибольшее простое число, найденное с использованием теоремы Вильсона, скорее всего — 1099511628401, и даже с оптимизированным подходом к расчёту $p!$ потребуется около суток вычислений на процессорах SPARC.

Напишите **тест простоты по теореме Вильсона**:

In [2]:
def is_prime_wilson_test(n):
    m = []
    fact = 1
    for i in range(2, n+1):
        fact *= i
        m.append(fact)
    if n == 1 or n == 2:
        return True
    else:
        if n>2:
            m = m[:-1]
            if (m[-1] + 1) % n == 0:
                return True
            else:
                return False
    
x = int(input("Введите число для проверки:"))
if is_prime_wilson_test(x):
    print(f"{x} простое!")
else:
    print(f"{x} составное.")

293 простое!


### Малая теорема Ферма

*Если $p$ — простое число и $a$ — целое число, не делящееся на $p$, то $a^{p-1}-1$ делится на $p$.*

На языке теории сравнений: $a^{p-1}$ сравнимо с $1$ по простому модулю $p$. Формальная запись: $a^{p-1}\equiv 1{\pmod {p}}$

Малая теорема Ферма может быть использована для тестирования числа на простоту: если $(a^{p}-a)$ не делится на $p$, то $p$ — составное число. Однако обращение малой теоремы Ферма в общем случае неверно: если $a$ и $p$ — взаимно простые числа и $a^{p-1} - 1$ делится на $p$, то число $p$ может быть как простым, так и составным. В случае, когда $p$ является составным, оно называется [псевдопростым числом Ферма](https://ru.wikipedia.org/wiki/%D0%9F%D1%81%D0%B5%D0%B2%D0%B4%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%8B%D0%B5_%D1%87%D0%B8%D1%81%D0%BB%D0%B0_%D0%A4%D0%B5%D1%80%D0%BC%D0%B0) по основанию $a$.

Напишите **тест Ферма** на основании этой теоремы.

При использовании алгоритмов быстрого возведения в степень по модулю время работы теста Ферма для одного a оценивается как O(log2n × log log n × log log log n), где n — проверяемое число. Обычно проводится несколько проверок с различными a. 

In [None]:
import random
def is_prime_ferma_test(n):
    a = 10
    for i in range(a):
        rnd = random.randint(1, n - 1)
        if (rnd ** (n - 1) % n != 1):
            return False
    return True

x = int(input("Введите число:"))
if is_prime_ferma_test(x):
    print(f"{x}, наверное, простое!")
else:
    print(f"{x} составное.")

6 составное.


## Задача частотного анализа
Примеры задач на частоту встречающихся символов:

### Криптоанализ:
    Расшифровка шифров: для простых шифров, таких, как шифр Цезаря или шифры замены. Аналитики сравнивают частоты букв в зашифрованном тексте с известными частотами букв в открытом тексте, чтобы выявить соответствия и восстановить исходное сообщение.
    Обнаружение уязвимостей шифров: выявить слабые места, позволяя понять, какие символы или комбинации символов используются чаще всего, что может указывать на возможность их расшифровки без знания ключа.

### Обработка текстов:
    Статистический анализ текстов: для определения наиболее часто встречающихся слов или символов в тексте. Это может помочь в создании облаков слов или в визуализации данных.
    Фильтрация стоп-слов: для удаления слов, которые встречаются слишком часто и не несут смысловой нагрузки (например, предлоги и союзы).

### Кодирование и сжатие данных:
    Оптимизация кодирования: для создания более эффективных кодов, где символы с высокой частотой представляются более короткими кодами. Это применяется в алгоритмах сжатия данных, таких как Хаффмановское кодирование.

**Задача:**
На вход программы подается текст на английском языке, заканчивающийся
точкой (другие символы “.” в тексте отсутствуют). Требуется написать
программу, которая будет определять и выводить на экран английскую
букву, встречающуюся в этом тексте чаще всего, и количество там таких
букв. Строчные и прописные буквы при этом считаются не различимыми.
Если искомых букв несколько, то программа должна выводить на экран
первую из них по алфавиту. Например, пусть файл содержит следующую
запись: 
     It is not a simple task. Yes! 
Чаще всего здесь встречаются буквы I, S и T (слово Yes в подсчете не
учитывается, так как расположено после точки). Следовательно, в данном
случае программа должна вывести два символа, разделенных пробелом: 
I 3

Для работы алгоритма ниже потребуется файл `text.txt`.

In [17]:
# Определим список заглавных английских букв
letters = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

# Определим список частоты встречающихся букв в предложении
cnt = [0]*len(letters)

with open('text.txt', 'r') as F:
    s = F.readline().split('.')[0].upper() # выделим предложение, переведя все символы в верхний регистр
    for c in s:
        # подсчет частоты встречающихся букв
        if c in letters:
            cnt[letters.index(c)] += 1
# Выведем результат
print(letters[cnt.index(max(cnt))], max(cnt))

E 7



Модифицируйте код приведенный выше так, чтобы в результате на экран выводились 10 наиболее встречаемых букв и их частоты (в порядке убывания).

In [125]:
letters = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

cnt = [0]*len(letters)
k = []

with open('text.txt', 'r') as F:
    s = F.readline().split('.')[0].upper()
    for c in s:
        if c in letters:
            cnt[letters.index(c)] += 1

    for i in range(len(letters)):
        if cnt[i] > 0:
            k.append([letters[i], cnt[i]])
    
    k.sort(key=lambda x: x[1], reverse=True)
    
    for letter, count in k[:10]:
        print(f"{letter}: {count}")

E: 7
C: 4
T: 4
I: 3
O: 3
R: 3
S: 3
A: 2
N: 2
P: 2


Модифицируйте код из предыдущего задания чтобы он анализировал все предложения из исходного текста и проведите частотный анализ разделов History и Engineering статьи https://en.wikipedia.org/wiki/Quantum_computing. Сравните полученные результаты.

In [6]:
letters = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

cnt = [0] * len(letters)
k = []

with open('text.txt', 'r') as F:
    s = F.read().upper().replace('.', ' ').split()
    
    for i in s:
        for c in i:
            if c in letters:
                cnt[letters.index(c)] += 1

    for i in range(len(letters)):
        if cnt[i] > 0:
            k.append([letters[i], cnt[i]])
    
    k.sort(key=lambda x: x[1], reverse=True)
    
    for letter, count in k:
        print(f"{letter}: {count}")


E: 391
T: 347
O: 317
N: 259
A: 243
S: 239
I: 236
R: 234
C: 146
L: 130
H: 118
P: 108
D: 100
U: 89
M: 78
F: 76
W: 66
Y: 58
G: 57
B: 50
V: 30
K: 29
J: 5
Q: 4
X: 4
Z: 1
