# Чё вообще происходит #2

## Теория

- Как в памяти хранится list? В чем отличие tuple от list? 
- Что такое функция в Python? В чем ее схожесть с другими типами?
- Что такое рекурсия? Что стоит определить в первую очередь, когда вы используете такой подход?
- В чем идея бинарного поиска?

## Задачки

### GCD

In [27]:
def gcd_recursive(a, b):
    if b == 0:
        return a
    else:
        return gcd_recursive(b, a % b)

In [29]:
gcd_recursive(4, 6)

2

In [30]:
def gcd(a, b):
    while b:
        a, b = b, a % b
    return a

In [32]:
gcd(5, 10)

5

### Проверка на палиндром

A phrase is a palindrome if, after converting all uppercase letters into lowercase letters and removing all non-alphanumeric characters, it reads the same forward and backward. Alphanumeric characters include letters and numbers.

Given a string s, return true if it is a palindrome, or false otherwise.

Напишите функцию проверки, которая принимает в качестве параметра Iterable из предложений и возвращает результат в формате:
`[index of example: is palindrome,...]`

In [36]:
tests = [
    'A nut for a jar of tuna.',
    'Borrow or rob?',
    'Was it a car or a cat I saw?',
    '''Dennis, Nell, Edna, Leon, Nedra, Anita,
    Rolf, Nora, Alice, Carol, Leo, Jane, Reed,
    Dena, Dale, Basil, Rae, Penny, Lana, Dave,
    Denny, Lena, Ida, Bernadette, Ben, Ray, Lila,
    Nina, Jo, Ira, Mara, Sara, Mario, Jan, Ina,
    Lily, Arne, Bette, Dan, Reba, Diane, Lynn,
    Ed, Eva, Dana, Lynne, Pearl, Isabel, Ada, Ned,
    Dee, Rena, Joel, Lora, Cecil, Aaron, Flora,
    Tina, Arden, Noel, and Ellen sinned.''',
    'Murder for a jar of red rum.'
]

In [38]:
from typing import Callable, Iterable


def is_palindrome(s: str) -> bool:
    merged_s = ''.join([letter for letter in s.lower() if letter.isalpha()])
    return merged_s[::-1] == merged_s
    

def check_tests(pal_func: Callable, tests: Iterable[str]) -> list:
    return [(i, pal_func(t)) for i, t in enumerate(tests)]

In [39]:
check_tests(is_palindrome, tests)

[(0, True), (1, True), (2, True), (3, True), (4, True)]

### Бинпоиск со сдвигом

Дан отсортированный набор элементов с некоторым сдвигом.

На вход подается элемент. Найти его индекс.

    [9, 10, 11, 11, 12, 0, 1, 3, 7], х = 12
    Ответ: 4
    
- Подсказка: подумайте, как можно модифицировать алгоритм бинпоиска для этой задачи

In [68]:
a = [7, 7, 9, 10, 11, 11, 12, 0, 1, 3, 7, 7]

In [69]:
def find_shift(arr: list) -> int:
    if arr[0] < arr[-1]:
        return -1
    
    low = 0
    high = len(arr) - 1
    
    while low < high - 1:
        mid = (low + high) // 2
        
        if arr[0] >= arr[mid]:
            high = mid
        else:
            low = mid
            
    return low

In [70]:
from bisect import bisect_left

def binary_search_bisect(arr, value):
    i = bisect_left(arr, value)
    if i != len(arr) and arr[i] == value:
        return i
    else:
        return -1

In [None]:
shift = find_shift(a)

value_to_find = 12

if shift >= 0:
    if value_to_find >= a[0]:
        print(binary_search_bisect(a[:shift + 1], value_to_find))
    else:
        print(binary_search_bisect(a[shift + 1:], value_to_find))
    
else:
    print(binary_search_bisect(a, value_to_find))

# Регулярные выражения

Полезные ссылки:

https://habr.com/ru/post/349860/

https://uneex.org/HSE/ProgrammingOS/15_Regexp
    
https://regexone.com/    
    
https://ravesli.com/regulyarnye-vyrazheniya-osnovy/
    
https://regex101.com/

Pattern matching / searching:
- Pattern -- это некоторая строка из спецсимволов, которая описывает, что мы хотим найти
- Matching -- определение, соответствует ли строка заданному паттерну
- Searching -- поиск подстрок, соответствующих паттерну, в тексте

### Основные правила:

#### Общее
- любой неспециальный символ матчит себя
- "." матчит любой символ
- "[abc]" матчит любой символ внутри множества
- "[A-z]", "[0-9]" и прочие сокращения (множества символов подряд в таблице ascii)
- "a*" -- звездочка означает 0 или больше указанных символов подряд
- "a+" -- + означает 1 или более указанных символов подряд
- "a{2,}" -- N или больше символов подряд
- "a?" -- один или ни одного
- "a{1, 5}" -- в фигурных скобках можно указать точное количество. Левая цифра означает минимальное, правая -- максимальное
- "^regexp" -- только подстроки в начале строки
- "rgexp$" -- только подстроки, находящиеся в конце строки

#### Специальные обобщающие символы
`\{small_letter}` -- специальный символ
`\{big_letter}` -- любой символ кроме специального символа 

- \s -- пробельные символы
- \d -- цифра
- \w -- буква или _

#### Lookarounds
- "(?=...)" -- positive lookahead
- "(?<=...)" -- positive lookbehind
- "(?!...)" -- negative lookahead
- "(?<!...)" -- negative loookbehind

и прочее и прочее...


**Дисклеймер**: Написать регулярку может быть гораздо сложнее, чем потом прочитать! 

### Разберем несколько примеров

In [77]:
import re

In [78]:
sample_string = 'Hello, world!'

In [80]:
pattern = re.compile('[hH]ello')
pattern.match(sample_string)

<re.Match object; span=(0, 5), match='Hello'>

In [81]:
pattern.findall(sample_string)

['Hello']

In [94]:
m = re.match(r'[hH]ello,? [A-z]*[.!]?$', sample_string)

In [95]:
sample_string[m.start():m.end()]

'Hello, world!'

In [96]:
m.group()

'Hello, world!'

In [97]:
grouped_match = re.match(r'([hH]ello,?) [a-z]*[.!]?$', sample_string)

In [98]:
grouped_match.group()

'Hello, world!'

In [99]:
grouped_match.groups()

('Hello,',)

In [100]:
re.search(r'\d{1,3}', 'rfhe97346fevbv78')

<re.Match object; span=(4, 7), match='973'>

In [103]:
re.findall(r'\d{1,}', 'rfhe97346fevbv78')

['97346', '78']

In [104]:
re.sub(r'\d{3,5}', 'цифры', 'rfhe97346fevbv78')

'rfheцифрыfevbv78'

**Lookarounds**

In [105]:
er_words = 'math teacher physics teacher scheduler funny monster creepy monster'

In [107]:
for m in re.finditer('\w+ (?=teacher)', er_words):
    print(er_words[m.start():m.end()])

math 
physics 


In [108]:
re.findall('\w+ (?=teacher)', er_words)

['math ', 'physics ']

In [109]:
for m in re.finditer('(?<!math) teacher', er_words):
    print(m.start(), m.end(), er_words[m.start():m.end()])

20 28  teacher


## Practice Tasks

### Remove stops

In [123]:
stopwords = ['продам', 'отличный', 'авто', 'автомобиль', 'хороший']
regexp_stops = '|'.join(fr"\b{word}\b" for word in stopwords)
regexp_chars = r'[!?.,\s\n\t-_]+'

text = 'Продам отличный автомобиль внедорожник не бит, не крашен фиолетовый!!'

cleaned_text = re.sub(regexp_stops, '', text, flags=re.IGNORECASE)
cleaned_text = re.sub(regexp_chars, ' ', cleaned_text)
cleaned_text

' внедорожник не бит не крашен фиолетовый '

### Ошибся со временем

Вы написали длинное письмо, где описали свои планы на день с указанием конкретных временных промежутков. Однако позже вы осознали, что на самом деле забыли об одном важном деле, и теперь все даты в вашем письме неверные. Напишите программу, которая заменяет все временные указания на строчку TBD

*Пример:*

`Уважаемый Д.! Если вы к 11:00 пятницы не подготовите свой семинар, то уже в 11:00:01 я за себя не отвечаю. 
Нужно нагененировать хотя бы 4 задачи и успеть разобрать в идеале 80:100 из них` 

->

`Уважаемый Д.! Если вы к (TBD) пятницы не подготовите свой семинар, то уже в (TBD) я за себя не отвечаю. 
Нужно нагененировать хотя бы 4 задачи и успеть разобрать в идеале 80:100 из них` 

In [129]:
# your code

text = 'Уважаемый Д.! Если вы к 11:00 пятницы не подготовите свой семинар, то уже в 11:00:01 я за себя не отвечаю. Нужно нагененировать хотя бы 4 задачи и успеть разобрать в идеале 80:100 из них'

regexp_time = r'\b(([01][0-9])|(2[0-4])):([0-5][0-9])(:[0-5][0-9])?\b'

re.sub(regexp_time, '(TBD)', text)

'Уважаемый Д.! Если вы к (TBD) пятницы не подготовите свой семинар, то уже в (TBD) я за себя не отвечаю. Нужно нагененировать хотя бы 4 задачи и успеть разобрать в идеале 80:100 из них'

## Опциональные задачи на бонусы

### Парсинг таблицы игр (0.5)

In [1]:
match_results = '''
Aston Villa (London) 1 1 Man City (Manchester)
Brentford (Brentford) 5 2 Leeds United (Leeds)
Chelsea (London) 2 1 West Ham (London)
Newcastle United (Newcastle) 0 0 Crystal Palace (London)
Nottm Forest (Nottighham) 2 3 AFC Bournemouth (Bournemouth)
Tottenham (London) 2 1 Fulham (London)
Wolverhampton Wanderers (Wolverhampton) 1 1 Southampton (Southampton)
Everton (Liverpool) 0 0 Liverpool (Liverpool)
'''

1. Достаньте все города из текста

In [3]:
# your code

2. Все названия команд

In [4]:
# your code

3. Все счета матчей

In [5]:
# your code

### E-mails (1)

Вы увидели, что у соседнего курса в открытом доступе выложены личные данные лекторов, семинаристов и ассистентов! Как хорошие программисты, вы конечно же забеспокоились о приватности данных незадачливых коллег и решили тайком  удалить все их личные почты из общего файла. При этом, вы хотите, чтобы с ними можно было связаться, поэтому университетские почты вы в файле оставляете.

**Задача:** 
- Прочитать данные из файла
- Вывести все e-mail'ы из файла
- Модифицировать файл таким образом, чтобы все почты не относящиеся к доменам @hse.ru или @edu.hse.ru были заменены на фразу "Pr1v@cY REstorED"


PS Если вы умеете работать с командной строчкой в linux или mac os, попробуйте решить задачку в терминале. Вам можешь помочь команда `ssed`

### Погенерируем пароли (1.5)

Вы наконец-то обеспокоились своей безопасностью в сети и решили обновить все свои пароли. Однако придумывать все самим для всех ваших сайтов вам, конечно, лень. Поэтому вы решили написать программу, которая это сделает за вас!

Сгенерируйте случайный пароль длины N. Убедитесь, что получившийся пароль на самом деле хороший. В нашем случае это:
1. Содержит хотя бы две заглавные буквы подряд
2. Содержит хотя бы две строчные буквы подряд
3. Не содержит пробельные спецсимволы (\t, \n и подобные)
4. Не содержит трех цифр подряд
5. Содержит и русские, и английские буквы 

Ваш код должен генерировать пароли, пока они не удовлетворят заданным условиям.

hint: используйте модуль random