# Linux/shell

Лекции и конспекты про линукс, работу с терминалом, git и не только

[The missing semester of your CS education](https://missing.csail.mit.edu/) -- набор лекций и конспетов от студентов MIT

[Пропущенный семестр](https://github.com/danlark1/hse_missing_cs_education) -- адаптация идеи выше, прочитанная Даней Кутениным на ФКН

# Регулярные выражения

Полезные ссылки:

https://habr.com/ru/post/349860/

https://uneex.org/HSE/ProgrammingOS/15_Regexp
    
https://regexone.com/    
    
https://ravesli.com/regulyarnye-vyrazheniya-osnovy/
    
https://regex101.com/

Pattern matching / searching:
- Pattern -- это некоторая строка из спецсимволов, которая описывает, что мы хотим найти
- Matching -- определение, соответствует ли строка заданному паттерну
- Searching -- поиск подстрок, соответствующих паттерну, в тексте

### Основные правила:

#### Общее
- любой неспециальный символ матчит себя
- "." матчит любой символ
- "[abc]" матчит любой символ внутри множества
- "[A-z]", "[0-9]" и прочие сокращения (множества символов подряд в таблице ascii)
- "a*" -- звездочка означает 0 или больше указанных символов подряд
- "a+" -- + означает 1 или более указанных символов подряд
- "a{2,}" -- N или больше символов подряд
- "a?" -- один или ни одного
- "a{1, 5}" -- в фигурных скобках можно указать точное количество. Левая цифра означает минимальное, правая -- максимальное
- "^regexp" -- только подстроки в начале строки
- "rgexp$" -- только подстроки, находящиеся в конце строки

#### Специальные обобщающие символы
`\{small_letter}` -- специальный символ
`\{big_letter}` -- любой символ кроме специального символа 

- \s -- пробельные символы
- \d -- цифра
- \w -- буква или _

#### Lookarounds
- "(?=...)" -- positive lookahead
- "(?<=...)" -- positive lookbehind
- "(?!...)" -- negative lookahead
- "(?<!...)" -- negative loookbehind

и прочее и прочее...


**Дисклеймер**: Написать регулярку может быть гораздо сложнее, чем потом прочитать! 

### Разберем несколько примеров

In [1]:
import re

In [28]:
sample_string = 'Hello, world!'

In [29]:
pattern = re.compile('[hH]ello')
pattern.match(sample_string)

<re.Match object; span=(0, 5), match='Hello'>

In [30]:
pattern.findall(sample_string)

['Hello']

In [40]:
m = re.match(r'^[hH]ello,? [A-z]*[.!]?$', sample_string)

In [41]:
sample_string[m.start():m.end()]

'Hello, world!'

In [43]:
m.group()

'Hello, world!'

In [44]:
grouped_match = re.match(r'([hH]ello,?) [a-z]*[.!]?$', sample_string)

In [45]:
grouped_match.group()

'Hello, world!'

In [46]:
grouped_match.groups()

('Hello,',)

In [47]:
re.search(r'\d{1,3}', 'rfhe97346fevbv78')

<re.Match object; span=(4, 7), match='973'>

In [51]:
re.findall(r'\d{1,}', 'rfhe97346fevbv78')

['97346', '78']

In [52]:
re.sub(r'\d{3,5}', 'цифры', 'rfhe97346fevbv78')

'rfheцифрыfevbv78'

**Lookarounds**

In [55]:
er_words = 'math teacher math physics teacher scheduler funny monster creepy monster'

In [57]:
re.findall('\w+ (?=\w+er)', er_words)

['math ', 'physics ', 'teacher ', 'funny ', 'creepy ']

In [60]:
for m in re.finditer('\w+ (?=\w+er)', er_words):
    print(er_words[m.start():m.end()], m.start(), m.end())

math  0 5
physics  18 26
teacher  26 34
funny  44 50
creepy  58 65


In [65]:
for m in re.finditer('(?<!math) \w+', er_words):
    print(er_words[m.start():m.end()], m.start(), m.end())

## Practice Tasks

### Remove stops

In [77]:
stopwords = ['продам', 'отличный', 'авто', 'автомобиль', 'хороший', 'не']
# write regexp to filter stopwords
regexp_stops = '|'.join(fr'\b{word}\b' for word in stopwords)

text = '''Продам любимый отличный автомобиль!
Кузов в хорошем состоянии, не бит, безопасность целая,исправная, стекла все родные, салон в хорошем состоянии, КПП без нареканий, двигатель нужно обслужить (заменить масла, отрегулировать клапана).
По ходовке заменить передний ступечный подшипник. 
Документы в порядке. Вин JMBSNCY2A8U006864.
Цена на авто с учётом всех расходов, торг только адекватным людям в разумных пределах.
'''

cleaned_text = re.sub(regexp_stops, '', text, flags=re.IGNORECASE)
cleaned_text

' любимый  !\nКузов в хорошем состоянии,  бит, безопасность целая,исправная, стекла все родные, салон в хорошем состоянии, КПП без нареканий, двигатель нужно обслужить (заменить масла, отрегулировать клапана).\nПо ходовке заменить передний ступечный подшипник. \nДокументы в порядке. Вин JMBSNCY2A8U006864.\nЦена на  с учётом всех расходов, торг только адекватным людям в разумных пределах.\n'

In [78]:
regexp_chars = r'[!?,.\s_]+'
cleaned_text = re.sub(regexp_chars, ' ', text)

In [79]:
cleaned_text

'Продам любимый отличный автомобиль Кузов в хорошем состоянии не бит безопасность целая исправная стекла все родные салон в хорошем состоянии КПП без нареканий двигатель нужно обслужить (заменить масла отрегулировать клапана) По ходовке заменить передний ступечный подшипник Документы в порядке Вин JMBSNCY2A8U006864 Цена на авто с учётом всех расходов торг только адекватным людям в разумных пределах '

### Ошибся со временем

Вы написали длинное письмо, где описали свои планы на день с указанием конкретных временных промежутков. Однако позже вы осознали, что на самом деле забыли об одном важном деле, и теперь все даты в вашем письме неверные. Напишите программу, которая заменяет все временные указания на строчку TBD

*Пример:*

`Уважаемый Д.! Если вы к 12:00 среды не подготовите свой семинар, то уже в 12:00:01 я за себя не отвечаю. 
Нужно нагененировать хотя бы 10 примеров и успеть разобрать в идеале 80:100 из них` 

->

`Уважаемый Д.! Если вы к (TBD) среды не подготовите свой семинар, то уже в (TBD) я за себя не отвечаю. 
Нужно нагененировать хотя бы 10 примеров и успеть разобрать в идеале 80:100 из них` 

In [81]:
# your code

text = 'Уважаемый Д.! Если вы к 12:00 среды не подготовите свой семинар, то уже в 12:00:01 я за себя не отвечаю. Нужно нагененировать хотя бы 10 примеров и успеть разобрать в идеале 80:100 из них'

regexp_time = r'\b(([01][0-9])|(2[0-3])):([0-5][0-9])(:[0-5][0-9])?\b'

re.sub(regexp_time, '(TBD)', text)

'Уважаемый Д.! Если вы к (TBD) среды не подготовите свой семинар, то уже в (TBD) я за себя не отвечаю. Нужно нагененировать хотя бы 10 примеров и успеть разобрать в идеале 80:100 из них'

## Опциональные задачи на бонусы

### E-mails (1)

Вы увидели, что у соседнего курса в открытом доступе выложены личные данные лекторов, семинаристов и ассистентов! Как хорошие программисты, вы конечно же забеспокоились о приватности данных незадачливых коллег и решили тайком  удалить все их личные почты из общего файла. При этом, вы хотите, чтобы с ними можно было связаться, поэтому университетские почты вы в файле оставляете.

**Задача:** 
- Прочитать данные из файла
- Вывести все e-mail'ы из файла
- Модифицировать файл таким образом, чтобы все почты не относящиеся к доменам @hse.ru или @edu.hse.ru (и только к ним) были заменены на фразу "Pr1v@cY REstorED"


Попробуйте сделать это задание в терминале. Вам может помочь команда `ssed`

Загрузить таблицу из google sheets можно следующей командой:
`curl --silent -L "https://docs.google.com/spreadsheets/d/1VUACNvvtewTJZYF986zfNhNiLKQ1F_ubPgDMQygrBpA/export?gid=931303141&format=tsv"` (или сохраните ее в графическом интерфейсе)

### Погенерируем пароли (1)

Вы наконец-то обеспокоились своей безопасностью в сети и решили обновить все свои пароли. Однако придумывать все самим для всех ваших сайтов вам, конечно, лень. Поэтому вы решили написать программу, которая это сделает за вас!

Сгенерируйте случайный пароль длины N. Убедитесь, что получившийся пароль на самом деле хороший. В нашем случае это:
1. Содержит хотя бы две заглавные буквы подряд
2. Содержит хотя бы две строчные буквы подряд
3. Не содержит пробельные спецсимволы (\t, \n и подобные)
4. Не содержит трех цифр подряд
5. Содержит и русские, и английские буквы 

Ваш код должен генерировать пароли, пока они не удовлетворят заданным условиям.

hint: используйте модуль random