## МТИИ 2021: Python
## Семинар 2:
## Часть 1: Краткое руководство по написанию кода на Python (Python Enhanced Proposal - PEP8). 
## Часть 2: Регулярные выражения. Токенизация. Лемматизация. Стемминг. Модель биграмм.
<br>

# Часть 1:

PEP8 можно считать набором правил для написания кода на Python. Данный документы покрывает следующие пункты:

* Introduction
* A Foolish Consistency is the Hobgoblin of Little Minds
* Code Lay-out
    * Indentation
    * Tabs or Spaces?
    * Maximum Line Length
    * Should a Line Break Before or After a Binary Operator?
    * Blank Lines
    * Source File Encoding
    * Imports
    * Module Level Dunder Names
* String Quotes
* Whitespace in Expressions and Statements
    * Pet Peeves
    * Other Recommendations
* When to Use Trailing Commas
* Comments
    * Block Comments
    * Inline Comments
    * Documentation Strings
* Naming Conventions
    * Overriding Principle
    * Descriptive: Naming Styles
    * Prescriptive: Naming Conventions
        * Names to Avoid
        * ASCII Compatibility
        * Package and Module Names
        * Class Names
        * Type Variable Names
        * Exception Names
        * Global Variable Names
        * Function and Variable Names
        * Function and Method Arguments
        * Method Names and Instance Variables
        * Constants
        * Designing for Inheritance
    * Public and Internal Interfaces
* Programming Recommendations
    * Function Annotations
    * Variable Annotations

### Вопрос 1: Какой из двух вариантов написания кода правильный? Почему?

In [None]:
# Вариант 1
foo = long_function_name(var_one, var_two,
                         var_three, var_four)

def long_function_name(
        var_one, var_two, var_three,
        var_four):
    print(var_one)

foo = long_function_name(
    var_one, var_two,
    var_three, var_four)

In [None]:
# Вариант 2
foo = long_function_name(var_one, var_two,
    var_three, var_four)

def long_function_name(
    var_one, var_two, var_three,
    var_four):
    print(var_one)

### Вопрос 2: Что лучше использовать для отсутпов, табуляцию или пробелы?

### Вопрос 3: Нужно ли вводить ограничение на максимальную длину строки? Почему?

### Вопрос 4: Какой из двух вариантов написания кода правильный? Почему?

In [8]:
# Вариант 1
income = (gross_wages +
          taxable_interest +
          (dividends - qualified_dividends) -
          ira_deduction -
          student_loan_interest)

In [9]:
# Вариант 2
income = (gross_wages
          + taxable_interest
          + (dividends - qualified_dividends)
          - ira_deduction
          - student_loan_interest)

### Вопрос 5: Какую кодировку нужно использовать в python3? Почему всегда utf-8?

### Вопрос 6: Какие из трех  вариантов написания кода являются правильными? Почему?

In [None]:
# вариант 1
import os
import sys

In [None]:
# вариант 2
import os, sys

In [None]:
# вариант 3
from subprocess import Popen, PIPE

### Вопрос 7: Какой тип ковыче нужно использовать для задания строк (одинарный или двойной)?

### Вопрос 8: Использование пробелов. Выберите правильные варианты:

In [None]:
# вариант 1
spam(ham[1], {eggs: 2})

In [None]:
# вариант 2 
spam( ham[ 1 ], { eggs: 2 } )

In [None]:
# вариант 1
foo = (0,)

In [None]:
# вариант 2
bar = (0, )

In [None]:
# вариант 1 
ham[1:9], ham[1:9:3], ham[:9:3], ham[1::3], ham[1:9:]
ham[lower:upper], ham[lower:upper:], ham[lower::step]
ham[lower+offset : upper+offset]
ham[: upper_fn(x) : step_fn(x)], ham[:: step_fn(x)]
ham[lower + offset : upper + offset]

In [None]:
# вариант 2
ham[lower + offset:upper + offset]
ham[1: 9], ham[1 :9], ham[1:9 :3]
ham[lower : : upper]
ham[ : upper]

Мы рассмотрели лишь часть руководства PEP8, более подробно вы можете изучить его самостоятельно в [документации](https://www.python.org/dev/peps/pep-0008/). 

<br>

# Часть 2:

## 1. Регулярные выражения

Регулярные выражения (regular expressions, RegExp) —
это формальный язык для операций с подстроками.

Чаще всего регулярные выражения используются для:
* поиска в строке;
* разбиения строки на подстроки;
* замены части строки;
* валидации (проверки).

## Синтаксис:
<img src='https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/r.png'>



## Онлайн упражнения
https://regexone.com/
<br>

## Регулярные выражения в Python

Основные методы:
```
• re.match() — поиск совпадения в начале строки
• re.search() — поиск первого совпадения
• re.findall() — поиск всех совпадений (возвр. список)
• re.split() — разбиение строки
• re.sub() — замена подстроки
```

In [29]:
import re

## match
ищет по заданному шаблону в начале строки

In [30]:
result = re.match('ab+c.', 'abcdefghijkabcabcd') # ищем по шаблону 'ab+c.' 
print (result) # совпадение найдено:

In [31]:
print(result.group(0)) # выволмс найденное совпадение

In [32]:
result = re.match('abc.', 'abdefghijkabcabc')
print(result) # совпадение не найдено

### Задание 1:
Проверьте, начинаются ли строки c заглавной буквы и если да, то вывести эту заглавную букву. Придумайте свои примеры строк для проверки.

In [33]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

## search
ищет по всей строке, возвращает только первое найденное совпадение

In [34]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

### Задание 2
Проверьте, есть ли в строке вопросительный знак. Придумайте свои примеры для проверки.

In [35]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

## findall
возвращает список всех найденных совпадений

In [36]:
result = re.findall('ab+c.', 'abcdefghijkabcabcxabc') 
print(result)

Вопросы: 
1) почему нет последнего abc?
2) почему нет abcx?

### Задание 3
Вернуть список первых двух букв каждого слова в строке, состоящей из нескольких слов.

In [37]:
str_ = "Я, ты, мы, вы, они. Случайность? Не думаю!"
####### Ваш код здесь ########
raise NotImplementedError
##############################

## split
разделяет строку по заданному шаблону


In [38]:
result = re.split(',', 'itsy, bitsy, teenie, weenie') 
print(result)

можно указать максимальное количество разбиений

In [39]:
result = re.split(',', 'itsy, bitsy, teenie, weenie', maxsplit = 2) 
print(result)

### Задание 4
Разбейте строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.

In [40]:
text = """
Нашел он полон двор услуги;
К покойнику со всех сторон
Съезжались недруги и други,
Охотники до похорон.
Покойника похоронили.
Попы и гости ели, пили
И после важно разошлись,
Как будто делом занялись.
Вот наш Онегин — сельский житель,
Заводов, вод, лесов, земель
Хозяин полный, а досель
Порядка враг и расточитель,
И очень рад, что прежний путь
Переменил на что-нибудь."""
####### Ваш код здесь ########
raise NotImplementedError
##############################

## sub
ищет шаблон в строке и заменяет все совпадения на указанную подстроку

параметры: (pattern, repl, string)

In [41]:
result = re.sub('a', 'b', 'abcabc')
print (result)

### Задание 5:
Замените все цифры на звездочки.

In [42]:
str_ = "7253dvhfks0340921934uhgj34l4321"
####### Ваш код здесь ########
raise NotImplementedError
##############################

## compile
компилирует регулярное выражение в отдельный объект

In [43]:
# Пример: построение списка всех слов строки:
prog = re.compile('[А-Яа-яё\-]+')
prog.findall("Слова? Да, больше, ещё больше слов! Что-то ещё.")

### Задание 6
Для выбранной строки постройте список слов, которые длиннее трех символов.

In [44]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

### Задание 7
Вернуть первое слово строки

In [45]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

### Задание 8
Вернуть список доменов (@gmail.com, @rest.biz и т.д.) из списка адресов электронной почты:

abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz

In [46]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

## 2. Токенизация


Самый наивный способ токенизировать текст -- разделить с помощью split. Но split упускает очень много всего, например, банально не отделяет пунктуацию от слов. Кроме этого, есть ещё много менее тривиальных проблем. Поэтому лучше использовать готовые токенизаторы.


In [28]:
# скачиваем данные и доставляем необходимые библиотеки
!wget https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/alice.txt -N
!wget https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/dinos.txt -N
!pip install nltk
!pip install pymystem3==0.1.10
!pip install pymorphy2


### Задание 9

Откройте и запишите в одну текстовую строку файл alice.txt.

Ответьте на вопросы:

    Сколько всего символов в файле?
    Какой текст написан в последней строке файла? (Подсказка: в какой переменной содержится эта строка?)



In [47]:
####### Ваш код здесь ########
raise NotImplementedError
##############################


### Задание 10

Создайте и скомпилируйте регулярное выражения для разбиения полученной строки на токены. Не забудьте про дефис и букву ё.

Найдите все токены с помощью этого регулярного выражения, ответьте на вопросы:

    Сколько токенов получилось?
    Какой токен первый?
    Какой токен последний?



In [48]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

## Токенизация в nltk

In [49]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

In [50]:
example = 'Но не каждый хочет что-то исправлять:('
word_tokenize(example)

In [51]:
from nltk import tokenize
dir(tokenize)[:16]

Они умеют выдавать индексы начала и конца каждого токена:

In [52]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize(example))

(если вам было интересно, зачем вообще включать в модуль токенизатор, который работает как .split() :))

Некторые токенизаторы ведут себя специфично:

In [53]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

Для некоторых задач это может быть полезно.

А некоторые -- вообще не для текста на естественном языке (не очень понятно, зачем это в nltk :)):

In [54]:
tokenize.SExprTokenizer().tokenize("(a (b c)) d e (f)")

## 3. Лемматизация

Лемматизация – это сведение разных форм одного слова к начальной форме – лемме. Почему это хорошо?

    Во-первых, мы хотим рассматривать как отдельную фичу каждое слово, а не каждую его отдельную форму.
    Во-вторых, некоторые стоп-слова стоят только в начальной форме, и без лематизации выкидываем мы только её.

Для русского есть два хороших лемматизатора: mystem и pymorphy:


### Mystem

https://yandex.ru/dev/mystem/doc/index-docpage/

Как с ним работать:
* можно скачать mystem и запускать из терминала с разными параметрами
* pymystem3 - обертка для питона, работает медленнее, но это удобно

In [55]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Мы инициализировали Mystem c дефолтными параметрами. А вообще параметры есть такие:

    mystem_bin - путь к mystem, если их несколько
    grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
    disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
    entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

Можно просто лемматизировать текст:

In [56]:
print(example)
print(mystem_analyzer.lemmatize(example))

А можно получить грамматическую информацию:

In [57]:
mystem_analyzer.analyze(example)

## Стоп-слова и пунктуация

Стоп-слова -- это слова, которые часто встречаются практически в любом тексте и ничего интересного не говорят о конретном документе, то есть играют роль шума. Поэтому их принято убирать. По той же причине убирают и пунктуацию.


In [63]:
from nltk.corpus import stopwords
import nltk

nltk.download('stopwords')
stopwords.words('russian')

In [64]:
from string import punctuation
punctuation

Реализуем функцию для препроцессинга текста, будем удалять стоп слова и пунктуацию, а в качестве токенизатора и лемматизатора воспользуемся майстемом.

In [80]:
import re
def my_preproc_mystem(text):
    text = re.sub('[{}]'.format(punctuation), '', text)
    text = mystem_analyzer.lemmatize(text)
    return [word for word in text if word not in stopwords.words('russian') + [' ', '\n']]

print(my_preproc_mystem(example))

## Pymorphy

Это модуль на питоне, довольно быстрый и с кучей функций.

https://pymorphy2.readthedocs.io/en/latest/index.html

In [59]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, т.к. не понимает

In [60]:
ana = pymorphy2_analyzer.parse(example)
ana

In [None]:
ana[0].normal_form

### Задание 11. Реализуйте функцию ```my_preproc_pymorphy``` по аналогии с ```my_preproc_mystem```

In [81]:
def my_preproc_pymorphy(text):
    ####### Ваш код здесь ########
    raise NotImplementedError
    ##############################


Сравним результаты:

In [86]:
print(f'Mystem: {my_preproc_mystem(example)}')
print(f'PyMorphy: {my_preproc_pymorphy(example)}')

Частотность слов можно посмотреть, с помощью ```nltk.FreqDist```. Выведем топ 20 самых популярных токенов до и  после обработки:

In [94]:
from nltk.tokenize import word_tokenize
tokenized = word_tokenize(s)
alice_d_tokenized = nltk.FreqDist(tokenized)
alice_d_tokenized.most_common(20)

In [95]:
alice_preproc = my_preproc_pymorphy(s)

alice_d = nltk.FreqDist(alice_preproc)
alice_d.most_common(20)

### Задание 12. Сколько раз встречается слово встречалось слово 'крокет' до и после обработки? Найдите изначальные слова, используя ```re.findall()```

In [110]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

## Mystem vs. Pymorphy

1) Mystem работает невероятно медленно под windows на больших текстах.

2) Снятие омонимии. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту:


In [62]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализирую объект с дефолтными параметрами

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

## 4. Стэммминг

Для русского языка можно воспользоваться SnowballStemmer из пакета nltk.stem

In [None]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("russian")

plurals = ['мухи', "умирает", "мулы", "отказано", "умер", 
           "согласился", "владел", "унижен", "измерен", "встреча"]

In [None]:
singles = [stemmer.stem(plural) for plural in plurals]
singles

## 5. Языковые модели. Модель биграм

Какое слово в последовательности вероятнее: 

Поезд прибыл на
* вокзал
* север

Какая последовательность вероятнее:
* Вокзал прибыл поезд на
* Поезд прибыл на вокзал

### Приложения:
* Задачи, в которых нужно обработать сложный и зашумленный вход: распознавание речи, распознавание сканированных и рукописных текстов;
* Исправление опечаток
* Машинный перевод
* Подсказка при наборе 

### Виды моделей:
* Счетные модели
    * цепи Маркова
* Нейронные модели, обычно реккурентные нейронные сети с LSTM/GRU
* seq2seq архитектуры

### Модель n-gram:

Пусть $w_{1:n}=w_1,\ldots,w_m$ – последовательность слов.

Цепное правило:
$ P(w_{1:m}) = P(w_1) P(w_2 | w_1) P(w_3 | w_{1:2}) \ldots P(w_m | w_{1:m-1}) = \prod_{k=1}^{m} P(w_k | w_{1:k-1}) $

Но оценить $P(w_k | w_{1:k-1})$ не легче! 

Переходим к $n$-грамам: $P(w_{i+1} | w_{1:i}) \approx P(w_{i+1} | w_{i-n:i})  $ , то есть, учитываем $n-1$ предыдущее слово. 

Модель
* униграм: $P(w_k)$
* биграм: $P(w_k | w_{k-1})$
* триграм: $P(w_k | w_{k-1} w_{k-2})$


Т.е. используем Марковские допущения о длине запоминаемой цепочки.

* Вероятность следующего слова в последовательности: $ P(w_{i+1} | w_{1:i}) \approx P(w_{i-n:i}) $
* Вероятность всей последовательности слов: $P(w_{1:n}) = \prod_{k=1}^l P(w_k | w_{k-n+1: k-1}) $

### Качество модели  $n$-грам

Перплексия: насколько хорошо модель предсказывает выборку. Чем ниже значение перплексии, тем лучше.

$PP(\texttt{LM}) = 2 ^ {-\frac{1}{m} \log_2 \texttt{LM} (w_i | w_{1:i-1})}$

## Рассмотрим модель биграм, используя библиотеку NLTK

In [None]:
with open("dinos.txt") as f:
    names = [name.strip().lower() for name in f.readlines()]
    print(names[:10])

Получить информацию о количестве символов можно, используя ```nltk.FreqDist```:

In [None]:
chars = [char  for name in names for char in name]
freq = nltk.FreqDist(chars)

freq

Наиболее вероятный следующий токен можно получить с помощью  ```nltk.ConditionalFreqDist``` и ```nltk.ConditionalProbDist```:

In [None]:
cfreq = nltk.ConditionalFreqDist(nltk.bigrams(chars))
cfreq['a']

In [None]:
cprob = nltk.ConditionalProbDist(cfreq, nltk.MLEProbDist)
print('p(a,u) = %1.4f' % cprob['a'].prob('u'))

Можно порождать случайные символы с учётом предыдущих:

In [None]:
cprob['a'].generate()

### Задание 13. Напишите функцию для оценки вероятности имени динозавра и найдите наиболее вероятное имя из загруженного списка.

In [None]:
####### Ваш код здесь ########
raise NotImplementedError
##############################

### Задание 14. Напишите функцию для генерации  имени динозавра фиксированной длины.

In [None]:
####### Ваш код здесь ########
raise NotImplementedError
##############################