## МТИИ 2021: Python
## Семинар 2:
## Часть 1: Краткое руководство по написанию кода на Python (Python Enhanced Proposal - PEP8). 
## Часть 2: Регулярные выражения. Токенизация. Лемматизация. Стемминг. Модель биграмм.
<br>

# Часть 1:

PEP8 можно считать набором правил для написания кода на Python. Данный документы покрывает следующие пункты:

* Introduction
* A Foolish Consistency is the Hobgoblin of Little Minds
* Code Lay-out
    * Indentation
    * Tabs or Spaces?
    * Maximum Line Length
    * Should a Line Break Before or After a Binary Operator?
    * Blank Lines
    * Source File Encoding
    * Imports
    * Module Level Dunder Names
* String Quotes
* Whitespace in Expressions and Statements
    * Pet Peeves
    * Other Recommendations
* When to Use Trailing Commas
* Comments
    * Block Comments
    * Inline Comments
    * Documentation Strings
* Naming Conventions
    * Overriding Principle
    * Descriptive: Naming Styles
    * Prescriptive: Naming Conventions
        * Names to Avoid
        * ASCII Compatibility
        * Package and Module Names
        * Class Names
        * Type Variable Names
        * Exception Names
        * Global Variable Names
        * Function and Variable Names
        * Function and Method Arguments
        * Method Names and Instance Variables
        * Constants
        * Designing for Inheritance
    * Public and Internal Interfaces
* Programming Recommendations
    * Function Annotations
    * Variable Annotations

### Вопрос 1: Какой из двух вариантов написания кода правильный? Почему?

In [5]:
# Вариант 1
foo = long_function_name(var_one, var_two,
                         var_three, var_four)

def long_function_name(
        var_one, 
        var_two, 
        var_three,
        var_four):
    print(var_one)
# 4 пробела - хороший тон

foo = long_function_name(
    var_one, var_two,
    var_three, var_four)

NameError: name 'long_function_name' is not defined

In [None]:
# Вариант 2
foo = long_function_name(var_one, var_two,
    var_three, var_four)

def long_function_name(
    var_one, var_two, var_three,
    var_four):
    print(var_one)

### Вопрос 2: Что лучше использовать для отсутпов, табуляцию или пробелы?

Табуляцию - 4 пробела на любой системе, нельзя всё перемешивать

### Вопрос 3: Нужно ли вводить ограничение на максимальную длину строки? Почему?


Конвертация в пдф тетрадки осложняется   
Просматриваемость кода уменьшается, блоки не будут видны   
Ограничение 80 символов   
В старых терминалах было ограничение в 80 символов   

### Вопрос 4: Какой из двух вариантов написания кода правильный? Почему?

In [8]:
# Вариант 1
income = (gross_wages +
          taxable_interest +
          (dividends - qualified_dividends) -
          ira_deduction -
          student_loan_interest)
# старый вариант

In [9]:
# Вариант 2
income = (gross_wages
          + taxable_interest
          + (dividends - qualified_dividends)
          - ira_deduction
          - student_loan_interest)
# новый вариант

### Вопрос 5: Какую кодировку нужно использовать в python3? Почему всегда utf-8?

In [6]:
# чтобы можно было писать комменты на кириллице
# в идеале комменты на английском
# вопрос распространённости кодировки
# utf8 - всегда один ваприант

### Вопрос 6: Какие из трех  вариантов написания кода являются правильными? Почему?

In [None]:
# вариант 1
import os
import sys

In [None]:
# вариант 2 - неправильный, импортируем что-то из чего-то, 
# импортируем всё в одном месте, неудобно удалять, ненаглядно
import os, sys

In [None]:
# вариант 3
from subprocess import Popen, PIPE

### Вопрос 7: Какой тип ковыче нужно использовать для задания строк (одинарный или двойной)?

In [9]:
s1 = ' "123" '
s2 = "584"
print(s1, s2) # можно любой использовать, неважно какой вид использовать 

 "123"  584


### Вопрос 8: Использование пробелов. Выберите правильные варианты:

In [None]:
# вариант 1 - correct
spam(ham[1], {eggs: 2})

In [None]:
# вариант 2 
spam( ham[ 1 ], { eggs: 2 } )

In [None]:
# вариант 1 -- correct
foo = (0,)

In [None]:
# вариант 2 but, it is more convenient to enter, tabulation can fit it
bar = (0, )

In [None]:
# вариант 1 
ham[1:9], ham[1:9:3], ham[:9:3], ham[1::3], ham[1:9:]
ham[lower:upper], ham[lower:upper:], ham[lower::step]
ham[lower+offset : upper+offset]
ham[: upper_fn(x) : step_fn(x)], ham[:: step_fn(x)]
ham[lower + offset : upper + offset]

In [None]:
# вариант 2 - correct
ham[lower + offset:upper + offset]
ham[1: 9], ham[1 :9], ham[1:9 :3]
ham[lower : : upper]
ham[ : upper]

In [1]:
f = []
if f is True #not f == True -- является
if not F:
and F:
# не нужно сравнивать с True and False
# сравнивать объекты одного типа
_ = int(input()) # всё, что нам не нужно

SyntaxError: expected ':' (1686236772.py, line 2)

In [2]:
x = list(map(int, ['1', '2']))

In [None]:
5
1 2 4 3 3

{1: 5, 2:6, 3:7, 4:2}

Мы рассмотрели лишь часть руководства PEP8, более подробно вы можете изучить его самостоятельно в [документации](https://www.python.org/dev/peps/pep-0008/). 

<br>

# Часть 2:

## 1. Регулярные выражения

Регулярные выражения (regular expressions, RegExp) —
это формальный язык для операций с подстроками.

Чаще всего регулярные выражения используются для:
* поиска в строке;
* разбиения строки на подстроки;
* замены части строки;
* валидации (проверки).

## Синтаксис:
<img src='https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/r.png'>



## Онлайн упражнения
https://regexone.com/
<br>

## Регулярные выражения в Python

Основные методы:
```
• re.match() — поиск совпадения в начале строки
• re.search() — поиск первого совпадения
• re.findall() — поиск всех совпадений (возвр. список)
• re.split() — разбиение строки
• re.sub() — замена подстроки
```

In [4]:
import re

## match
ищет по заданному шаблону в начале строки

In [13]:
result = re.match('ab+c.', 'abcdefghijkabcabcd') # ищем по шаблону 'ab+c.' 
print (result) # совпадение найдено:
result_  = re.match('ab+k', 'abcdefghijkabcabcd')


<re.Match object; span=(0, 4), match='abcd'>


In [14]:
print(result.group(0)) # выволмс найденное совпадение
print(result_.group(0)) # выволмс найденное совпадение

abcd


AttributeError: 'NoneType' object has no attribute 'group'

In [15]:
result = re.match('abc.', 'abdefghijkabcabc')
print(result) # совпадение не найдено

None


### Задание 1:
Проверьте, начинаются ли строки c заглавной буквы и если да, то вывести эту заглавную букву. Придумайте свои примеры строк для проверки.

In [44]:
import re
strings = ['Hello world', 'привет мир', 'Python is cool', '123start', 'Good morning'] 

pattern = r'[A-ZА-ЯЁ]'
print(pattern)

for string in strings:
    result = re.match(pattern, string)
    if result:
        print(f"Строка: '{string}' начинается с заглавной буквы '{result.group(0)}'")
    else:
        print(f"Строка: '{string}' не начинается с заглавной буквы")

[A-ZА-ЯЁ]
Строка: 'Hello world' начинается с заглавной буквы 'H'
Строка: 'привет мир' не начинается с заглавной буквы
Строка: 'Python is cool' начинается с заглавной буквы 'P'
Строка: '123start' не начинается с заглавной буквы
Строка: 'Good morning' начинается с заглавной буквы 'G'


## search
ищет по всей строке, возвращает только первое найденное совпадение

In [53]:
strings = 'abcHelloabc, приветмир, abcPythonabc, start123, Goodmorning, Мирпрекрасен, Ёжиквтумане'
pattern = 'ab'
#pattern = r'[a-aа-яё]'
result = re.search(pattern, strings)
print(result.group(0))

ab


### Задание 2
Проверьте, есть ли в строке вопросительный знак. Придумайте свои примеры для проверки.

In [58]:
import re

# Примеры строк для проверки
strings = [
    'Как дела?', 
    'This is a test string.', 
    'What time is it?', 
    'No questions here.', 
    'Погода хорошая сегодня', 
    'Вы придете завтра?'
]

pattern = r'\?' # not r'?' - Мы экранируем вопросительный знак, чтобы регулярное выражение 
# воспринимало его как обычный символ, а не специальный метасимвол.

for string in strings:
    if re.search(pattern, string):
        print(True);
    else:
        print(False)


True
False
True
False
False
True


## findall
возвращает список всех найденных совпадений

In [16]:
result = re.findall('ab+c.', 'abcdefghijkabcabcxabc') 
print(result)

['abcd', 'abca']


Вопросы: 
1) почему нет последнего abc?
2) почему нет abcx?

### Задание 3
Вернуть список первых двух букв каждого слова в строке, состоящей из нескольких слов.

In [65]:
str_ = "Я, ты, мы, вы, они. Случайность? Не думаю!"
pattern = r'\b\w{1,2}' # \b — граница слова. \w{2} — две подряд идущие буквенно-цифровые символы (буквы или цифры).
# if  pattern = r'\b\w{1, 2}' we have zero-list in result
result = re.findall(pattern, str_)
print(result)

['Я', 'ты', 'мы', 'вы', 'он', 'Сл', 'Не', 'ду']


## split
разделяет строку по заданному шаблону


In [66]:
result = re.split(',', 'itsy, bitsy, teenie, weenie') 
print(result)

['itsy', ' bitsy', ' teenie', ' weenie']


можно указать максимальное количество разбиений

In [67]:
result = re.split(',', 'itsy, bitsy, teenie, weenie', maxsplit = 2) 
print(result)

['itsy', ' bitsy', ' teenie, weenie']


### Задание 4
Разбейте строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.

In [8]:
import re

text = """
Нашел он полон двор услуги;
К покойнику со всех сторон
Съезжались недруги и други,
Охотники до похорон.
Покойника похоронили.
Попы и гости ели, пили
И после важно разошлись,
Как будто делом занялись.
Вот наш Онегин — сельский житель,
Заводов, вод, лесов, земель
Хозяин полный, а досель
Порядка враг и расточитель,
И очень рад, что прежний путь
Переменил на что-нибудь."""
####### Ваш код здесь ########
result = re.split(r'\.', text, maxsplit = 3)

#result = [item.replace('\n', ' ') for item in result]
result = [item.strip() for item in result]


for res in result:
    print(res)

Нашел он полон двор услуги;
К покойнику со всех сторон
Съезжались недруги и други,
Охотники до похорон
Покойника похоронили
Попы и гости ели, пили
И после важно разошлись,
Как будто делом занялись
Вот наш Онегин — сельский житель,
Заводов, вод, лесов, земель
Хозяин полный, а досель
Порядка враг и расточитель,
И очень рад, что прежний путь
Переменил на что-нибудь.


In [3]:
print(result)

NameError: name 'result' is not defined

## sub
ищет шаблон в строке и заменяет все совпадения на указанную подстроку

параметры: (pattern, repl, string)

In [9]:
result = re.sub('a', 'b', 'abcabc')
print (result)

bbcbbc


### Задание 5:
Замените все цифры на звездочки.

In [15]:
str_ = "7253dvhfks0340921934uhgj34l4321"
####### Ваш код здесь ########10
pattern = r'\d'
#pattern = r'[0-9]' # we use ^ when we are looking for 
#something at the beginning of a line
#result = [item.sub('*', pattern) for item in str_]

result = re.sub(pattern, '*', str_)
print(result)
##############################

****dvhfks**********uhgj**l****


## compile
компилирует регулярное выражение в отдельный объект

In [21]:
# Пример: построение списка всех слов строки:
prog = re.compile('[А-Яа-яё-]+')
prog.findall("Слова? Да, больше, ещё больше слов! Что-то ещё.")

['Слова', 'Да', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

In [20]:
#without compile

import re

# Поиск всех слов в строке без компиляции
result = re.findall(r'[А-Яа-яё\-]+', "Слова? Да, больше, ещё больше слов! Что-то ещё.")
print(result)


['Слова', 'Да', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']


### Задание 6
Для выбранной строки постройте список слов, которые длиннее трех символов.

In [23]:
str = "Это пример строки для демонстрации кода."

words = str.split()  # Разбиваем строку на слова
long_word = []

for word in words:
  if len(word) > 3:
    long_word.append(word)

print(long_word)

['пример', 'строки', 'демонстрации', 'кода.']


In [24]:
import re

str = "Это пример строки для демонстрации кода."

# Используем регулярное выражение для нахождения слов длиннее трех символов
pattern = r'\b\w{4,}\b'
#\b — это граница слова.
#\w{4,} — это шаблон, который находит слова, 
#состоящие из 4 и более буквенно-цифровых символов.

# Находим все слова, которые соответствуют шаблону
long_words = re.findall(pattern, str)

print(long_words)


['пример', 'строки', 'демонстрации', 'кода']


### Задание 7
Вернуть первое слово строки

In [30]:
#^\w+:
# ^ — указывает на начало строки.
# \w+ — соответствует одному или более буквенно-цифровым символам (слово).

import re
text = "Пример строки для теста."

pattern = r'^\w+'

res = re.match(pattern, text)
if res:
    print(res.group(0))
else:
    print(False)

Пример


### Задание 8
Вернуть список доменов (@gmail.com, @rest.biz и т.д.) из списка адресов электронной почты:

abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz

In [31]:
import re

# Список адресов электронной почты
emails = "abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz"

# Регулярное выражение для нахождения доменов
pattern = r'@[\w\.]+'

# Поиск доменов в строке
domains = re.findall(pattern, emails)

# Вывод результата
print(domains)


['@gmail.com', '@test.in', '@analyticsvidhya.com', '@rest.biz']


## 2. Токенизация


Самый наивный способ токенизировать текст -- разделить с помощью split. Но split упускает очень много всего, например, банально не отделяет пунктуацию от слов. Кроме этого, есть ещё много менее тривиальных проблем. Поэтому лучше использовать готовые токенизаторы.


In [32]:
# скачиваем данные и доставляем необходимые библиотеки
!wget https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/alice.txt -N
!wget https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/dinos.txt -N
!pip install nltk
!pip install pymystem3==0.1.10
!pip install pymorphy2

--2024-09-10 13:19:31--  https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/alice.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 231397 (226K) [text/plain]
Saving to: 'alice.txt'


Last-modified header missing -- time-stamps turned off.
2024-09-10 13:19:32 (2.36 MB/s) - 'alice.txt' saved [231397/231397]

--2024-09-10 13:19:32--  https://raw.githubusercontent.com/hse-ds/iad-applied-ds/master/2020/seminars/seminar11/dinos.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19910 (19K) [text/p


### Задание 9

Откройте и запишите в одну текстовую строку файл alice.txt.

Ответьте на вопросы:

    Сколько всего символов в файле?
    Какой текст написан в последней строке файла? (Подсказка: в какой переменной содержится эта строка?)



In [33]:
with open('alice.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    total_characters = len(content)

print(total_characters)

129385


In [34]:
with open('alice.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    len_ = len(lines)

last_line = lines[-1]

print(f'Количество строк:{len_}, last_line: {last_line}')

Количество строк:3147, last_line: И, наконец, она представила себе, как ее маленькая сестра вырастет и, сохранив в свои зрелые годы простое и любящее детское сердце, станет собирать вокруг себя других детей, и как их глаза заблестят от дивных сказок. Быть может, она поведает им и о Стране Чудес и, разделив с ними их нехитрые горести и нехитрые радости, вспомнит свое детство и счастливые летние дни.
 



### Задание 10

Создайте и скомпилируйте регулярное выражения для разбиения полученной строки на токены. Не забудьте про дефис и букву ё.

Найдите все токены с помощью этого регулярного выражения, ответьте на вопросы:

    Сколько токенов получилось?
    Какой токен первый?
    Какой токен последний?



In [36]:
pattern = r'[А-Яа-яёЁ\-]+'

# Находим все токены
tokens = re.findall(pattern, last_line)

# Выводим результаты
print(f"Количество токенов: {len(tokens)}")
print(f"Первый токен: {tokens[0]}")
print(f"Последний токен: {tokens[-1]}")

Количество токенов: 61
Первый токен: И
Последний токен: дни


## Токенизация в nltk

In [39]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

#nltk.download('punkt') — команда для загрузки предварительно 
#обученного токенизатора, который используется 
#функцией word_tokenize. punkt — это набор данных для токенизации,
#включающий модели для различных языков, 
#которые помогают правильно разделять текст на слова и знаки препинания.

[nltk_data] Downloading package punkt to /home/angelika/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [40]:
example = 'Но не каждый хочет что-то исправлять:('
word_tokenize(example)

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять', ':', '(']

In [41]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LegalitySyllableTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordDetokenizer']

Они умеют выдавать индексы начала и конца каждого токена:

In [42]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize(example))

[(0, 2), (3, 5), (6, 12), (13, 18), (19, 25), (26, 38)]

(если вам было интересно, зачем вообще включать в модуль токенизатор, который работает как .split() :))

Некторые токенизаторы ведут себя специфично:

In [43]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

['do', "n't", 'stop', 'me']

Для некоторых задач это может быть полезно.

А некоторые -- вообще не для текста на естественном языке (не очень понятно, зачем это в nltk :)):

In [44]:
tokenize.SExprTokenizer().tokenize("(a (b c)) d e (f)")

['(a (b c))', 'd', 'e', '(f)']

## 3. Лемматизация

Лемматизация – это сведение разных форм одного слова к начальной форме – лемме. Почему это хорошо?

    Во-первых, мы хотим рассматривать как отдельную фичу каждое слово, а не каждую его отдельную форму.
    Во-вторых, некоторые стоп-слова стоят только в начальной форме, и без лематизации выкидываем мы только её.

Для русского есть два хороших лемматизатора: mystem и pymorphy:


### Mystem

https://yandex.ru/dev/mystem/doc/index-docpage/

Как с ним работать:
* можно скачать mystem и запускать из терминала с разными параметрами
* pymystem3 - обертка для питона, работает медленнее, но это удобно

In [45]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Installing mystem to /home/angelika/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.0-linux3.1-64bit.tar.gz


Мы инициализировали Mystem c дефолтными параметрами. А вообще параметры есть такие:

    mystem_bin - путь к mystem, если их несколько
    grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
    disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
    entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

Можно просто лемматизировать текст:

In [46]:
print(example)
print(mystem_analyzer.lemmatize(example))

Но не каждый хочет что-то исправлять:(
['но', ' ', 'не', ' ', 'каждый', ' ', 'хотеть', ' ', 'что-то', ' ', 'исправлять', ':(\n']


А можно получить грамматическую информацию:

In [47]:
mystem_analyzer.analyze(example)

[{'analysis': [{'lex': 'но', 'wt': 0.9998906255, 'gr': 'CONJ='}],
  'text': 'Но'},
 {'text': ' '},
 {'analysis': [{'lex': 'не', 'wt': 1, 'gr': 'PART='}], 'text': 'не'},
 {'text': ' '},
 {'analysis': [{'lex': 'каждый',
    'wt': 0.9985975623,
    'gr': 'APRO=(вин,ед,муж,неод|им,ед,муж)'}],
  'text': 'каждый'},
 {'text': ' '},
 {'analysis': [{'lex': 'хотеть',
    'wt': 1,
    'gr': 'V,несов,пе=непрош,ед,изъяв,3-л'}],
  'text': 'хочет'},
 {'text': ' '},
 {'analysis': [{'lex': 'что-то', 'wt': 1, 'gr': 'SPRO,ед,сред,неод=(вин|им)'}],
  'text': 'что-то'},
 {'text': ' '},
 {'analysis': [{'lex': 'исправлять', 'wt': 1, 'gr': 'V,пе=инф,несов'}],
  'text': 'исправлять'},
 {'text': ':(\n'}]

## Стоп-слова и пунктуация

Стоп-слова -- это слова, которые часто встречаются практически в любом тексте и ничего интересного не говорят о конретном документе, то есть играют роль шума. Поэтому их принято убирать. По той же причине убирают и пунктуацию.


In [48]:
from nltk.corpus import stopwords
import nltk

nltk.download('stopwords')
stopwords.words('russian')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/angelika/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [49]:
from string import punctuation
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

Реализуем функцию для препроцессинга текста, будем удалять стоп слова и пунктуацию, а в качестве токенизатора и лемматизатора воспользуемся майстемом.

In [50]:
import re
def my_preproc_mystem(text):
    text = re.sub('[{}]'.format(punctuation), '', text)
    text = mystem_analyzer.lemmatize(text)
    return [word for word in text if word not in stopwords.words('russian') + [' ', '\n']]

print(my_preproc_mystem(example))

['каждый', 'хотеть', 'чтото', 'исправлять']


## Pymorphy

Это модуль на питоне, довольно быстрый и с кучей функций.

https://pymorphy2.readthedocs.io/en/latest/index.html

In [56]:
#from pymorphy2 import MorphAnalyzer
#pymorphy2_analyzer = MorphAnalyzer()


#tldr: Проект pymorphy2 заброшен автором. 
#Вместо него на данный момент можно использовать 
#его форк pymorphy3, в нем есть поддержка Python 3.11 и 3.12.
# https://github.com/no-plagiarism/pymorphy3.git


!wget https://github.com/no-plagiarism/pymorphy3.git

--2024-09-10 13:49:05--  https://github.com/no-plagiarism/pymorphy3.git
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://github.com/no-plagiarism/pymorphy3 [following]
--2024-09-10 13:49:05--  https://github.com/no-plagiarism/pymorphy3
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: 'pymorphy3.git'

pymorphy3.git           [  <=>               ] 324.63K  1.47MB/s    in 0.2s    

2024-09-10 13:49:06 (1.47 MB/s) - 'pymorphy3.git' saved [332423]



pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, т.к. не понимает

In [60]:
#ana = pymorphy2_analyzer.parse(example)
#ana

In [None]:
#ana[0].normal_form

### Задание 11. Реализуйте функцию ```my_preproc_pymorphy``` по аналогии с ```my_preproc_mystem```

In [81]:
def my_preproc_pymorphy(text):
    ####### Ваш код здесь ########
    raise NotImplementedError
    ##############################


Сравним результаты:

In [86]:
print(f'Mystem: {my_preproc_mystem(example)}')
print(f'PyMorphy: {my_preproc_pymorphy(example)}')

Частотность слов можно посмотреть, с помощью ```nltk.FreqDist```. Выведем топ 20 самых популярных токенов до и  после обработки:

In [94]:
from nltk.tokenize import word_tokenize
tokenized = word_tokenize(s)
alice_d_tokenized = nltk.FreqDist(tokenized)
alice_d_tokenized.most_common(20)

In [95]:
alice_preproc = my_preproc_pymorphy(s)

alice_d = nltk.FreqDist(alice_preproc)
alice_d.most_common(20)

### Задание 12. Сколько раз встречается слово встречалось слово 'крокет' до и после обработки? Найдите изначальные слова, используя ```re.findall()```

In [110]:
# разберемся, если нужно будет 

## Mystem vs. Pymorphy

1) Mystem работает невероятно медленно под windows на больших текстах.

2) Снятие омонимии. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту:


In [62]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализирую объект с дефолтными параметрами

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

## 4. Стэммминг

Для русского языка можно воспользоваться SnowballStemmer из пакета nltk.stem    

Стемминг – это грубый эвристический процесс, который отрезает «лишнее» от корня слов, часто это приводит к потере словообразовательных суффиксов. Лемматизация – это более тонкий процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической форме – лемме.   

In [58]:
from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("russian")

plurals = ['мухи', "умирает", "мулы", "отказано", "умер", 
           "согласился", "владел", "унижен", "измерен", "встреча"]

In [59]:
singles = [stemmer.stem(plural) for plural in plurals]
singles

['мух',
 'умира',
 'мул',
 'отказа',
 'умер',
 'соглас',
 'владел',
 'униж',
 'измер',
 'встреч']

## 5. Языковые модели. Модель биграм

Какое слово в последовательности вероятнее: 

Поезд прибыл на
* вокзал
* север

Какая последовательность вероятнее:
* Вокзал прибыл поезд на
* Поезд прибыл на вокзал

### Приложения:
* Задачи, в которых нужно обработать сложный и зашумленный вход: распознавание речи, распознавание сканированных и рукописных текстов;
* Исправление опечаток
* Машинный перевод
* Подсказка при наборе 

### Виды моделей:
* Счетные модели
    * цепи Маркова
* Нейронные модели, обычно реккурентные нейронные сети с LSTM/GRU
* seq2seq архитектуры

### Модель n-gram:

Пусть $w_{1:n}=w_1,\ldots,w_m$ – последовательность слов.

Цепное правило:
$ P(w_{1:m}) = P(w_1) P(w_2 | w_1) P(w_3 | w_{1:2}) \ldots P(w_m | w_{1:m-1}) = \prod_{k=1}^{m} P(w_k | w_{1:k-1}) $

Но оценить $P(w_k | w_{1:k-1})$ не легче! 

Переходим к $n$-грамам: $P(w_{i+1} | w_{1:i}) \approx P(w_{i+1} | w_{i-n:i})  $ , то есть, учитываем $n-1$ предыдущее слово. 

Модель
* униграм: $P(w_k)$
* биграм: $P(w_k | w_{k-1})$
* триграм: $P(w_k | w_{k-1} w_{k-2})$


Т.е. используем Марковские допущения о длине запоминаемой цепочки.

* Вероятность следующего слова в последовательности: $ P(w_{i+1} | w_{1:i}) \approx P(w_{i-n:i}) $
* Вероятность всей последовательности слов: $P(w_{1:n}) = \prod_{k=1}^l P(w_k | w_{k-n+1: k-1}) $

### Качество модели  $n$-грам

Перплексия: насколько хорошо модель предсказывает выборку. Чем ниже значение перплексии, тем лучше.

$PP(\texttt{LM}) = 2 ^ {-\frac{1}{m} \log_2 \texttt{LM} (w_i | w_{1:i-1})}$

## Рассмотрим модель биграм, используя библиотеку NLTK

In [60]:
with open("dinos.txt") as f:
    names = [name.strip().lower() for name in f.readlines()]
    print(names[:10])

['aachenosaurus', 'aardonyx', 'abdallahsaurus', 'abelisaurus', 'abrictosaurus', 'abrosaurus', 'abydosaurus', 'acanthopholis', 'achelousaurus', 'acheroraptor']


Получить информацию о количестве символов можно, используя ```nltk.FreqDist```:

In [61]:
chars = [char  for name in names for char in name]
freq = nltk.FreqDist(chars)

freq

FreqDist({'a': 2487, 's': 2285, 'u': 2123, 'o': 1710, 'r': 1704, 'n': 1081, 'i': 944, 'e': 913, 't': 852, 'l': 617, ...})

Наиболее вероятный следующий токен можно получить с помощью  ```nltk.ConditionalFreqDist``` и ```nltk.ConditionalProbDist```:

In [62]:
cfreq = nltk.ConditionalFreqDist(nltk.bigrams(chars))
cfreq['a']

# Строка 2: cfreq['a']
# Здесь используется доступ к условному частотному распределению для символа 'a'.
# cfreq['a'] возвращает частотное распределение всех символов, которые следуют за символом 'a' в списке chars. 
# Это объект типа FreqDist, который показывает, какие символы идут после 'a' и сколько раз каждый из них встречается.

FreqDist({'u': 792, 'n': 354, 't': 213, 's': 187, 'l': 146, 'r': 131, 'c': 109, 'p': 96, 'm': 74, 'e': 48, ...})

In [63]:
cprob = nltk.ConditionalProbDist(cfreq, nltk.MLEProbDist)
print('p(a,u) = %1.4f' % cprob['a'].prob('u'))

p(a,u) = 0.3185


Можно порождать случайные символы с учётом предыдущих:

In [64]:
cprob['a'].generate()

'l'

### Задание 13. Напишите функцию для оценки вероятности имени динозавра и найдите наиболее вероятное имя из загруженного списка.

In [66]:
import nltk
from functools import reduce

with open("dinos.txt") as f:
    names = [name.strip().lower() for name in f.readlines()]

# Symbol frequency
chars = [char for name in names for char in name]
freq = nltk.FreqDist(chars)

# total number of characters to normalize probabilities
total_chars = sum(freq.values())

def score_probability(name, freq, total_chars):
    prob = reduce(lambda x, y: x * y, 
                  [(freq[char] / total_chars) for char in name], 1)
    return prob

# Поиск имени с наибольшей вероятностью
most_probable_name = max(names, key=lambda name:  score_probability(name, freq, total_chars))


# Вывод наиболее вероятного имени
print(f"Наиболее вероятное имя: {most_probable_name}")



Наиболее вероятное имя: mei
