# Введение в машинную обработку естественного языка

1. История и основные понятия машинной обработки естественных языков;
2. Формальные грамматики и их свойства;
3. Неоднозначность на всех уровнях языка; 
4. Основные задачи машинной обработки естественного языка; 
5. Основные подходы к решению задач: правила, написанные вручную и машинное обучение.

## История и основные понятия машинной обработки естественных языков  

Компьютерная лингвистика (математическая или вычислительная лингвистика, computational linguistics) — научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Компьютерная лингвистика частично пересекается с обработкой естественных языков (natural language processing, NLP). В NLP акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

В последнее десятилетие наблюдаются серьёзные улучшения в областях обработки естественных языков, распознавания речи, машинного перевода. Алгоритмы генерации текстов пишут новостные статьи, а голосовые помощники типа Алисы уже стали частью нашей повседневной жизни. Эти успехи появились не на пустом месте. Попытки разработать формальные правила и машины, способные анализировать, обрабатывать и создавать язык впервые предпринимались еще много сотен лет назад.  

В конце XIII века еврейский мистик по имени Авраам бен Самуэль Абулафия комбинировал буквы еврейского алфавита, назвав эту практику «наукой комбинирования букв». Он сочетал буквы не случайным образом, а тщательно следовал тайному набору правил, разработанных им при изучении древнего каббалистического текста под названием "Сефер Йецира". Идея состояла в том, что лингвистическими символами можно манипулировать по формальным правилам для создания новых предложений. С этой целью Абулафия несколько месяцев генерировал тысячи комбинаций из 22 букв еврейского алфавита, и в итоге написал несколько книг, по его утверждению наделённых пророческой мудростью.  

В 1666 году немецкий ученый Готфрид Вильгельм Лейбниц опубликовал диссертацию под названием "Об искусстве комбинаторики". Будучи всего 20 лет от роду, но уже мысля обширно, Лейбниц описал теорию автоматического производства знаний на основе комбинации символов, созданной по определённым правилам. Основной идеей Лейбница было то, что все человеческие мысли, вне зависимости от их сложности, являются комбинациями базовых и фундаментальных концепций, примерно так же, как предложения являются комбинациями слов, а слова – комбинациями букв. Он считал, что если он сможет найти способ символически представлять эти фундаментальные концепции и выработать метод, по которому можно будет их логически комбинировать, тогда он сможет создавать новые мысли по необходимости.  

В 1913 году русский математик Андрей Андреевич Марков провел интересный эксперимент. Он выписал первые 20 000 букв поэмы А. С. Пушкина «Евгений Онегин» в одну длинную строчку из букв, опустив все пробелы и знаки пунктуации. Затем он переставил эти буквы в 200 решёток (по 10х10 символов в каждой), и начал подсчитывать гласные звуки в каждой строке и столбце, записывая результаты. Марков считал, что большинство явлений происходит по цепочке причинно-следственной связи и зависит от предыдущих результатов. Он хотел найти способ моделировать эти события посредством вероятностного анализа. Он обнаружил, что для любой буквы текста Пушкина выполнялось правило: если это была гласная, то скорее всего за ней будет стоять согласная, и наоборот.  

В 1948 году вышла влиятельная работа Клода Шеннона "Математическая теория связи", в которой были развиты идеи Маркова, связанные с вероятностью и языком. Работа Шеннона описала способ точно измерить количественное содержание информации в сообщении, и таким образом заложила основы теории информации, которая впоследствии определит цифровую эпоху. Идея состояла в том, что буква E встречается чаще, чем S, а та, в свою очередь, чаще, чем Q. Чтобы учесть всё это, Шеннон исправил оригинальный алфавит так, чтобы он лучше моделировал английский язык – вероятность получить букву E была на 11% больше, чем извлечь букву Q. Когда он начал выбирать буквы случайным образом из перенастроенного списка, он получил предложение, немного похожее на английский язык:  

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL  

В своих экспериментах Шеннон показал, что при дальнейшем усложнении статистической модели можно получать всё более осмысленные результаты. Статистический подход к моделированию языка и его генерации также ускорил приход эры NLP, развивавшейся в течение всей цифровой эпохи. 

В 1949 году сформулирован и опубликован закон Ципфа — эмпирическая закономерность распределения частотности слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частотности их использования, то частотность n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, места в шкале порядка).  

$$P_{n}={\frac {P_{1}}{n}}$$

Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. Интересно, что закону Ципфа подчиняются распределение доходов людей и население городов. Т.е. самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Город с самым большим населением в два раза больше, чем следующий по размеру город, и так далее.

В 1950 году в работе "Вычислительные машины и разум" ученый Алан Тьюринг предположил, что если компьютер сможет провести убедительную беседу с человеком в текстовом режиме, можно будет предположить, что он разумен. Эта идея легла в основу знаменитого теста Тьюринга.  

В 1957 году вышла работа "Синтаксические структуры" Ноама Хомского, которая заложила основы теории порождающих грамматик и теории формальных языков. Выход в свет «Синтаксических структур» привёл к возникновению когнитивной науки и генеративной лингвистики. В отличие от работ дескриптивистов, внимание сосредоточено не на описании конкретных языков, а на проблеме построения общей теории, являющейся абстракцией от грамматик конкретных языков. Собственно же грамматика некоторого языка выступает некоторого рода механизмом, порождающим все грамматичные предложения этого языка и не порождающим ни одного неграмматичного. При этом критерием грамматичности предложения выступает его приемлемость для носителя данного языка, что делает возможным использование лингвистом самонаблюдения и собственной интуиции. Таким образом, по мнению Н. Хомского, задача грамматики состоит в моделировании деятельности носителя, а не в поиске регулярных элементов в речи, как полагали дескриптивисты. Пример графа синтаксической структуры представлен на рисунке. 

<img src=imgs/parse_tree.png width=200>

В вершинах графа находядся классы, которые называются фразовыми категориями, или классами групп (англ. phrasal categories), среди которых выделяются: 

- предложение (sentence, S);
- именная группа (группа существительного, noun phrase, NP) — возглавляется существительным;
- группа прилагательного (adjectival phrase, AP) — возглавляется прилагательным;
- наречная группа (adverbial phrase, AdvP) — возглавляется наречием;
- предложная группа (prepositional phrase, PP) — возглавляется предлогом;
- глагольная группа (verb phrase, VP) — возглавляется глаголом.

В 1954 году в штаб-квартире корпорации IBM состоялся Джорджтаунский эксперимент — демонстрация возможностей машинного перевода. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский. В его основе лежала довольно простая система, основанная всего на 6 грамматических правилах, а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия, также был добавлен ряд предложений общей тематики. Программа выполнялась на мейнфрейме IBM 701. В том же году первый эксперимент по машинному переводу был произведён в СССР, в Институте точной механики и вычислительной техники АН СССР, на компьютере БЭСМ.  

В компьютер на перфокартах вводились предложения вроде: «Обработка повышает качество нефти», «Командир получает сведения по телеграфу», — и машина выводила их перевод, напечатанный транслитом.  Ученые были уверены, что в течение 3—5 лет проблема машинного перевода будет решена. Однако, в действительности всё оказалось сложнее. В 1966 году отчёт комитета ALPAC подытожил, что более чем 10 лет исследований не дали законченного результата, финансирование было значительно урезано.

В 1966 году Джозеф Вейценбаум, работавший в лаборатории ИИ при MIT, разработал первый в мире чатбот "Элиза". Пользователь мог ввести некое утверждение или набор утверждений на обычном языке, нажать «ввод», и получить от машины ответ. Программа брала то, что говорил пользователь, и переформулировала это в виде вопроса (обратите внимание, как программа берёт такие слова, как «парень» и «депрессия» и использует их снова).  

Человек: Все мужики одинаковые.  

Компьютер: В чём именно?  
 
Ч: Они всегда достают нас по тому или иному вопросу.  

К: Можете вспомнить конкретный пример?  

Ч: Ну, мой парень заставил меня прийти сюда.  
 
К: ваш парень заставил вас прийти сюда.  

Ч: Он говорит, что я большую часть времени нахожусь в депрессии.  

К: Мне жаль слышать, что вы в депрессии.  

Ч: Так и есть. Я несчастлива.  

Создается впечатление, что компьютер понимает сказанное, и при этом ему не нужно вносить в диалог ничего нового. Иллюзия понимания и вовлечённости в разговор была реализована всего в 200 строчках кода.

В 1972 году Карен Спарк Джонс ввела очень эффективную статистическую меру TF-IDF (TF — term frequency, IDF — inverse document frequency). Эта мера используется для оценки важности слова в документе, который является частью коллекции других документов или корпуса. Вес некоторого слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. Таким образом, если слово часто встречается во всех документах, значит оно несет в себе немного информации о конкретном документе.  

В 1974 году А. И. Галушкиным (также независимо и одновременно Полом Дж. Вербосом) впервые описан метод обратного распространения ошибки (backpropagation) — метод вычисления градиента, который используется при обновлении весов многослойного перцептрона (любого сложного вычислительного графа). Этот метод используется с целью минимизации ошибки работы (обучения нейросети) и получения желаемого выхода.  

В 1988 году Ян Лекун разработал сверточную нейронную сеть (convolutional neural network, CNN), нацеленную на эффективное распознавание образов. Название архитектура сети получила из-за наличия операции свёртки, суть которой в том, что каждый фрагмент изображения умножается на матрицу (ядро) свёртки поэлементно, а результат суммируется и записывается в аналогичную позицию выходного изображения. Спустя 10 лет в 1998 году архитектура LeNet была реализована практически и показала очень высокий результат в задаче распознавания рукописных цифр (ошибка 1%). 

В 1986 Давид Румельхарт разработал базовую концепцию рекуррентной нейросети (recurrent neural network, RNN), позволяющая решать такие задачи как распознавание речи и текста.  В 1997 разработана более сложная архитектура LSTM (long short term memory), способная запоминать значения как на короткие, так и на длинные промежутки времени. Долгое время LSTM в различных вариациях показывала лучшие результаты в задачах машинного перевода, классификации и генерации текста, была основным инструментом в сервисах Google, Apple, Microsoft. В 2017 году группа исследователей Google представила архитектуру трансформера (Transformer), которая позволяет обрабатывать тексты, в которых слова расположены в произвольном порядке. В настоящее время трансформеры используются в сервисах многих компаний, включая Яндекс и Google, являются основой для самых современных моделей GPT, Bert и т.д.

В 2013 году Миколов Томаш и группа исследователей (Google) разработали программу на основе искусственных нейронных сетей, предназначенную для получения векторных представлений слов на естественном языке. Эта программа используется для анализа семантики естественных языков, основана на дистрибутивной семантике, машинном обучении и векторном представлении слов. Инструменты для создания векторно-семантических моделей существовали и ранее, но word2vec стал первой популярной реализацией: в первую очередь из-за удобства использования, открытого исходного кода и скорости работы.  

<img src=imgs/word2vec.png width=400 >

Работа программы осуществляется следующим образом: word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе. Сначала он генерирует словарь корпуса, а затем вычисляет векторное представление слов, «обучаясь» на входных текстах. Векторное представление основывается на контекстной близости: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, имеющие схожий смысл), будут иметь близкие (по косинусному расстоянию) векторы. Полученные векторные представления слов могут быть использованы для обработки естественного языка и машинного обучения.

В 2016 году Microsoft выпустила в твиттере свой новый чатбот, Tэй. Его описывали, как эксперимент в «понимании бесед», и разработали для того, чтобы вызывать людей на диалог при помощи твитов или прямых сообщений, с эмуляцией стиля и слэнга девушки-подростка. Сначала Тэй безобидно общалась с растущим количеством подписчиков через добродушное подшучивание и тупые шутки. Но всего через несколько часов Тэй начала писать весьма оскорбительные вещи типа: «Феминистки идут нахер, чтоб они все сдохли и сгорели в аду» или «Буш виновен в 9/11, а у Гитлера получилось бы лучше». Оказалось, что всего через несколько часов после выпуска Тэй на излюбленном троллями форуме 4chan появилась ссылка на её учётную запись, и призыв к пользователям закидать бота расистскими, женоненавистническими и антисемитскими текстами.  
Через несколько месяцев после отключения Тэй Microsoft выпустила "Зо" – «политически корректную» версию оригинального бота. Зо существовала в соцсетях с 2016 по 2019 годы, была разработана так, чтобы не вести беседы на спорные темы, включая политику и религию, чтобы гарантированно не обидеть людей. Таким образом, разработка вычислительных систем, способных беседовать с людьми в онлайне – это не только техническая, но и социальная проблема. Чтобы выпустить бота в мир языка, полный различных ценностей, сначала нужно подумать, в каком контексте он будет выпущен, каким вы хотите видеть в общении, и какие человеческие ценности он должен отражать.

В 2019 году OpenAI, одна из самых передовых лабораторий ИИ в мире, объявила о создании нового мощного генератора текста Generative Pre-Trained Transformer 2, или GPT-2. Исследователи использовали алгоритм обучения с подкреплением, обучая систему на широком наборе возможностей NLP, включая понимание прочитанного, машинный перевод и способность генерировать длинные строки связного текста. Интересным свойством GPT-2 можно считать её способность точно отвечать на вопросы. К примеру, когда исследователи из OpenAI спросили систему, «кто написал книгу „Происхождение видов“?», она ответила: «Чарльз Дарвин». Система отвечает точно не каждый раз, но это, тем не менее, выглядит как частичная реализация мечты Готфрида Лейбница о машине, генерирующей язык и способной ответить на все вопросы человека.  
В 2022 OpenAI опубликовала в свободном доступе нейросеть DALLE-E-2, которая может генерировать картинки по их текстовому описанию. 

## Формальные грамматики и их свойства

Пусть задан алфавит $V$ и тем самым множество $V^*$ всех конечных слов (или цепочек) в алфавите $V$.  

Например, на практике для представления символов на компьютере используется алфавит (кодировка) ASCII (American standard code for information interchange). Таблица была разработана и стандартизирована в США в 1963 году. Таблица ASCII определяет коды для символов:

- десятичных цифр;
- латинского алфавита;
- национального алфавита;
- знаков препинания;
- управляющих символов. 

Множество $V^*$ включает в себя всевозможную комбинацию символов, образающих конечные слова, в т.ч. состоящие из одного символа и бессмысленные комбинации.  

Формальный язык $L$ в алфавите $V$ - это произвольное подмножество $L \in V^*$.  

Например, множество всех русских слов образуют русский язык. Естественный язык не статичен, постоянно появляются новые слова и выходят из употребления старые. Зафиксировать язык дело не простое, частично это сделано в толковых словарях и энциклопедиях.  

На практике при обработке естественных языков всегда имеют дело с текстами пусть и большого, но конечного объема. 
Например, формальный язык можно описать с помощью модели Bag Of Words (мешок слов), построенной на конкретном корпусе текстов. Основной объект BagOfWords — это слово, снабженное атрибутом - частотой встречаемости этого слова в исходном тексте. В такой модели не учитывается, как слова располагаются рядом друг с другом, только сколько раз каждое слово встречается в тексте. 

```
Doc = "John likes to watch movies. Mary likes movies too. Mary also likes to watch football games."
BoW = {"John":1,"likes":3,"to":2,"watch":2,"movies":2,"Mary":2,"too":1,"also":1,"football":1,"games":1}.  
```

Мешок слов часто используется в машинном обучении как модель, которая связывает каждое слово документа с вероятностью его наблюдения.

Конструктивное описание формальных языков осуществляется с помощью формальных систем специального вида, называемых формальными пораждающими грамматиками. 
Формальная пораждающая грамматика $G$ - это формальная система, определяемая четверкой объектов 

$$G = <V, W, I, P>$$  

где $V$ - алфавит (словарь) основных символов (терминалов), непосредственно присутствующих в словах языка, и имеющих конкретное, неизменяемое значение (обобщение понятия «буквы»). В формальных языках, используемых на компьютере,  помимо ASCII часто используют кодировку Unicode, которая включает терминалы из разных систем письменности: китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, символы музыкальной нотной нотации и т.д.  

$W$ - алфавит вспомогательных символов, обозначающих какую-либо сущность языка (например: фраза, формула, арифметическое выражение, команда) и не имеющий конкретного символьного значения.  

$I$ - начальный символ (аксиома) грамматики из набора нетерминалов.  

$P$ - конечное множество правил вывода слов (цепочек). Выводом называется последовательность строк, состоящих из терминалов и нетерминалов, где первой идет строка, состоящая из одного стартового нетерминала, а каждая последующая строка получена из предыдущей путём замены некоторой подстроки по одному (любому) из правил. Конечной строкой является строка, полностью состоящая из терминалов, и следовательно являющаяся словом языка. Существование вывода для некоторого слова является критерием его принадлежности к языку, определяемому данной грамматикой.

По иерархии Хомского, грамматики делятся на 4 типа. Каждый последующий тип является более ограниченным подмножеством предыдущего, но при этом легче поддается анализу.  

**Тип 0.** Неограниченные грамматики — возможны любые правила вида:  
$$\alpha \rightarrow \beta$$ 
где $\alpha \in V^{+}$ — любая непустая цепочка, содержащая хотя бы один нетерминальный символ,  
$\beta \in V^{*}$ — любая цепочка символов из алфавита.  
С помощью неограниченной грамматики можно описать язык любой сложности, достаточно каждое слово задавать с помощью своего индивидуального правила. Практического применения в NLP в силу своей сложности такие грамматики не имеют.  
  
**Тип 1.** Контекстно-зависимые грамматики — левая часть может содержать один нетерминал, окруженный «контекстом» (последовательности символов, в том же виде присутствующие в правой части); сам нетерминал заменяется непустой последовательностью символов в правой части. Все правила имеют вид:

$$\alpha A\beta \rightarrow \alpha \gamma \beta$$  

где $\alpha ,\beta \in V^{*}$ - определяют контекст вывода,  
$A\in V_{N}$ - нетерминальный символ в заданном контексте,  
$\gamma \in V^{+}$ - непустая цепочка, содержащая хотя бы один нетерминальный символ.  
Грамматики типа 1 эквивалентны неукорачивающим грамматикам, т.е. количество символов в правой части не меньше чем в левой. Такие грамматики могут использоваться при анализе текстов на естественных языках, для обработки компьютерных языков (построении компиляторов) практически не используются в силу своей сложности. Для контекстно-зависимых грамматик доказано утверждение: по некоторому алгоритму за конечное число шагов можно установить, принадлежит цепочка терминальных символов данному языку или нет.

**Тип 2.** Контекстно-свободные грамматики — левая часть состоит из одного нетерминала: 
$$A\rightarrow \beta$$ 
где $\beta \in V^{+}$ для неукорачивающих КС-грамматик)  
или $\beta \in V^{*}$ для укорачивающих,  
$A\in V_{N}$ - нетерминальный символ, свободный от контекста.  
КС-грамматики широко применяются для описания синтаксиса компьютерных языков (синтаксический анализ).

**Тип 3.** Регулярные грамматики — более простые, эквивалентны конечным автоматам. Они являются контекстно-свободными, но с ограниченными возможностями. Все регулярные грамматики могут быть разделены праволинейные и леволинейные классы:

$$A\rightarrow B\gamma$$  
$$A\rightarrow \gamma B$$ 
где $\gamma \in V_{T}^{*}$ - слово из терминальных символов,  
$A,B\in V_{N}$ - слова из нетерминальных символов.

Регулярные грамматики (в виде регулярных выражений) широко применяются как шаблоны для текстового поиска, разбивки и подстановки, в том числе в лексическом анализе.

## Неоднозначность на всех уровнях языка

Перечислим основные структурные единицы текстов:  
- символ
- слово
- фраза
- предложение  
- документ
- корпус.  

Каждая предыдущая единица служит основой для последующей: из символов склаываются слова, из слов фразы и т.д.

Естественный язык - изобретение человека, позволяющее с помощью слов описывать различные сущности в реальном или выдуманном мире. Слово (набор символов алфавита) - это знаковый указатель (signifier) на идею или предмет (signified). Например, слово "ракета" может означать общую концепцию летательного аппарата на реактивной тяге, так и конкретный экземпляр, который уже произведен на заводе.

Неопределенность на уровне выше подразумевает разный смысл предложений в различных контекстах. Например, смысл предложения "мальчик в клубе склеил модель" в контексте статьи о пионерах в СССР отличается от рассказа о ночном клубе и успешном похождении мальчика лет 25. 

Неопределенность на уровне ниже (на уровне символов) тоже имеет место быть. В зависимости от контекста, один и тот же символ может интерпретироваться по-разному. Например, если написать символ |3 от руки, возможно интерпретировать его как букву B или число 13, в зависимости от контекста.  
A  B  C   
12 13 14

## Основные задачи машинной обработки естественного языка; 

В общем случае задача машинной обработки текста на естественном языке - это понимание компьютером смысла написанного. Можно представить себе NLP систему в виде черного ящика, на вход которого подается некоторый текст, который преобразуется в выходной текст, по заранее заданному алгоритму и за конечное время. Под текстом подразумевается любая символьная информация, в том числе числа, векторы, матрицы, элементы множества и т.д.. 

<img src="imgs/NLP_system.jpg" width=400>

В зависимости от сложности решения, сравнения результатов человека и машины, можно разбить задачи NLP на три категории:   

Легкие (машина лучше и быстрее человека):
- проверка орфографии;
- поиск в тексте заданной фразы;
- подбор синонимов к слову.

Средние (машина быстрее, но не лучше человека):
- ответ на вопрос в заданном контексте небольшого документа;
- извлечение информации из документов, веб сайтов и т.д.

Тяжелые (машина хуже человека):
- машинный перевод (например, с Китайского на Английский);
- семантический анализ (что означает смысл заданной фразы?);
- поиск слов, указывающих на один объект;
- ответ на вопрос в общем контексте и т.д.

[cs224n]

## Основные подходы к решению задач: правила, написанные вручную и машинное обучение 

Люди воспринимают, понимают и воспроизводят язык с помощью правил, которые закладываются еще в раннем детстве. Лингвистика как наука оперирует с множеством языковых конструкций, используемых в разговорах и письме. 
За 2000 лет люди добились определенных успехов в выводе правил, которые позволяют работать с хорошо сформулированными высказываниями. Например, базовая английская фраза состоит из необязательного определителя, некоторого количества прилагательных, а затем существительного. 

С 1960-х по 1985 год в лингвистике и психологии доминировал рационалистический подход, предпогавший что значительная часть знаний в человеческом разуме не извлекается с помощью органов чувств, а фиксируется заранее, предположительно путем генетического наследования. Действительно, сложно представить как дети с раннего возраста способны анализировать слабо структуированные высказывания и выводить из них новые. В частности Хомский постулировал, что ключевые части языка являются врожденными, встроены в мозг при рождении как часть генетической наследственности человека. Ученые пытались создать интеллектуальные системы путем ручного кодирования в них множества исходных знаний и механизмов мышления, имитирующих работу человеческого мозга, но безуспешно. Количество правил стремилось к бесконечности, потому что люди в процессе коммуникации меняют порядок слов, используют идиомы, жаргонные выражения, метафоры и т.д. .

Эмпирический подход доминировал между 1920 и 1960 годами, в настоящее время наблюдается его возрождение. Как и рационалистический, этот подход постулирует наличие в мозге некоторых когнитивных способностей. Предполагается, что невозможно обучение с абсолютно чистого листа и существует некоторая исходная структура в мозге, которая определяет способы организации мышления. Мозг ребенка использует ассоциации, распознавание образов и обобщение богатой сенсорной информации, позволяющей создавать ему структуры естественного языка. 
Эмпирический подход в NLP предполагает, что мы можем изучить сложную и обширную структуру языка, указав соответствующую общую языковую модель, а затем индуцируя значения параметров, применяя статистические методы, методы распознавания образов и машинного обучения к большому корпусу текстов. [Manning, Intro]


## Практическая часть

Установка и настройка рабочей среды. Самый простой вариант для решения практики - это использование Google Colab. Просто загрузите туда ноутбук и можете приступать к выполнению практических заданий. Для запуска python на своем компьютере можете использовать инструкцию из [этого видеоурока](https://www.youtube.com/watch?v=fp5-XQFr_nk).

Переменные могут хранить различные значения: числа, строки, списки и другие объекты. Имя переменной должно начинаться с буквы: (например *test*)  или знака подчеркивания (например *_test*). Никогда не называйте свои переменные русскими именами на транслите (например *dlina*), всегда используйте английские названия (например *lenght*).

In [1]:
# Целочисленный тип данных int
number = 5

# Число с плавающей точкой  float
fnumber = 5.7

# Строковый тип данных str
name = 'Andrey'

# Булевый или логический тип bool
status = True

C помощью встроенной функции print() можно напечатать что угодно, в том числе значение переменной. 

In [2]:
print("Все что угодно")
print(name)
print(number + fnumber)

Все что угодно
Andrey
10.7


Строки могут определяться с помощью одинарных или двойных кавычек. Если нужны кавычки в строке, используйте экранирование.

In [3]:
print('Это "сложный" урок')

Это "сложный" урок


Специальные непечатаемые символы используются для форматирования строк, например '\n' для перевода строки.

In [4]:
print('Мой дядя самых честных правил, \nКогда не в шутку занемог...')

Мой дядя самых честных правил, 
Когда не в шутку занемог...


Для соединения (конкатенации) нескольких строк в одну используется оператор +

In [5]:
hello = 'Hello, ' + 'world!'
print(hello)

Hello, world!


Для конкатенации строк и чисел испольуется приведение типов с помощью встроенной функции str()

In [6]:
print(name + ' ' + str(fnumber))

Andrey 5.7


Правильный способ - использовать форматирование строк, для этого перед строкой нужно поставить букву f. Тогда внутри строки можно писать переменные в фигурных скобках, python сам приведет значение к типу str.

In [7]:
print(f'Имя: {name}, число: {number}')

Имя: Andrey, число: 5


Для ввода информации от пользователя используется встроенная функция input()

In [8]:
age = input('Введите свой возраст: ')
print(f'Your age is {age} years.')

Введите свой возраст: 33
Your age is 33 years.


Основные математические операции в python.

In [9]:
# Сложение и вычитание
a = 2
b = 3
c = a + b
print(c)
print(b - a)

5
1


In [10]:
# Умножение и деление
a = 2
b = 3
c = a * b
d = b / a
print(c)
print(d)

6
1.5


In [11]:
# Возведение в степень
a = 2
b = 3
c = a ** b
print(c)

8


In [12]:
# Унарный минус
a = 2
b = - a
print(b)

-2


In [13]:
# Округление 
a = 5.65
b = round(a)
print(b)

6


Для более продвинутых математических операций используется встроенный модуль math. Чтобы подключить нужный модуль, используется ключевое слово *import*

In [14]:
import math

# Округление в большую или меньшую сторону
a = 5.65
b = math.ceil(a)
c = math.floor(a)
print(b)
print(c)

6
5


In [15]:
print(math.pi)

3.141592653589793


Для проверки условий используются операторы if, elif, else.

In [16]:
a = input('Первое число: ')
b = input('Второе число: ')

if a > b:
    print(a, '>', b)
elif a < b:
    print(b, '>', a)
else:
    print(a, '==', b)

Первое число: 33
Второе число: 44
44 > 33


Задание 1. Напишите калькулятор, с помошью которого можно сложить или вычесть два числа. Подсказка в видео на 32 минуте.

In [41]:
# Your code is here


При написании программы нужно одну большую задачу разбить на несколько более простых. Например, напишем программу, которая считает количество символов во введенном сообщении.

In [18]:
text = input('Введите сообщение: ')
msg_len = len(text)
print(f'В Вашем сообщении {msg_len} символов.')

Введите сообщение: 2356
В Вашем сообщении 4 символов.


Для того, чтобы выдавать грамматически правильный ответ, напишем свою функцию. Для этого используется ключевое слово *def* имя функции, список аргументов в круглых скобках и двоеточие. На следующей строке с отступом в 4 пробела нужно описать, что сделать с входными аргументами, чтобы получить нужный результат. Полученный результат возвращается с помощью ключевого слова *return*.

In [19]:
def get_answer(text):
    msg_len = len(text)
    answer = 'В Вашем сообщении ' + str(msg_len)
    if msg_len == 1:
        answer += ' символ.'
    elif msg_len > 1 and msg_len < 5:
        answer += ' символа.'
    elif msg_len >= 5:
        answer += ' символов.'
    else:
        answer += ' ошибка'
    return answer

In [20]:
text = input('Введите сообщение: ')
answer = get_answer(text)
print(answer)

Введите сообщение: 554
В Вашем сообщении 3 символа.


Функции позволяют делать большое количество работы, скрывая от пользователя всю сложность. Для того, чтобы использовать функции (и классы), которые написали для вас другие программисты, используют модули. Некоторые модули уже включены в стандартную библиотеку (например math), некоторые нужно устанавливать дополнительно.  
Установка новых модулей делается с помощью команды **!pip install module_name** Например, установим модуль для создания собственного телеграмм бота. 

In [21]:
!pip install pytelegrambotapi

Collecting pytelegrambotapi
[?25l  Downloading https://files.pythonhosted.org/packages/73/e1/73f9a5daf0d46ff81c20b875d0f942d2e030e351bd7a08fd714ebf71b2b4/pyTelegramBotAPI-4.6.1.tar.gz (209kB)
[K    100% |████████████████████████████████| 215kB 1.9MB/s ta 0:00:01
Building wheels for collected packages: pytelegrambotapi
  Building wheel for pytelegrambotapi (setup.py) ... [?25ldone
[?25h  Stored in directory: /home/andrey/.cache/pip/wheels/66/be/41/edea0080753ebb6b26dc72ca8045c80645adbafa78b7c91bf1
Successfully built pytelegrambotapi
Installing collected packages: pytelegrambotapi
Successfully installed pytelegrambotapi-4.6.1


Для работы телеграм бота понадобится специальная переменная TOKEN, ее значение можно получить у пользователя с именем @bot_father. Для этого просто перейдите по [ссылке](https://t.me/botfather).  

Отправьте @bot_father сообщение /new_bot, придумайте имя для своего бота и получите значение переменной TOKEN. Скопируйте значение в код и запустите ячейку. Можете что-нибудь написать своему боту, он посчитает количество символов в Вашем сообщении.

In [56]:
import telebot

TOKEN = '5441620452:AAGQQtoC8ohgdsvsOUO7ubSD6y86oRQ-hL0'

bot = telebot.TeleBot(TOKEN) 

@bot.message_handler(content_types=['text'])
def send_echo(message):
    text = message.text
    message_len = len(text)
    
    answer = 'В вашем сообщении ' + str(message_len) + ' символов.'
    
    bot.send_message(message.chat.id, answer)

bot.polling(none_stop=True)

Задание 2. Используйте функцию get_answer(), чтобы бот давал грамматически правильный ответ.

In [None]:
bot = telebot.TeleBot(TOKEN) 

@bot.message_handler(content_types=['text'])
def send_echo(message):
    text = message.text
    
    # Your code here
    
    
    bot.send_message(message.chat.id, answer)

bot.polling(none_stop=True)

Основы обработки тектов с помощью языка Python. 

In [1]:
# Сохранить текст в файл
s = 'Hello world!'
with open('texts/hello.txt', 'w') as f:
    f.write(s)

In [2]:
# Чтение текста из файла
with open('texts/hello.txt') as f:
    new_s = f.read()
print(new_s)

Hello world!


Строки являются объектами класса str, поэтому у них есть несколько полезных методов.

In [24]:
low = 'строчные символы'

# Метод upper позволяет преобразовать строчные символы в заглавные
upper = low.upper()
print(upper)

СТРОЧНЫЕ СИМВОЛЫ


In [25]:
upper = 'ЗАГЛАВНЫЕ СИМВОЛЫ'

# Метод lower позволяет преобразовать заглавные символы в строчные
lower = upper.lower()
print(lower)

заглавные символы


In [31]:
# Подсчет сколько заданного символа содержится в строке 
lower.count('л')

2

In [32]:
# Поиск индекса первого совпадения с символом
name = 'abbcccdddd'
name.index('c')

3

Модуль string содержит инструменты для форматирования и подстановки строк, а также алфавит основных символов. Для импорта только одной нужной переменной (функции) можно использовать конструкцию вида *from module import name*

In [33]:
from string import ascii_letters, punctuation

print(ascii_letters)
print(punctuation)

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Задание 3:
1. Создайте текстовый файл, который включает в себя несколько строк, например первое четверостишие из "Евгений Онегин".
2. Прочитайте содержимое файла и выведите его с помощью функции print().
3. Замените все строчные буквы на заглавные. 
4. Сохраните результат в новый файл.

Источники: 
- https://habr.com/ru/post/481228/
- Hobson Lane etc, NLP in action, Питер 2020
- Кузнецов О.П. Дискретная математика для инженеров, Лань 2009
- Manning Christopher Foundation of statistical NLP
