# Dependency Installation and Repository Cloning

### Run it if you're using this notebook in Google Colab

In [1]:
!git clone 'https://github.com/dakopecky/nlp-course-itmo.git'

%cd nlp-course-itmo
!git checkout hw1
%cd hw1

!pip install poetry
!poetry config virtualenvs.create false
!poetry install --no-ansi

Cloning into 'nlp-course-itmo'...
remote: Enumerating objects: 16, done.[K
remote: Counting objects: 100% (16/16), done.[K
remote: Compressing objects: 100% (15/15), done.[K
remote: Total 16 (delta 3), reused 12 (delta 1), pack-reused 0[K
Receiving objects: 100% (16/16), 75.93 KiB | 1.52 MiB/s, done.
Resolving deltas: 100% (3/3), done.
/content/nlp-course-itmo
Branch 'hw1' set up to track remote branch 'hw1' from 'origin'.
Switched to a new branch 'hw1'
Collecting poetry
  Downloading poetry-1.6.1-py3-none-any.whl (232 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.8/232.8 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting build<0.11.0,>=0.10.0 (from poetry)
  Downloading build-0.10.0-py3-none-any.whl (17 kB)
Collecting cleo<3.0.0,>=2.0.0 (from poetry)
  Downloading cleo-2.0.1-py3-none-any.whl (77 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.3/77.3 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting crashtest

# Dataset Loading and Preprocessing

Import deps

In [2]:
# This code includes software developed by the following open-source projects:
# - NLTK (License: Apache License 2.0, Authors: Steven Bird, Edward Loper, Ewan Klein)
# - preprocessor (License: MIT, Authors: Saurabh Mathur)
# - Corus (License: MIT, Authors: Denis Emelin)
# - Pymorphy2 (License: MIT, Authors: Mikhail Korobov)
# - Jupyter Notebook (License: Modified BSD License, Authors: Project Jupyter)
# For the full license information, please see the `licenses` directory.


import nltk
import preprocessor as p
from nltk.corpus import stopwords
from nltk.tokenize import TweetTokenizer
from corus import load_mokoron
import pymorphy2

Download the "Mokoron Russian Twitter Corpus" dataset

In [3]:
!gdown '1H_xuXdB9_YkIZJMwr-UGY1cbMLJt4JgK' -O 'db.sql'

Downloading...
From (uriginal): https://drive.google.com/uc?id=1H_xuXdB9_YkIZJMwr-UGY1cbMLJt4JgK
From (redirected): https://drive.google.com/uc?id=1H_xuXdB9_YkIZJMwr-UGY1cbMLJt4JgK&confirm=t&uuid=1fdc78b8-9f59-47fb-8596-c09f3617108e
To: /content/nlp-course-itmo/db.sql
100% 3.28G/3.28G [00:34<00:00, 94.6MB/s]


Load the dataset

In [4]:
path = 'db.sql'
records = load_mokoron(path)

Extract text

In [5]:
N = 100000
texts = [record.text for _, record in zip(range(N), records)]

Load resources for nltk

In [6]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Lowercase the text

In [7]:
texts = [text.lower() for text in texts]

Remove @tags, links and \\n noise

Text before the cleanup

In [8]:
texts[:5]

['пропавшая в хабаровске школьница почти сутки провела в яме у коллектор',
 'лента, я сегодня полгода дирекшионеееер! с:\\nхотя все равно никто не поздравит лол',
 'царствие божие внутрь вас есть.',
 'rt @twitregion: ученые: кофе приносит намного больше вреда, чем пиво',
 'http://t.co/zzzwylsmon справка по адаптации 5 классников']

In [23]:
p.set_options(p.OPT.URL, p.OPT.MENTION)
texts = [p.clean(text.replace('\\n', ' ')) for text in texts]

Text after

In [24]:
texts[:5]

['пропавшая в хабаровске школьница почти сутки провела в яме у коллектор',
 'лента, я сегодня полгода дирекшионеееер! с:хотя все равно никто не поздравит лол',
 'царствие божие внутрь вас есть.',
 'rt : ученые: кофе приносит намного больше вреда, чем пиво',
 'справка по адаптации 5 классников']

Tokenize the text

In [21]:
tknzr = TweetTokenizer()
tokenized_texts = [tknzr.tokenize(text) for text in texts]

In [22]:
tokenized_texts[:5]

[['пропавшая',
  'в',
  'хабаровске',
  'школьница',
  'почти',
  'сутки',
  'провела',
  'в',
  'яме',
  'у',
  'коллектор'],
 ['лента',
  ',',
  'я',
  'сегодня',
  'полгода',
  'дирекшионееер',
  '!',
  'с',
  ':',
  'хотя',
  'все',
  'равно',
  'никто',
  'не',
  'поздравит',
  'лол'],
 ['царствие', 'божие', 'внутрь', 'вас', 'есть', '.'],
 ['rt',
  ':',
  'ученые',
  ':',
  'кофе',
  'приносит',
  'намного',
  'больше',
  'вреда',
  ',',
  'чем',
  'пиво'],
 ['справка', 'по', 'адаптации', '5', 'классников']]

Remove punctuation

In [13]:
exclude_punctuations = {',', '.', ';', ':', '"', "'", "{", "}", "[", "]", "*", "-", "—", "_", "/", "\\", "&"}
filtered_texts = [[token for token in text if token not in exclude_punctuations] for text in tokenized_texts]

In [14]:
filtered_texts[:5]

[['пропавшая',
  'в',
  'хабаровске',
  'школьница',
  'почти',
  'сутки',
  'провела',
  'в',
  'яме',
  'у',
  'коллектор'],
 ['лента',
  'я',
  'сегодня',
  'полгода',
  'дирекшионееер',
  '!',
  'с',
  ':\\',
  'nхотя',
  'все',
  'равно',
  'никто',
  'не',
  'поздравит',
  'лол'],
 ['царствие', 'божие', 'внутрь', 'вас', 'есть'],
 ['rt',
  'ученые',
  'кофе',
  'приносит',
  'намного',
  'больше',
  'вреда',
  'чем',
  'пиво'],
 ['справка', 'по', 'адаптации', '5', 'классников']]

Remove stop-words

In [15]:
russian_stopwords = stopwords.words("russian")
filtered_texts = [[word for word in text if word not in russian_stopwords] for text in filtered_texts]

In [16]:
filtered_texts[:5]

[['пропавшая',
  'хабаровске',
  'школьница',
  'сутки',
  'провела',
  'яме',
  'коллектор'],
 ['лента',
  'сегодня',
  'полгода',
  'дирекшионееер',
  '!',
  ':\\',
  'nхотя',
  'равно',
  'никто',
  'поздравит',
  'лол'],
 ['царствие', 'божие', 'внутрь'],
 ['rt', 'ученые', 'кофе', 'приносит', 'намного', 'вреда', 'пиво'],
 ['справка', 'адаптации', '5', 'классников']]

Lemmatize the text

In [17]:
morph = pymorphy2.MorphAnalyzer()
lemmatized_texts = [[morph.parse(word)[0].normal_form for word in text] for text in filtered_texts]

In [18]:
lemmatized_texts[:5]

[['пропасть',
  'хабаровск',
  'школьница',
  'сутки',
  'провести',
  'яма',
  'коллектор'],
 ['лента',
  'сегодня',
  'полгода',
  'дирекшионееер',
  '!',
  ':\\',
  'nхотеть',
  'равно',
  'никто',
  'поздравить',
  'лола'],
 ['царствие', 'божий', 'внутрь'],
 ['rt', 'учёный', 'кофе', 'приносить', 'намного', 'вред', 'пиво'],
 ['справка', 'адаптация', '5', 'классник']]