<a href="https://colab.research.google.com/github/Sergey-Kit/itmo_dl_nlp_course/blob/hw_1/hw_1%5Citmo_dl_nlp_course_dz_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Подготовка текста под задачу классификации текста

### 1. Установка зависимостей

In [None]:
#!rm -r hw_1
# Clone GitHub Project
!git clone https://github.com/Sergey-Kit/itmo_dl_nlp_course
#%cd hw_1
!pip install -r https://raw.githubusercontent.com/Sergey-Kit/itmo_dl_nlp_course/main/hw_1/requirements.txt
#!pip install corus
#!pip install pymorphy2

In [2]:
from corus import load_buriy_webhose
from bs4 import BeautifulSoup
import nltk
from nltk.corpus import stopwords
import pymorphy2
import re

#random_state = 42

### 2. Получение датасета

In [None]:
!wget -P /content/data https://github.com/buriy/russian-nlp-datasets/releases/download/r4/webhose-2016.tar.bz2

path = 'data/webhose-2016.tar.bz2'
records = load_buriy_webhose(path)
next(records)

### 3. Предобработка датасета

In [4]:
# Забираем тексты
dataset = [next(records).text for i in records]
len(dataset)

142982

#### Нормализация

In [5]:
# Возбму меньший датасет для ускорения
test = dataset[:1000].copy()

In [6]:
def text_prepare(dataset):

  # функция первоначальной обработки текста
  """
      dataset: list of strings

      return: modified list of strings
  """

  for i, one_text in enumerate(dataset):

    # Переводим символы в нижний регистр
    one_text = one_text.lower()

    # Чистим от HTML-разметки
    soup = BeautifulSoup(one_text, 'html.parser')
    one_text = soup.get_text()

    #Удаляем LEFT-TO-RIGHT MARK
    one_text = re.sub('•\s*\u200e\s\w+.*\n', '', one_text)

    # Удаляем пунктуацию
    one_text = re.sub(r'\d+|[^\w\s]', '', one_text)

    # Удаляем числа и не русские буквы
    one_text = re.sub(r'\b\d+\b|\b(?![А-Яа-я]+\b)[^\W\d_]+\b', '', one_text)

    dataset[i] = one_text

  return dataset

In [None]:
text_prepare(test)

#### Токенизация

In [8]:
def text_tokenize(dataset, corpus_tokens):

  # Простая токенизация
  """
      dataset: list of lists

      return: modified list of lists
  """

  for one_text in dataset:

    tokens = re.findall(r'\w+', one_text)
    corpus_tokens.append(tokens)

  return corpus_tokens

In [9]:
corpus_tokens = []
corpus_tokens = text_tokenize(test, corpus_tokens)

In [None]:
corpus_tokens

#### Удаление стоп-слов

In [11]:
def delete_stop_words(raw_tokens, corpus_tokens_wo_stop_words):

  """
      dataset: list of lists

      return: modified list of lists
  """

  for one_text in raw_tokens:
    nltk.download('stopwords', quiet=True)
    stop_words = set(stopwords.words('russian'))

    filtered_tokens = []

    for token in one_text:
        if token not in stop_words:
            filtered_tokens.append(token)
    corpus_tokens_wo_stop_words.append(filtered_tokens)

  return corpus_tokens_wo_stop_words

In [12]:
corpus_tokens_wo_stop_words = []
corpus_tokens_prepared = delete_stop_words(corpus_tokens, corpus_tokens_wo_stop_words)

In [None]:
corpus_tokens_prepared

#### Лемматизация

In [14]:
def lemmatization(raw_tokens, corpus_lematized):

  # Лемматизация с помощью pymorphy
  """
      dataset: list of lists

      return: modified list of lists
  """
  morph = pymorphy2.MorphAnalyzer()

  lemmas = []

  for one_text in raw_tokens:

    for token in one_text:
      lemma = morph.parse(token)[0].normal_form
      lemmas.append(lemma)
    corpus_lematized.append(lemmas)
    #print('\n')
  return corpus_lematized

In [15]:
corpus_lematized = []
corpus_prepared = lemmatization(corpus_tokens_prepared, corpus_lematized)

In [23]:
corpus_prepared[:1]

[['этот',
  'страница',
  'являться',
  'портал',
  'список',
  'урок',
  'нацелить',
  'начинающий',
  'пользователь',
  'система',
  'обратить',
  'пожалуйста',
  'внимание',
  'выше',
  'расположить',
  'примечание',
  'относительно',
  'дата',
  'какиелибо',
  'идея',
  'относительно',
  'желаемый',
  'урок',
  'создать',
  'пожалуйста',
  'красный',
  'ссылка',
  'ниже',
  'раздел',
  'желаемый',
  'тема',
  'наиболее',
  'посещать',
  'экран',
  'помощь',
  'вика',
  'страница',
  'документация',
  'содержать',
  'главный',
  'экран',
  'помощь',
  'версия',
  'начинать',
  'версия',
  'далее',
  'следующий',
  'страница',
  'собирать',
  'вместе',
  'экран',
  'помощь',
  'каждый',
  'версия',
  'вика',
  'страница',
  'документация',
  'содержать',
  'главный',
  'экран',
  'помощь',
  'версия',
  'начинать',
  'версия',
  'далее',
  'следующий',
  'страница',
  'собирать',
  'вместе',
  'экран',
  'помощь',
  'каждый',
  'версия',
  'помощь',
  'версия',
  'помощь',
  'версия'