# Препроцессинг данных
В процессе предобработки данных производится их подготовка к анализу, в результате которой они приводятся в соответствие с требованиями, определяемыми спецификой решаемой задачи.
Предобработка является важнейшим этапом при создании модели, и если она не будет выполнена, то дальнейший анализ в большинстве случаев невозможен из-за того, что аналитические алгоритмы просто не смогут работать или результаты их работы будут некорректными.

In [1]:
#  Выгрузим необходимые библиотеки и подгрузим модули для них.

import pandas as pd
import numpy as np

!pip install pymorphy2

from nltk.tokenize import sent_tokenize, word_tokenize
import nltk
from nltk.corpus import stopwords
import pymorphy2
import re

nltk.download('punkt')
nltk.download('stopwords')
morph = pymorphy2.MorphAnalyzer()

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m48.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844
[0m[nltk_data] Downloading package punkt to /usr/share/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Токенизация и лемматизация
Токенизация — самый первый шаг при обработке текста, результатом которого является набор (список) так называемых токенов (подстрок). Они могут быть предложениями, словами или даже отдельными символами. 
Иными словами, токенизация - это выделение из описания товаров основных, выделяющихся слов или фраз.

Лемматизация – объединение слов с одним и тем же корнем или леммой, но с разными склонениями или производными значения для дальнейшего анализа как элемента. Например, лемматизировать слова «кошки», «кошек» и «кошка» означает привести к именительному падежу все эти слова и получить «кошка».

In [1]:
#  На данном этапе мы создаем функцию которая позволит нам провести
#  препроцессинг данных, а также токенизацию и лемматизацию данных.

def preprocessing(x):
    text = x
    if text != None:
        tock_dirt = word_tokenize(text, language="russian")
        morph_lst = []
        tock = []
        for word in tock_dirt:
            word = re.sub("[^A-Za-zА-Яа-я]", " ", word)
            for i in word.split():
                if i != []:
                    if i not in stopwords.words("russian"):
                        morph_lst.append(morph.parse(i)[0].normal_form)
        return morph_lst
    else:
        return []

## Работа с данными
Выше мы описали каким образом подготавливались данные и представили для этого функцию. Загрузим данные и подготовим их.

In [3]:
#  считаем данные

data = pd.read_csv('../input/aihack-ved/opisanie_and_ved.csv', index_col=0)

#  Применим к данным написанную ранее функцию

data.OPISANIE = data.OPISANIE.apply(lambda x: preprocessing(x))
data.OPISANIE = data.OPISANIE.apply(lambda x: ' '.join(x))

# Сохраним данные для последующей обработки с помощью алгоритма/модели

data.to_csv('data_preproc.csv', index=False) 