Предобработка текстовых данных важна для того, чтобы превратить сырые данные в признаки для классификатора, потеряв как можно меньше данных. Можно выделить 2 основные категории способов предобработки:

1. Уменьшение возможного пространства векторов
Сюда входят такие методы как лемматизация, стемминг, убирание пунктуации, удаление стоп слов, приведение к одному регистру, токенизация.

2. Преобразование текста в векторное пространство
Сюда входят такие методы как word2vec, метод n gram, glove и другие.

Начнем с лемматизации:
Лемматизация - процесс приведения словоформы к лемме — её нормальной (словарной) форме. (Википедия)

In [9]:
from nltk import word_tokenize      
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('punkt')
nltk.download('wordnet')

text = "Machine learning is the study of computer algorithms that can improve automatically through experience and by the use of data"
lemmatizer = WordNetLemmatizer()
lems = [lemmatizer.lemmatize(t) for t in word_tokenize(text)]

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


In [10]:
lems

['Machine',
 'learning',
 'is',
 'the',
 'study',
 'of',
 'computer',
 'algorithm',
 'that',
 'can',
 'improve',
 'automatically',
 'through',
 'experience',
 'and',
 'by',
 'the',
 'use',
 'of',
 'data']

Еще примеры:

In [13]:
lemmatizer.lemmatize('problems')

'problem'

In [14]:
lemmatizer.lemmatize('feet')

'foot'

Рассмотрим следующий способ предобработки - стемминг. 

Стемминг - это процесс нахождения основы слова для заданного исходного слова. (Википедия)

Рассмотрим примеры с библиотекой nltk, которая содержит 2 стеммера - 
PorterStemmer и LancasterStemmer.

Начнем с PorterStemmer:

In [17]:
from nltk.stem import PorterStemmer
porter = PorterStemmer()

In [32]:
print(porter.stem("working"))
print(porter.stem("worked"))
print(porter.stem("works"))
print(porter.stem("machine"))
print(porter.stem("machines"))
print(porter.stem("friendship"))

work
work
work
machin
machin
friendship


Сравним с LancasterStemmer:

In [34]:
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()

print(lancaster.stem("working"))
print(lancaster.stem("worked"))
print(lancaster.stem("works"))
print(lancaster.stem("machine"))
print(lancaster.stem("machines"))
print(lancaster.stem("friendship"))

work
work
work
machin
machin
friend


Рассмотрим методы n gram. Метод n gram берет несколько (n) подряд идущих символов, и создает из них одну "n грамму". К примеру, при n = 3 для слова "привет" мы получим такие 3-граммы:

при,рив,иве,вет

Затем их всех полученных n-gramm мы можем создать вектор некоторой размерности (равный количеству различных n-gram) и закировать каждое слово вектором, в котором каждая координата - кол-во раз которое n-грамма встречается в слове.

Посмотрим как можно построить n-граммы по словам с помощью ntlk:

In [37]:
from nltk import ngrams

n = 3

text = "Machine learning is the study of computer algorithms that can improve automatically through experience and by the use of data"

n_grams = ngrams(text.split(), n)

for grams in n_grams:
    print(grams)

('Machine', 'learning', 'is')
('learning', 'is', 'the')
('is', 'the', 'study')
('the', 'study', 'of')
('study', 'of', 'computer')
('of', 'computer', 'algorithms')
('computer', 'algorithms', 'that')
('algorithms', 'that', 'can')
('that', 'can', 'improve')
('can', 'improve', 'automatically')
('improve', 'automatically', 'through')
('automatically', 'through', 'experience')
('through', 'experience', 'and')
('experience', 'and', 'by')
('and', 'by', 'the')
('by', 'the', 'use')
('the', 'use', 'of')
('use', 'of', 'data')


По символам:

In [39]:
from nltk import ngrams

n = 3

text = "Machine learning is the study of computer algorithms that can improve automatically through experience and by the use of data"

n_grams = ngrams(text, n)

for grams in n_grams:
    print(grams)

('M', 'a', 'c')
('a', 'c', 'h')
('c', 'h', 'i')
('h', 'i', 'n')
('i', 'n', 'e')
('n', 'e', ' ')
('e', ' ', 'l')
(' ', 'l', 'e')
('l', 'e', 'a')
('e', 'a', 'r')
('a', 'r', 'n')
('r', 'n', 'i')
('n', 'i', 'n')
('i', 'n', 'g')
('n', 'g', ' ')
('g', ' ', 'i')
(' ', 'i', 's')
('i', 's', ' ')
('s', ' ', 't')
(' ', 't', 'h')
('t', 'h', 'e')
('h', 'e', ' ')
('e', ' ', 's')
(' ', 's', 't')
('s', 't', 'u')
('t', 'u', 'd')
('u', 'd', 'y')
('d', 'y', ' ')
('y', ' ', 'o')
(' ', 'o', 'f')
('o', 'f', ' ')
('f', ' ', 'c')
(' ', 'c', 'o')
('c', 'o', 'm')
('o', 'm', 'p')
('m', 'p', 'u')
('p', 'u', 't')
('u', 't', 'e')
('t', 'e', 'r')
('e', 'r', ' ')
('r', ' ', 'a')
(' ', 'a', 'l')
('a', 'l', 'g')
('l', 'g', 'o')
('g', 'o', 'r')
('o', 'r', 'i')
('r', 'i', 't')
('i', 't', 'h')
('t', 'h', 'm')
('h', 'm', 's')
('m', 's', ' ')
('s', ' ', 't')
(' ', 't', 'h')
('t', 'h', 'a')
('h', 'a', 't')
('a', 't', ' ')
('t', ' ', 'c')
(' ', 'c', 'a')
('c', 'a', 'n')
('a', 'n', ' ')
('n', ' ', 'i')
(' ', 'i', 'm')
('i', 'm

Рассмотрим удаление стоп слов и приведение к регистру с помощью ntlk:

In [43]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = set(stopwords.words('english'))

clean_text = [w for w in text.split(' ') if not w.lower() in stop_words]
clean_text

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Machine',
 'learning',
 'study',
 'computer',
 'algorithms',
 'improve',
 'automatically',
 'experience',
 'use',
 'data']