In [1]:
# возьмём исходный текст для анализа
corpus = 'When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.'


In [2]:
# импортируем основную библиотеку для работы с текстом
import nltk

import pandas as pd
import numpy as np

Предварительная обработка текста

Шаг 1. Разделение на предложения

In [3]:
# импортируем метод sent_tokenize
from nltk.tokenize import sent_tokenize

# скачиваем модель которая будет делить на предложения
nltk.download('punkt')
print('')

# и применяем метод к нашему тексту
sentences = sent_tokenize(corpus)
sentences




[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['When we were in Paris we visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

Шаг 2. Разделение на слова

In [4]:
# импортируем метод word_tokenize
from nltk.tokenize import word_tokenize

# разобъем на слова первое предложение
print(word_tokenize(sentences[0]))

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.']


In [5]:
# теперь проделаем это со всеми предложениями

tokens = []

for sentence in sentences:
    t = word_tokenize(sentence)
    tokens.extend(t)
print(tokens)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


Шаг 3. Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [6]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords

# скачаем словарь стоп слов
nltk.download('stopwords')
print('')

# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))

# создаем пустой список без стоп-слов
no_stops = []

for token in tokens:
    token = token.lower()
    # если токен не в списке стоп-слов и не является знаком пунктуации
    if token not in unique_stops and token.isalpha():
        no_stops.append(token)
print(no_stops)


['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


__Лемматизация__


In [7]:
# импортируем класс дл лемматизации
from nltk.stem import WordNetLemmatizer 

# импортируем словарь
nltk.download('wordnet')

# создаем объект этого класса
lemmatizer = WordNetLemmatizer()

# и пустой список для слов после лемматизации
lemmatized = []

# проходимся по всем токенам
for token in no_stops:
    token = lemmatizer.lemmatize(token)
    lemmatized.append(token)
print(lemmatized)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


__Стемминг (поиск основы слова)__


In [10]:
# импортируем класс стеммера Porter и создаём объект этого класса
from nltk.stem import PorterStemmer
porter = PorterStemmer()

# используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [12]:
# аналогично импортируем класс Lancaster и создаем объект этого класса
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()

# так же используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_l = [lancaster.stem(s) for s in lemmatized]
print(stemmed_l)

['par', 'visit', 'lot', 'muse', 'first', 'went', 'louvr', 'largest', 'art', 'muse', 'world', 'alway', 'interest', 'art', 'spent', 'many', 'hour', 'muse', 'enourm', 'week', 'would', 'enough']


__Мешок слов (bag of words, bow)__


С помощью Counter

In [9]:
# из модуля collections импортируем класс Counter
from collections import Counter

# применяем класс Counter к словам после лемматизации
# на выходе нам возвращается словарь {слово: его частота в тексте}
bow_counter = Counter(lemmatized)

# функция most_common() упорядочивает словарь по значению
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]


С помощью CountVectorizer

In [12]:
# импортируем соответствующий класс
from sklearn.feature_extraction.text import CountVectorizer

# создаем объект этого класса и указываем, что хотим перевести слова в нижний регистр
# а также отфильтровать стоп слова через stop_words = {'english'}
vectorizer = CountVectorizer(analyzer = 'word',
                             lowercase = True,
                             tokenizer = None,
                             stop_words = {'english'},
                             max_features = 5000)