In [4]:
import nltk
import pandas as pd
import numpy as np
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import ssl

In [6]:
try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

In [7]:
corpus = "When we were in Paris we  visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough."
nltk.download('punkt')
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt to /Users/apple/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /Users/apple/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [8]:
# и применяем функцию к тексту
sentences = sent_tokenize(corpus)
sentences

['When we were in Paris we  visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

In [9]:
# для этого создадим пустой список
tokens = []
 
# в цикле for пройдемся по каждому предложению
for sentence in sentences:
 
    # создадим списки из токенов
    t = word_tokenize(sentence)
 
    # и присоединим списки друг к другу
    tokens.extend(t)
 
print(tokens)



['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


In [10]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords
 
# скачаем словарь стоп-слов
nltk.download('stopwords')
 
# мы используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))
 
# создаём пустой список без стоп-слов
no_stops = []
 
# проходимся по всем токенам
for token in tokens:
 
    # переводим все слова в нижний регистр
    token = token.lower()
 
    # если токен не в списке стоп-слов и не является знаком пунктуации,
    if token not in unique_stops and token.isalpha():
 
        # добавляем его в список
        no_stops.append(token)
 
print(no_stops)

[nltk_data] Downloading package stopwords to /Users/apple/nltk_data...


['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data]   Unzipping corpora/stopwords.zip.


In [11]:
# импортируем класс для лемматизации
from nltk.stem import WordNetLemmatizer
 
# импортируем словарь
nltk.download('wordnet')
 
# создаём объект этого класса
lemmatizer = WordNetLemmatizer()
 
# и пустой список для слов после лемматизации
lemmatized = []
 
# проходимся по всем токенам
for token in no_stops:
 
    # применяем лемматизацию
    token = lemmatizer.lemmatize(token)
 
    # добавляем слово после лемматизации в список
    lemmatized.append(token)
    
print(lemmatized)

[nltk_data] Downloading package wordnet to /Users/apple/nltk_data...


['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


In [12]:
#Стемминг - определение основ
from nltk.stem import PorterStemmer
porter = PorterStemmer()
 
# используем list comprehension вместо цикла for для стемминга и создания нового списка
# такая запись намного короче
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [13]:
#Частотная характеристика теста
# из модуля collections импортируем класс Counter
from collections import Counter
 
# применяем класс Counter к словам после лемматизации
# на выходе возвращается словарь { слово : его частота в тексте }
bow_counter = Counter(lemmatized)
# print(bow_counter)
 
# функция most_common() упорядочивает словарь по значению
# посмотрим на первые 10 наиболее частотных слов
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]
