In [7]:
#Пример токенизации предложения об усадьбе Монтичелло
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
sentence.split()

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

In [8]:
#Самый простой способ токенизации предложения — применение внутри строк пробелов в качестве разделителей слов (метод split)
str.split(sentence)

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26.']

In [9]:
#Импортируем библиотеку numpy, str.split - наш токенизатор, в словаре vocab перечисляем все уникальные токены, которые нам нужно отслеживать
import numpy as np
token_sequence = str.split(sentence)
vocab = sorted(set(token_sequence))
', '.join(vocab)
#'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the' - отсортировано так, что сначала идут цифры, потом прописные буквы и далее строчные буквы

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the'

In [10]:
#Функция len() возвращает длину (количество элементов) в объекте (когда объект является строкой, функция len() возвращает количество символов в строке)
num_tokens = len(token_sequence)
vocab_size = len(vocab)
onehot_vectors = np.zeros((num_tokens, vocab_size), int)
for i, word in enumerate(token_sequence):
    onehot_vectors[i, vocab.index(word)] = 1
', '.join(vocab)
#Для каждого слова в предложении помечаем соответствующий столбец в словаре единицей

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the'

In [11]:
onehot_vectors
#Ширина пустой таблицы - количество уникальных словарных термов, а высота - длина документа (10 строк на 10 столбцов)

array([[0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

In [12]:
import pandas as pd
pd.DataFrame(onehot_vectors, columns=vocab)
#Импортируем библиотеку pandas
#Последовательность унитарных векторов для предложения о Монтичелло

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,1,0,0,0
3,0,0,0,0,0,0,0,1,0,0
4,0,0,1,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,0,0
6,0,0,0,0,0,0,0,0,0,1
7,0,0,0,0,1,0,0,0,0,0
8,0,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0


In [14]:
df = pd.DataFrame(onehot_vectors, columns=vocab)
df[df == 0] = ''
df
#Более симпатичное представление унитарных векторов
#Цифра 1 в столбце указывает на слово из словаря, которое находится в этой позиции в документе

Unnamed: 0,26.,Jefferson,Monticello,Thomas,age,at,began,building,of,the
0,,,,1.0,,,,,,
1,,1.0,,,,,,,,
2,,,,,,,1.0,,,
3,,,,,,,,1.0,,
4,,,1.0,,,,,,,
5,,,,,,1.0,,,,
6,,,,,,,,,,1.0
7,,,,,1.0,,,,,
8,,,,,,,,,1.0,
9,1.0,,,,,,,,,


In [16]:
sentence_bow = {}
for token in sentence.split(): sentence_bow[token] = 1
sorted(sentence_bow.items())
#Представление нашего документа (предложение о Томасе Джефферсоне и Монтичелло) в виде вектора мультимножества слов

[('26.', 1),
 ('Jefferson', 1),
 ('Monticello', 1),
 ('Thomas', 1),
 ('age', 1),
 ('at', 1),
 ('began', 1),
 ('building', 1),
 ('of', 1),
 ('the', 1)]

In [18]:
import pandas as pd
df = pd.DataFrame(pd.Series(dict([(token, 1) for token in sentence.split()])), columns=['sent']).T
df
#Более эффективная форма словаря - класс Series библиотеки Pandas

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent,1,1,1,1,1,1,1,1,1,1


In [36]:
sentences = """Thomas Jefferson began building Monticello at the\
 age of 26.\n"""
sentences += """Construction was done mostly by local masons and\
 carpenters. \n"""
sentences += "He moved into the South Pavilion in 1770. \n"
sentences += """Turning Monticello into a neoclassical masterpiece\
 was Jefferson's obsession."""
corpus = {}
for i, sent in enumerate(sentences.split('\n')):
  corpus['sent{}'.format(i)] = dict((tok, 1) for tok in sent.split())
df = pd.DataFrame.from_records(corpus).fillna(0).astype(int).T
df[df.columns[:10]]
#Сравнение и поиск сходств между предложениями (слово Monticello встречается в двух предложениях)

Unnamed: 0,Thomas,Jefferson,began,building,Monticello,at,the,age,of,26.
sent0,1,1,1,1,1,1,1,1,1,1
sent1,0,0,0,0,0,0,0,0,0,0
sent2,0,0,0,0,0,0,1,0,0,0
sent3,0,0,0,0,1,0,0,0,0,0


In [37]:
df = df.T
df.sent0.dot(df.sent1)
#Подсчет пересечений количеств слов между векторами sent0 и sent1

0

In [38]:
df.sent0.dot(df.sent2)
#Подсчет пересечений количеств слов между векторами sent0 и sent2

1

In [39]:
df.sent0.dot(df.sent3)
#Подсчет пересечений количеств слов между векторами sent0 и sent3

1

In [40]:
[(k, v) for (k, v) in (df.sent0 & df.sent3).items() if v]
#Один из способов нахождения общего слова для предложений sent0 и sent3 
#Именно это слово дало последнее скалярное произведение, равное единице

[('Monticello', 1)]

In [42]:
import re
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
tokens = re.split(r'[-\s.,;!?]+', sentence)
tokens
#Разбиваем предложение по пробелам и знакам препинания, которые встречаются минимум 1 раз

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '']

In [47]:
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
tokens[-10:] 
sentence = """Thomas Jefferson began building Monticello at the age of 26."""
tokens = pattern.split(sentence)
[x for x in tokens if x and x not in '- \t\n.,;!?']
#Регулярные выражения, которые помогают убрать точку в конце токена 26., также фильтруем пробелы и знаки препинания, которые не должны включаться в словарь 

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [49]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+|$[0-9.]+|\S+')
tokenizer.tokenize(sentence)
#Для моделирования нашего простого примера токенизатора воспользуемся функцией RegexpTokenizer из библиотеки NLTK

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26',
 '.']

In [53]:
from nltk.tokenize import TreebankWordTokenizer
sentence = """Monticello wasn't designated as UNESCO World Heritage Site until 1987."""
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)
#Токенизатор TreebankWordTokenizer из библиотеки NLTK отделяет завершающие фразу знаки препинания (don't токенизируется как do и n't)

['Monticello',
 'was',
 "n't",
 'designated',
 'as',
 'UNESCO',
 'World',
 'Heritage',
 'Site',
 'until',
 '1987',
 '.']

In [54]:
from nltk.tokenize.casual import casual_tokenize
message = """RT @TJMonticello Best day everrrrrrr at Monticello.\ Awesommmmmmeeeeeeee day :*)"""
casual_tokenize(message)
casual_tokenize(message, reduce_len=True, strip_handles=True)
#Функцией casual_tokenize можно выделять имена пользователей и сокращать количество повторяющихся символов в токене

['RT',
 'Best',
 'day',
 'everrr',
 'at',
 'Monticello',
 '.',
 '\\',
 'Awesommmeee',
 'day',
 ':*)']

In [63]:
sentence = """Thomas Jefferson began building Monticello at the\
 age of 26."""
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
tokens
#Наш первоначальный токенизатор 1-грамм
#N-граммы — один из инструментов хранения информации о контексте по мере прохождения данных через конвейер.

['Thomas',
 'Jefferson',
 'began',
 'building',
 'Monticello',
 'at',
 'the',
 'age',
 'of',
 '26']

In [62]:
from nltk.util import ngrams
list(ngrams(tokens, 3))
#Токенизатор n-грамм из модуля NLTK

[('Thomas', 'Jefferson', 'began'),
 ('Jefferson', 'began', 'building'),
 ('began', 'building', 'Monticello'),
 ('building', 'Monticello', 'at'),
 ('Monticello', 'at', 'the'),
 ('at', 'the', 'age'),
 ('the', 'age', 'of'),
 ('age', 'of', '26')]

In [71]:
stop_words = ['a', 'an', 'the', 'on', 'of', 'off', 'this', 'is']
tokens = ['the', 'house', 'is', 'on', 'fire']
tokens_without_stopwords = [x for x in tokens if x not in stop_words]
print(tokens_without_stopwords)
#Стоп-слова — это распространенные слова на любом языке, которые встречаются очень часто, 
#но несут в себе гораздо меньше содержательной информации о смысле фразы.

['house', 'fire']


In [72]:
import nltk
nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('english')
len(stop_words)
#Список стоп-слов NLTK

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


179

In [74]:
tokens = ['House', 'Visitor', 'Center']
normalized_tokens = [x.lower() for x in tokens]
print(normalized_tokens)
#Нормализация регистра символов с помощью спискового включения

['house', 'visitor', 'center']


In [76]:
#Другим распространенным методом нормализации является устранение небольших
#смысловых различий, связанных с окончаниями множественного числа и притяжательными 
#окончаниями слов или даже различными формами глаголов - Стемминг
def stem(phrase):
 return ' '.join([re.findall('^(.*ss|.*?)(s)?$',
 word)[0][0].strip("'") for word in phrase.lower().split()])
stem("Doctor House's calls")
#Простая реализация стеммера на чистом Python, умеющего обрабатыватьконечные символы S's

'doctor house call'

In [78]:
#Cтеммер Портера позволяет справляться со сложностями правил правописания и окончания слов английского языка
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
' '.join([stemmer.stem(w).strip("'") for w in
 "dish washer's washed dishes".split()])

'dish washer wash dish'

In [85]:
#Более расширенная нормализация слова до его семантического корня — леммы — называется лемматизацией
import nltk
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize("goods", pos="n")

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


'good'

In [97]:
pip install vaderSentiment

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting vaderSentiment
  Downloading vaderSentiment-3.3.2-py2.py3-none-any.whl (125 kB)
[K     |████████████████████████████████| 125 kB 25.2 MB/s 
Installing collected packages: vaderSentiment
Successfully installed vaderSentiment-3.3.2


In [99]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
sa = SentimentIntensityAnalyzer()
corpus = ["Absolutely perfect! Love it! :-) :-) :-)",
 "Horrible! Completely useless. :(",
 "It was OK. Some good and some bad things."]
for doc in corpus:
 scores = sa.polarity_scores(doc)
 print('{:+}: {}'.format(scores['compound'], doc))
#алгоритм VADER, что расшифровывается как Valence Aware Dictionary for sEntiment Reasoning (учитывающий валентность словарь для анализа тональностей)

+0.9428: Absolutely perfect! Love it! :-) :-) :-)
-0.8768: Horrible! Completely useless. :(
-0.1531: It was OK. Some good and some bad things.
