## Очистка текста

Даны некоторые неструктурированные текстовые данные, и требуется выполнить их элементарную очистку

Большинство элементарных операций очистки текста соответствует элементарным операциям языка Python над строковыми значениями, в частности strip, replcae и split

In [1]:
# Создать текст
text_data = ["  Interrobang. By Aishwarya Henriette   ",
            "Parking And Going. By Karl Gautier",
            "    Today Is The night. By Jarek Prakash    "]

# удалить пробелы
strip_whitespace = [string.strip() for string in text_data]

strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [2]:
# удалить точки
remove_periods = [string.replace(".","") for string in strip_whitespace]

remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [3]:
# собственная функция преобразования
def capitalizer(string: str) -> str:
    return string.upper()


[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [4]:
# использование регулярных выражений
import re

# создадим функцию
replace_latters_with_X = lambda string: re.sub(r"[a-zA-Z]", "X", string)

[replace_latters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

## Разбор и очистка разметки HTML

Даны текстовые дпнные с элементами HTML, и требуется извлечь только текст

In [5]:
# Для решения используется функционал библиотеки Beautiful Soup
from bs4 import BeautifulSoup

# Создаем немного кода с разметкой HTML
html = """ 
<div class = 'full_name'><span style = 'font-weight:bold'>Masego</span> Azra</div>
"""
# Выполнить разбор HTML
soup = BeautifulSoup(html, "lxml")
soup

<html><body><div class="full_name"><span style="font-weight:bold">Masego</span> Azra</div>
</body></html>

In [6]:
# Найти элемент div с классом "full_name"
soup.find("div", {"class" : "full_name"}).text

'Masego Azra'

## Удаление знаков препинания

Дан признак в виде текстовых данных, и требуется удалить знаки препинания

In [7]:
# определить функцию, которая использует метод translate со словарем знаков препинания
import unicodedata
import sys

text_data = ['Hi!!!! I. Love. This. Song.....',
            '10000% Agree!!!!! #LoveIt',
            'Right?!?!?!']

# Создать сдоварь знаков препинания
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                           if unicodedata.category(chr(i)).startswith('P'))

# Удалить все знаки препинания
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIt', 'Right']

In [8]:
unicodedata.category("!")

'Po'

## Лексемизация текста


Дан текст, и требуется разбить его на отдельные слова

Для решения будет использоваться комплект естественно-языковых инструментов NLTK (Natural Language Toolkit for Python)

In [9]:
import nltk
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/mikhail/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [10]:
from nltk.tokenize import word_tokenize

string = "Сегодняшняя наука - это технологии завтрашнего дня"

# Лексемизировать на слова
word_tokenize(string)

['Сегодняшняя', 'наука', '-', 'это', 'технологии', 'завтрашнего', 'дня']

In [11]:
# Лексемизировать текст на предложения
from nltk.tokenize import sent_tokenize

string = """Сегодняшняя наука - это технологии завтрашнего дня. Завтра начинается сегодня"""

sent_tokenize(string)

['Сегодняшняя наука - это технологии завтрашнего дня.',
 'Завтра начинается сегодня']

## Удаление стоп слов

Имеются лексемизированные текстовые данные, из которых требуется удалить чрезвычайно общеупотребительные слова, несущие в себе мало информации

In [12]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
# Скачать набор стоп слов
#import nltk
#nltk.download('stopwords')

# Создать лексемы слов
string = 'i am going to go to the store and park'

tokenized_words = word_tokenize(string)
tokenized_words

['i', 'am', 'going', 'to', 'go', 'to', 'the', 'store', 'and', 'park']

In [13]:
# Загрузить стоп-слова
stop_words = stopwords.words('english')
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [14]:
# Удалить стоп слова
[word for word in tokenized_words if word not in stop_words]

['going', 'go', 'store', 'park']

In [15]:
# Для русских слов
stop_words=stopwords.words('russian')

string = 'я бы пошел в пиццерию покушать пиццы и потом в парк'

tokenized_words = word_tokenize(string)

[word for word in tokenized_words if word not in stop_words]

['пошел', 'пиццерию', 'покушать', 'пиццы', 'парк']

## Выделение основ слов

Даны лексемизированные слова, которые требуется преобразовать в их коренвые формы

In [16]:
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize

tokenized_words = word_tokenize('i am humbled by this traditional meeting')

porter = PorterStemmer()

[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

In [17]:
# Для русских слов используется стеммер Snowball

from nltk.stem.snowball import SnowballStemmer

tokenized_words = word_tokenize('рыбак рыбака рыбачил до рыбки снежным днем снега')

snowball = SnowballStemmer('russian')

[snowball.stem(word) for word in tokenized_words]

['рыбак', 'рыбак', 'рыбач', 'до', 'рыбк', 'снежн', 'днем', 'снег']

## Лемматизфция слов

Даны лексемизированные слова, которые требуется собрать в синономические ряды

In [20]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

tokenized_words = word_tokenize('go went gone am are is was were')

lemmatizer = WordNetLemmatizer()

[lemmatizer.lemmatize(word, pos = 'v') for word in tokenized_words]

['go', 'go', 'go', 'be', 'be', 'be', 'be', 'be']

## Разметка слов на части речи

Даны текстовые данные, и требуется пометить каждое слово или символ своей частью речи

In [24]:
from nltk import pos_tag
from nltk import word_tokenize

text_data = "Chris loved outdoor running"

# Использовать предварительно натренированный разметчик частей речи
text_tagged = pos_tag(word_tokenize(text_data))

text_tagged

[('Chris', 'NNP'), ('loved', 'VBD'), ('outdoor', 'RP'), ('running', 'VBG')]

Результат - список кортежей со словом и тегом части речи.

Метки можно использовать для поиска слов определенной части речи

In [25]:
[word for word, tag in text_tagged if tag in ['NN','NNS', 'NNP','NNPS']]

['Chris']

Более реалистичной является ситуация, когда есть данные, где каждое наблюдение содержит твит, и мы хотим преобразовать эти предложения в признаки отдельных частей речи (например признак с 1 если присутствует собственное существительное, и 0 в противном случае) 

In [29]:
import nltk
from sklearn.preprocessing import MultiLabelBinarizer

tweets = ["I am eating, a burrito for breakfast",
         "Political science is an amazing field",
         "San Francisco is an awesome city"]

tagget_tweets = []

for tweet in tweets:
    tweet_tag = nltk.pos_tag(word_tokenize(tweet))
    tagget_tweets.append([tag for word, tag in tweet_tag])
    
one_hot_multi = MultiLabelBinarizer()
one_hot_multi.fit_transform(tagget_tweets)



array([[1, 1, 1, 0, 1, 0, 1, 1, 1, 0],
       [0, 1, 0, 1, 1, 0, 0, 0, 0, 1],
       [0, 1, 0, 1, 1, 1, 0, 0, 0, 1]])

In [32]:
one_hot_multi.classes_

array([',', 'DT', 'IN', 'JJ', 'NN', 'NNP', 'PRP', 'VBG', 'VBP', 'VBZ'],
      dtype=object)

In [41]:
# натренируем собственный разметчик 
from nltk.corpus import brown
from nltk.tag import UnigramTagger, BigramTagger, TrigramTagger

# Получим немного текста из Brown Corpus, разбитого на предложения
sentences = brown.tagged_sents(categories='news')

# Разобъем на 4000 предложений для тренировки и 623 для тестирования
train = sentences[:4000]
test = sentences[4000:]

# Создать разметчик с откатом
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# ОЦеним точность
trigram.evaluate(test)

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  trigram.evaluate(test)


0.8174734002697437

## Кодирование текста в качестве мешка слов

Даны текстовые данные, и требуется создать набор признаков, указывающих на количество вхождений определенного слова в текст наблюдений

In [42]:
# Используем класс CountVectorizer
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

text_data = np.array(['Бразилия - моя любовь. Бразилия!',
                     'Швеция - лучше',
                     'Германия бьет обоих'])

# Создать матрицу признаков на основе мешка слов
count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

bag_of_words

<3x8 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [43]:
bag_of_words.toarray()

array([[2, 0, 0, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 1, 0]])

In [50]:
count.get_feature_names_out()

array(['бразилия', 'бьет', 'германия', 'лучше', 'любовь', 'моя', 'обоих',
       'швеция'], dtype=object)

In [48]:
import pandas as pd
df =pd.DataFrame(data=bag_of_words.toarray(), columns=count.get_feature_names_out())
df

Unnamed: 0,бразилия,бьет,германия,лучше,любовь,моя,обоих,швеция
0,2,0,0,0,1,1,0,0
1,0,0,0,1,0,0,0,1
2,0,1,1,0,0,0,1,0


##  Взвешивание важности слов

Требуется мешок слов, но со словами, взвешенными по их важности для наблюдения

Сравним частоту слова в документе(твит, обзор видео, стенограмма выступления и тд) с частотой слова во всех других документах, используя статистическую меру словарной частоты - обратной документной частоты (tf-idf). Библиотека scikit-learn позволяет легко это сделать с помощью класса TfidVectorizer

In [52]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

text_data = np.array(['Бразилия - моя любовь. Бразилия!',
                     'Швеция - лучше',
                     'Германия бьет обоих'])

# Создать матрицу признаков на основе меры tf-idf
tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

# Показать матрицу признаков на основе меры tf-idf
feature_matrix

<3x8 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [53]:
feature_matrix.toarray()

array([[0.81649658, 0.        , 0.        , 0.        , 0.40824829,
        0.40824829, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.70710678, 0.        ,
        0.        , 0.        , 0.70710678],
       [0.        , 0.57735027, 0.57735027, 0.        , 0.        ,
        0.        , 0.57735027, 0.        ]])

In [54]:
tfidf.vocabulary_

{'бразилия': 0,
 'моя': 5,
 'любовь': 4,
 'швеция': 7,
 'лучше': 3,
 'германия': 2,
 'бьет': 1,
 'обоих': 6}