# Неструктурированные текстовые данные

### Очистка текста


In [1]:
text_data = [" Interrobang. By Aishwarya Henriette ",
             "Parking And Going. By Karl Gautier",
             " Today Is The night. By Jarek Prakash"]
strip_whitespace = [string.strip() for string in text_data]
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [2]:
remove_periods = [string.replace(".", "") for string in strip_whitespace]
remove_periods

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [5]:
def capitalizer(string: str) -> str:
    return string.upper()

[capitalizer(string) for string in remove_periods]

['INTERROBANG BY AISHWARYA HENRIETTE',
 'PARKING AND GOING BY KARL GAUTIER',
 'TODAY IS THE NIGHT BY JAREK PRAKASH']

In [6]:
import re
def replace_letters_with_X(string: str) -> str:
    return re.sub(r"[a-zA-Z]", "X", string)
[replace_letters_with_X(string) for string in remove_periods]

['XXXXXXXXXXX XX XXXXXXXXX XXXXXXXXX',
 'XXXXXXX XXX XXXXX XX XXXX XXXXXXX',
 'XXXXX XX XXX XXXXX XX XXXXX XXXXXXX']

### Разбор и очистка разметки HTML
Даны текстовые данные с элементами HTML, и требуется извлечь только текст

In [9]:
from bs4 import BeautifulSoup
html = """
       <div class='full_name'><span style='font-weight:bold'>
       Masego</span>Azra</div>
       """
soup = BeautifulSoup(html, "html.parser")
soup.find("div", {"class": "full_name"}).text.strip()

'MasegoAzra'

### Удаление знаков препинания

In [10]:
import unicodedata
import sys
text_data = ['Hi!!! I. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']
punctuation = dict.fromkeys(i for i in range(sys.maxunicode)
                            if unicodedata.category(chr(i)).startswith('P'))
[string.translate(punctuation) for string in text_data]

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

Получается автор каждый символ в тексте преобразовал в юникод символ, вернул его категорию Lu, Nd, Po <br>
Далее удалил все символы, категории которых начинаются на P

### Лексемизация текста

In [13]:
from razdel import tokenize
string = "Сегодняшняя наука - это технология завтрашнего дня"
[_.text for _ in tokenize(string)]

['Сегодняшняя', 'наука', '-', 'это', 'технология', 'завтрашнего', 'дня']

In [15]:
from razdel import sentenize
string = """Сегодняшняя наука — это технология завтрашнего дня. Завтра начинается сегодня."""
[_.text for _ in sentenize(string)]

['Сегодняшняя наука — это технология завтрашнего дня.',
 'Завтра начинается сегодня.']

In [18]:
from nltk.corpus import stopwords
tokenized_words = ['i',
                   'am',
                   'going',
                   'to',
                   'go',
                   'to',
                   'the',
                   'store',
                   'and',
                   'park']
stop_words = stopwords.words('english')
[word for word in tokenized_words if word not in stop_words]

['going', 'go', 'store', 'park']

Стоп-слова удаляют, чтобы сделать текст чище и информативнее для алгоритмов машинного обучения <br>
Это стандартный шаг в NLP-пайплайнах - как удаление пунктуации или приведение к нижнему регистру. <br> <br>
Если вы работаете с классификацией, поиском, кластеризацией - почти всегда удалять стоп-слова

In [20]:
from nltk.stem.porter import PorterStemmer
tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']
porter = PorterStemmer()
[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

In [21]:
from nltk.stem.snowball import SnowballStemmer
tokenized_words = ['рыбаки', 'рыбаков', 'рыбаками']
snowbaall = SnowballStemmer("russian")
[snowbaall.stem(word) for word in tokenized_words]

['рыбак', 'рыбак', 'рыбак']

### Лемматизация текста

In [24]:
from nltk.stem import WordNetLemmatizer
tokenized_words = ['go', 'went', 'gone', 'are', 'is', 'was', 'were']
lemmatizer = WordNetLemmatizer()
[lemmatizer.lemmatize(word, pos='v') for word in tokenized_words]

['go', 'go', 'go', 'be', 'be', 'be', 'be']