**извлечение признаков из текста на естественном языке**

токенизация и очистка текста


Евгений Борисов borisov.e@solarl.ru

## библиотеки

In [1]:
import numpy as np
np.set_printoptions(precision=2) # вывод на печать до 2 знака
import pandas as pd
import re

In [2]:
pd.options.display.max_colwidth = 200  

## загружаем тексты

In [3]:
# загружаем тексты
data = pd.read_pickle('../data/text/news.pkl')
print('записей:',len(data))

записей: 3196


In [4]:
for t in data.sample(2)['text'].values:
    print(t,'\n\n = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =\n')

Ученые нашли связь между бритьем лобковых волос и венерическими заболеваниями

6 декабря 2016 в 17:20

42.TUT.BY

Стрижка и бритье лобковых волос связаны с повышенным риском заражения венерическими заболеваниями. Научная работа об этом опубликована в журнале Sexually Transmitted Infections, кратко об исследовании сообщает Eurek Alert.

Фото: Reuters

Исследователи из нескольких университетов в США провели опрос среди 7580 добровольцев в возрасте от 18 до 65. Волонтеров попросили рассказать, как они ухаживают за своим волосяным покровом в интимной зоне. Также их распросили о половой жизни и перенесенных инфекциях, передаваемых половым путем.

От волос избавляются бритвой и ножницами

По результатам опроса 74% сообщили, что хотя бы раз стригли или сбривали свои лобковые волосы, это делали 66% мужчин и 84% женщин. Среди них 17% удаляли все волосы по крайней мере раз в месяц, 22% ухаживали за ними ежедневно или еженедельно.

Выяснилось, что те, кто заботился о волосках в интимных местах, в

In [5]:
# выбираем случайный текст
tt = data.sample()['text'].values[0]
tt

'Сегодня в Париже стал известен обладатель «Золотого мяча». Самую престижную для футболиста индивидуальную награду в четвертый раз получил португалец Криштиану Роналду. Об этом сообщает Eurosport.\n\nВ прошедшем сезоне он выиграл со своей сборной чемпионат Европы, а со своим клубом - мадридским «Реалом» - Лигу чемпионов. Именно это позволило Роналду опередить своего главного конкурента - аргентинца Лионеля Месси.\n\nТеперь у обоих выдающихся футболистов по четыре «Золотых мяча». В сегодняшнем голосовании впервые за последние шесть лет принимали участие только спортивные журналисты - без участия FIFA.\n\nСам Роналду на церемонию не приехал - сейчас он на клубном чемпионате мира. Вместе с Реалом готовится сыграть в полуфинале этого турнира.\n\nФото: imago sportfotodienst / globallookpress'

## токенизация и очистка

In [6]:
def tokenizer(text): return [ t for t in text.split() if t ]

In [None]:
from Stemmer import Stemmer
# pacman -S python-pystemmer
# pip install pystemmer

In [7]:
def preprocessor(tt):
    tt = [ t.lower()  for t in tt ] # приведение в lowercase
    tt = [ re.sub( r'https?://[\S]+', 'url', t)  for t in tt ]  # замена интернет ссылок
    tt = [ re.sub( r'[\w\./]+\.[a-z]+', 'url', t) for t in tt  ]  # замена интернет ссылок 
    tt = [ re.sub( r'<[^>]*>', '', t)  for t in tt ] # удаление html тагов
    tt = [ re.sub( r'\W', '', t)  for t in tt ] # удаление лишних символов (НЕ буква и НЕ цифра)
    tt = Stemmer('russian').stemWords( tt ) # стемминг, выделение основы слова
    tt = [ re.sub( r'\b\d+\b', 'digit', t ) for t in tt ] # замена цифр
    tt = [ t for t in tt if len(t)>2 ] # удаление коротких слов (предлогов)
    tt = [ t for t in tt if t not in ['для','под','над','котор'] ] # удаление (предлогов)
    return  [ t.strip() for t in tt if t ] 
    

In [8]:
preprocessor( tokenizer( tt ) )

['сегодн',
 'париж',
 'стал',
 'извест',
 'обладател',
 'золот',
 'мяч',
 'сам',
 'престижн',
 'футболист',
 'индивидуальн',
 'наград',
 'четверт',
 'раз',
 'получ',
 'португалец',
 'криштиан',
 'роналд',
 'сообща',
 'eurosport',
 'прошедш',
 'сезон',
 'выигра',
 'сво',
 'сборн',
 'чемпионат',
 'европ',
 'сво',
 'клуб',
 'мадридск',
 'реал',
 'лиг',
 'чемпион',
 'имен',
 'позвол',
 'роналд',
 'оперед',
 'сво',
 'главн',
 'конкурент',
 'аргентинц',
 'лионел',
 'месс',
 'тепер',
 'обо',
 'выда',
 'футболист',
 'четыр',
 'золот',
 'мяч',
 'сегодняшн',
 'голосован',
 'вперв',
 'последн',
 'шест',
 'лет',
 'принима',
 'участ',
 'тольк',
 'спортивн',
 'журналист',
 'без',
 'участ',
 'fifa',
 'сам',
 'роналд',
 'церемон',
 'приеха',
 'сейчас',
 'клубн',
 'чемпионат',
 'мир',
 'вмест',
 'реал',
 'готов',
 'сыгра',
 'полуфинал',
 'турнир',
 'фот',
 'imago',
 'sportfotodienst',
 'globallookpress']

## NLTK

In [None]:
# import nltk
# nltk.download('stopwords')

# Стоп-слова, или Шумовые слова 
# предлоги, суффиксы, причастия, междометия, цифры, частицы и т.п.
# каждое из стоп-слов есть почти во всех документах коллекции

# from nltk.stem.snowball import SnowballStemmer
# print(" ".join(SnowballStemmer.languages))
# snowball = SnowballStemmer('russian')

In [10]:
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [11]:
def preprocessor_nltk(tt):
    tt = [ t.lower()  for t in tt ] # приведение в lowercase
    tt = [ re.sub( r'https?://[\S]+', 'url', t)  for t in tt ]  # замена интернет ссылок
    tt = [ re.sub( r'[\w\./]+\.[a-z]+', 'url', t) for t in tt  ]  # замена интернет ссылок 
    tt = [ re.sub( r'<[^>]*>', '', t)  for t in tt ] # удаление html тагов
    tt = [ re.sub( r'\W', '', t)  for t in tt ] # удаление лишних символов (НЕ буква и НЕ цифра)
    tt = [ SnowballStemmer('russian').stem(t) for t in tt if t ]
    tt = [ re.sub( r'\b\d+\b', 'digit', t ) for t in tt ] # замена цифр
    tt = [ t for t in tt if t not in  stopwords.words('russian') ] # удаление stopwords (предлоги и т.п.)

    return  [ t.strip() for t in tt if t ] 
    

In [12]:
preprocessor_nltk( tokenizer( tt ) )

['сегодн',
 'париж',
 'стал',
 'извест',
 'обладател',
 'золот',
 'мяч',
 'престижн',
 'футболист',
 'индивидуальн',
 'наград',
 'четверт',
 'получ',
 'португалец',
 'криштиан',
 'роналд',
 'эт',
 'сообща',
 'eurosport',
 'прошедш',
 'сезон',
 'выигра',
 'сво',
 'сборн',
 'чемпионат',
 'европ',
 'сво',
 'клуб',
 'мадридск',
 'реал',
 'лиг',
 'чемпион',
 'имен',
 'эт',
 'позвол',
 'роналд',
 'оперед',
 'сво',
 'главн',
 'конкурент',
 'аргентинц',
 'лионел',
 'месс',
 'тепер',
 'обо',
 'выда',
 'футболист',
 'четыр',
 'золот',
 'мяч',
 'сегодняшн',
 'голосован',
 'вперв',
 'последн',
 'шест',
 'лет',
 'принима',
 'участ',
 'тольк',
 'спортивн',
 'журналист',
 'участ',
 'fif',
 'роналд',
 'церемон',
 'приеха',
 'клубн',
 'чемпионат',
 'мир',
 'вмест',
 'реал',
 'готов',
 'сыгра',
 'полуфинал',
 'эт',
 'турнир',
 'фот',
 'imag',
 'sportfotodienst',
 'globallookpress']