In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('datasets/nlp/lenta.csv', usecols=['title', 'text', 'class'])
df.head()

Unnamed: 0,title,text,class
0,Российскому спорту предрекли новый триллер пер...,Четырехкратный олимпийский чемпион и кандидат ...,Спорт
1,На Урале оперативники пошли под суд за раскрыт...,Трое курганских полицейских предстанут перед с...,Силовые структуры
2,Николя Гескьеру снова удалось сохранить работу,"Дизайнер Николя Гескьер, креативный директор ж...",Ценности
3,Украинцы похвастались попаданием по танку из а...,Бойцы Вооруженных сил Украины во время испытан...,Бывший СССР
4,Бывшего мэра Ялты и члена ОПГ «Греки» Андрея Р...,Басманный суд Москвы арестовал до 21 июля бывш...,Силовые структуры


In [3]:
df['class'].value_counts()

Россия               82
Экономика            62
Интернет и СМИ       54
Мир                  53
Спорт                52
Из жизни             46
Бывший СССР          38
Наука и техника      38
Силовые структуры    35
Культура             35
Ценности             24
Путешествия          19
Name: class, dtype: int64

In [4]:
import re
regex = re.compile('[А-яа-я]+')

def words_only(text, regex=regex):
    return ' '.join(regex.findall(text))

df.text = df.text.str.lower()
df.text = df.text.apply(words_only)

###### Результат

In [5]:
df.text.iloc[0]

'четырехкратный олимпийский чемпион и кандидат в президенты олимпийского комитета россии окр александр попов опасается что российский спорт ожидают новые допинг разбирательства из за утечки базы данных московской антидопинговой лаборатории это начало третьей серии триллера заявил он'

###### Удаление стоп-слов

In [6]:
from nltk.corpus import stopwords
mystopwords = stopwords.words('russian') + ['это', 'наш' , 'тыс', 'млн', 'млрд', 'также',  'т', 'д']
def remove_stopwords(text, mystopwords=mystopwords):
    try:
        return ' '.join([token for token in text.split() if not token in mystopwords])
    except:
        return ''

df.text = df.text.apply(remove_stopwords)
df.text

0      четырехкратный олимпийский чемпион кандидат пр...
1      трое курганских полицейских предстанут судом р...
2      дизайнер николя гескьер креативный директор же...
3      бойцы вооруженных сил украины время испытаний ...
4      басманный суд москвы арестовал июля бывшего мэ...
                             ...                        
533    татарстане летняя женщина погибла травм получе...
534    председатель кндр ким чен ын время встречи гла...
535    совет федерации одобрил законопроект который н...
536    актер музыкант джонни депп приехавший россию р...
537    пользователи сети обратили внимание фотографию...
Name: text, Length: 538, dtype: object

###### Лемматизация - приведение слова к нормальной форме

In [7]:
# from pymystem3 import Mystem
# text = "Красивая мама красиво мыла раму"
# m = Mystem()
# lemmas = str(m.lemmatize(df.text[0])).strip()
# print(''.join(lemmas))

In [None]:
from pymystem3 import Mystem

m = Mystem()
def lemmatize(text, mystem=m):
    try:
        return ' '.join(str(m.lemmatize(text))).strip()
    except:
        return ''

df.text = df.text.apply(lemmatize)

In [None]:
df.text

##### Удаление стоп-лемми

In [None]:
mystoplemmas = ['который','прошлый','сей', 'свой', 'наш', 'мочь']
def remove_stoplemmas(text, mystoplemmas=mystoplemmas):
    try:
        return ' '.join([token for token in text.split() if not token in mystoplemmas])
    except:
        return ''

In [None]:
df.text = df.text.apply(remove_stoplemmas)

In [None]:
df.text

In [None]:
from nltk import FreqDist

lemmata = []
for index, row in df.iterrows():
    lemmata  += row['text'].split()
fd = FreqDist(lemmata)
for i in fd.most_common(10):
    print(i)

In [None]:
from wordcloud import *
word_freq = [i for i in fd.most_common(100)]
wd = WordCloud(background_color='white')
wd.generate_from_frequencies(dict(word_freq))
plt.figure()
plt.imshow(wd, interpolation = 'bilinear')
plt.axis('off')
plt.show()