In [1]:
import spacy
from string import punctuation
from spacy.lang.ru import stop_words

import pandas as pd

In [3]:
df = pd.read_table("./text.txt", names=['comments'])
df = df.drop(df[df["comments"].str.startswith("[")].index)
df

Unnamed: 0,comments
1,Будет солнечно
3,Солнечно до конца дня. В Красносельском районе...
5,"Сегодня будет солнечно, ясное небо, ни облачка..."
7,"Температура опустится сразу на 6-7 градусов, т..."
9,"Сегодня ясно, без осадков. Атмосферное давлени..."
11,Сегодня довольно теплая для сентября погода. Н...
13,В Санкт-Петербурге сегодня ожидается +20..+18 ...
15,"Трудно с ходу назвать фильм, который породил с..."
17,"Трагикомедия, которая показывает последние дни..."
19,"Фильм явно тянет на премию Оскар, проработанны..."


In [4]:
nlp = spacy.load('ru_core_news_sm')

stops = stop_words.STOP_WORDS
punctuations = list(punctuation)

def lemmatize(text):
    doc = nlp(text)

    token_collection= []

    for token in doc:
        token_collection.append((token.lemma_.lower(), token.pos_))

    token_collection = [word for word in token_collection if word[0] not in stops and word[0] not in punctuations]

    return token_collection

In [5]:
data = df["comments"].apply(lemmatize)
data

1                                    [(солнечный, ADJ)]
3     [(солнечно, ADV), (конец, NOUN), (день, NOUN),...
5     [(сегодня, ADV), (солнечный, ADJ), (ясный, ADJ...
7     [(температура, NOUN), (опуститься, VERB), (6, ...
9     [(сегодня, ADV), (ясный, ADJ), (осадок, NOUN),...
11    [(сегодня, ADV), (тёплый, ADJ), (сентябрь, NOU...
13    [(санкт, PROPN), (петербург, PROPN), (сегодня,...
15    [(трудный, ADJ), (ход, NOUN), (назвать, VERB),...
17    [(трагикомедия, NOUN), (показывать, VERB), (по...
19    [(фильм, NOUN), (тянуть, VERB), (премия, NOUN)...
21    [(просмотр, NOUN), (фильм, NOUN), (друг, NOUN)...
23    [(ковёр, NOUN), (задавать, VERB), (стиль, NOUN...
Name: comments, dtype: object

In [6]:
data.tolist()

[[('солнечный', 'ADJ')],
 [('солнечно', 'ADV'),
  ('конец', 'NOUN'),
  ('день', 'NOUN'),
  ('красносельский', 'ADJ'),
  ('район', 'NOUN'),
  ('ветер', 'NOUN')],
 [('сегодня', 'ADV'),
  ('солнечный', 'ADJ'),
  ('ясный', 'ADJ'),
  ('небо', 'NOUN'),
  ('ни', 'CCONJ'),
  ('облачка', 'NOUN'),
  ('появиться', 'VERB'),
  ('ночь', 'NOUN'),
  ('чистый', 'ADJ'),
  ('звёзды', 'ADJ'),
  ('увидеть', 'VERB')],
 [('температура', 'NOUN'),
  ('опуститься', 'VERB'),
  ('6', 'NUM'),
  ('7', 'NUM'),
  ('градус', 'NOUN'),
  ('улица', 'NOUN'),
  ('день', 'NOUN'),
  ('высоко', 'ADJ'),
  ('плюс', 'ADP'),
  ('13', 'NUM'),
  ('ощущение', 'NOUN'),
  ('холод', 'NOUN'),
  ('усиливать', 'VERB'),
  ('дождь', 'NOUN'),
  ('начаться', 'VERB'),
  ('последний', 'ADJ'),
  ('день', 'NOUN'),
  ('неделя', 'NOUN'),
  ('идти', 'VERB'),
  ('суток', 'NOUN')],
 [('сегодня', 'ADV'),
  ('ясный', 'ADJ'),
  ('осадок', 'NOUN'),
  ('атмосферный', 'ADJ'),
  ('давление', 'NOUN'),
  ('высоко', 'ADJ'),
  ('норма', 'NOUN')],
 [('сегодня', '