In [1]:
import pandas as pd
from pymorphy2 import MorphAnalyzer
from pymystem3 import Mystem
from nltk.corpus import stopwords

In [2]:
stopwords_list = stopwords.words('russian')
listToAdd = ['который', 'весь', 'это', 'ваш', 'такой', 'свой', 'наш', 'самый', 'никто', 'однако', 'наверное', 'вскоре', 'сей']
stopwords_list.extend(listToAdd)
stopwords = set(stopwords_list)

In [3]:
morph_1 = Mystem()
def lemmatize_Mystem(text):
    tokens = morph_1.lemmatize(text)
    tokens = [token for token in tokens if token not in stopwords]
    return ''.join(tokens).strip()

In [13]:
df = pd.read_csv('texts_for_lemm.csv')

In [14]:
df

Unnamed: 0,id,url,text
0,318551,https://knife.media/ectogenesis/,репродуктивная медицина переживает небывалый п...
1,318534,https://knife.media/psykho-faq/,психоаналитическая терапия одна из разновиднос...
2,318470,https://knife.media/club/bulgarian-halloween/,
3,318437,https://knife.media/pole-chudes/,в октябре года советские телезрители увидели п...
4,318387,https://knife.media/stories-of-gravediggers/,во время пандемии жизнь простых землекопов с к...
...,...,...,...
5844,102530,http://knife.media/minimal/,какой может быть революционно новая жизнь в то...
5845,102503,http://knife.media/bear-parade/,в деревне моинешти что на востоке румынии цере...
5846,102409,http://knife.media/sins/,после того как последний динозавр испустил дух...
5847,102281,http://knife.media/bear-parade/,в деревне моинешти что на востоке румынии цере...


In [15]:
df.isna().sum()

id        0
url       0
text    136
dtype: int64

In [16]:
df.dropna(inplace=True)

In [31]:
df

Unnamed: 0,id,url,text,len_text
0,318551,https://knife.media/ectogenesis/,репродуктивная медицина переживает небывалый п...,9498
1,318534,https://knife.media/psykho-faq/,психоаналитическая терапия одна из разновиднос...,12745
3,318437,https://knife.media/pole-chudes/,в октябре года советские телезрители увидели п...,10399
4,318387,https://knife.media/stories-of-gravediggers/,во время пандемии жизнь простых землекопов с к...,17340
5,318359,https://knife.media/tochka-doctors/,благотворительный фонд новый дом по решению ег...,1303
...,...,...,...,...
5844,102530,http://knife.media/minimal/,какой может быть революционно новая жизнь в то...,7786
5845,102503,http://knife.media/bear-parade/,в деревне моинешти что на востоке румынии цере...,907
5846,102409,http://knife.media/sins/,после того как последний динозавр испустил дух...,8173
5847,102281,http://knife.media/bear-parade/,в деревне моинешти что на востоке румынии цере...,907


In [32]:
df['text_lemm'] = df.text.apply(lemmatize_Mystem)

In [9]:
df['len_text_lemm'] = df.text_lemm.apply(lambda x: len(x))

In [12]:
df.to_csv('texts_for_fit.csv', index=False)

In [4]:
df = pd.read_csv('texts_for_fit.csv')

In [11]:
df.head()

Unnamed: 0,id,url,text,len_text,text_lemm,len_text_lemm
0,318551,https://knife.media/ectogenesis/,репродуктивная медицина переживает небывалый п...,9498,репродуктивный медицина переживать небывалый п...,8187
1,318534,https://knife.media/psykho-faq/,психоаналитическая терапия одна из разновиднос...,12745,психоаналитический терапия разновидность пси...,10621
2,318437,https://knife.media/pole-chudes/,в октябре года советские телезрители увидели п...,10399,октябрь год советский телезритель увидеть перв...,9060
3,318387,https://knife.media/stories-of-gravediggers/,во время пандемии жизнь простых землекопов с к...,17340,время пандемия жизнь простой землекоп кладбищ...,15090
4,318359,https://knife.media/tochka-doctors/,благотворительный фонд новый дом по решению ег...,1303,благотворительный фонд новый дом решение учр...,1139


In [27]:
df.len_text.quantile(0.05)

560.0

In [7]:
lemmatize_Mystem()

TypeError: lemmatize_Mystem() missing 1 required positional argument: 'text'

In [18]:
text = 'Репродуктивная медицина переживает небывалый подъем: сперва процедура ЭКО избавила нас от необходимости зачинать детей во время секса, затем им стало необязательно появляться в теле матери. А что, если нам вообще не нужно человеческое тело, чтобы вырастить ребенка? Что, если можно иметь детей, но беременеть никому не придется? На эти вопросы пытается ответить журналистка Дженни Климан в своей книге «Секс без людей, мясо без животных», которая вышла в издательстве Individuum. Что такое искусственная матка, появятся ли лаборатории, где зародыши будут расти в пакетах, и как новые технологии изменят смысл материнства — читайте дальше.'

In [30]:
lemmatize_Mystem(text)

'репродуктивный медицина переживать небывалый подъем: сперва процедура эко избавлять   необходимость зачинать ребенок  время секс, затем  становиться необязательно появляться  тело мать.  ,   вообще  нужный человеческий тело,  выращивать ребенок? ,   иметь ребенок,  беременеть   приходиться?   вопрос пытаться отвечать журналистка дженни климан   книга «секс  человек, мясо  животное»,  выходить  издательство Individuum.   искусственный матка, появляться  лаборатория,  зародыш  расти  пакет,   новый технология изменять смысл материнство — читать далеко.'

In [20]:
len(text)

638