In [1]:
!pip3 install nltk pymorphy2



In [2]:
import nltk
nltk.download('punkt')    

[nltk_data] Downloading package punkt to /home/kesha/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from nltk.tokenize import word_tokenize
from pymorphy2 import MorphAnalyzer
from collections import defaultdict
from typing import List, Tuple
import re

morph = MorphAnalyzer()

def lemmatize(text: str) -> str:
    text = word_tokenize(text.lower())
    text = [re.sub('[^-а-яА-Я]+', '', w) for w in text]
    text = [morph.parse(w)[0] for w in text if w]
    text = [(w.normal_form, w.tag.POS) for w in text if w.tag.POS != "PREP"]
    return text

def get_freq(text: List[Tuple[str, str]], target_verb: str) -> dict:
    freq = defaultdict(int)
    for i in range(len(text)):
        if text[i][0] == target_verb:
            if i >= 1 and text[i - 1][1] == "NOUN":
                freq[text[i - 1][0]] += 1
            if i + 1 < len(text) and text[i + 1][1] == "NOUN":
                freq[text[i + 1][0]] += 1
    return freq

In [4]:
import sqlite3
from tqdm import tqdm
# Данные остались от проекта прошлого года.
# 3 млн комментариев с форума woman.ru
# Ссылка на .db
# https://drive.google.com/file/d/1GPaudS-V3TwHiOapwMBIjVYHcwc3FXUV/view?usp=drive_link
con = sqlite3.connect('woman_ru.db') 

In [5]:
cur = con.cursor()
cur.execute("SELECT content FROM comments")
freqs = {}
count = 0
for row in tqdm(cur):
    lemmas = lemmatize(row[0])
    freqs.update(get_freq(lemmas, 'иметь'))
    count += 1
    if count > 100_000: break

100000it [18:58, 87.87it/s]


In [6]:
sorted(freqs.items(), key=lambda x:x[1], reverse=True)

[('регистрация', 3),
 ('опыт', 2),
 ('желание', 2),
 ('мнение', 2),
 ('неосторожность', 2),
 ('подруга', 2),
 ('порнуха', 2),
 ('такт', 2),
 ('сто', 2),
 ('человек', 1),
 ('свойство', 1),
 ('право', 1),
 ('н', 1),
 ('ребёнок', 1),
 ('нога', 1),
 ('отвращение', 1),
 ('кожа', 1),
 ('запах', 1),
 ('отношение', 1),
 ('муж', 1),
 ('россия', 1),
 ('вид', 1),
 ('дом', 1),
 ('смысл', 1),
 ('форма', 1),
 ('рот', 1),
 ('диплом', 1),
 ('содомит', 1),
 ('связь', 1),
 ('власть', 1),
 ('вил', 1),
 ('квартира', 1),
 ('автор', 1),
 ('любовница', 1),
 ('зависимость', 1),
 ('мозг', 1),
 ('значение', 1),
 ('место', 1),
 ('дело', 1),
 ('женщина', 1),
 ('олиго', 1),
 ('голова', 1),
 ('несчастие', 1),
 ('качество', 1),
 ('челюсть', 1),
 ('последствие', 1),
 ('тело', 1),
 ('возможность', 1),
 ('жизнь', 1),
 ('влияние', 1),
 ('свадьба', 1),
 ('гарантия', 1),
 ('выбор', 1),
 ('вс', 1),
 ('условие', 1),
 ('папик', 1),
 ('мужчина', 1),
 ('родитель', 1),
 ('год', 1),
 ('айфон', 1),
 ('реальность', 1),
 ('мама', 1