In [131]:
import requests
import pymongo
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
from string import punctuation
from natasha import NamesExtractor
from collections import Counter

In [87]:
client = pymongo.MongoClient('mongodb+srv://vera:20003000@cluster0-klabd.mongodb.net/test?retryWrites=true')

In [88]:
db = client['postnauka_ling']

In [89]:
authors = db.authors
articles = db.articles
lemmas = db.lemmas
tokens = db.tokens
tokens_list = db.tokens_list
names = db.names

In [154]:
authors.create_index([('name', pymongo.ASCENDING), ('affiliation', pymongo.ASCENDING), ('articles', pymongo.ASCENDING)], unique=True)
articles.create_index([('title', pymongo.ASCENDING), ('lemmas', pymongo.ASCENDING), ('text', pymongo.TEXT), ('tokens', pymongo.ASCENDING)], unique=True)
lemmas.create_index([('iniForm', pymongo.ASCENDING)])
tokens.create_index([('iniForm', pymongo.ASCENDING)])






'iniForm_1'

In [155]:
article_ids = []
ling_page_urls = ['https://postnauka.ru/api/v1/posts?page={0}&term=language'.format(n) for n in range(1, 21)]
for page_url in ling_page_urls:
    posts = requests.get(page_url).json()
    page_article_ids = [ post['id'] for post in posts if post['type'] != 'adv']
    article_ids.extend(page_article_ids)

In [141]:
def extract_surnames(text):
    surnames = []
    extractor = NamesExtractor()
    matches = extractor(text)
    for match in matches:
        if (match.fact.last):
            surnames.append(match.fact.last)
        
    return Counter(surnames)

# res = extract_surnames('Между тем попытки работы над универсальным семантическим описанием лексики продолжаются. Этим, например, занимается Анна Вежбицкая, которая в 1960-х годах в Варшаве была аспиранткой известного у нас польского семанта Анджея Богуславского. Тогда московская семантическая школа была очень близка к польской. Анна Вежбицкая, продолжая идеи Богуславского, предложила в своей диссертации идею семантических примитивов. Ее суть в том, что существует несколько десятков важнейших понятий, которые имеют словесное выражение во всех языках мира. Это так называемые примитивы, список которых состоит из нескольких десятков единиц. Согласно идеям Анны Вежбицкой, которая привлекала для своих исследований не только польский, английский и русский, но и другие европейские языки, а также данные австралийских языков, языков Южной Азии и другие, в него входят: «я», «хотеть», «хороший», «весь», «представлять себе», «нечто», «знать», «если», «из-за», «люди» и другие. Количество примитивов менялось на разных этапах развития ее теории, но незначительно. Они основа метаязыка Вежбицкой. Из этих примитивов составляются универсальные толкования, которые не всегда легко с ходу понять. Вот, например, как неожиданно выглядит у Анны Вежбицкой толкование такого сложного и культурно-специфичного понятия, как русское слово «пошлость»:')

In [156]:
morph = MorphAnalyzer()
punct = punctuation+'«»—…“”*№–'
stops = set(stopwords.words('russian'))

def normalize(text):
    
    words = [word.strip(punct) for word in text.lower().split()]
    words = [morph.parse(word)[0].normal_form for word in words if word]
    words = [{"iniForm": morph.parse(word)[0].normal_form, "POS": morph.parse(word)[0].tag.POS} for word in words if word]
    return words

def tokenize(text):
    
    words = [word.strip(punct) for word in text.lower().split() if word and word not in stops]
    words = [word for word in words if word]

    return words



def parse_html(html_text):
    
    soup = BeautifulSoup(html_text, 'lxml')
    article_text = soup.getText()
    article_tokens = tokenize(article_text)
    article_normalized_words = normalize(article_text)
    surnames = extract_surnames(article_text)
    
    return {
        'article_text': article_text,
        'article_tokens': article_tokens,
        'article_normalized_words': article_normalized_words,
        'article_surnames': surnames
    }

In [157]:
article_urls = ['https://postnauka.ru/api/v1/posts/{0}?expand=content'.format(article_id) for article_id in article_ids]

for article_url in article_urls:
    response = requests.get(article_url).json()
    
    article_info = parse_html(response['content'])
    tokens_ids = []
    lemmas_ids = []
    
    for token in article_info['article_tokens']:
        token_id = tokens.insert_one({
            'iniForm': token
        }).inserted_id
        
        tokens_ids.append(token_id)
    
    tokens_list_id = tokens_list.insert_one({
        'tokens': tokens_ids
    }).inserted_id
        
        
    for lemma in article_info['article_normalized_words']:
        lemma_id = lemmas.insert_one({
            'iniForm': lemma
        }).inserted_id
        
        lemmas_ids.append(lemma_id)
    
    article_id = articles.insert_one({ 
        'title': response['title'],
        'text': article_info['article_text'],
        'tokens': tokens_list_id,
        'lemmas': lemmas_ids,
        'surnames': article_info['article_surnames']
    }).inserted_id
    
    article_author = response['authors'][0]
    
    if not article_author:
        continue

    author_name = article_author['author_name']
    author_affiliations =  article_author['author_description']
    
    authors_in_base = authors.find({ 'name': author_name })

    if authors_in_base.count() == 0:
        authors.insert_one({ 'name': author_name, 'affiliations': author_affiliations, 'articles': [article_id] })
    else:
        author_id=authors_in_base[0]["_id"]
        authors.find_one_and_update({ '_id': author_id }, {"$addToSet": {"articles": article_id}})
    
print('END')



KeyboardInterrupt: 

In [174]:
surnames = []
for surname in articles.find({'surnames':{"$exists":True}}):
    surnames.append(surname)
    
print(len(surnames))


25
