In [62]:
import nltk
import pymorphy3
from string import punctuation

import pandas as pd
import numpy as np
import re

In [63]:
print(punctuation)

MORPH = pymorphy3.MorphAnalyzer()

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [64]:
def preprocess_text(text):
    text = text.lower()
    text = re.sub('\s\s+', ' ', text)
    
    return text

def extract_sentences(text):
    text = preprocess_text(text)

    sentences = []
    for s in nltk.sent_tokenize(text):
        wrds = []
        for wrd in nltk.word_tokenize(s):
            if wrd in punctuation:
                continue
            
            wrd = MORPH.parse(wrd)[0].normal_form
            wrds.append(wrd)
            
        clear_sentence = ' '.join(wrds)
        
        sentences.append(clear_sentence)
    
    return sentences

In [65]:
products = pd.read_csv('data/texts.csv')

In [66]:
products = products.fillna('')

In [67]:
full_link_df = pd.DataFrame(columns=['link', 'sentence_order', 'sentence_text'])

for link, text in zip(products['url'], products['text']):
    sentences = extract_sentences(text)
    sentence_count = len(sentences)
    
    link_df = pd.DataFrame({'link': np.repeat(link, sentence_count),
                            'sentence_order': np.arange(sentence_count),
                            'sentence_text': sentences})
    
    full_link_df = pd.concat([full_link_df, link_df], ignore_index=True)


In [68]:
full_link_df.head(50)

Unnamed: 0,link,sentence_order,sentence_text
0,https://em-russia.ru/shop/all/vozrozhdennoe-bu...,0,возродить будущее так хиго
1,https://em-russia.ru/shop/all/broshyura-prirod...,0,брошюра природный земледелие с эм
2,https://em-russia.ru/shop/all/em-bio-kontsentr...,0,эм био концентрат 1 восток эм 1 набор для само...
3,https://em-russia.ru/shop/all/em-bio-kontsentr...,1,концентрат эм-био ем·1 микробиологический удоб...
4,https://em-russia.ru/shop/all/em-bio-kontsentr...,2,срок годность 12 месяц с дата изготовление сос...
5,https://em-russia.ru/shop/all/em-bio-kontsentr...,3,состав концентрат вода питьевой патока комплек...
6,https://em-russia.ru/shop/all/em-bio-kontsentr...,4,в 1 см3 содержаться не менее 1 106 кой молочно...
7,https://em-russia.ru/shop/all/em-bio-kontsentr...,5,применение продукт применяться только после ак...
8,https://em-russia.ru/shop/all/em-5-bioregulyat...,0,эм 5 биорегулятор болезнь вредитель предназнач...
9,https://em-russia.ru/shop/all/em-5-bioregulyat...,1,состав вода питьевой патока сахар-песок спирт ...


In [69]:
full_link_df.iloc[31]

link              https://em-russia.ru/shop/all/ofem-udobrenie-e...
sentence_order                                                   14
sentence_text     хранить в сухой помещение без ограничение темп...
Name: 31, dtype: object

In [70]:
full_link_df.to_csv('data/link_products_sentences.csv', index=False)

## База знаний

In [74]:
from os import walk
import os

text_dir = 'data/page_texts'

In [75]:
pages_texts = {}

for dirpath, dirnames, filenames in walk(text_dir):
    if '.ipynb_checkpoints' in dirpath:
        continue
        
    for fn in filenames:
        if '.DS_Store' in fn:
            continue
            
        fp = f'{dirpath}/{fn}'
        with open(fp, 'r', encoding="utf-8") as f:
            pt = ' '.join(f.readlines())
        
        original_link = 'https://em-russia.ru/base/' + fp.split('/')[-1].replace('|', '/').replace('.txt', '') + '/'
        pages_texts[original_link] = pt

In [76]:
pages_texts

{'https://em-russia.ru/base/individualnye-mnogorazovye-em-maski-obrabotannye-em-preparatom-nadezhnaya-zashchita/': 'Индивидуальные многоразовые ЭМ-маски, обработанные ЭМ-препаратом - надежная защита Мы работаем для ВАС!Индивидуальные Защитные маски обработаны безопасным биологическим препаратом "ЭМ-Спрей", который разработан по японской технологии Effective Microorganisms .Препарат подавляет распространение патогенной и условно-патогенной микрофлоры, а также, благодаря pH менее 3,5 блокирует распространение вирусов. Маски произведены по нашему заказу компанией  Эвернит , являются многоразовыми.Рекомендуем ежедневно стирать маску и выдерживать 15 минут в растворе ЭМ-Спрей в концентрации 1:100 или несколько раз в день аэрозольной обрабатывать маску раствором  ЭМ-Спрей  в концентрации 1:100.Берегите себя! Оставайтесь дома! И не выходите без необходимости!Маски можно приобрести:1. В нашем Интернет-магазине2. В нашем магазине во Владивостоке по адресу: ул. Мордовцева, 8Д3  в Антивирусной за

In [77]:
full_link_df = pd.DataFrame(columns=['link', 'sentence_order', 'sentence_text'])

for link, text in pages_texts.items():
    sentences = extract_sentences(text)
    
    link_df = pd.DataFrame({
        'link': [link] * len(sentences),
        'sentence_order': np.arange(len(sentences)),
        'sentence_text': sentences
    })
    
    full_link_df = pd.concat([full_link_df, link_df], ignore_index=True)

In [79]:
full_link_df.to_csv('data/link_page_sentences.csv', index=False)