In [1]:
import pandas as pd
import re
import pymorphy2
import math
import pdb
import pickle
from wiki_ru_wordnet import WikiWordnet
wikiwordnet = WikiWordnet()
morph = pymorphy2.MorphAnalyzer()

In [17]:
class CategoryPredictor:
    def __init__(self, label='Название', category_columns=['Номинация / Задача', 'категория', 'Иновация'], df=None):
        self.category_columns=category_columns
        self.curent_category = category_columns[0]
        self.label = label
        self.word_clouds = {}
        if type(df) == type(pd.DataFrame()):
            self.df = df

    def read_df(self):
        self.df = pd.read_excel('Датасет. Задача 1.xlsx')

    def calculate_distanses(self, word, cloud):
        scores = 0
        synset1 = wikiwordnet.get_synsets(word)
        if len(synset1) > 0:
            for s1 in synset1:
                for w in cloud:
                        synset2 = wikiwordnet.get_synsets(w)
                        if len(synset2) > 0:
                            for s2 in synset2:
                                common_hypernyms = wikiwordnet.get_common_hypernyms(s1, s2)
                                top_hip = sorted(common_hypernyms, key=lambda x: x[1] + x[2])
                                if len(top_hip) > 0:
                                    top_hip = top_hip[0]
                                    score = top_hip[1] + top_hip[2]
                                    if score != 0:
                                        scores += 1/score
        return scores

    def get_hypernyms(self, words):
        new_cloud = []
        for word in words: 
            lemmas = []
            synsets = wikiwordnet.get_synsets(word)
            for synset in synsets:
                for w in synset.get_words():
                    lemmas.append(w.lemma())
                    for hypernym in wikiwordnet.get_hypernyms(synset):
                        for h in hypernym.get_words():
                            lemmas.append(h.lemma())
                    for hyponym in wikiwordnet.get_hyponyms(synset):
                        for h in hyponym.get_words():
                            lemmas.append(h.lemma())
            lemmas = list(set(lemmas))
            new_cloud.extend(lemmas)
        return new_cloud

    def text_to_words(self, text):
        text = re.sub("[,|-|(|)|.|;|:|1|2|3|4|5|6|7|8|9|0|\n]","", text)
        text = text.replace('\\', ' ')
        text = text.replace('-', ' ')
        text = text.lower()
        words = text.split(' ')
        words = map(morph.normal_forms, words)
        words = list(map(lambda x: x[0], words))
        return words
    
    # create clouds for each category
    def create_clouds(self, category):
        df_c = self.df[self.df[self.curent_category] == category]
        claud = []
        df_c['words'].apply(lambda x: claud.extend(x))
        return claud

    def clear_clouds(self, row):
        category, cloud = row['category'], row['clouds']
        new_cloud = cloud.copy()
        for w in cloud:
            other_clouds = list(self.woc[self.woc['category'] != category]['clouds'])
            for orher_cloud in other_clouds:
                if w in orher_cloud:
                    new_cloud = list(filter(lambda x: x != w, new_cloud))
                    break
        return new_cloud


    def find_categoris(self,
                        text,
                        category=None,
                        K_cloud=0,
                        K_clear_cloud=3,
                        K_big_cloud=1,
                        K_dist=1,
                        K_top=3,
                        ):
        if category != None:
            self.woc = self.word_clouds[category]
        scores = {} # catedory: score
        words = self.text_to_words(text)
        categoris = list(pd.DataFrame(self.woc['category'].value_counts()).index)
        for c in categoris:
            score = 0
            cloud = list(self.woc[self.woc['category'] == c]['clouds'])[0]
            clear_cloud = list(self.woc[self.woc['category'] == c]['clear_clouds'])[0]
            big_cloud = list(self.woc[self.woc['category'] == c]['big_clouds'])[0]
            for w in words:
                if w in cloud:
                    num = cloud.count(w)
                    score += K_cloud * num / math.log(len(cloud))
                
                if w in big_cloud:
                    num = big_cloud.count(w)
                    score += K_clear_cloud * num / math.log(len(clear_cloud))
                
                if w in clear_cloud:
                    num = clear_cloud.count(w)
                    score += K_big_cloud * num / math.log(len(big_cloud))
                if self.Fast == False:
                    score += self.calculate_distanses(word=w, cloud=big_cloud) * K_dist / math.log(len(big_cloud))

            scores[c] = score
        if '-' in scores.keys():
            scores['-'] *= 10
        sorted_scores = dict(sorted(scores.items(),key=lambda item:item[1])[::-1][0:K_top])
        return sorted_scores
    
    def fit(self, category_column):
        self.curent_category = category_column
        self.df['words'] = self.df[self.label].apply(self.text_to_words)
        woc = pd.DataFrame({'category': pd.DataFrame(self.df[category_column].value_counts()).index})
        self.woc = woc
        woc['clouds'] = woc['category'].apply(self.create_clouds)
        woc['clear_clouds'] = woc.apply(self.clear_clouds, axis=1)
        woc['big_clouds'] = woc['clear_clouds'].apply(self.get_hypernyms)
        self.word_clouds[category_column] = woc

    def predict(self, labels, category, Fast=False): # labels is dataframe
        self.Fast = Fast
        self.woc = self.word_clouds[category]
        labels['predictions'] = labels[self.label].apply(self.find_categoris)
        return labels

    def fit_all(self):
        for category_column in self.category_columns:
            self.fit(category_column)


In [3]:
df_test = pd.read_excel('test_dataset.xlsx')

In [4]:
Predictor = CategoryPredictor(label='Название',
                              category_columns=['Номинация / Задача', 'категория', 'Иновация'])
Predictor.read_df()
Predictor.fit_all()
#Predictor.find_categoris('Платформа для содействия внедрению новых технологий', 'Номинация / Задача')
Predictor.predict(labels=df_test, category='Номинация / Задача')

Unnamed: 0,Название,predictions
0,Платформа для содействия внедрению новых техно...,{'Рекомендательный сервис для оценки эффективн...
1,Высокопрочные материалы на основе керамики,"{'Проект будущего': 0.9646226444083297, 'Open ..."
2,Сайт для повышения цыфровой грамотности среи п...,"{'Лидеры инноваций': 2.99833180666056, 'Open C..."
3,Система распознаваиния преступления на основе ...,{'Персонализированная рекомендательная система...
4,Платформа по контролю озеленения,{'Персонализированная рекомендательная система...
5,Интернет магазин по продаже игрушек,"{'Open Call': 4.653884223706472, 'Сервис прове..."
6,Разработка и производство полностью отечествен...,"{'Проект будущего': 2.3403000595559402, 'Open ..."


In [5]:
df.head(5)

NameError: name 'df' is not defined

In [23]:

test_part = 0.3

df = pd.read_excel('/Users/lebedevmatvey/Documents/Nlp_fastWin/„¥â «́­ ï ¢ë£àă§ª  ¯® ¨¤¥ï¬ (®¡­®¢«¥­® 08.08).xlsx',
 sheet_name=1)
df = df.head(1000)

df = df.drop(columns=['H1', 'H2', 'H3'])
df = df.dropna()
df = df.rename(columns={'Заголовок идеи': 'Название'})
df = df.sample(frac=1)

df_train = df.head(int(len(df) * (1 - test_part)))
df_test = df.tail(int(len(df) * test_part))

In [24]:
Predictor = CategoryPredictor(label='Содержание идеи',
                              category_columns=['Направление'], df=df_train)
Predictor.fit_all()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.df['words'] = self.df[self.label].apply(self.text_to_words)


In [25]:
Predictor.predict(labels=df_test, category='Направление', Fast=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  labels['predictions'] = labels[self.label].apply(self.find_categoris)


Unnamed: 0,Месяц публикации идеи,Направление,Название,Содержание идеи,Ссылка на идею,Дата публикации идеи,Рейтинг идеи,Тема идеи,Регион,predictions
135,Март,Национальная социальная инициатива,Центр превентивной медицины при больницах,Создание при каждой больнице центра превентивн...,http://ideas.roscongress.org/improject-16467/i...,15.03.2022,119.0,Как повысить удовлетворенность людей медициной...,Нижегородская область,{'Национальная социальная инициатива': 14267.0...
782,Март,Национальная социальная инициатива,Создание совместных социально-экономических мо...,Возможно создание частично регулируемых госуда...,http://ideas.roscongress.org/improject-16467/i...,24.03.2022,91.0,Как привлечь инвестиции в социальную сферу?,Ростовская область,{'Национальная социальная инициатива': 44272.3...
776,Март,Национальная социальная инициатива,"""Рука помощи""","Родитель, имеющий алкогольную зависимость, пол...",http://ideas.roscongress.org/improject-16467/i...,24.03.2022,108.0,Как повысить удовлетворенность людей медициной...,Московская область,{'Национальная социальная инициатива': 3025.91...
693,Март,Национальная социальная инициатива,Программа актуализации и развития потенциальны...,В проекте «Я готов!» участвуют дети из приемны...,http://ideas.roscongress.org/improject-16467/i...,23.03.2022,91.0,Как повысить удовлетворенность людей медициной...,Московская область,{'Национальная социальная инициатива': 54234.1...
335,Март,Национальная социальная инициатива,Внесение дополнения в Конституцию и принятие п...,Вводная часть\n\n\n\tВсе люди рождаются трезвы...,http://ideas.roscongress.org/improject-16467/i...,29.03.2022,293.0,Как приобщить людей к ведению здорового образа...,Ростовская область,{'Национальная социальная инициатива': 318599....
...,...,...,...,...,...,...,...,...,...,...
715,Март,Национальная социальная инициатива,Пенсионная реформа.,Вернуть пенсионный возраст к прежним параметрам.,http://ideas.roscongress.org/improject-16467/i...,23.03.2022,105.0,Как повысить удовлетворенность людей медициной...,Москва,{'Национальная социальная инициатива': 573.989...
132,Март,Национальная социальная инициатива,"Детская студия ""Колокольчик"". Коррекционно-раз...",Организация и проведение занятий для детей с и...,http://ideas.roscongress.org/improject-16467/i...,14.03.2022,115.0,Как создать в школе безопасную и доверительную...,Нижегородская область,{'Национальная социальная инициатива': 13700.5...
147,Март,Национальная социальная инициатива,"Фестиваль детского творчества и оздоровления ""...",Формирование у детей и подростков позитивного ...,http://ideas.roscongress.org/improject-16467/i...,15.03.2022,109.0,Как приобщить людей к ведению здорового образа...,Нижегородская область,{'Национальная социальная инициатива': 22414.8...
11,Март,Национальная социальная инициатива,Юные Мушкетеры,"""Сохранение и укрепление здоровья детей–забота...",http://ideas.roscongress.org/improject-16467/i...,08.03.2022,272.0,Как приобщить людей к ведению здорового образа...,Не указан,{'Национальная социальная инициатива': 106220....
