In [1]:
import pandas as pd
df_vac_desc = pd.read_excel('./data/vac_info.xlsx')
df_vac_desc = df_vac_desc[['vacancy_id','vacancy_desc']]
df_vac_desc.head()

Unnamed: 0,vacancy_id,vacancy_desc
0,34553872,В команде ETL X5 Технологии открыта позиция DW...
1,35124478,"Accenture – глобальная компания, предоставляющ..."
2,37625294,Обязанности: Разработка моделей по направления...
3,38322265,«СберСпасибо»- крупнейшая банковская программа...
4,38432478,Обязанности: Обеспечение работоспособности фед...


In [8]:
from pymorphy2 import MorphAnalyzer
from stop_words import get_stop_words
from string import punctuation

exclude_punctuation = set(punctuation)
stop_words = set(get_stop_words("ru"))
stop_work_words = set(['работа','опыт','организация','контроль','специалист','and','the','to','банк','сотрудник','знание','обязанность','работоспособность','позиция','стажировка'
                       ,'компания','дать','of','команда','задача','sas','решение','развитие','система','in','with','for','корпоративный','проект','клиент','продукт','ржд','требование'
                      ,'работать','мтс','we','офис','крупный','преимущество','уровень','сбербанк','бизнес','возможность','новый', 'навык','выполнение','навык','профессиональный'
                       ,'понимание', 'дмс', 'проведение','рост','рабочий','рф', 'иэи','трудоустройство','федеральный','рынок','пфр','business','центр','оптовый','умение',
                      'высокий', 'плата', 'отвод', 'лесной','договор','желательный','обладать','or','our','оао', 'заработный', 'мероприятие', 'инфраструктура', 'уютный',
                       'обязательно', 'разрабатывать', 'плюс', 'желательно','is', 'any', 'you','сберспасибо', 'россия','российский','обучение','условие','скидка','департамент'
                       , 'программа', 'льготный', 'привилегия','являться', 'втб', 'компенсация', 'группа','млн','электронный', 'дом', 'сбор', 'помощь','команда','отдел',
                      'fis','образование','участие','сбер','апк','сложный','целевой'])
stop_words.update(stop_work_words)
morpher = MorphAnalyzer()

def preprocess_text(txt):
    txt = str(txt)
    txt = "".join(c for c in txt if c not in exclude_punctuation)
    txt = txt.lower()
    txt = [morpher.parse(word)[0].normal_form for word in txt.split() if word not in stop_words]
    return " ".join(txt)
for i in range(5):
    df_vac_desc['vacancy_desc'] = df_vac_desc['vacancy_desc'].apply(preprocess_text)
df_vac_desc

Unnamed: 0,vacancy_id,vacancy_desc
0,34553872,etl x5 технология открыть dwh разработчикнаш с...
1,35124478,accenture – глобальный предоставлять услуга об...
2,37625294,разработка модель направление модель модель пр...
3,38322265,«сберспасибо» банковский лояльность создать па...
4,38432478,обеспечение информационный ресурс подсистема а...
...,...,...
393,45156360,топ10 искать ведущий разработчик разработка за...
394,45158038,стратегический риск 2 ключевой функция – прогн...
395,45159054,анализ проработка заказчик разработка функцион...
396,45159449,tinkoffru искать sre инженер bi visual bi visu...


In [9]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
corpus = vect.fit_transform(df_vac_desc['vacancy_desc'])
corpus

<398x6991 sparse matrix of type '<class 'numpy.int64'>'
	with 45652 stored elements in Compressed Sparse Row format>

In [10]:
from sklearn.decomposition import LatentDirichletAllocation
model = LatentDirichletAllocation(n_components=20)
model.fit_transform(corpus)
names = vect.get_feature_names()
topics = dict()

for idx, topic in enumerate(model.components_):
        features = topic.argsort()[:-(6 - 1): -1]
        tokens = [names[i] for i in features]
        topics[idx] = tokens
topics

{0: ['кредитный', 'модель', 'риск', 'оценка'],
 1: ['отчётность', 'процесс', 'поддержка', 'страхование'],
 2: ['платформа', 'sql', 'процесс', 'страхование'],
 3: ['разработка', 'технический', 'sql', 'хранилище'],
 4: ['риск', 'кредитный', 'разработка', 'управление'],
 5: ['data', 'azure', 'sql', 'модель'],
 6: ['отчётность', 'анализ', 'направление', 'аналитик'],
 7: ['кампания', 'анализ', 'маркетинговый', 'результат'],
 8: ['платформа', 'linux', 'openstack', 'продажа'],
 9: ['администрирование', 'ms', 'инцидент', 'ревить'],
 10: ['разработка', 'data', 'область', 'разработчик'],
 11: ['разработка', 'oracle', 'хранилище', 'informatica'],
 12: ['информационный', 'внедрение', 'разработка', 'час'],
 13: ['анализ', 'банковский', 'отчётность', 'аналитический'],
 14: ['data', 'настройка', 'сервис', 'experience'],
 15: ['разработка', 'модель', 'риск', 'sql'],
 16: ['data', 'clinical', 'больший', 'анализ'],
 17: ['запас', 'планирование', 'пополнение', 'продажа'],
 18: ['анализ', 'клиентский', 'б

In [11]:
df_vac_desc['word_list'] = df_vac_desc['vacancy_desc'].apply(lambda x: x.split())

In [59]:
sentences = df_vac_desc['word_list']
topic_amount = {key: [] for key in range(20)}
for topic in range(20):
    for sentence in sentences:
        amount = 0
        for word in sentence:
            if word in topics[topic]:
                amount+=1
            else:
                continue
        topic_amount[topic].append(amount)
topic_df = pd.DataFrame.from_dict(topic_amount)
topic_df = topic_df.T
topic_df= topic_df.iloc[lambda x: x.index].apply(lambda x: x / x.sum())
topic_df = topic_df.T
topic_df['vacancy_id'] = df_vac_desc['vacancy_id']
topic_df = topic_df.set_index('vacancy_id')
res_topic = pd.DataFrame(topic_df.stack())
res_topic.reset_index( inplace=True)
res_topic = res_topic.rename(columns={'level_1': 'topic_id', 0: 'topic_percent'})
res_topic.to_excel('./data/vac_topic.xlsx')

In [62]:
topics_dict = pd.DataFrame.from_dict(topics)
topics_dict.T.to_excel('./data/topic_dict.xlsx')