In [4]:
import pandas as pd
from bs4 import BeautifulSoup
import pymorphy2
import re
import numpy as np

In [None]:
train_data = pd.read_csv('data/train.csv', sep='\t', index_col='id')

## Описание полей
 * __id__ &mdash; внутренний идетификатор
 * __name__ &mdash; название вакансии
 * __description__ &mdash; текст вакансии
 * __target__ &mdash; класс заинтересованности

In [None]:
train_data.head()

In [None]:
posConv={'ADJF':'_ADJ','NOUN':'_NOUN','VERB':'_VERB', 'PRTF': '_PRT', 'GRND': '_GRND'}

def getVacancyVector(text, needPos=None):
    text = BeautifulSoup(text, 'lxml').get_text()
    
    words=[a[0] for a in re.findall("([А-ЯЁа-яё]+(-[А-ЯЁа-яё]+)*)", text)]
    reswords=[]

    for w in words:
        wordform=morph.parse(w)[0]
        if wordform.tag.POS in ['ADJF', 'NOUN', 'VERB', 'PRTF', 'GRND']:
            if needPos!=None:
                reswords.append(wordform.normal_form+posConv[wordform.tag.POS])
            else:
                reswords.append(wordform.normal_form)
            
    return reswords  


In [None]:
morph=pymorphy2.MorphAnalyzer() 

Для начала обработаем все записи и сохраним обработанную таблицу, что бы в будущем обращатся к размеченным данным.

In [None]:
%%time

train_data.description = train_data.apply(lambda row: getVacancyVector(row['description'], True), axis=1)
train_data.name = train_data.apply(lambda row: getVacancyVector(row['name'], True), axis=1)

In [None]:
train_data.to_csv('data/train_processed.csv', '\t')

In [None]:
train_data.head()

In [None]:
test_data = pd.read_csv('data/test.csv', sep='\t', index_col='id')

In [None]:
test_data.head()

In [None]:
%%time

test_data.description = test_data.apply(lambda row: getVacancyVector(row['description'], True), axis=1)
test_data.name = test_data.apply(lambda row: getVacancyVector(row['name'], True), axis=1)

In [None]:
test_data.to_csv('data/test_processed.csv', '\t')

## Начинаем непосредственно обучение

In [32]:
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

### CountVectorizer + TF_IDF + LogisticClassifier без лемматизации

In [33]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

In [5]:
train = pd.read_csv('data/train.csv', sep='\t', index_col='id')
test = pd.read_csv('data/test.csv', sep='\t', index_col='id')

In [35]:
train.head()

Unnamed: 0_level_0,name,description,target
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Заведующий отделом/секцией в магазин YORK (Уру...,<p><strong>В НОВЫЙ МАГАЗИН YORK (хозтовары) пр...,1
1,Наладчик станков и манипуляторов с ПУ,Обязанности:работа на токарных станках с ЧПУ T...,0
2,Разработчик С++ (Криптограф),<strong>Требования:</strong> <ul> <li>Опыт про...,0
3,Фрезеровщик,<p>Условия:</p> <ul> <li>На работу вахтовым ме...,0
4,Мерчендайзер/продавец-консультант,<p><strong>Компания Палладиум Стандарт - призн...,1


In [6]:
test_array = np.array(test['name']+' '+test['description'])

In [44]:
train_array = np.array(train['name']+' '+train['description'])
train_array.shape

(200000,)

In [31]:
texts = []
for t in np.hstack((test_array, train_array)):    
    texts.append(
        BeautifulSoup(t, 'lxml').text
    )

['Дизайнер-консультант мебели Обязанности:  Работа с клиентом в салоне,выезд на замер ,создание дизайн-проекта,расчеты,ведение документации,заключение договоров    Требования:  Опыт работы желателен,уверенный пользователь ПК,грамотная речь,желание учиться и развиваться    Условия:  Трудоустройство по ТК, обучение+стажировка,оклад+% от личных продаж,удобный график ', 'Продавец-консультант (ТЦ на Пушкина) Обязанности: ∙ консультирование покупателей по представленным брендам; ∙ поддержание высокого уровня обслуживания покупателей; ∙ поддержание должного уровня презентации брендов в торговом зале.   Требования: ∙ интерес к сфере моды; ∙ хорошие коммуникативные навыки, доброжелательность, активность, позитивность; ∙ опыт работы в продажах приветствуется, но не является обязательным.   Условия: ∙ работа в престижной компании с культовыми брендами одежды; ∙ оформление в соответствии с ТК РФ; ∙ сменный график работы; ∙ заработная плата включает в себя фиксированный оклад и премиальную часть   

In [37]:
y = train.iloc[:, -1].values

In [48]:
cv = CountVectorizer()

In [49]:
temp_matrix = cv.fit_transform(texts)

In [50]:
tfidf_transformer = TfidfTransformer(norm=None, smooth_idf=False)
matrix_tfidf = tfidf_transformer.fit_transform(temp_matrix)

In [51]:
matrix_tfidf

<370179x261076 sparse matrix of type '<class 'numpy.float64'>'
	with 40105384 stored elements in Compressed Sparse Row format>

In [52]:
classifier = LogisticRegression(random_state=123)

In [59]:
%%time 

classifier.fit(matrix_tfidf.toarray()[:train_array.shape[0]-1], y)

MemoryError: 

In [None]:
model = Pipeline (
    [
        ('cv', CountVectorizer()),
        ('tfidf', TfidfTransformer(norm=None, smooth_idf=False)),
    ]
)

In [None]:
from gensim.models.word2vec import Word2Vec # Собственно модель.
from gensim.models.word2vec import LineSentence # Выравнивание текста по предложениям.
from gensim.models import KeyedVectors # Семантические вектора.