In [None]:
import json
import re
from pprint import pprint

import numpy as np
import pandas as pd
from IPython.core.display import HTML, display
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.compose import ColumnTransformer
from sklearn.dummy import DummyClassifier
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline


# Как присоединиться к соревнованию

![image-2.png](attachment:image-2.png)

# Загрузка и предобработка данных

Для работы с файлами в формате `csv` будем использовать пакет [`pandas`](https://pandas.pydata.org/). `pandas` - надстройка над библиотекой `numpy`, обеспечивающая удобную инфраструкутуру для обработки панельных данных.


In [None]:
train = pd.read_csv("./data/competition/train.csv", index_col="index")
print(f"Размер: {train.shape=}\n")
print("Типы столбцов: ")
display(train.dtypes)
print("Фрагмент данных: ")
display(train.head())

Вам будут предоставлены 30 тыс. вакансий для обучения модели - но только для 15 тыс. из них снабжены метками класса. Как использовать оставшиеся 15 тыс. примеров - решает каждая команда индивидуально. Для демонстрации просто выбросим их.

In [None]:
train = train.query("target != -1")
print(f"{train.shape=}")
display(train.head())

Описания вакансий представлены в виде HTML-верстки.

In [None]:
display(HTML(train.at[169939030, "description"]))

In [None]:
train.at[169939030, "description"]

Для вашего удобства произведена первичная преобработка текстового описания, из которого были выделены логические блоки: "обязанности", "требования" и т.д. Предобработанные описания хранятся в формате `JSON`. Загрузим один из файлов и посмотрим, как выглядят эти данные.

In [None]:
with open(
    "./data/competition/vacancy_descriptions/2_parsed.json", "r", encoding="utf8"
) as fp:
    descriptions = json.load(fp)

In [None]:
pizza_description = [
    description for description in descriptions if description["ID"] == 169939030
][0]

In [None]:
pprint(pizza_description)

Для демонстрации возьмем для каждой вакансии один элемент из списка обязанностей.

In [None]:
responsibilities = pd.Series({
    description["ID"]: r[0]
    if (r := description["Content"].get("Обязанности")) is not None
    else None
    for description in descriptions
}, name="responsibilities")
responsibilities.head(3)


Добавим еще один столбец в таблицу с обучающей выборкой.

In [None]:
train["responsibilities"] = responsibilities
display(train.head(3))
display(train.info())

Объединим два столбца: `name` и `responsibilities`. Строки, в которых в столбце `responsibilities` содержатся пропуски, заполним при помощи метода `fillna`. Приведем полученный столбец к нижнему регистру.

In [None]:
train["full_description"] = (
    train["name"] + " " + train["responsibilities"].fillna("")
).map(str.lower)
display(train.head(3))

Текстовые данные часто содержат много лишней информации, которая мешает модели обучаться. Почистим данные: для демонстрации уберем знаки препинания из текста. Для этого воспользуемся механизмом регулярных выражений.

Регулярные выражения (regular expressions, regexp) — формальный язык, используемый в программах, работающих с текстом, для поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании шаблонов, содержащих метасимволы (символы-джокеры, англ. wildcard characters).


In [None]:
patt = re.compile("[^\w\s]")
train.loc[:, "full_description"] = train["full_description"].str.replace(
    patt, " ", regex=True
)
display(train.head(3))

Для работы с большинством моделей машинного обучения текстовые данные сначала нужно каким-то образом привести к числовому виду. Для демонстрации воспользуемся реализацией алгоритма `TF-IDF` из пакета `sklearn`.

In [None]:
X_train_raw, y_train = train["full_description"], train["target"]
vectorizer = TfidfVectorizer(max_features=128)
X_train = vectorizer.fit_transform(X_train_raw)

In [None]:
X_train

In [None]:
X_train.toarray()

# Создание и обучение модели

В первой части блокнота мы выполнили следующие шаги:
1. Загрузили данные о вакансиях и их описаниях;
2. Добавили столбец `full_description`, удалили знаки препинания в этом столбце и привели значения к нижнему регистру;
3. Закодировали столбец `full_description` при помощи алгоритма `TF-IDF`.

Реализуем 2 шаг в виде трансформера `sklearn` для дальнейшего удобного использования. 

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin


class FullDescriptionCreator(BaseEstimator, TransformerMixin):
    patt = re.compile("[^\s\w]")

    def __init__(self, responsibilities):
        self.responsibilities = responsibilities

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        X = X.copy()
        X["responsibilities"] = self.responsibilities
        X["full_description"] = (
            X["name"] + " " + X["responsibilities"].fillna("")
        ).map(str.lower)
        X.loc[:, "full_description"] = X["full_description"].str.replace(
            self.patt, " ", regex=True
        )
        return X

Теперь можем организовать все наши действия по препроцессингу и создания модели в конвейер для последующего удобного использования. Для этого создадим объект `sklearn.pipeline.Pipeline`. Последним элементом конвейера добавим классификатор `DummyClassifier`.

In [None]:
train = pd.read_csv("./data/competition/train.csv", index_col="index")
train = train.query("target != -1")

with open(
    "./data/competition/vacancy_descriptions/2_parsed.json", "r", encoding="utf8"
) as fp:
    descriptions = json.load(fp)

responsibilities = pd.Series(
    {
        description["ID"]: r[0]
        if (r := description["Content"].get("Обязанности")) is not None
        else None
        for description in descriptions
    },
    name="responsibilities",
)

X_train, y_train = train.drop(columns=["target"]), train["target"]

In [None]:
y_train

In [None]:
clf_pipeline = Pipeline(
    [
        ("add_full_description", FullDescriptionCreator(responsibilities)),
        (
            "tfidf",
            ColumnTransformer(
                [("vectorize", TfidfVectorizer(max_features=128), "full_description")]
            ),
        ),
        ("clf", DummyClassifier(strategy="most_frequent")),
    ]
)

Обучаем модель, получаем значение `accuracy` на обучающем множестве.

In [None]:
clf_pipeline = clf_pipeline.fit(X_train, y_train)
clf_pipeline.score(X_train, y_train)

## Прогнозирование

Мы можем получить прогнозы при помощи обученной модели. Обратите внимание, что все шаги по предобработки данных содержатся в вызове метода `transform` на шагах `add_full_description` и `tfidf` конвейера, поэтому их нам явно повторять не надо. Кроме этого, обратите внимание, что мы используем версии `TfidfVectorizer` и `DummyClassifier`, настроенных на обучающей выборке.

In [None]:
X_test = pd.read_csv("./data/competition/test.csv")
y_pred = clf_pipeline.predict(X_test)

In [None]:
y_pred

In [None]:
submission = X_test[["index"]].assign(target=y_pred)
display(submission.head(4))
submission.to_csv("demo_submission.csv", index=False)

In [None]:
submission.shape

![image-2.png](attachment:image-2.png)

In [1]:
pip install kaggle --upgrade

Collecting kaggle
  Downloading kaggle-1.5.12.tar.gz (58 kB)
     ---------------------------------------- 59.0/59.0 kB 1.0 MB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting python-slugify
  Downloading python_slugify-7.0.0-py2.py3-none-any.whl (9.4 kB)
Collecting text-unidecode>=1.3
  Downloading text_unidecode-1.3-py2.py3-none-any.whl (78 kB)
     ---------------------------------------- 78.2/78.2 kB 2.1 MB/s eta 0:00:00
Building wheels for collected packages: kaggle
  Building wheel for kaggle (setup.py): started
  Building wheel for kaggle (setup.py): finished with status 'done'
  Created wheel for kaggle: filename=kaggle-1.5.12-py3-none-any.whl size=73031 sha256=d2c3559f3c9f6c4dba0bbc0c031b7114655bfdcb615ca2c3879f09cd2351b84b
  Stored in directory: c:\users\вячеслав\appdata\local\pip\cache\wheels\29\da\11\144cc25aebdaeb4931b231e25fd34b394e6a5725cbb2f50106
Successfully built kaggle
Installing collected 